0% ont trouvé ce document utile (0 vote)
68 vues177 pages

Processus Discrets

Transféré par

valentinclari2002
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
68 vues177 pages

Processus Discrets

Transféré par

valentinclari2002
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Processus aléatoires discrets

Conditionnement
Martingales
Chaı̂nes de Markov

M1 Mathématiques fondamentales

Jean-Christophe Breton
Université de Rennes
Septembre–Décembre 2022

version du 28 novembre 2023


Table des matières

Rappels iv
0.1 Rappels de théorie de la mesure . . . . . . . . . . . . . . . . . . . . . . . iv
0.2 Rappels probabilistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi

I Conditionnement 1
1 Conditionnement discret 2
1.1 Probabilité conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . 2
1.2 Espérance conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Lois conditionnelles discrètes . . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Espérance conditionnelle 12
2.1 Introduction et définition . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.2 Exemples d’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . 14
2.3 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . 17
2.4 Espérance conditionnelle dans le cas L2 . . . . . . . . . . . . . . . . . . . 25
2.5 Conditionnement gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.6 Lois conditionnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

II Martingales 37
3 Martingales et filtrations 38
3.1 Filtration et mesurabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.3 Martingales, sous-martingales et sur-martingales . . . . . . . . . . . . . . 44
3.4 Propriétés des martingales . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.5 Martingale arrêtée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.6 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

4 Convergences de martingales 57
4.1 Inégalités de martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.1.1 Inégalité maximale de Doob . . . . . . . . . . . . . . . . . . . . . 57
4.1.2 Inégalité de moments de Doob . . . . . . . . . . . . . . . . . . . . 59

i
Table des matières ii

4.1.3 Nombre de montées . . . . . . . . . . . . . . . . . . . . . . . . . . 61


4.2 Convergence presque sûre de martingales . . . . . . . . . . . . . . . . . . 65
4.3 Uniforme intégrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.4 Convergence L1 et martingales fermées . . . . . . . . . . . . . . . . . . . 70
4.5 Convergence Lp de martingales pour p > 1 . . . . . . . . . . . . . . . . . 74
4.6 Martingales carré-intégrables . . . . . . . . . . . . . . . . . . . . . . . . . 75
4.7 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

III Chaı̂nes de Markov 83


5 Dynamique markovienne 84
5.1 Probabilités de transition . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.2 Exemples de chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . . 89
5.3 Probabilités trajectorielles . . . . . . . . . . . . . . . . . . . . . . . . . . 92
5.4 Chaı̂ne de Markov canonique . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.5 Propriétés de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106

6 Récurrence et transience 112


6.1 États récurrents et transitoires . . . . . . . . . . . . . . . . . . . . . . . . 114
6.2 Ensembles clos et irréductibilité . . . . . . . . . . . . . . . . . . . . . . . 126
6.3 Classes de récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
6.4 Absorption dans les classes de récurrence . . . . . . . . . . . . . . . . . . 135

7 Invariance et équilibre 138


7.1 Mesures invariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138
7.2 Invariance et récurrence . . . . . . . . . . . . . . . . . . . . . . . . . . . 144
7.3 Périodicité et forte irréductibilité . . . . . . . . . . . . . . . . . . . . . . 153
7.4 Équilibre d’une chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . . . 155
7.5 Théorème ergodique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
Introduction

Les suites de variables aléatoires indépendantes sont étudiées dans les cours de pro-
babilités de niveau L3, comme par exemple [Bre-proba], avec comme résultats phares la
loi des grands nombres (LGN) et le théorème central limite (TCL). Dans ces notes, on
étudie des suites de variables qui ont une forme de dépendance : les martingales et les
chaı̂nes de Markov.
Pour cela, la notion de conditionnement est d’abord étudiée dans la partie I avec une
approche élémentaire (Chapitre 1) et une approche plus générale fondée sur la notion
d’espérance conditionnelle (Chapitre 2).
Dans la partie II, on introduit les martingales dans le Chapitre 3 et on en étudie le
comportement asymptotique dans le Chapitre 4.
Les chaı̂nes de Markov sont l’objet de la partie III. Dans le chapitre 5, on définit
les chaı̂nes de Markov, et on présente la propriété de Markov. La classification des états
d’une chaı̂ne de Markov est détaillée en Chapitre 6 et le régime invariant est étudié en
Chapitre 7.
Ces notes ont de nombreuses sources d’inspiration, parmi lesquelles des notes de
cours de Jürgen Angst et d’autres de Mihai Gradinaru. Des références à la fois pour
les martingales et les chaı̂nes de Markov sont : [BL, Bei, BEL, BC, FF, Kal, Ouv].
Des références pour les martingales sont : [JP, Wil]. Des références pour les chaı̂nes de
Markov sont : [Gra, HPS, Nor, Pri].

iii
Rappels

Dans ce chapitre, on rappelle quelques résultats de théorie de la mesure (Section 0.1)


et de probabilités (Section 0.2).
Les résultats sont cités ici sans preuve. On renvoie à tout cours de niveau Licence
de Mathématiques pour une présentation plus détaillée, par exemple [BP] ou [Bre-Leb]
pour la théorie de la mesure et [Ouv] ou [Bre-proba] pour les probabilités.
Dans toute la suite, (X, A, µ) désigne un espace mesuré et (Ω, F, P) un espace de
probabilité.

0.1 Rappels de théorie de la mesure


Classe monotone
Dans cette section, on rappelle l’argument standard de classe monotone.

Définition 0.1 (Classe monotone ou λ-système) Une famille M de parties de X est ap-
pelée classe monotone si
i) X ∈ M ;
ii) M est stable par différence propre : lorsque A, B ∈ M et B ⊂ A, alors A \ B ∈ M ;
iii) M
S est stable par réunion dénombrable croissante (Aj ∈ M, j ≥ 1, Aj ⊂ Aj+1 ⇒
j≥1 Aj ∈ M).
La classe monotone engendrée par une partie E est la plus petite classe monotone M(E)
contenant E.

Théorème 0.2 (des classes monotones) Soit E une famille de parties de X stable par
intersection finie (ie. E est un π-système). Alors M(E) = σ(E).

En pratique, on utilise le résultat sous la forme suivante :

Corollaire 0.3 (Classes monotones) Soit M une classe monotone contenant la famille
de parties E, stable par intersection finie (ie. E est un π-système). Alors σ(E) ⊂ M.

Démonstration : Par le Th. 0.2, on a σ(E) = M(E). Mais comme M est une classe
monotone contenant E on a aussi M(E) ⊂ M par définition de M(E). Finalement,

iv
©JCB – M1math – Université de Rennes 1 v

σ(E) ⊂ M. □

Une application fréquente du théorème des classes monotones est pour constuire des
mesures par extension comme suit :
Théorème 0.4 (Dynkin) Soit deux mesures finies µ1 et µ2 sur (X, A) de même poids
(µ1 (X) = µ2 (X) < +∞), qui coı̈ncident sur C ⊂ A, sous-famille stable par intersections
finies (π-système) et qui engendre A. Alors µ1 et µ2 sont égales sur A.
Une version analogue du Théorème 0.4 existe pour les mesures σ-finies. Cette version
assure par exemple l’unicité de la mesure de Lebesgue en utilisant le π-système C donné
par l’ensemble des intervalles de R et en observant que σ(C) = B(R).

Théorèmes de Fubini
On considère deux espaces mesurables (X, A) et (Y, B) et des mesures σ-finies µ sur
(X, A) et ν sur (Y, B). On rappelle que µ ⊗ ν (mesure produit) désigne l’unique mesure
sur X × Y (espace produit) muni de A ⊗ B = σ(A × B : A ∈ A, B ∈ B) (tribu produit)
qui étend la définition suivante :
(µ ⊗ ν)(A × B) = µ(A)ν(B), A ∈ A, B ∈ B.
Comme M = {A × B : A ∈ A, B ∈ B} est stable par intersection finie (π-système), le
théorème de Dynkin (Th. 0.4), version σ-finie, assure l’unicité de la mesure µ ⊗ ν sur la
tribu produit A ⊗ B (pour l’existence, il y a plus de travail).
Théorème 0.5 (Fubini-Tonelli et Fubini) Si f est (A⊗B)-mesurable et positive (Fubini-
Tonelli) ou (µ ⊗ ν)-intégrable (Fubini) alors
Z Z Z  Z Z 
f (x, y) (µ⊗ν)(dx, dy) = f (x, y) ν(dy) µ(dx) = f (x, y) µ(dx) ν(dy).
X×Y X Y Y X
(F)

Théorème de Radon-Nikodym
On considère maintenant deux mesures µ, ν sur le même espace mesurable (X, A).
On rappelle que ν est absolument continue par rapport µ (ν ≪ µ) lorsque µ(A) = 0
entraı̂ne ν(A) = 0.
Théorème 0.6 (Radon-Nikodym) Si ν ≪ µ alors il existe une fonction mesurable f =


appelée dérivée de Radon-Nikodym telle que
Z
ν(A) = f dµ, A ∈ A. (RN1)
A

De plus, si g est une fonction mesurable positive ou dans L1 (X, A, ν)


Z Z
g dν = gf dµ. (RN2)
©JCB – M1math – Université de Rennes 1 vi

0.2 Rappels probabilistes


 : (Ω, F) → (R, B(R)), la tribu engen-
On rappelle que pour une variable aléatoire X
drée par X est σ(X) = σ X −1 (B) : B ∈ B(R) . On rappelle aussi le résultat suivant
fort utile :
Théorème 0.7 (Doob-Dynkin) Une variable aléatoire Y est σ(X)-mesurable si et seule-
ment s’il existe h : (R, B(R)) → (R, B(R)) mesurable telle que Y = h(X).

Démonstration : ⇐ Le sens indirect est immédiat par composition d’applications me-


surables : si Y = h(X) alors
Y −1 (B) = X −1 (h−1 (B)) ∈ σ(X)
puisque h−1 (B) ∈ B(R) par mesurabilité de h.
⇒ Pour le sens direct, si Y = 1A est σ(X)-mesurable alors A ∈ σ(X) est de la forme
A = X −1 (B) avec B ∈ B(R)P et Y = 1X −1 (B) = 1B (X) est de la forme requise avec
h = 1B est mesurable. Si Y = ni=1 αi 1Ai est simplePn positive alors Ai ∈ σ(X) et d’après
−1
le cas
Pprécédent Ai = X (Bi ) et on a Y = i=1 αi 1Bi (X) de la forme requise avec
n
h = i=1 αi 1Bi . Si Y est σ(X)-mesurable positive alors Y = supn≥1 Yn avec (Yn )n≥1 suite
croissante de variables aléatoires simples positives. D’après le cas précédent, Yn = hn (X)
avec hn mesurable et alors Y = h(X) avec h = supn≥1 hn mesurable, en tant que sup des
fonctions hn mesurables. Enfin, si Y est σ(X)-mesurable de signe quelconque alors on
applique le cas précédent à Y + = max(Y, 0) et à Y − = max(−Y, 0) variables aléatoires
qui s’écrivent alors Y + = h1 (X) et Y − = h2 (X). On pose alors h(x) = h1 (x) − h2 (x) si
x ∈ S(X) (support de X) et h(x) = 0 sinon. La fonction h est mesurable car h1 , h2 le
sont et S(X) ∈ B(R). Noter que comme on n’a pas simultanément Y + > 0 et Y − > 0
alors on a h1 (x) = h2 (x) = +∞ pour aucun x ∈ S(X) et h(x) est bien définie pour tout
x ∈ R. On a alors
Y = Y + − Y − = h1 (X) − h2 (X) = h(X),
avec h fonction mesurable. □

Indépendances
Définition 0.8 (Indépendances)
— Deux évènements A et B sont indépendants si P(A ∩ B) = P(A)P(B). On note
A⊥ ⊥ B.
— Deux tribus A et B sont indépendantes si pour tout A ∈ A et B ∈ B on a
P(A ∩ B) = P(A)P(B). On note alors A ⊥ ⊥ B.
— Deux variables aléatoires X, Y sont indépendantes si les tribus qu’elles engendrent
le sont : σ(X) ⊥
⊥ σ(Y ).
— On dit que des variables aléatoires Xi , i ∈ I, sont mutuellement indépendantes si
pour tout k ≥ 1 et i1 , . . . , ik distincts dans I, Bi1 , . . . , Bik ∈ B(R) :

P Xi1 ∈ Bi1 , . . . , Xik ∈ Bik = P(Xi1 ∈ Bi1 ) . . . P(Xik ∈ Bik ).
©JCB – M1math – Université de Rennes 1 vii

— On dit que des variables aléatoires Xi , i ∈ I, sont deux à deux indépendantes


lorsque pour tout couple d’indice i, j distincts dans I, on a Xi ⊥
⊥ Xj .

L’indépendance mutuelle implique l’indépendance deux à deux mais la réciproque est


fausse comme le montre l’exemple suivant : on considère une urne avec 4 boules, une
bleue, une blanche, une rouge et une tricolore et on fait des tirages successifs avec remise.
On note alors
— A : on tire une boule avec du bleue ;
— B : on tire une boule avec du blanche ;
— C : on tire une boule avec du rouge.
On observe aisément que P(A) = P(B) = P(C) = 1/2, P(A ∩ B) = P(A ∩ C) =
P(B ∩ C) = 1/4 et P(A ∩ B ∩ C) = 1/4 si bien que les évènements A, B, C sont deux
à deux indépendants mais pas mutuellement indépendants. De même pour les variables
aléatoires 1A , 1B , 1C .

Variables et vecteurs gaussiens


Définition 0.9 (Variable aléatoire gaussienne (normale)) Une variable aléatoire réelle
X suit la loi normale standard N (0, 1) si elle admet pour densité
1
x 7→ √ exp(−x2 /2).

De façon générale, si m ∈ R et σ 2 > 0, une variable aléatoire réelle X suit la loi normale
N (m, σ 2 ) si elle admet pour densité

(x − m)2
 
1
x 7→ √ exp − .
2πσ 2 2σ 2

Si σ 2 = 0, la loi est dégénérée et la variable aléatoire X est constante égale à m. Sa loi


est un Dirac en m : PX = δm .
R +∞ 2 √
On rappelle que −∞ e−x /2 dx = 2π justifie la normalisation de la loi N (0, 1). Par
ailleurs, rappelons qu’une variable aléatoire X ∼ N (m, σ 2 ) peut se voir comme la trans-
latée et dilatée d’une variable aléatoire X0 de loi normale standard N (0, 1) par

X = m + σX0 .

Autrement dit si X ∼ N (m, σ 2 ), σ 2 > 0, on définit la variable centrée réduite X


e =
(X − m)/σ, de loi N (0, 1). Rappelons également qu’une variable aléatoire X de loi
N (m, σ 2 ) a pour
— espérance : E[X] = m ;
— variance : Var(X) = σ 2 ; 
— fonction caractéristique : φX (t) = E[eitX ] = exp imt − σ 2 t2 /2 .
©JCB – M1math – Université de Rennes 1 viii

Proposition 0.10 Soit X1 ∼ N (m1 , σ12 ) et X2 ∼ N (m2 , σ22 ) indépendantes. Alors X1 +


X2 ∼ N (m1 + m2 , σ12 + σ22 ).

Dans la suite, pour simplifier la présentation, on note sous la forme de transposée de


vecteurs lignes les vecteurs colonnes : X = (X1 , . . . , Xd )t . On considère le produitPd scalaire
t t d t
euclidien : pour x = (x1 , . . . , xd ) , y = (y1 , . . . , yd ) ∈ R , on a ⟨x, y⟩ = x y = i=1 xi yi .
On décrit maintenant la version multidimensionnelle des variables normales.

Définition 0.11 (Vecteur gaussien) Un vecteur aléatoire X = (X1 , . . . , Xd )t est gaussien


si et seulement si toutes les combinaisons linéaires de ses coordonnées ⟨a, X⟩ = a1 X1 +
· · · + ad Xd suit une loi gaussienne dans R (pour tout a = (a1 , . . . , ad )t ∈ Rd ).

Pour un vecteur gaussien X = (X1 , . . . , Xd )t , tous les moments sont définis et on appelle
t
— espérance de X le vecteur E[X] = E[X1 ], . . . , E[Xd ] ;
— matrice de covariance de X la matrice carrée symétrique, positive

K = Cov(Xi , Xj ) 1≤i,j≤d .

On observe facilement que la loi de X est caractérisée par m et K et on note X ∼


N (m, K) sa loi. Si E[X] = 0, le vecteur X est dit centré.

Proposition 0.12 Soit X ∼ Nd (m, K) un vecteur gaussien de dimension d et A ∈


Mp,d (R) alors AX ∼ Np (Am, AKAt ).

Proposition 0.13 (Vecteurs gaussiens et indépendance)


(1) Soit (X, Y ) un couple gaussien. Alors X et Y sont indépendantes si et seulement si
Cov(X, Y ) = 0.
(2) Soit (X1 , . . . , Xd1 , Y1 , . . . , Yd2 )t un vecteur gaussien de dimension d1 + d2 . Les deux
vecteurs aléatoires gaussiens X = (X1 , . . . , Xd1 )t et Y = (Y1 , . . . , Yd2 )t sont indépen-
dants si et seulement si les covariances Cov(Xi , Yj ), 1 ≤ i ≤ d1 , 1 ≤ j ≤ d2 , sont
toutes nulles.
Première partie

Conditionnement

1
Chapitre 1

Conditionnement discret

La notion de conditionnement est essentielle dans la suite du cours pour définir les
martingales (Chapitre 3) et les chaı̂nes de Markov (Chapitre 5). On introduit cette notion
dans ce chapitre dans un cadre élémentaire discret. L’approche plus générale sera l’objet
du Chapitre 2. On considère un espace de probabilité (Ω, F, P).

1.1 Probabilité conditionnelle discrète


Probabilité sachant un évènement
On commence par le cas très simple du conditionnement par un évènement 1 non
négligeable :
Définition 1.1 (Probabilité conditionnelle) Soit B un évènement de probabilité non nulle
P(B) ̸= 0. Pour tout évènement A, on définit la probabilité conditionnelle de A sachant
B par
P(A ∩ B)
P(A|B) = . (1.1)
P(B)
L’intérêt de cette notion vient du fait que souvent, compte tenu des informations dis-
ponibles dans un modéle probabiliste, il peut être plus facile d’attribuer une valeur à
la probabilité conditionnelle P(A|B) que de calculer P(A ∩ B) ou P(A). Si A ⊥ ⊥ B,
évidemment, on a P(A|B) = P(A), ie. le conditionnement par B est sans effet.
En fait, la probabilité conditionnelle est une probabilité :
Proposition 1.2 Soit B ∈ F avec P(B) > 0. La fonction d’ensemble P(∗|B) : A ∈ F 7→
P(A|B) est une nouvelle probabilité sur (Ω, F).
Démonstration : Il est clair que P(A|B) ≥ 0, P(∅|B) = 0. La σ-additivité découle de
celle de P : soit (Ai )i≥1 une suite d’évènements deux à deux disjoints, on a
 S   S 
+∞ +∞
i=1 Ai ∩ B i=1 (Ai ∩ B)
[+∞  P P
P Ai B = =
i=1
P(B) P(B)

1. sic

2
Chapitre 1. ©JCB – M1math – Université de Rennes 3

+∞  +∞
X P Ai ∩ B X
= = P(Ai |B).
i=1
P(B) i=1

Il en résulte que P(∗|B) est bien une mesure. Il s’agit d’une probabilité puisque P(Ω|B) =
P(Ω ∩ B)/P(B) = P(B)/P(B) = 1. □

Propriétés des probabilités sachant des évènements


La Prop.1.2 assure que l’on dispose pour les probabilités conditionnelles de toutes
les propriétés habituelles d’une probabilité. En plus, on a les propriétés spécifiques sui-
vantes :

Proposition 1.3 (Règle des conditionnements successifs) Soit n évènements A1 , . . . , An


tels que P(A1 ∩ A2 ∩ · · · ∩ An−1 ) ̸= 0. Alors

P(A1 ∩ A2 ∩ · · · ∩ An )
= P(A1 ) P(A2 |A1 ) P(A3 |A1 ∩ A2 ) × · · · × P(An |A1 ∩ A2 ∩ · · · ∩ An−1 ). (1.2)

Démonstration : Il suffit d’utiliser la définition (1.1) pour chaque probabilité condition-


nelle et de simplifier. □

Enchaı̂ner des conditionnements est équivalent à conditionner par l’intersection :

Proposition 1.4 (Conditionnement en cascade) Étant donné des évènements A, B, C avec


P(B ∩ C) > 0, en notant PC = P(·|C), on a PC (A|B) = P(A|B ∩ C).

Démonstration :
PC (A ∩ B) P(A ∩ B|C) P(A ∩ B ∩ C) P(C)
PC (A|B) = = =
PC (B) P(B|C) P(C) P(B ∩ C)
P(A ∩ (B ∩ C))
= = P(A|B ∩ C).
P(B ∩ C)

Dans la suite, on utilise I ⊂ N pour désigner un ensemble dénombrable. Celui-ci peut


être fini I = {1, . . . , n} ou infini I = N.

Définition 1.5 (Système complet) On appelle système complet d’évènements toute suite
dénombrable (Bi )i∈I d’évènements deux à deux disjoints et dont la somme des probabilités
vaut 1 : X
P(Bi ) = 1.
i∈I

Le système est dit fini si I est fini, infini si I est infini.


Chapitre 1. ©JCB – M1math – Université de Rennes 4

Proposition 1.6 (Formule des probabilités totales) Étant donné (Bi )i∈I un système com-
plet dénombrable de Ω avec P(Bi ) > 0 pour tout i ∈ I, pour tout A ∈ F on a
X
P(A) = P(A|Bi ) P(Bi ). (1.3)
i∈I
F
P Ω0 = i∈I Bi . Comme les Bi , i ∈ I, forment un système
Démonstration : Notons
complet, on a P(Ω0 ) = i∈I P(Bi ) = 1. Dès lors comme les (A ∩ Bi ), i ∈ I, sont disjoints
[  X X
P(A) = P(A ∩ Ω0 ) = P (A ∩ Bi ) = P(A ∩ Bi ) = P(A|Bi ) P(Bi ).
i∈I i∈I i∈I

Lorsque l’on sait calculer les probabilités conditionnelles P(A|Bi ) pour tout un système
de partition (Bi )i∈I , on peut chercher les probabilités conditionnelles avec les condition-
nements inverses P(Bi |A). Elles sont données par :

Proposition 1.7 (Formule de Bayes 2 ) Étant donné (Bi )i∈I un système complet de Ω
avec P(Bi ) > 0 pour tout i ∈ I, pour tout évènement A de probabilité non nulle, on a :
P(A|Bj ) P(Bj )
∀j ∈ I, P(Bj |A) = P . (1.4)
i∈I P(A|Bi ) P(Bi )

Démonstration : Pour tout j ∈ I, on a :


P(Bj ∩ A) P(A|Bj ) P(Bj )
P(Bj |A) = =P
P(A) i∈I P(A|Bi ) P(Bi )

en utilisant la formule des probabilités totales (1.3) au dénominateur. □

Cette formule toute simple est à l’origine de tout un pan des statistiques qui consiste à
inverser des conditionnements en manipulant des probabilités dites a priori ou a poste-
riori, il s’agit des statistiques bayésiennes.

Probabilité sachant une variable aléatoire discrète


En prenant B = {Y = y} où Y est une variable aléatoire discrète et y un de ses
atomes, (1.1) donne un sens à
P(A, Y = y)
P(A|Y = y) =
P(Y = y)
(souvent A prend même la forme A = {X = x} lorsque X est une variable aléatoire
discrète). On peut aussi définir la probabilité conditionnelle « sachant Y » plutôt que
« sachant Y = y » on ne conditionne alors plus par un évènement du type {Y = y} mais
par une variable aléatoire, ainsi P(A|Y ) définit une nouvelle variable aléatoire !
Chapitre 1. ©JCB – M1math – Université de Rennes 5

Définition 1.8 (Probabilité conditionnelle discrète) Étant donné une variable aléatoire
discrète Y de support S(Y ) = {yj : j ∈ J}, on appelle probabilité conditionnelle sachant
Y la fonction d’ensemble


F → [0, P 1]
P(∗|Y ) :
A 7→ j∈J P(A|Y = yj )1{Y =yj } .

Ainsi P(A|Y ) = P(A|Y = y) sur l’évènement {Y = y}.

Dans le cas général, par exemple lorsque Y est une variable aléatoire à densité, la défini-
tion de P(∗|Y ) est plus compliquée car les conditionnements par {Y = y} sont singuliers
(évènements négligeables) et la définition (1.1) ne s’applique pas.

1.2 Espérance conditionnelle discrète


Étant donné un évènement B non négligeable, on définit l’espérance conditionnelle
sachant B comme l’espérance par rapport à la probabilité P(∗|B) :

Définition 1.9 (Espérance conditionnelle élémentaire) L’espérance conditionnelle sachant


B d’une variable aléatoire X positive ou X ∈ L1 est définie par
Z
E[X|B] = X(ω) P(dω|B).

On a

Proposition 1.10 Soit X une variable aléatoire intégrable et B ∈ F non-négligeable.


Alors on a
E[X1B ]
E[X|B] = . (1.5)
P(B)
Démonstration : Pour X = 1A , il P s’agit de la définition de P(A|B) en (1.1). Le résultat
s’étend alors par linéarité à X = ni=1 αi 1Ai étagée positive (αi ≥ 0) puis par conver-
gence monotone à X ≥ 0. On traite le cas de X variable aléatoire de signe quelconque
(intégrable) en écrivant X = X + −X − et en appliquant le cas positif précédent à X + et à
X − , en notant X + = max(X, 0) et X − = max(−X, 0). La différence E[X + 1B ]−E[X − 1B ]
a bien un sens car X est intégrable. □

est une variable aléatoire réelle discrète de support S(X) = {xi : i ∈ I}, alors
Si X P
X = i∈I xi 1{X=xi } et avec (1.5) on a
X
E[X|B] = xi P(X = xi |B).
i∈I
Chapitre 1. ©JCB – M1math – Université de Rennes 6

Dans le cas où Y est une autre variable aléatoire discrète de support S(Y ) = {yj : j ∈ J}
(avec donc J ⊂ N), on définit de cette façon
X
E[X|Y = yj ] = xi P(X = xi |Y = yj ), (1.6)
i∈I

et comme on l’a fait en Déf. 1.8 pour une probabilité conditionnelle, on peut généraliser
l’espérance conditionnelle « sachant Y = yj » à « sachant Y » par :

Définition 1.11 (Espérance conditionnelle discrète) Soit X une variable aléatoire inté-
grable et Y une variable aléatoire discrète. L’espérance conditionnelle de X sachant Y
est définie par X
E[X|Y ] = E[X|Y = yj ] 1{Y =yj } , (1.7)
j∈J

ie. E[X|Y ] = E[X|Y = yj ] sur l’évènement {Y = yj }.

Il faut bien comprendre que l’espérance conditionnelle E[X|Y = yj ] en (1.6) est un réel
alors que l’espérance conditionnelle E[X|Y ] en (1.7) est une variable aléatoire.
En combinant (1.6) et (1.7), on a aussi
X
E[X|Y ] = xi P(X = xi |Y = yj )1{Y =yj } . (1.8)
(i,j)∈I×J

Due à la Définition 1.9 qui assure E[1A |B] = P(A|B) pour un évènement B non-
négligeable, il est facile de vérifier, lorsque Y est discrète, que l’espérance conditionnelle
E[∗|Y ] en Définition 1.11 et la probabilité conditionnelle P(∗|Y ) en Définition 1.8 sont
naturellement liées par
E[1A |Y ] = P(A|Y ).

Exemple 1.12 — Lorsque Y est une variable constante (presque sûrement) alors
E[X|Y ] = E[X] ps. En effet en notant y l’unique atome de Y , comme {Y = y}
est un évènement presque sûr, P(X = xi |Y = y) = P(X = xi ) et 1{Y =y} = 1 ps si
bien que (1.8) se réduit à
X
E[X|Y ] = xi P(X = xi |Y = y)1{Y =y}
i∈I
X
= xi P(X = xi ) = E[X] ps.
i∈I

Le même résultat reste vrai lorsque X ⊥


⊥Y.
— Si X est σ(Y )-mesurable, alors E[X|Y ] = X. En effet, d’après le Théorème de
Doob-Dynkin (Th. 0.7), on a X = h(Y ) pour une fonction h mesurable et donc
Chapitre 1. ©JCB – M1math – Université de Rennes 7

X est discrète avec pour valeursFh(yj ), j ∈ J (mais possiblement avec des répé-
titions). On Fa la partition I = i∈I Ji où Ji = {j ∈ J : h(yj ) = xi }, i ∈ I, et
{X = xi } = j∈Ji {Y = yj }. Par (1.8), on a :
X
E[X|Y ] = xi P(X = xi |Y = yj )1{Y =yj }
(i,j)∈I×J
X  [ 
= xi P {Y = yj ′ }|Y = yj 1{Y =yj }
(i,j)∈I×J j ′ ∈Ji
X X
= xi P(Y = yj ′ |Y = yj ) 1{Y =yj }
| {z }
(i,j)∈I×J j ′ ∈J i =δj,j ′
X X X
= xi 1{Y =yj } = xi 1{Y =yj }
(i,j)∈I×Ji i∈I j∈Ji
| {z }
=1{X=xi }
X
= X1{X=xi } = X.
i∈I

 
Avec les définitions données, on vérifie sans difficulté que E E[X|Y ] = E[X]. En effet,
par linéarité de l’espérance et par (1.5), on a
  X X
E E[X|Y ] = E[X|Y = yj ]P(Y = yj ) = E[X1{Y =yj } ]) = E[X]
j∈J j∈J
P
puisque j∈J 1{Y =yj } = 1 ps, {yj : j ∈ J} étant le support de Y . Plus généralement, on
a la propriété de conditionnements en cascade :

Proposition 1.13 (Conditionnements en cascade) Soit X, Y, Z des variables aléatoires


discrètes. On a  
E[X|Y ] = E E[X|Y, Z] |Y . (1.9)

Démonstration : On note S(X) = {xi : i ∈ I}, S(Y ) = {yj : j ∈ J}, S(Z) = {zk : k ∈
K} les supports discrets de X, Y, Z. Comme (Y, Z) est un vecteur discret, l’expression
(1.8) s’écrit
X
E[X|Y, Z] = xi P(X = xi |Y = yj , Z = zk )1{Y =yj ,Z=zk } .
(i,j,k)∈I×J×K

P
La variable aléatoire U = E[X|Y, Z] prend les valeurs uj,k = i∈I xi P(X = xi |Y =
yj , Z = zk ), (j, k) ∈ J × K. Comme il y a possiblement des répétitions, on réindexe en
notant U = {uℓ : ℓ ∈ L} = {uj,k : (j, k) ∈ J × K} avecF L ⊂ N. Pour ℓ ∈ L, on note′
Aℓ = {(j, k) ∈ J × K : uj,k = uℓ }. On a J × K = ℓ∈L Aℓ car uℓ ̸= uℓ′ pour ℓ ̸= ℓ
Chapitre 1. ©JCB – M1math – Université de Rennes 8

entraı̂ne Aℓ ∩ Aℓ′ = ∅ et comme on a uj,k ∈ U pour tout (j, k), l’union fait bien J × K.
L’expression (1.8) donne encore
 
E E[X|Y, Z] |Y = E[U |Y ]
X
= uℓ P(U = uℓ |Y = yj )1{Y =yj } . (1.10)
ℓ∈L,j∈J

Sachant Y = yj , nécessairement U ne peut prendre comme F valeurs que u ∈ Uj = {uj,k :


k ∈ K} et cela exige ℓ ∈ Lj = {ℓ ∈ L : uℓ ∈ Uj }. Comme j∈J Lj = L, (1.10) s’écrit.
Dans ce cas pour ℓ ∈ Lj , avoir U = uℓ sachant Y = yj est équivalent à avoir Z = zk
pour k ∈ K(ℓ, j) := {k ∈ K : uj,k = uℓ } :
 G 
{U = uℓ } ∩ {Y = yj } = {Z = zk } ∩ {Y = yj }.
k∈K(ℓ,j)

F
On note que K = ℓ∈L,j∈J K(ℓ, j). Il s’ensuit pour (1.10)
  X  G 
E E[X|Y, Z] |Y = uℓ P {Z = zk }|Y = yj 1{Y =yj }
ℓ∈L,j∈J k∈K(ℓ,j)
X X X  X
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
j∈J ℓ∈Lj i∈I
| {z } k∈K(ℓ,j)
=uj,k =uℓ lorsque k∈K(ℓ,j),ℓ∈Lj ,j∈J
XX X X 
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
j∈J ℓ∈Lj k∈K(ℓ,j) i∈I
X X 
= xi P(X = xi |Y = yj , Z = zk ) P(Z = zk |Y = yj )1{Y =yj }
(j,k)∈J×K i∈I
F
(car K = ℓ∈L,j∈J K(ℓ, j))
!
X X
= xi P(X = xi |Y = yj , Z = zk )P(Z = zk |Y = yj ) 1{Y =yj }
(i,j)∈I×J k∈K

(par la formule des probabilités totales (1.3) avec les conditionnements successifs, cf. Prop. 1.4)
X
= xi P(X = xi |Y = yj )1{Y =yj }
(i,j)∈I×J

= E[X|Y ] (avec (1.8) pour obtenir (1.9)).

Avec cette approche discrète des espérances conditionnelles, on observe les propriétés
qui serviront à définir l’espérance conditionnelle dans le cas général (Chap. 2).

Proposition 1.14 On a
Chapitre 1. ©JCB – M1math – Université de Rennes 9

(1) E[X|Y ] est σ(Y )-mesurable ;


 
(2) E[1A X] = E 1A E[X|Y ] ∀A ∈ σ(Y ).
(3) Lorsque les espérances sont bien définies, pour
 toute variable aléatoire Z qui est
σ(Y )-mesurable, on a E[ZX] = E ZE[X|Y ] .
Démonstration : Le premier point 1) découle directement de l’expression (1.7) puisque
1{Y =yj } = 1{yj } (Y ) est σ(Y )-mesurable. Pour le deuxième point 2), comme A ∈ σ(Y )
s’écrit A = {Y ∈ B} pour B mesurable, et comme Y est discrète, il suffit de considérer
le cas A = {Y = y} pour un atome y de Y . Dans cas
X 
1A E[X|Y ] = 1{Y =y} E[X|Y = yj ]1{Y =yj } = E[X|Y = y]1{Y =y}
j∈J

et
   
E 1A E[X|Y ] = E E[X|Y = y]1{Y =y} = E[X|Y = y]P(Y = y) = E[X1{Y =y} ] = E[1A X].
Le point 3) se prouve de la même façon : d’après le Théorème de Doob-Dynkin (Th. 0.7,
Z = h(Y ) où h est une fonction mesurable. On a alors
X
ZE[X|Y ] = h(Y )E[X|Y ] = h(yj )E[X|Y = yj ]1{Y =yj }
j∈J

et
  X X
E ZE[X|Y ] = h(yj )E[X|Y = yj ]P(Y = yj ) = h(yj )E[X1{Y =yj } ]
j∈J j∈J
h X i
= E X h(yj )1{Y =yj } = E[XZ].
j∈J
| {z }
=h(Y )=Z

1.3 Lois conditionnelles discrètes


Soit (X, Y ) un couple de variables aléatoires discrètes sur (Ω, F, P). On note (E, E)
l’espace des valeurs de X.
Définition 1.15 (Loi conditionnelle) Pour y tel que P(Y = y) ̸= 0 (y atome de Y ), on
appelle loi conditionnelle de X sachant Y = y, l’application définie par
P(X ∈ A, Y = y) X P(X = x, Y = y)
P(X ∈ A|Y = y) = = , A ∈ E. (1.11)
P(Y = y) x∈A
P(Y = y)

Plus généralement, on appelle loi conditionnelle de X sachant Y l’application définie par


X
PX (A|Y ) = P(X ∈ A|Y ) = P(X ∈ A|Y = y)1{Y =y} , A ∈ E. (1.12)
y∈S(Y )
Chapitre 1. ©JCB – M1math – Université de Rennes 10

Si y ̸∈ S(Y ), P(X = x|Y = y) n’est pas définie en (1.11) ; on pourra éventuellement


décider de lui donner une valeur arbitraire (par exemple zéro).
D’après les définitions des espérances conditionnelles en (1.7) et des lois conditionnelles
en (1.12) sachant Y , l’espérance conditionnelle sachant Y coı̈ncide avec l’espérance par
rapport à la loi conditionnelle sachant Y :
Z
E[h(X)|Y ] = h(x) PX (dx|Y ). (1.13)

Proposition 1.16 Si X ⊥
⊥ Y alors la loi conditionnelle de X sachant Y est la même que
celle de X :

∀y ∈ S(Y ) : PX (∗|Y = y) = PX et PX (∗|Y ) = PX .

Autrement dit : le conditionnement par une variable aléatoire indépendante est sans effet
sur la loi d’une variable aléatoire.

Démonstration : C’est une conséquence directe de P(A|B) = P(A) lorsque A ⊥


⊥ B, en
effet pour tout A ∈ E, on a {X ∈ A} ⊥⊥ {Y = y} et donc

PX (A|Y = y) = P(X ∈ A|Y = y) = P(X ∈ A) = PX (A),

et il suit de (1.12) que PX (A|Y ) = PX (A). □

Lois conditionnelles à densité


Soit (X, Y ) un couple de densité f sur R2 . On rappelle que X et Y ont alors pour
densités respectives
Z Z
fX (x) = f (x, y) dy, et fY (y) = f (x, y) dx.
R R

Dans cette situation, on a un analogue de (1.11) pour les densités avec la notion de
densité conditionnelle :

Définition 1.17 (Densité conditionnelle) Soit (X, Y ) un couple de variables aléatoires


réelles de densité f : R2 → R et y ∈ S(Y ). On définit la densité conditionnelle de X
sachant Y = y par
f (x, y)
fX|Y =y (x) = . (1.14)
fY (y)
La densité conditionnelle fX|Y =y définit la loi conditionnelle L(X|Y = y) de X sachant
Y = y (on le verra en Prop. 2.35). Il s’agit d’une fonction de la seule variable x ; la
variable y y apparaı̂t seulement comme un paramètre. Comme pour la Prop. 1.16, on a :
Chapitre 1. ©JCB – M1math – Université de Rennes 11

Proposition 1.18 Si les variables aléatoires X et Y sont indépendantes de densité fX et


fY alors les densités conditionnelles sont les densités marginales :

fX|Y =y (x) = fX (x) ∀y ∈ S(Y ).

À nouveau, le conditionnement est sans effet car les variables aléatoires sont indépen-
dantes.

Démonstration : Lorsque X ⊥ ⊥ Y , f (x, y) = fX (x)fY (y) et l’affirmation suit immédia-


tement de la forme de la densité conditionnelle (1.14). □
Chapitre 2

Espérance conditionnelle

Dans ce chapitre, on définit la notion d’espérance conditionnelle sachant une sous-


tribu. Les conditionnements par une variable aléatoire ou par un évènement du Cha-
pitre 1 seront alors vus comme des cas particuliers du conditionnement par une sous-
tribu.
À la notion de conditionnement sont associées celles de probabilités conditionnelles, de
lois conditionnelles et d’espérances conditionnelles. On introduit dans ce chapitre ces
objets et on explique leurs liens.
Soit (Ω, F, P) un espace de probabilité.

2.1 Introduction et définition


Étant donné une sous-tribu G de F, on définit la notion d’espérance conditionnelle
sachant G d’une variable aléatoire X.

Définition 2.1 (Espérance conditionnelle) On appelle espérance conditionnelle de X sa-


chant G, notée E[X|G], la variable aléatoire Y presque sûrement unique vérifiant
(i) Y est G-mesurable,
(ii) pour tout A ∈ G,    
E X1A = E Y 1A . (2.1)

Remarque 2.2 1. Attention, l’espérance conditionnelle E[X|G] est définie presque sû-
rement seulement.
2. L’espérance conditionnelle de X est définie dès que les espérances dans (2.1) sont
bien définies, typiquement pour X positive ou X intégrable.
3. Intuitivement, on interprète une tribu comme une quantité d’information. Ainsi
quand on dispose de l’information de G (ie. pour tout A ∈ G, on sait si A est réalisé
ou pas), l’espérance conditionnelle E[X|G] représente la « meilleure » estimation
de X compte tenu de l’information disponible sachant G.

12
Chapitre 2. ©JCB – M1math – Université de Rennes 13

Cette Définition 2.1 nécessite une justification :

Proposition 2.3 (Existence et unicité) Soit X une variable aléatoire positive ou inté-
grable.
1. Il existe une variable aléatoire Y vérifiant (i)-(ii) dans la Définition 2.1.
2. Si Y, Y ′ sont deux variables aléatoires vérifiant (i)-(ii) dans la Définition 2.1 alors
Y = Y ′ ps.

Démonstration : (1) L’existence de l’espérance conditionnelle est assurée par le théorème


de Radon-Nikodym (Th. 0.6).
On suppose d’abord X ≥ 0 et on définit une mesure sur G par Q(A) = E[X1A ], A ∈ G.
Il est immédiat que pour A ∈ G : P(A) = 0 ⇒ Q(A) = 0. On a donc Q ≪ PG (restriction
de P à G) et le théorème de Radon-Nikodym (Th. 0.6) sur (Ω, G, PG ) assure l’existence
d’une variable aléatoire G-mesurable (dérivée de Radon-Nikodym)

dQ
Y (ω) := (ω)
dPG
R
telle que Q(A) = A
Y dPG , c’est à dire (2.1).
Si X est intégrable, on écrit X = X + − X − et on applique le cas précédent aux variables
aléatoires X + et X − positives. On note alors Y1 = E[X + |G], Y2 = E[X − |G] et on pose
Y = Y1 − Y2 . La variable aléatoire Y est G-mesurable car différence de telles fonctions
et pour tout A ∈ G :

E[1A X] = E[X + 1A ] − E[X − 1A ] (2.2)


= E[Y1 1A ] − E[Y2 1A ]
= E[(Y1 − Y2 )1A ] = E[Y 1A ],

ce qui justifie que Y vérifie (i)–(ii) dans la Définition 2.1 et Y = E[X|G] ps. Noter que
l’intégrabilité de X assure celle de X + et de X − et donc la finitude de E[X + 1A ] et
E[X − 1A ] justifiant que la différence dans (2.2) a bien un sens.
(2) Soit Y, Y ′ deux variables aléatoires vérifiant la Définition 2.1. Pour tout A ∈ G, on a
E[Y 1A ] = E[Y ′ 1A ]. En particulier pour ε > 0, Aε = {Y − Y ′ ≥ ε} ∈ G et

0 = E[(Y − Y ′ )1Aε ] ≥ E[ε1Aε ] = εP(Aε ).

Cela exige P(Aε ) = 0 et


 [  X
′ ′

P(Y > Y ) = P {(Y − Y ) ≥ ε} = P Aε = 0.
ε∈Q+ ε∈Q+

Ainsi Y ≤ Y ′ ps et en échangeant les rôles de Y, Y ′ , on a aussi Y = Y ′ ps. □


Chapitre 2. ©JCB – M1math – Université de Rennes 14

Proposition 2.4 La condition (2.1) ((ii) dans la Définition 2.1) est équivalente à avoir
pour toute variable aléatoire G-mesurable Z telle que les espérances aient un sens :

E[XZ] = E[Y Z]. (2.3)

Démonstration : On a immédiatement (2.3) implique (2.1) en prenant Z = 1A , A ∈ G.


Réciproquement, si (2.1) est vraie alors (2.3) l’est aussi successivement pour Z = 1A ,
A ∈ G, puis pour Z variable aléatoire simple et finalement pour Z positive par conver-
gence monotone si tout est positif ou par convergence dominée dans le cas intégrable. □

Notations
— Lorsque G = σ(Y ), on note E[X|Y ] = E[X|σ(Y )]. Lorsque Y est une variable
discrète, la Prop. 1.14 assure que la définition E[X|Y ] du Chapitre 1 coı̈ncide
avec ce qui est définie en Déf. 2.1.
— On note P(A|G) = E[1A |G].

2.2 Exemples d’espérance conditionnelle


Exemples simples mais fondamentaux
1. (G-mesurabilité) Si X est G-mesurable alors X vérifie directement (i)-(ii) dans la
Définition 2.1 ! On a alors E[X|G] = X ps.
Autrement dit si G est connue, on connaı̂t tous les X −1 (A), A ∈ G. Ainsi toutes les
occurrences de X sont connues, ce qui signifie que X est connue, et sa meilleure
approximation est elle même !
2. En particulier, si X = c (constante), E[X|G] = X.
3. (Indépendance) Si X ⊥
⊥ G alors E[X|G] = E[X] ps. En effet avec A ∈ F, on a
 
E[1A X] = E[1A ]E[X] = E 1A E[X] ,

comme en plus une constante est bien G-mesurable, on a bien E[X|G] = E[X] ps.
Dans le cas indépendant la connaissance de G ne donne aucune information sur X
et la meilleure estimation de X (sachant G) est alors sa moyenne E[X].
4. Dans le cas G = {∅, Ω} (tribu grossière), on vérifie facilement que E[X|G] = E[X]
puisque les variables aléatoires {∅, Ω}-mesurables sont des constantes et (2.1) n’est
à vérifier que pour A = ∅ et A = Ω pour lesquels c’est immédiat.

Conditionnement et système complet

Pun système complet dénombrable (Ωi )i∈I (Déf. 1.5 : avec Ωi ∩ Ωj = ∅


On considère
pour i F̸= j et i∈I P(Ωi ) = 1, I ⊂ N) avec P(Ωi ) > 0 pour chaque i ∈ I et on note
Ω0 = i∈I Ωi de sorte que Ω∗ = Ωc0 est négligeable. On considère alors la sous-tribu
G = σ(Ωi : i ∈ I).
Chapitre 2. ©JCB – M1math – Université de Rennes 15

Lemme 2.5 S La tribu G = σ(Ωi : i ∈ I) engendrée par un système complet dénombrable


(Ωi )i∈I est { j∈J Ωj : J ⊂ I ∪ {∗}}.
S
Démonstration : Comme il est clair que H := { j∈J Ωj : J ⊂ I ∪ {∗}} ⊂ G, il suffit de
montrer que H est une tribu, ce qui S est le cas puisque
— ∅ ∈ H car pour J = ∅ on a j∈J Ωj = ∅ ; S
— H est stable par complémentarité puisque pour j∈J Ωj ∈ H alors
 [ c  [  [   [ 
Ωj = Ωi \ Ωj = Ωk ∈ H;
j∈J i∈I∪{∗} j∈J k∈I∪{∗}\J
S
— H est stable par union dénombrable puisque si j∈Jk Ωj ∈ H pour des Jk ⊂ I ∪{∗}
alors
[ [  [ S
Ωj = Ωj avec J = k∈N Jk ⊂ I ∪ {∗}.
S
k∈N j∈Jk j∈ k∈N Jk

Un cas particulier de système complet est la partition Ω = B ⊔ B c avec B ∈ F tel que


P(B) ∈]0, 1[ ; dans ce cas σ(B) = {∅, B, B c , Ω}.

Proposition 2.6 Soit X une variable aléatoire positive ou intégrable. Pour la tribu G =
σ(Ωi : i ∈ I) associée à un système complet dénombrable (Ωi )i∈I avec P(Ωi ) > 0, i ∈ I,
on a
X E[X1Ω ]
i
E[X |G] = 1Ωi ps. (2.4)
i∈I
P(Ω i )
E[X1Ωi ]
c’est à dire E[X|G] = P(Ωi )
sur Ωi .

Démonstration : On montre (2.4) dans le cas d’une partition simple Ω = B ⊔ B c avec


P(B) ∈]0, 1[ pour laquelle (2.4) se réduit à deux termes :
  E[X1B ] E[X1B c ]
E X |σ(B) = 1B + 1B c . (2.5)
P(B) P(B c )
B] Bc ]
Comme Z := E[X1
P(B)
1B + E[X1
P(B c )
1B c est G-mesurable, pour voir (2.5), il reste à montrer
que pour tout C ∈ G = σ(B) = {∅, B, B c , Ω} on a :

E[X1C ] = E[Z1C ]. (2.6)


E[X1B ]
— Pour C = B : Z1C = P(B)
1B et (2.6) s’écrit
h E[X1 ] i
B
E[X1B ] = E 1B ,
P(B)
ce qui est vraie.
Chapitre 2. ©JCB – M1math – Université de Rennes 16

E[X1B c ]
— Pour C = B c : Z1C = P(B c )
1B c et (2.6) s’écrit
h E[X1 c ] i
B
E[X1B c ] = E 1 B ,
c
P(B c )
ce qui est encore vraie.
— Pour C = ∅ : (2.6) se réduit à 0 = 0, vraie !
— Pour C = Ω : le membre de gauche de (2.6) s’écrit E[X1C ] = E[X] et celui de
droite

E[Z1C ] = E[Z]
h E[X1 ] E[X1B c ] i
B
= E 1B + 1B c
P(B) P(B c )
E[X1B ] E[X1B c ]
= P(B) + c
P(B c )
P(B) P(B )
= E[X1B ] + E[X1B ] = E[X],
c

ce qui prouve (2.5).


Pour un système complet général, Z prend la forme
X E[X1Ω ]
i
Z= 1Ωi
i∈I
P(Ωi )

qui est bien G-mesurable et il reste à S


vérifier (2.6) pour C ∈ G = σ(Ωi : i ∈ I) donc
d’après le Lemme 2.5 de la forme C = j∈J Ωj pour J ⊂ I ∪ {∗} (cf. notation ∗ dans le
Lemme 2.5). Pour cela :
h X E[X1 ]  i X h X E[X1 ]  i
Ωi Ωi
E[Z1C ] = E 1Ωi 1C = E 1Ωi 1Ωj
i∈I
P(Ωi ) j∈J i∈I
P(Ωi)

X X E[X1Ω ] X X E[X1Ω ]
i i
= E[1Ωj 1Ωi ] = P(Ωi )δi,j
j∈J i∈I
P(Ωi ) i∈I j∈J
P(Ωi )
X
= E[X1Ωj ] = E[X1C ].
j∈J

Cela assure que Z satisfait bien la Définition 2.1 de E[X|G] et prouve la Prop. 2.6. □

Remarque 2.7 On retrouve l’approche élémentaire du Chapitre 1.


— On fait le lien avec (1.1) en notant que P(A|B) est donnée par la valeur de
E[1A |σ(B)] sur B.
— Si Y est une variable aléatoire discrète de support S(Y ) = {yj : j ∈ J}, en prenant
le système complet des Ωj = {Y = yj }, j ∈ J, on retrouve la Définition 1.11 en
la combinant avec (1.5).
Chapitre 2. ©JCB – M1math – Université de Rennes 17

2.3 Propriétés de l’espérance conditionnelle


Proposition 2.8 (Linéarité) Pour X, Y ∈ L1 (F), et a, b ∈ R, on a

E[aX + bY |G] = aE[X |G] + bE[Y |G] ps.

L’égalité est valable dès que le terme aE[X |G] + bE[Y |G] a bien un sens.

Attention, le presque sûr ci-dessus dépend de a et b si bien qu’il est incorrect d’affirmer
que presque sûrement E[· |G] est linéaire.
Démonstration : Il est clair que aE[X |G] + bE[Y |G] est G-mesurable. Puis pour A ∈ G,
par linéarité de l’espérance, on a
      
E aE[X|G] + bE[Y |G] 1A = aE E[X|G]1A + bE E[Y |G]1A
= aE[X1A ] + bE[Y 1A ]
= E[(aX + bY )1A ]

d’où (ii) dans la Définition 2.1, ce qui assure E[aX + bY |G] = aE[X |G] + bE[Y |G] ps. □

Proposition 2.9 (Monotonie) Si X ≤ Y alors E[X|G] ≤ E[Y |G].

Démonstration : On commence  par voir que si Y ≥ 0 alors E[Y |G] ≥ 0.


Pour cela, en prenant Aε = E[Y |G] ≤ −ε ∈ G pour ε > 0, dans la propriété (2.1) de
l’espérance conditionnelle, on a
   
0 ≤ E Y 1Aε = E E[Y |G]1Aε ≤ E[(−ε)1Aε ] = −εP(Aε ) ≤ 0.
S 
On a donc P(Aε ) = 0 et P ε∈Q∗ Aε = 0. Mais comme
+

[ 
Aε = E[Y |G] < 0 ,
ε∈Q∗+

il vient E[Y |G] ≥ 0 ps.


De façon générale, on suppose que les espérances conditionnelles E[X|G] et E[Y |G]
existent (variables aléatoires X, Y positives ou intégrables). Si E[Y |G] = +∞ ou E[X|G] =
−∞, alors la conclusion est immédiate. Sinon, alors −∞ < E[X|G] et E[Y |G] < +∞,
et on déduit de Y = (Y − X) + X par linéarité (sans forme indéterminée dans le cas
considéré) que
E[Y |G] = E[Y − X|G] + E[X|G].
En appliquant la première partie à Y − X ≥ 0, il vient :

E[Y |G] − E[X|G] = E[Y − X|G] ≥ 0 ps.


Chapitre 2. ©JCB – M1math – Université de Rennes 18

Corollaire 2.10 On a |E[X|F]| ≤ E[|X| |F] ps.

Démonstration : Comme X ≤ |X|, on a E[X|F] ≤ E[|X| |F] ps. De même, comme


−X ≤ |X|, on a aussi −E[X|F] = E[−X|F] ≤ E[|X| |F] ps. Et finalement, |E[X|F]| ≤
E[|X| |F] ps. □

Proposition 2.11 (Espérance et espérance conditionnelle) (1) On a


 
E E[X|G] = E[X].

(2) Si X ∈ L1 (Ω, F) alors E[X|G]  ∈ L1 (Ω, G) et l’espérance conditionnelle est une


contraction de L1 : E |E[X|G]| ≤ E[|X|].
 
Démonstration : 1) Par la Définition 2.1, on a E E[X|G]1A = E[X1A ] pour tout A ∈ G.
En particulier, en prenant A = Ω ∈ G, il vient E E[X|G] = E[X] !
2) On note Y = E[X|G] et A = {Y > 0} ∈ G. On a

E[1A Y ] = E[1A X] ≤ E[1A |X|]

et
E[1Ac (−Y )] = −E[1Ac X] = E[1Ac (−X)] ≤ E[1Ac |X|]
ce qui assure
           
E |Y | = E 1A Y + E 1Ac (−Y ) ≤ E 1A |X| + E 1Ac |X| ≤ E |X| .

Théorème 2.12 (Cascade) Soit G1 ⊂ G2 ⊂ F des sous-tribus ordonnées (par inclusion).


Alors, on a :
 
(1) E E[X |G1 ] |G2 = E[X |G1 ] ps ;
 
(2) E E[X |G2 ] |G1 = E[X |G1 ] ps.

Démonstration : Comme la variable aléatoire E[X|G1 ] est G1 -mesurable, elle est a fortiori
G2 -mesurable et (1) suit de l’exemple simple 1 en Section 2.2.
Pour (2), en prenant A ∈ G1 ⊂ G2 , on a
     
E 1A E[X |G1 ] = E 1A X = E 1A E[X|G2 ] ps
 
car A ∈ G1 (à gauche) et A ∈ G2 (à droite). D’où on déduit E E[X |G2 ] |G1 = E[X |G1 ]
ps. □
Chapitre 2. ©JCB – M1math – Université de Rennes 19

Remarque 2.13 Attention, en général on n’a pas


   
E E[X |G2 ] |G1 = E E[X |G1 ] |G2 ps. (2.7)

On considère l’espace de probabilité (Ω, F, P) = ([0, 1], B([0, 1]), λ) et on prend G1 =


σ([0, 1/2]) = {∅, [0, 1/2], ]1/2, 1], [0, 1]}, G2 = σ([0, 1/3]) = {∅, [0, 1/3], ]1/3, 1], [0, 1]}.
Pour X = 1[1/4,3/4] , on a presque sûrement :

E[X1[0,1/2] ] E[X1]1/2,1] ]
E[X|G1 ] = 1[0,1/2] + 1]1/2,1]
P([0, 1/2]) P(]1/2, 1])
λ([1/4, 1/2]) λ(]1/2, 3/4])
= 1[0,1/2] + 1]1/2,1]
λ([0, 1/2]) λ(]1/2, 1])
1 1 1
= 1[0,1/2] + 1]1/2,1] = ,
2 2 2
  1
et on a donc E E[X|G1 ]|G2 = 2 ps. Puis presque sûrement :

E[X1[0,1/3] ] E[X1]1/3,1] ]
E[X|G2 ] = 1[0,1/3] + 1]1/3,1]
P([0, 1/3]) P(]1/3, 1])
λ([1/4, 1/3]) λ(]1/3, 3/4])
= 1[0,1/3] + 1]1/3,1]
λ([0, 1/3]) λ(]1/3, 1])
1 5
= 1[0,1/3] + 1]1/3,1] ,
4 8
et on a donc ps :
  h1 5 i
E E[X|G2 ]|G1 = E 1[0,1/3] + 1]1/3,1] G1
h 4  8 i h  i
1 5
E 4 1[0,1/3] + 8 1]1/3,1] 1[0,1/2] E 41 1[0,1/3] + 58 1]1/3,1] 1]1/2,1]
= 1[0,1/2] + 1]1/2,1]
P([0, 1/2]) P(]1/2, 1])
1 1 5 1 1 5 1
= 2 × + × 1[0,1/2] + 2 ×0+ × 1[1/2,1]
4 3 8 6 4 8 2
3 5
= 1[0,1/2] + 1[1/2,1] ,
8 8
ce qui fournit bien un contre-exemple à (2.7).

Versions conditionnelles de résultats classiques


Proposition 2.14 (Inégalité de Tchebychev) Pour ε > 0, on a
 
 E X 2 |G
P |X| ≥ ε |G ≤ ps.
ε2
Démonstration : Il s’agit d’appliquer la Prop. 2.9 à l’inégalité ε2 1{|X|≥ε} ≤ X 2 . □
Chapitre 2. ©JCB – M1math – Université de Rennes 20

Proposition 2.15 (Convergence monotone conditionnelle) Soit (Xn )n≥1 une suite de va-
riables aléatoires positives telles que Xn−1 ≤ Xn ↗ X. Alors
   
E Xn |G ↗ E X|G , n → +∞ ps.

Démonstration : Comme 0 ≤ Xn ↗ X, par la monotonie (Prop. 2.9), la suite E[Xn |G] n≥1
est croissante et admet donc une limite Z positive, G-mesurable car limite de variables
aléatoires G-mesurables. De plus, pour A ∈ G, on a
 
E[Z1A ] = lim E E[Xn |G]1A (par convergence monotone classique)
n→+∞
= lim E[Xn 1A ] (par la Définition 2.1)
n→+∞
= E[X1A ] (par convergence monotone classique).

Finalement, on a Z = E[X |G] ps. □

On déduit alors successivement comme dans le cas non-conditionnel le lemme de Fatou


conditionnel puis le théorème de convergence dominée conditionnel (cf. [Bre-Leb]) :

Proposition 2.16 (Lemme de Fatou conditionnel) Si Xn , n ≥ 1, sont des variables aléa-


toires positives alors
   
E lim inf Xn |G ≤ lim inf E Xn |G ps. (2.8)
n→+∞ n→+∞

Démonstration : On applique la Prop. 2.15 (convergence monotone conditionnelle) à la


suite inf k≥n Xk n≥0 positive croissante vers lim inf n→+∞ Xn . On a alors
     
E lim inf Xn |G = E lim inf Xk |G = lim E inf Xk |G (Prop. 2.15)
n→+∞ n→+∞ k≥n n→+∞ k≥n
   
= lim inf E inf Xk |G ≤ lim inf E Xn |G (monotonie, Prop. 2.9)
n→+∞ k≥n n→+∞

puisque inf k≥n Xk ≤ Xn . □

Proposition 2.17 (Convergence dominée conditionnelle) Soit Xn , n ≥ 1, des variables


aléatoires avec |Xn | ≤ Z ∈ L1 (F). On suppose que Xn → X ps. Alors

lim E[Xn |G] = E[X|G] ps et dans L1 . (2.9)


n→+∞

Démonstration : Même preuve que le théorème de convergence dominée standard en utili-


sant la convergence monotone conditionnelle (Prop. 2.15) et le lemme de Fatou condition-
nel (Prop. 2.16) : on pose Yn = 2Z −|Xn −X| ; on a limn→+∞ Yn = lim inf n→+∞ Yn = 2Z.
Le lemme de Fatou conditionnel (Prop. 2.16) appliqué aux variables aléatoires Yn (inté-
grables) assure
h i  
2E[Z |G] = E lim inf Yn G ≤ lim inf E[Yn |G] = 2E[Z |G] − lim sup E |Xn − X| G .
n→+∞ n→+∞ n→+∞
Chapitre 2. ©JCB – M1math – Université de Rennes 21

En simplifiant par E[Z |G] < +∞ ps, on a


 
lim sup E |Xn − X| G ≤ 0.
n→+∞

Comme par ailleurs


   
0 ≤ lim inf E |Xn − X| G ≤ lim sup E |Xn − X| G ,
n→+∞ n→+∞
 
on a donc limn→+∞ E |Xn − X| G = 0 ps. et on conclut à (2.9) avec le Corollaire 2.10 :
   
E[Xn |G] − E[X|G] = E (Xn − X) G ≤ E |Xn − X| G .

L1
La convergence L1 est directe puisque par convergence dominée usuelle Xn −→ X et
donc
   
E E[Xn |G] − E[X |G] ≤ E E[|Xn − X| |G] = E[|Xn − X|] → 0, n → +∞.

Proposition 2.18 (Inégalité de Cauchy-Schwarz conditionnelle) On a

E[XY |G]2 ≤ E X 2 |G E Y 2 |G
   
ps.

Démonstration : La preuve est la même que celle de l’inégalité de Cauchy-Schwarz


usuelle. Comme (X + θY )2 ≥ 0, la linearité (Prop. 2.8) et la monotonie (Prop. 2.9)
assurent que

E Y 2 |G θ2 + 2E XY |G θ + E X 2 |G E Y 2 |G = E (X + θY )2 |G ≥ 0 ps.
         

Le polynôme en θ est positif pour tout θ ∈ Q, presque sûrement (attention à l’échange


entre le ps et le ∀θ ∈ Q est licite car on manipule une collection dénombrable de θ). Cela
exige que son discriminant soit négatif ps, ce qui prouve l’inégalité. □

Proposition 2.19 (Inégalité de Jensen conditionnelle) Soit X ∈ L1 (F) et φ : R → R


une fonction convexe telle que E[|φ(X)|] < +∞. Alors

φ E[X |G] ≤ E[φ(X) |G] ps. (2.10)

Démonstration : Si φ(x) = ax + b est linéaire, (2.10) est immédiate par la linéarité de


l’espérance conditionnelle (Prop. 2.8). De façon générale, la convexité de φ assure qu’en
tout point de son graphe la courbe de φ est au dessus de sa tangente, ie. pour tout y ∈ R
et tout dy ∈ [φ′g (y), φ′d (y)] on a :

∀x ∈ R, φ(x) ≥ φ(y) + dy (x − y). (2.11)


Chapitre 2. ©JCB – M1math – Université de Rennes 22

Ci-dessous, on prend par exemple dy = (φ′g (y) + φ′d (y))/2. En appliquant cette inégalité
(2.11) avec y = E[X|G] et x = X(ω) on a

φ(X) ≥ φ E[X|G] + dE[X|G] (X − E[X|G]),

puis en prenant l’espérance E[·|G], comme dE[X|G] est G-mesurable, on a


   
φ(X) ≥ φ E[X|G] + dE[X|G] E X − E[X|G] |G = φ E[X|G] .
| {z }
=0

Proposition 2.20 (Intégrabilité et contraction Lp ) Soit p ≥ 1.


(1) On a
p
≤ E |X|p |G
   
E X |G ps.
(2) L’espérance conditionnelle est une contraction sur Lp :
 p
≤ E |X|p ps.
   
E E X |G
    
En particulier, E E X |G ≤ E |X| ps.

Démonstration : 1) C’est une conséquence de l’inégalité de Jensen (Prop. 2.19) avec la


fonction convexe φ(x) = |x|p pour p ≥ 1.
2) Avec la monotonie de l’espérance, 1) ci-dessus donne
 p
≤ E E |X|p |G = E |X|p
      
E E X |G

où l’égalité vient de la Prop. 2.11. □

Propriétés supplémentaires de l’espérance conditionnelle


Théorème 2.21 Soit X, Y des variables aléatoires avec X G-mesurable. Lorsque les es-
pérances conditionnelles sont bien définies, c’est à dire
(1) X, Y ≥ 0,
(2) Y ∈ L1 (F) et XY ∈ L1 (F),
on a    
E XY |G = XE Y |G ps. (2.12)
 
Démonstration : D’abord, XE Y |G est G-mesurable car produit de fonctions G-mesurab-
les. Ensuite, en supposant pour commencer X = 1B avec B ∈ G, on a pour A ∈ G
   
E XE[Y |G]1A = E E[Y |G]1A∩B = E[Y 1A∩B ] = E[(XY )1A ]
Chapitre 2. ©JCB – M1math – Université de Rennes 23

ce qui justifie (2.12) lorsque X = 1B , puis par linéarité pour X variable aléatoire simple.
Dans le cas 1), pour X variable aléatoire G-mesurable positive, il existe (Xn )n≥1 suite de
variables aléatoires G-mesurables positives telle que Xn ↗ X, n → +∞. Comme Y ≥ 0,
on a aussi Xn Y ↗ XY (Y ≥ 0), et le théorème de convergence mononotone conditionnel
(Prop. 2.15) assure alors

E[XY |G] = lim E[Xn Y |G] = lim Xn E[Y |G] = XE[Y |G].
n→+∞ n→+∞

Dans le cas 2), on peut de nouveau trouver des suites de variables aléatoires G-mesurables
simples positives croissantes (Xn′ )n≥1 et (Xn′′ )n≥1 qui convergent vers X + et X − et on
pose Xn = Xn′ − Xn′′ . Comme Xn est simple, le cas précédent assure

E[Xn Y |G] = Xn E[Y |G].

On conclut en passant à la limite dans cette égalité puisque limn→+∞ Xn = limn→+∞ Xn′ +
limn→+∞ Xn′′ = X ′ + X ′′ = X ps et comme |Xn | ≤ Xn′ + Xn′′ ≤ X + + X − = |X|, on a
|Xn Y | ≤ |XY | ∈ L1 et par convergence dominée conditionnelle (Prop. 2.17) :

lim E[Xn Y |G] = E[XY |G].


n→+∞

Théorème 2.22 (Conditionnement et indépendance)


⊥ G et X ∈ L1 (F) alors E[X |G] = E[X].
1. Si X ⊥
2. Soit X ⊥⊥ Y et f : R → R mesurable telles que E[|f (X, Y )|] < +∞. On pose
g(y) = E[f (X, y)]. Alors
 
E f (X, Y )|σ(Y ) = g(Y ).

3. Soit G, H des sous-tribus deF et X une variable aléatoire intégrable telles que
H⊥ ⊥ σ(X, G) := σ σ(X) ∪ G alors

E[X |σ(G, H)] = E[X |G]. (2.13)

Démonstration : 1) Soit A ∈ G. En utilisant la définition de l’espérance conditionnelle


puis l’indépendance A ⊥
⊥ X, on a
   
E E[X|G]1A = E[X1A ] = E[X]E[1A ] = E E[X]1A ] .

Comme E[X] est bien G-mesurable car constante, E[X] vérifie la Définition 2.1 de E[X|G].
2) D’abord, on note que g est bien une fonction mesurable par le théorème de Fubini
(Th. 0.5). Ainsi g(Y ) est σ(Y )-mesurable, d’où (i) dans la Définition 2.1. Ensuite pour
(ii) dans la Définition 2.1, on considère A ∈ σ(Y ). Cet ensemble s’écrit A = Y −1 (C)
pour un certain C ∈ B(R) et on a alors

E[f (X, Y )1A ] = E[f (X, Y )1C (Y )]


Chapitre 2. ©JCB – M1math – Université de Rennes 24
Z Z
= 1C (y)f (x, y) P(X,Y ) (dx, dy) (transfert)
Z Z
= 1C (y)f (x, y) PX (dx)PY (dy) (X ⊥ ⊥Y)
Z  Z 
= 1C (y) f (x, y) PX (dx) PY (dy) (Fubini)
Z
= 1C (y)g(y) PY (dy) (définition de g)
= E[g(Y )1C (Y )] (transfert)
= E[g(Y )1A ].

3) On utilise un argument de classe monotone (Th. 0.2). On note Y = E[X|G] et on pose



M = A ∈ F : E[Y 1A ] = E[X1A ] .

L’ensemble M est une classe monotone car


— Ω ∈ M puisque E[X] = E[Y ] ;
— Si A, B ∈ M avec B ⊂ A alors A \ B ∈ M car 1A\B = 1A − 1B et
       
E Y 1A\B = E Y (1A − 1B ) = E Y 1A − E Y 1B
     
= E X1A − E X1B = E X(1A − 1B )
 
= E X1A\B ;
S
— Si Aj ∈ M avec Aj ⊂ Aj+1 , j ≥ 1, alors j≥1 Aj ∈ M car
     
E Y 1Sj≥1 Aj = E Y lim 1An = lim E Y 1An (convergence dominée)
n→+∞ n→+∞
   
= lim E X1An = E X lim 1An (convergence dominée)
n→+∞ n→+∞
 S 
= E X1 j≥1 Aj .

Par Définition 2.1 de Y , on a G ⊂ M. On a aussi H ⊂ M car pour A ∈ H par


indépendance H ⊥ ⊥ G ∋ Y on a E[Y 1A ] = E[Y ]P(A) et par indépendance H ⊥ ⊥ σ(X) on
a aussi E[X1A ] = E[X]P(A), d’où l’égalité puisque E[Y ] = E[X] et A ∈ M.
On note maintenant que P = {B ∩ C : B ∈ G, C ∈ H} est un π-système (stable par
intersection finie) : si B1 ∩ C1 , B2 ∩ C2 ∈ P alors

(B1 ∩ C1 ) ∩ (B2 ∩ C2 ) = (B1 ∩ B2 ) ∩ (C1 ∩ C2 ) ∈ P

car B1 ∩ B2 ∈ G et C1 ∩ C2 ∈ H.
On a P ⊂ M, en effet pour A = B ∩ C ∈ P avec B ∈ G et C ∈ H par indépendance
H⊥⊥ σ(X, G), il vient :

E[Y 1A ] = E[Y 1B 1C ] = E[Y 1B ] E[1C ] (C ∈ H ⊥


⊥ G ∋ Y, B)
Chapitre 2. ©JCB – M1math – Université de Rennes 25

= E[X1B ] E[1C ] (définition de Y = E[X |G])


= E[X1B 1C ] (C ∈ H ⊥ ⊥ σ(X, G) ∋ X, B)
= E[X1A ].

Par le théorème de classe monotone (Th. 0.2), on a σ(P) ⊂ M.


On conclut en justifiant σ(P) = σ(G, H). En effet, on a P ⊂ σ(G, H) car P ∈ P s’écrit
P = B ∩ C ∈ σ(G, H) puisque B ∈ G ⊂ σ(G, H), C ∈ H ⊂ σ(G, H). On a donc
σ(P) ⊂ σ(G, H). Puis comme G ⊂ P et H ⊂ P, on a (G ∪ H) ⊂ P et

σ(G, H) = σ G ∪ H) ⊂ σ(P)

et finalement σ(P) = σ(G, H).


La conclusion σ(G, H) ⊂ M signifie alors que ∀A ∈ σ(G, H) on a E[Y 1A ] = E[X1A ] et
donc Y = E[X |σ(G, H)], ce qui est la conclusion (2.13) cherchée. □

Remarque 2.23 (Contre-exemple) Attention, dans le 3) du Th. 2.22 il est insuffisant de


supposer seulement H ⊥ ⊥ G et H ⊥
⊥ σ(X) : en effet, avec εi = ±1, i = 1, 2, indépendantes,
de loi P(εi = 1) = P(εi = −1) = 1/2, prendre X = ε1 ε2 et H = σ(ε1 ), G = σ(ε2 ) : on a
X de loi de Rademacher R(1/2), ie. P(X = 1) = P(X = −1) = 1/2 et
— H⊥ ⊥ G,
— H⊥ ⊥ σ(X) car par exemple
1
P(ε1 = 1, ε1 ε2 = 1) = P(ε1 = 1, ε2 = 1) = P(ε1 = 1)P(ε2 = 1) =
4
= P(ε1 = 1)P(ε1 ε2 = 1),

— mais on n’a pas H ⊥ ⊥ σ(X, G) puisque ε1 = X/ε2 est σ(X, G)-mesurable.


Dans ce cas, (2.13) ne tient effectivement pas puisque

E[X |G] = E[ε1 ε2 |ε2 ] = ε2 E[ε1 ] = 0


E[X |σ(G, H)] = E[ε1 ε2 |σ(ε1 , ε2 )] = ε1 ε2 .

2.4 Espérance conditionnelle dans le cas L2


Interprétation géométrique
Dans le cadre L2 , l’espérance conditionnelle s’interprète comme une projection L2
pour le produit scalaire ⟨X, Y ⟩ = E[XY ].

Théorème 2.24 (Espérance conditionnelle et projection L2 ) Soit X ∈ L2 (F) et G une


sous-tribu de F. L’espérance conditionnelle E[X|G] est la projection de X sur L2 (G) :

E[X|G] = PL2 (G) (X). (2.14)


Chapitre 2. ©JCB – M1math – Université de Rennes 26

Démonstration : Notons Y = E[X|G]. D’après la Prop. 2.20, comme X ∈ L2 (F), on a


aussi Y ∈ L2 (G). Pour Z ∈ L2 (G), il vient

E (X − Z)2 = E (X − Y + Y − Z)2
   

= E (X − Y )2 + 2E[(X − Y )(Y − Z)] + E (Y − Z)2


   

= E (X − Y )2 + E (Y − Z)2 ,
   

car Y − Z étant G-mesurable


=0
   z  }| { 
E[(X − Y )(Y − Z)] = E E[(X − Y )(Y − Z) |G] = E E X − Y |G (Y − Z) = 0.

Ainsi 1/2
d X, L2 (G) = E (X − Z)2 = E (X − Y )2
   
inf2
Z∈L (G)

est atteint en Z = Y ∈ L2 (G). Cela justifie que Y est la projection PL2 (G) (X) de
X ∈ L2 (F) sur L2 (G). □

Variance conditionnelle
On définit de la même façon d’autres quantités conditionnelles telles que la variance
conditionnelle Var(X|G).
Définition 2.25 (Variance conditionnelle) La variance conditionnelle de X ∈ L2 (F) sa-
chant G est définie par

Var(X |G) = E (X − E[X |G])2 |G .


 

On verra qu’il s’agit de la variance par rapport à la loi conditionnelle P(·|G). Comme
dans le cas usuel, on a l’identité de König 1 :
Proposition 2.26 (König) Pour X variable aléatoire L2 et une sous-tribu G, on a :

Var(X |G) = E[X 2 |G] − E[X |G]2 .

Démonstration : En effet,

E X 2 − 2XE[X |G] + E[X |G]2 G


 
Var(X |G) =
E X 2 G − 2E XE[X |G] G + E E[X |G]2 G
     
=
E X 2 G − 2E[X |G]E[X |G] + E[X |G]2
 
=
E X 2 G − E[X |G]2 .
 
=


Par le théorème de Pythagore, on a la décomposition de la variance sous la forme :
1. Johann Samuel König (Allemand, 1712–1757)
Chapitre 2. ©JCB – M1math – Université de Rennes 27

Théorème 2.27 (Décomposition de la variance) Soit X ∈ L2 (F) et G une sous-tribu de


F. Alors, on a   
Var(X) = E Var(X |G) + Var E[X |G] . (2.15)
Démonstration : En utilisant la Prop. 2.26, on a :

E Var(X |G) = E E[X 2 |G] − E[X|G]2 = E[X 2 ] − E E[X|G]2


     
2
Var E[X |G] = E E[X |G]2 − E E[X |G] = E E[X |G]2 − E[X]2
     

dont on déduit (2.15) par addition. □

2.5 Conditionnement gaussien


Dans le cas de conditionnement gaussien, on a mieux que (2.14) : il suffit de projeter
sur l’espace vectoriel engendré par les variables aléatoires (gaussiennes) qui conditionnent
:
Proposition 2.28 (Espérance conditionnelle gaussienne)
1. Soit (X, Y ) un couple gaussien centré. Alors
Cov(X, Y )
E[X |Y ] = Y ps.
Var(Y )

2. Dans le cas non centré, on a


Cov(X, Y ) Cov(X, Y )
E[X |Y ] = mX − mY + Y.
Var(Y ) Var(Y )

3. Soit (Z1 , . . . , Zd ) un vecteur gaussien centré de covariance Σ et (a1 , . . . , ad )t , (b1 , . . . , bd )t ∈


Rd . On considère X = a1 Z1 + · · · + ad Zd et Y = b1 X1 + · · · + bd Zd . Alors
at Σb
E[X |Y ] = Y.
bt Σb
4. Soit Y = (Y1 , . . . , Yd ) un vecteur gaussien centré de covariance Σ inversible et X
variable aléatoire réelle tels que (X, Y ) soit un vecteur gaussien centré. On note
t
d = Cov(X, Y1 ), . . . , Cov(X, Yd ) . Alors

E[X |Y ] = ⟨Σ−1 d, Y ⟩.

Démonstration : 1) Notons c = E[XY ]/E[Y 2 ]. Comme (X, Y ) est un vecteur gaussien


centré, (Y, X − cY ) l’est aussi et par définition de c :

Cov(X − cY, Y ) = Cov(X, Y ) − c Var(Y ) = 0,


Chapitre 2. ©JCB – M1math – Université de Rennes 28

on a donc Y ⊥ ⊥ (X − cY ). Soit Z ∈ L2 (σ(Y )), d’après le théorème de Doob-Dynkin


(Th. 0.4), Z = h(Y ) avec h(Y ) ∈ L2 (σ(Y )). On a
   
E (X − cY )Z = E E[(X − cY )h(Y ) |Y ]
 
= E h(Y )E[(X − cY ) |Y ]
 
= E h(Y ) E[X − cY ] = 0
| {z }
=0

d’après le Th. 2.22 puisque X −cY ⊥⊥ Y . On a donc X −cY ⊥ Z pour tout Z ∈ L2 (σ(Y )),
ie. X − cY ⊥ L2 (σ(Y )). Comme cY ∈ L2 (σ(Y )), on a PL2 (σ(Y )) (X) = cY et d’après
l’interprétation projection (2.14) de l’espérance conditionnelle dans le cadre L2 , on a
bien
E[X |Y ] = PL2 (σ(Y )) (X) = cY.
2) Le cas non centré se déduit de 1) appliqué à X − mX et Y − mY .
3) En notant ⟨a, b⟩ = di=1 ai bi le produit scalaire euclidien, on a X = ⟨a, Z⟩ et Y =
P
⟨b, Z⟩. Le vecteur (X, Y ) est gaussien car image linéaire de Z. En notant Σ la matrice
de covariance de Z, on a

Var(X) = at Σa, Var(Y ) = bt Σb,


d
X
Cov(X, Y ) = ai bj Cov(Zi , Zj ) = at Σb.
i,j=1

En appliquant le 1) au vecteur gaussien (X, Y ), on a

Cov(X, Y ) at Σb
E[X |Y ] = Y = t Y.
Var(Y ) b Σb

4) On note c = Σ−1 d. Le vecteur X − ct Y, Y est gaussien car toutes combinaisons de




ses marginales en est une de celles de (X, Y ) donc de loi normale. Pour chaque 1 ≤ i ≤ d,
on a
h d d
X  i X
E (X − ct Y )Yi = E X −
 
cj Yj Yi = E[XYi ] − cj E[Yi Yj ]
j=1 j=1
= Cov(X, Yi ) − (Σc)i = (d − Σc)i = 0,

par choix de c = Σ−1 d. Il suit que X − ct Y ⊥


⊥ Y . En prenant Z = h(Y ) ∈ L2 (σ(Y )), on
a

E (X − ct Y )Z = E E[(X − ct Y )h(Y ) |Y ]
   

= E h(Y )E[(X − ct Y ) |Y ]
 

= E h(Y ) E[X − ct Y ] = 0
 
| {z }
=0
Chapitre 2. ©JCB – M1math – Université de Rennes 29

d’après le Th. 2.22 puisque X − ct Y ⊥ ⊥ Y . On a donc X − ct Y ⊥ Z pour tout Z ∈


L2 (σ(Y )), ie. X − ct Y ⊥ L2 (σ(Y )). Comme ct Y ∈ L2 (σ(Y )), on a PL2 (σ(Y )) (X) = ct Y et
d’après l’interprétation projection (2.14) de l’espérance conditionnelle dans le cadre L2 ,
on a bien
E[X |Y ] = PL2 (σ(Y )) (X) = ct Y.

2.6 Lois conditionnelles


Dans cette section, on définit les lois conditionnelles. On admet cependant le résultat
difficile d’existence de ces lois (dans un espace polonais) dû à Jiřina (Th. 2.34, cf. [Jir]).
Définition 2.29 (Noyau de probabilité) Soit (S, A) et (T, B) deux espaces mesurables.
On appelle noyau de probabilité (ou de transition) de T dans S toute application ν :
A × T → [0, 1] telle que
(i) pour tout y ∈ T , ν(∗, y) est une probabilité sur (S, A) ;
(ii) pour tout A ∈ A, y 7→ ν(A, y) est B-mesurable.

R mesure σ-finie sur (S, A) et h : S × T → R+ est une


Exemple 2.30 1) Si µ est une
fonction mesurable avec S h(x, y) µ(dx) = 1 pour tout y ∈ T alors
Z
ν(A, y) = h(x, y) µ(dx)
A

définit un noyau de probabilité. La σ-additivité dans (i) de la Définition 2.29 vient


du théorème de convergence monotone. Le point (ii) est assuré par le théorème de
Fubini-Tonelli (Th. 0.5).
2) (Couple à densité) Soit (X, Y ) un couple aléatoire sur R2 de densité f . On peut
appliquer le cas 1) précédent avec (S, A) = (T, B) = (R, B(R)), µ = λ (mesure de
Lebesgue) et
f (x, y)
h(x, y) =
fY (y)
lorsque fY (y) > 0. On définit alors un noyau de probabilité par
Z
f (x, y)
ν(A, y) = dx (2.16)
A fY (y)

lorsque y est dans le support de Y et ν(∗, y) = δs0 sinon pour s0 ∈ S quelconque.


3) (Couple discret) On considère (X, Y ) un couple aléatoire discret. On définit un noyau
de probabilité par
(
=y)
P(X ∈ A|Y = y) = P(X∈A,Y
P(Y =y)
si P(Y = y) > 0
ν(A, y) = (2.17)
δs0 (A) sinon,
où s0 ∈ S est quelconque.
Chapitre 2. ©JCB – M1math – Université de Rennes 30

Proposition 2.31 Soit ν un noyau de probabilité.


(1) Si h est mesurable positive (ou bornée) sur (S, A) alors
Z
φ(y) = h(x) ν(dx, y), y ∈ T, (2.18)

est mesurable sur (T, B).


(2) Si η est une mesure de probabilité sur (T, B) alors
Z
µ(A) = ν(A, y) η(dy), A ∈ A,

est une mesure de probabilité sur (S, A).

Démonstration : (1) Si h = 1A alors φ(y) = ν(A, y) et la mesurabilité découle de (ii)


dans la Définition 2.29. Par les arguments standards de théorie de la mesure, on étend le
résultat pour h simple puis pour h mesurable positive (par approximation et convergence
monotone).
(2) On a µ(A) ≥ 0 car ν(A, y) ≥ 0 et µ(S) = 1 car ν(S, y) = 1 et η est une probabi-
lité. Enfin, µ est σ-additive en utilisant celle de ν(∗, y) et le théorème de convergence
monotone : pour des Ai ∈ A, i ≥ 1, deux à deux disjoints, on a
 +∞
[  Z  +∞ [  Z X+∞
µ Ai = ν Ai , y η(dy) = ν(Ai , y) η(dy)
i=1 i=1 i=1
+∞ Z
X +∞
X
= ν(Ai , y)η(dy) = µ(Ai ).
i=1 i=1

Définition 2.32 (Loi conditionnelle) Soit X, Y des variables aléatoires à valeurs respec-
tivement dans (S, A) et (T, B). On appelle loi conditionnelle de X sachant Y tout noyau
de probabilité ν : A × T → [0, 1] telle que pour toute fonction h mesurable positive sur
(S, A) on a Z
 
E h(X) |Y = h(x) ν(dx, Y ). (2.19)

Remarque 2.33 En utilisant la fonction φ donnée en (2.18), mesurable d’après la Prop. 2.31,
on a E[h(X) |Y ] = φ(Y ). La fonction φ est donc la fonction mesurable du théorème
de Doob-Dynkin (Th. 0.7) appliqué à la variable aléatoire E[h(X) |Y ] qui est σ(Y )-
mesurable.

Par la Définition 2.32, si ν est la loi conditionnelle de X sachant Y alors en prenant


h = 1A dans (2.19), on a

P X ∈ A |Y = ν(A, Y ) ps. (2.20)
Par (i) dans la Définition 2.29, P(X ∈ ·|Y ) ainsi définie est bien une probabilité.
Chapitre 2. ©JCB – M1math – Université de Rennes 31

Existence et unicité de la loi conditionnelle


Existence. L’existence des lois conditionnelles est un résultat difficile. Elle est donnée par
le résultat suivant dû à Jiřina (et admis). Il s’applique en particulier pour des variables
aléatoires à valeurs dans R ou Rp .
Théorème 2.34 (Jiřina) Soit (S, A) et (T, B) deux espaces mesurables. On suppose que S
est un espace polonais (métrique, complet, séparable) avec A = B(S) (tribu borélienne).
Alors il existe une loi conditionnelle de X sachant Y comme dans la Définition 2.32.
Démonstration : Admis. □

Unicité. Si ν et ν ′ sont deux lois conditionnelles de X sachant Y telles que dans la


Définition 2.32 alors pour tout A ∈ A (cf. (2.20)) :

ν(A, Y ) = P Y ∈ A |Y = ν ′ (A, Y ) ps


c’est à dire ν(A, y) = ν ′ (A, y) pour PY -presque chaque y ∈ T (attention au presque


sûr qui dépend de A ∈ A). Dans le cas où les mesures de probabilités sur (S, A) sont
caractérisées par leurs valeurs sur une famille dénombrable d’évènements alors on a

ν(∗, y) = ν ′ (∗, y) pour PY -presque chaque y ∈ T .

C’est le cas pour (S, A) = (Rd , B(Rd )) ; plus généralement, c’est encore le cas lorsque S
un espace polonais (métrique, complet, séparable) avec A = B(S) (tribu borélienne). En
ce sens, il y a unicité de la loi conditionnelle de X sachant Y .

Cadres usuels
On prolonge l’Exemple 2.30 avec les cas usuels discret et à densité. D’après le Théo-
rème de Jiřina (Th. 2.34), dans ces cas il y a existence et unicité de la loi conditionnelle.
On montre qu’alors les noyaux de probabilité sont donnés par (2.16) et (2.17).

Proposition 2.35 (Loi conditionnelle à densité) Soit (X, Y ) un couple aléatoire de den-
sité f . Alors la loi conditionnelle de X sachant Y est donnée par le noyau de densité
(2.16).

Démonstration : On montre (2.19) avec ν(dx, y) = ffY(x,y)


(y)
dx lorsque y ∈ S(Y ) (probabilité
quelconque sinon) en établissant que pour A ∈ σ(Y ), on a
 h Z  i
E h(X)1A ] = E h(x) ν(dx, Y ) 1A .

Comme A ∈ σ(Y ) s’écrit A = Y −1 (B) et 1A = 1B (Y ), on a :


h Z  i h Z  i
E h(x) ν(dx, Y ) 1A = E h(x) ν(dx, Y ) 1B (Y )
Chapitre 2. ©JCB – M1math – Université de Rennes 32
Z Z 
= h(x) ν(dx, y)dx 1B (y)fY (y)dy (formule de transfert)
Z Z f (x, y) 
= h(x) dx 1B (y)fY (y)dy (définition de ν)
S(Y ) fY (y)
Z
= h(x)1B (y)f (x, y) dxdy (théorème de Fubini)
 
= E h(X)1B (Y )] = E h(X)1A ].
R
Cela justifie que φ(Y ) = h(x) ν(dx, Y ) vérifie le ii) de la Définition 2.1 de E[h(X)|Y ].
Comme φ(Y ) est σ(Y )-mesurable, le i) est immédiat et on a bien φ(Y ) = E[h(X)|Y ],
prouvant que ν(∗, Y ) est la loi conditionnelle de X sachant Y (Définition 2.32). □

Proposition 2.36 (Loi conditionnelle discrète) Soit (X, Y ) un couple aléatoire discret.
Alors la loi conditionnelle de X sachant Y est donnée par le noyau discret (2.17).
=y)
Démonstration : On montre (2.19) avec ν(x, y) = P(X=x,Y P(Y =y)
lorsque P(Y = y) > 0
(probabilité quelconque sinon) en établissant que pour A ∈ σ(Y )
 h Z  i
E h(X)1A ] = E h(x) ν(dx, Y ) 1A .

Comme A ∈ σ(Y ) s’écrit A = Y −1 (B) et 1A = 1B (Y ), on a :


h Z  i h Z  i
E h(x) ν(dx, Y ) 1A = E h(x) ν(dx, Y ) 1B (Y )
X Z 
= h(x) ν(dx, y) 1B (y)P(Y = y)
y∈S(Y )
X  X P(X = x, Y = y) 
= h(x) 1B (y)P(Y = y)
P(Y = y)
y∈S(Y ) x∈S(X)
X
= h(x)1B (y)P(X = x, Y = y)
(x,y)∈S(X)×S(Y )
 
= E h(X)1B (Y )] = E h(X)1A ].

Commme précédemment, cela justifie successivement que φ(Y ) = E[h(X)|Y ], et que


ν(∗, Y ) est la loi conditionnelle de X sachant Y (Définition 2.32). □

Conditionnement par Y = y
On revient au conditionnement par un évènement comme dans le Chapitre 1 et on
donne un sens général à des probabilités conditionnelles du type P(X ∈ A|Y = y), même
lorsque P(Y = y) = 0.
Chapitre 2. ©JCB – M1math – Université de Rennes 33

Définition 2.37 (Probabilité conditionnelle sachant Y = y) Lorsque la loi conditionnelle


ν de X sachant Y existe, on pose pour PY -presque chaque y :

P(X ∈ A|Y = y) = ν(A, y). (2.21)

Lorsque Y est une variable aléatoire discrète, on a commencé par voir au Chapitre 1
avec la Définition 1.11 que
X
P(X ∈ A|Y ) = E[1A (X)|Y ] = E[1A (X)|Y = y]1{Y =y}
y∈Y (Ω)
X
= P(X ∈ A|Y = y)1{Y =y} ,
y∈Y (Ω)

si bien que P(X ∈ A|Y ) = P(X ∈ A|Y = y) sur {Y = y}, ce qui se retrouve avec le
cadre plus général donné par (2.20) et (2.21) :

P(X ∈ A|Y ) = ν(A, Y ), P(X ∈ A|Y = y) = ν(A, y).

Dans le cas où P(Y = y) > 0, la définition de P(∗|Y = y) coı̈ncide donc avec la définition
élémentaire du Chapitre 1, cf. (2.17).
Lorsque P(Y = y) = 0, le conditionnement par {Y = y} n’est pas bien défini dans le
Chapitre 1 (cf. par exemple P(X ∈ A |Y = y) en (1.11)) et on parle de conditionnement
singulier.
Avec la Définition 2.37, on définit aussi :

Définition 2.38 (Loi conditionnelle sachant Y = y) On définit la loi conditionnelle de


X sachant Y = y pour PY -presque chaque y par :

L X|Y = y = ν(∗, y).

On peut alors définir les espérances conditionnelles sachant Y = y comme l’espérance


par rapport à la loi conditionnelle sachant Y = y, ie.
Z
 
E h(X)|Y = y = h(x) PX (dx |Y = y).

De plus, compte tenu de (2.20) et (2.21), on observe que si


 
E h(X) |Y = y = φ(y)

alors  
E h(X) |Y = φ(Y ).
Cette observation justifie que pour calculer E[h(X)|Y ], on peut faire le calcul comme si
Y était figé en y avec la loi conditionnelle de X sachant Y = y, une fois le résultat φ(y)
obtenu, on a le résultat final φ(Y ) en reprenant Y à la place de y.
Chapitre 2. ©JCB – M1math – Université de Rennes 34

Proposition 2.39 Soit X, Y deux variables aléatoires. On a X ⊥


⊥ Y si et seulement si la
loi conditionnelle L(X|Y = y) de X sachant Y = y existe pour PY -presque chaque y et
ne dépend pas de y.

Démonstration : On suppose d’abord X ⊥


⊥ Y . On a
Z
 
E h(X) |Y = E[h(X)] = h(x) PX (dx)
 
ce qui justifie L X|Y = ν(·, Y ) = PX et, pour tout y, L X|Y = y = ν(·, y) = PX , ce
qui prouve le sens direct.
On suppose ensuite que la loi L(X|Y = y) de X sachant Y = y existe pour PY -presque
chaque y et ne dépend pas de y, ie. L(X|Y = y) = ν(∗, y) = ν(∗), on a alors pour tout
A, B ∈ B(R) :
   
P(X ∈ A, Y ∈ B) = E[1A (X)1B (Y )] = E E[1A (X)1B (Y ) |Y ] = E E[1A (X) |Y ]1B (Y )
Z Z
= ν(A, y)1B (y) PY (dy) = ν(A)1B (y) PY (dy)
Z
= ν(A) 1B (y) PY (dy) = ν(A) P(Y ∈ B),

ce qui justifie X ⊥
⊥Y. □

Désintégration et Fubini conditionnel


Proposition 2.40 (Désintégration d’une loi) Soit X, Y des variables aléatoires à valeurs
respectivement dans (S, A) et (T, B) telle que la loi conditionnelle P(X ∈ ∗|Y = ·) est
bien définie comme en Définition 2.32 avec un noyau de transition ν(∗, ·) comme en
Définition 2.29. Alors, pour tout A ∈ A et B ∈ B on a
Z Z
P(X ∈ A, Y ∈ B) = ν(A, y) PY (dy) = P(X ∈ A|Y = y) PY (dy). (2.22)
B B

Démonstration : Pour A ∈ A et B ∈ B, on a
 
P(X ∈ A, Y ∈ B) = E[1A (X)1B (Y )] = E E[1A (X)1B (Y ) |Y ]
Z
= E[ν(A, Y )1B (Y )] = ν(A, y) PY (dy)
Z B

= P(X ∈ A|Y = y) PY (dy)


B

en utilisant la notation (2.21) pour P(X ∈ A|Y = y). □

Plus généralement, avec les arguments standards de théorie de la mesure, on montre :


Chapitre 2. ©JCB – M1math – Université de Rennes 35

Théorème 2.41 (Fubini conditionnel) Soit (X, Y ) un couple aléatoire à valeurs dans
(S × T, A ⊗ B) telle que la loi conditionnelle P(X ∈ ∗|Y = ·) est bien définie comme en
Définition 2.32. Alors
R
(1) Pour f : (S × T, A ⊗ B) → R+ mesurable (positive), y 7→ S f (x, y) PX (dx |Y = y)
est mesurable et
Z Z Z 
f (x, y) P(X,Y ) (dx, dy) = f (x, y) PX (dx |Y = y) PY (dy). (2.23)
S×T T S

(2) Pour f : (S × T, A ⊗ B) → R mesurable de signe quelconque, P(X,Y ) -intégrable, alors


pour PY -presque chaque
R y ∈ T , l’application f (·, y) est PX (∗ |Y = y)-intégrable et
l’application y 7→ S f (x, y) PX (dx |Y = y) est PY -intégrable avec l’égalité (2.23)
encore vraie.

En notant Z
φf (y) = f (x, y) PX (dx |Y = y),
S
−1
(2.23) assure que pour tout B = Y (C) ∈ σ(Y )
Z
E[1B f (X, Y )] = E[1C (Y )f (X, Y )] = 1C (y)φf (y) PY (dy)
T
= E[1C (Y )φf (Y )] = E[1B φf (Y )].
Comme φf (Y ) est σ(Y )-mesurable, on a
Z  Z
E[f (X, Y ) |Y ] = φf (Y ) = f (x, y) PX (dx |Y = y) = f (x, Y ) ν(dx, Y ).
S y=Y

Par conséquent lorsque h(f (X, Y )) ∈ L1 , on a par la formule de transfert


Z
E[h(f (X, Y )) |Y ] = h(f (x, Y )) ν(dx, Y )
Z
h(u) ν(∗, Y ) ◦ f (∗, Y )−1 (dx)

=

donc, d’après la Définition 2.32, la loi conditionnelle de f (X, Y ) sachant Y est


L f (X, Y ) |Y = ν(∗, Y ) ◦ f (∗, Y )−1 .

(2.24)
De la même façon, par la formule de transfert
Z
E[h(f (X, y)) |Y ] = h(f (x, y)) ν(dx, Y )
Z
h(u) ν(∗, Y ) ◦ f (∗, y)−1 (dx)

=

et, d’après la Définition 2.32, la loi conditionnelle de f (X, y) sachant Y est


L f (X, y) |Y = ν(∗, Y ) ◦ f (∗, y)−1 .

(2.25)
En comparant (2.24) et (2.25), compte tenu de la notation (2.21), on a prouvé :
Chapitre 2. ©JCB – M1math – Université de Rennes 36

Proposition 2.42 (Transfert conditionnel) Sous les mêmes conditions que dans le Th. 2.41,
on a : 
P f (X, Y ) ∈ ∗ |Y = y = P f (X, y) ∈ ∗ |Y = y)
ou  
L f (X, Y ) |Y = y = L f (X, y) |Y = y .
Deuxième partie

Martingales

37
Chapitre 3

Martingales et filtrations

Dans ce chapitre, on introduit la notion de martingale. On commence par les notions


de filtration en Section 3.1 et de temps d’arrêt en Section 3.2 avant de définir les martin-
gales en Section 3.3 et d’en donner les premières propriétés en Section 3.4. On termine
ce chapitre avec la notion de martingale arrêtée en Section 3.5.
Dans la suite, on considère un espace de probabilité (Ω, F, P).

3.1 Filtration et mesurabilité


Filtration
Définition 3.1 (Filtration) Soit (Fn )n≥0 une suite de sous-tribus de F. On dit que (Fn )n≥0
est une filtration lorsque pour tout n ≥ 0, on a Fn ⊂ Fn+1 . 
Un espace de probabilité muni d’une filtration Ω, F, (Fn )n≥0 , P s’appelle un espace de
probabilité filtré.

Définition 3.2 (Adapté) On dit qu’une suite (Xn )n≥0 est adaptée par rapport à une fil-
tration (Fn )n≥0 si pour tout n ≥ 0, Xn est Fn -mesurable.

Exemple 3.3 (Filtration canonique) Si (Xn )n≥1 est une suite de variables aléatoires, on
appelle filtration canonique ou naturelle la filtration (Fn )n≥1 des tribus engendrées par
ces variables aléatoires :
n
!
[
Fn = σ(X1 , . . . , Xn ) := σ σ(Xi ) , n ≥ 1.
i=1

Il s’agit de la plus petite tribu rendant chaque Xi mesurable pour 1 ≤ i ≤ n. Si besoin,


on complète la filtration par F0 = {∅, Ω} (en général associé à un choix de X0 constante).
On parle aussi de la filtration engendrée par la suite (Xn )n≥1 . Par construction, la suite
(Xn )n≥1 est adaptée par rapport à sa filtration naturelle.

38
Chapitre 3. ©JCB – M1math – Université de Rennes 39


Exemple 3.4 (Filtration dyadique) Soit (Ω, F, P) = ]0, 1[, B(]0, 1[), λ où λ est la me-
sure de Lebesgue sur ]0, 1[ (probabilité uniforme). On pose
h i − 1 i h 
n
Fn = σ , : i = 1, . . . , 2 , n ≥ 0,
2n 2n
et (Fn )n≥0 s’appelle alors la filtration dyadique de [0, 1]. On a bien une filtration car
comme pour tout n ≥ 1 et 1 ≤ i ≤ 2n :
h i − 1 i h h 2i − 2 2i − 1 h h 2i − 1 2i h
, = , ∪ , ,
2n 2n 2n+1 2n+1 2n+1 2n+1
on a nh i − 1 i h o
n
Dn := , : i = 1, . . . , 2 ⊂ σ(Dn+1 ),
2n 2n
et donc Fn = σ(Dn ) ⊂ Fn+1 = σ(Dn+1 ).

Prévisibilité
Définition 3.5 (Prévisibilité) Une suite de variables aléatoires (Hn )n≥1 est dite prévi-
sible pour une filtration (Fn )n≥0 si, pour tout n ≥ 1, Hn est Fn−1 -mesurable.

Remarque 3.6 (Interprétation sous forme d’information) En interprétant une sous-tribu


G ⊂ F comme une quantité d’information, il faut comprendre la G-mesurabilité d’une
variable aléatoire X comme la connaissance de cette variable aléatoire : X G-mesurable
est connue dès lors que la sous-tribu G l’est.
Ainsi on peut interpréter une filtration comme une quantité d’information qui évolue au
cours du temps : N est le temps et Fn est l’information disponible à la date n.
Une suite (Xn )n≥1 est alors adaptée si Xn est connue à la date n. Une suite (Hn )n≥1 est
prévisible si Hn peut être prédite avec l’information Fn−1 disponible à la date n − 1.

Des exemples typiques de suites prévisibles sont donnés avec la notion de temps d’arrêt
qui suit, cf. (3.1).

3.2 Temps d’arrêt


La notion de temps d’arrêt est associée à une filtration (Fn )n≥0 qu’on commence par se
fixer.

Définition 3.7 (Temps d’arrêt) Une variable aléatoire T à valeurs dans N ∪ {+∞} est
un (Fn )-temps d’arrêt si pour tout n ≥ 0 on a {T ≤ n} ∈ Fn .

Remarque 3.8 À chaque date n ≥ 0, on sait si la date aléatoire T est échue ou pas.

Exemple 3.9 (Temps d’arrêt)


Chapitre 3. ©JCB – M1math – Université de Rennes 40

1. Si T est constant égale à n0 alors T est un temps d’arrêt.


2. Soit (Xn )n≥1 une suite de variables aléatoires et (Fn )n≥1 sa filtration naturelle.
— (Temps d’atteinte) T = min i ≥ 0 : Xi ∈ A est un (Fn )-temps d’arrêt pour
A ∈ B(R). En effet
[n
 
T ≤n = Xk ∈ A ∈ Fn
k=0

puisque {Xk ∈ A} ∈ Fk ⊂ Fn , 0 ≤ k ≤ n.
— Attention, T = max i ≥ 0 : Xi ∈ A n’est pas un temps d’arrêt par rapport à
la filtration naturelle. Par exemple,
  
T = n = Xn ∈ A, Xn+1 ̸∈ A, Xn+2 ̸∈ A, . . . ̸∈ σ X1 , . . . , Xn = Fn .

Remarque 3.10 1. {T = n} = {T ≤ n} \ {T ≤ n − 1} ∈ Fn ;
2. {T ≥ n} = {T ≤ n − 1}c ∈ Fn−1 ;
3. Étant donné un (Fn )-temps d’arrêt T , on définit une suite prévisible par

Hn = 1{T ≥n} , n ≥ 0. (3.1)

Proposition 3.11 (Propriétés des temps d’arrêt)


(1) T est un temps d’arrêt si et seulement si pour tout n ≥ 0 on a {T = n} ∈ Fn .
(2) Si T et S sont des (Fn )-temps d’arrêt. Alors T ∧ S, T ∨ S, T + S en sont aussi.
(3) Si T est un (Fn )-temps d’arrêt alors pour tout k ≥ 0, T ∧ k en est un aussi.
(4) Si (Tp )p≥1 est une suite monotone de (Fn )-temps d’arrêt alors T = limp→+∞ Tp est
aussi un temps d’arrêt.
(5) Soit (Tp )p≥1 est une suite de (Fn )-temps d’arrêt alors

inf Tp , sup Tp , lim inf Tp , lim sup Tp


p≥1 p≥1 p→+∞ p→+∞

sont des (Fn )-temps d’arrêt.

Démonstration : 1) Si T est un temps d’arrêt vérifiant la Définition 3.7 alors {T = n} =


{T ≤ n} \ {T ≤ n − 1} ∈ Fn puisque {T S ≤ n} ∈ Fn et {T ≤ n − 1} ∈ Fn−1 ⊂ Fn . La
réciproque vient de ce que {T ≤ n} = k≤n {T = k} ∈ Fn lorsque {T = k} ∈ Fk ⊂ Fn
pour 0 ≤ k ≤ n.
2) En effet pour n ∈ N, on écrit
  
T ∧ S ≤ n = T ≤ n ∪ S ≤ n ∈ Fn ;
  
T ∨ S ≤ n = T ≤ n ∩ S ≤ n ∈ Fn ;
[n

T +S =n = {T = k} ∩ {S = n − k} ∈ Fn
k=0
Chapitre 3. ©JCB – M1math – Université de Rennes 41

car {T ≤ n} ∈ Fn , {S ≤ n} ∈ Fn , {T = k} ∈ Fk ⊂ Fn et {S = n − k} ∈ Fn−k ⊂ Fn
pour 0 ≤ k ≤ n et on utilise la caractérisation 1).
2) Cela découle de 3) avec le temps d’arrêt S = k (Exemple 3.9). Ou alors pour n ≥ k,
on {T ∧ k ≤ n} = Ω ∈ Fn et pour n < k, on a
 
{T ∧ k ≤ n} = {T ∧ k ≤ n} ∩ {T ≤ k} ∪ {T ∧ k ≤ n} ∩ {T > k}
 
= {T ≤ n} ∩ {T ≤ k} ∪ {k ≤ n} ∩ {T > k}
= {T ≤ k ∧ n} ∪ {T ≤ k}c ∩ ∅ = {T ≤ k ∧ n} ∈ Fn∧k ⊂ Fn .


4) Pour tout n ∈ N, on a dans les cas croissant et décroissant respectivement


n o \
{T ≤ n} = lim Tp ≤ n = {Tp ≤ n} ∈ Fn
p→+∞ | {z }
p≥1
∈Fn
n o [
{T ≤ n} = lim Tp ≤ n = {T ≤ n} ∈ Fn
p→+∞ | p {z }
p≥1
∈Fn

puisque {Tp ≤ n} ∈ Fp (tribu) en utilisant dans la deuxième partie que les Tp sont à
valeurs entières.
5) découle des propriétés précédentes en écrivant

inf Tp = lim min Tp , lim inf Tp = sup inf Tk ,


p≥1 n→+∞ 1≤p≤n p≥1 n≥1 k≥n
sup Tp = lim max Tp , lim sup Tp = inf sup Tk ,
p≥1 n→+∞ 1≤p≤n p≥1 n≥1 k≥n

ou directement à partir de
n o [ n o \
inf Tp ≤ n = {Tp ≤ n}, sup Tp ≤ n = {Tp ≤ n},
p≥1 p≥1
p≥1 p≥1
n o +∞
[ \ n o +∞
\ [
lim inf Tp ≤ n = {Tp ≤ n}, lim sup Tp ≤ n = {Tp ≤ n}.
p→+∞ p→+∞
m=0 p≥m m=0 p≥m

Définition 3.12 (Tribu d’un temps d’arrêt) À un temps d’arrêt T , on associe la tribu

FT = A ∈ F : ∀n ∈ N, A ∩ {T ≤ n} ∈ Fn . (3.2)

D’abord, on s’assure que la Définition 3.12 a bien un sens :

Proposition 3.13 Lorsque T est un temps d’arrêt, FT en (3.2) est bien une tribu.
Chapitre 3. ©JCB – M1math – Université de Rennes 42

Démonstration : On a bien Ω ∈ FT puisque Ω ∩ {T ≤ n} = {T ≤ n} ∈ Fn pour tout


n ≥ 0. Puis si Ai , i ∈ I ⊂ N, sont dans FT alors
[  [ 
Ai ∩ {T ≤ n} = Ai ∩ {T ≤ n} ∈ Fn
i∈I i∈I
| {z }
∈Fn

puisque Ai ∩ {T ≤ n} ∈ Fn (car Ai ∈ FT ).
Enfin, si A ∈ FT alors pour tout n ≥ 0, on a

Ac ∩ {T ≤ n} = {T ≤ n} \ A ∩ {T ≤ n} ∈ Fn


puisque A ∩ {T ∩ n} ∈ Fn et {T ≤ n} ∈ Fn . Cela assure Ac ∈ FT . Finalement, FT est


bien une tribu. □

Remarque 3.14 — On a σ(T ) ⊂ FT (voir ci-dessous, Prop. 3.15) donc T est en


particulier FT -mesurable mais attention en général l’égalité est fausse.
— Il faut comprendre FT de la manière suivante : quand T a lieu avant n, on sait à
la date n si A est réalisé ou pas.
— Si (Fn )n≥0 est la filtration naturelle de (Xn )n≥0 et T est un (Fn )-temps d’arrêt
alors l’information contenue dans FT comprend, d’une part la valeur de T et
d’autre part aussi, les valeurs de X1 , . . . , XT .
— De façon générale, en suivant la Remarque 3.6, on peut interpréter la tribu FT
comme l’information disponible à la date aléatoire T .

Proposition 3.15 (Propriétés des tribus FT )


(1) Pour un temps d’arrêt constant T = n0 , alors on a bien FT = Fn0 .
(2) À l’instar de 1) dans la Prop. 3.11, A ∈ FT si et seulement si A ∩ {T = n} ∈ Fn .
(3) Si T ≤ S sont deux temps d’arrêt alors FT ⊂ FS .
(4) Un temps d’arrêt T est FT -mesurable.
(5) Pour T , S des temps d’arrêt, on a FT ∧S = FT ∩ FS . De plus {T ≤ S}, {S ≤
T }, {T = S} ∈ FT ∧S .
(6) Pour A ∈ F et T un temps d’arrêt, posons TA (ω) = T (ω) si ω ∈ A, TA (ω) = +∞
sinon. Alors A ∈ FT si et seulement si TA est un temps d’arrêt.

Démonstration : 1) On a A ∈ FT si et seulement si pour tout n ≥ 0, A ∩ {T ≤ n} ∈ Fn .


Lorsque T = n0 ,
— pour n < n0 , {T ≤ n} = ∅ et A ∩ {T ≤ n} = ∅ ∈ Fn (toujours vrai).
— pour n ≥ n0 , {T ≤ n} = Ω et A ∩ {T ≤ n} = A est dans Fn pour tout n ≥ n0 si
et seulement si A ∈ Fn0 .
Chapitre 3. ©JCB – M1math – Université de Rennes 43

Finalement A ∈ FT si et seulement si A ∈ Fn0 , soit FT = Fn0 .


2) découle des égalités :
 
A ∩ {T = n} = A ∩ A ∩ {T ≤ n} \ A ∩ {T ≤ n − 1}
n
[
A ∩ {T ≤ n} = A ∩ {T = k}.
k=0

3) Soit A ∈ FT et n ≥ 0. Comme T ≤ S, on a
∈Fn ∈Fn
z }| { z }| {
A ∩ {S ≤ n} = A ∩ {T ≤ n} ∩ {S ≤ n} ∈ Fn .

On a donc bien A ∈ FS .
4) Comme les ensembles [0, t] engendrent la tribu B(R+ ), on montre que T est FT -
mesurable en prouvant que {T ≤ p} ∈ FT pour tout p ≥ 0. Pour cela, soit n ≥ 0,
on a 
{T ≤ p} ∩ {T ≤ n} = T ≤ n ∧ p ∈ Fn∧p ⊂ Fn ,
ce qui justifie que {T ≤ p} ∈ FT .
5) D’après le 3) avec T ∧ S ≤ T et T ∧ S ≤ S, on a FT ∧S ⊂ FT ∩ FS . Puis si A ∈ FT ∩ FS
alors pour tout n ≥ 0, on a A ∩ {T ≤ n} ∈ Fn et A ∩ {S ≤ n} ∈ Fn donc
 
A ∩ {T ∧ S ≤ n} = A ∩ {T ≤ n} ∪ A ∩ {S ≤ n} ∈ Fn

ce qui assure A ∈ FT ∧S .
Compte tenu de la première partie, pour montrer {T ≤ S} ∈ FT ∧S = FT ∩ FS , il suffit
de montrer que {T ≤ S} ∈ FT et {T ≤ S} ∈ FS .
On a
{T ≤ S} ∩ {T ≤ n} = {T ∧ n ≤ S ∧ n} ∩ {T ≤ n}
avec {T ∧ n ≤ S ∧ n} ∈ Fn car T ∧ n et S ∧ n sont Fn -mesurables et {T ≤ n} ∈ Fn . On
montre que {T ≤ S} ∩ {S ≤ n} ∈ SF n en montrant que {T ≤ S} ∩ {S = n} ∈ Fn pour
n
chaque n ≥ 0 (écrire {S ≤ n} = k=0 {S = k}) : comme {T ≤ n}, {S = n} ∈ Fn , on a
bien
{T ≤ S} ∩ {S = n} = {T ≤ n} ∩ {S = n} ∈ Fn .

On a donc {T ≤ S} ∈ FT ∩ FS = FT ∧S .
De la même façon, on a {S ≤ T } ∈ FT ∧S et donc il vient

T = S = {T ≤ S} ∩ {S ≤ T } ∈ FT ∧S .

6) On a A ∈ FT si et seulement si pour tout n ≥ 0 : A ∩ {T ≤ n} ∈ Fn . Mais


A ∩ {T ≤ n} = {TA ≤ n} ce qui permet de conclure. □
Chapitre 3. ©JCB – M1math – Université de Rennes 44

Proposition 3.16 Soit (Xn )n≥1 une suite (Fn )-adaptée et T un temps d’arrêt. Alors la
variable aléatoire 
Xn si T = n
1{T <+∞} XT =
0 si T = +∞
est FT -mesurable. Lorsque T < +∞ ps, il n’y a pas d’ambiguı̈té de notation et on écrit
simplement XT .

Démonstration : Pour B ∈ B(R) et n ∈ N, on a



1{T <+∞} XT ∈ B ∩ {T = n} = {Xn ∈ B} ∩ {T = n} ∈ Fn ,

c’est à dire 1{T <+∞} XT ∈ B ∈ FT pour tout B ∈ B(R), ie. 1{T <+∞} XT est FT -
mesurable. □

3.3 Martingales, sous-martingales et sur-martingales


Définitions
Définition 3.17 (Martingale) Une suite de variables aléatoires (Xn )n≥0 est une martin-
gale par rapport à une filtration (Fn )n≥0 si
 
(i) E |Xn | < +∞ pour tout n ≥ 0 ;
(ii) la suite (Xn )n≥0 est (Fn )-adaptée ;
(iii) pour tout n ≥ 0 :  
E Xn+1 |Fn = Xn . (3.3)

Définition 3.18 (Sur- et sous-martingales) On parle de sous-martingales ou de sur-martingales


quand (iii) dans la Définition 3.17 est remplacé respectivement par
 
sous-martingale : E Xn+1 |Fn ≥ Xn pour tout n ≥ 0 ;
 
sur-martingale : E Xn+1 |Fn ≤ Xn pour tout n ≥ 0.

Dans la suite, lorsque il n’y a pas d’ambiguı̈té, on pourra omettre d’indiquer la filtration
(Fn )n≥0 et on parlera simplement de martingales plutôt que de (Fn )-martingale. Idem
pour les sous ou sur-martingales.

Exemples de martingales, sous-martingales, sur-martingales


Exemple 3.19 (Martingale
 fermée) Soit X ∈ L1 (F). On définit une martingale par
Xn = E X |Fn , n ≥ 0. La propriété de martingale suit facilement du Th. 2.12 (condi-
tionnement par cascade). Une telle martingale sera dite fermée, cf. Définition 4.24. On
parle aussi de martingale de Doob.
Chapitre 3. ©JCB – M1math – Université de Rennes 45

Exemple 3.20 (Marche aléatoire) Soit (Xn )n≥1 une suite de variables aléatoires inté-
grables indépendantes centrées alors

Sn = X1 + · · · + Xn , n ≥ 1, et S0 = 0,

est une (sur/sous)-martingale par rapport à la filtration naturelle Fn = σ(X1 , . . . , Xn ),


n ≥ 1 (avec F0 = {∅, Ω}), selon le signe ou la nullité de E[X1 ].
En effet, Sn est clairement Fn -mesurable et intégrable car les Xi , 1 ≤ i ≤ n, le sont.
Comme Xn+1 ⊥ ⊥ Fn = σ(X1 , . . . , Xn ), il vient par le Th. 2.22 :
     
E Sn+1 |Fn = E Sn + Xn+1 |Fn = Sn + E Xn+1 |Fn = Sn + E[Xn+1 ] = Sn ,

dans le cas centré (on adapte facilement aux cas E[X1 ] > 0 et E[X1 ] < 0).
Dans cet exemple, on a
 
Xn = Sn − Sn−1 = Sn − E Sn |Fn−1 .

Ainsi la suite (Xn )n≥1 n’est pas un‘e martingale mais une différence de martingale.
De façon générale, une suite de variables aléatoires indépendantes est une différence
de martingale. Le comportement asymptotique de martingales généralise ainsi celui de
sommes de variables aléatoires indépendantes, cf. Section 4.2.

Exemple 3.21 (Modèle auto-régressif ) Soit (εn )n≥1 une suite de variables aléatoires iid
intégrables centrées et a ∈ R∗ . On pose

Xn+1 = aXn + εn+1 , n ≥ 0, et X0 = x. (3.4)

Alors Yn = Xn /an , n ≥ 0, forme une martingale par rapport à la filtration naturelle


Fn = σ(ε1 , . . . , εn ) , n ≥ 1, F0 = {∅, Ω}.
En effet, par récurrence, les Yn sont intégrables et Fn -mesurables, n ≥ 1. Puis
  1  
E Yn+1 |Fn = n+1
E aX n + ε n+1 |Fn
a
1  1
= aXn + E[εn+1 ] = n Xn = Yn
an+1 a
car Xn est Fn -mesurable et εn+1 ⊥
⊥ Fn (Th. 2.22).

Exemple 3.22 (Galton-Watson) Soit (Xi,j )i,j≥1 une famille de variables aléatoires en-
tières iid de loi µ (sur N) admettant pour moyenne m. On pose Z0 = 1 et pour n ≥ 1
Zn
X
Zn+1 = Xn+1,j . (3.5)
j=1
Chapitre 3. ©JCB – M1math – Université de Rennes 46

Alors (Zn /mn )n≥0 est une martingale par rapport à la filtration donnée par Fn = σ(Xi,j :
i ≤ n, j ≥ 1) : d’abord, on observe par récurrence que Zn est Fn -mesurable. En effet, si
Zn l’est alors pour tout A ∈ N, on a
+∞ +∞
( p ) !
[ [ X
{Zn+1 ∈ A} = {Zn+1 ∈ A, Zn = p} = Xn+1,j ∈ A ∩ {Zn = p} ∈ Fn+1
p=0 p=0 j=1
Pp
puisque j=1 Xn+1,j est Fn+1 -mesurable et Zn aussi par hypothèse de récurrence. Puis
la propriété de martingale est bien satisfaite :
Zn
X  XZn
  
E[Zn+1 |Fn ] = E Xn+1,j |Fn = E[Xn+1,j |Fn = Zn E Xn+1,j = Zn m
j=1 j=1

car Zn est Fn -mesurable et Xn+1,j ⊥


⊥ Fn (Th. 2.22). Il vient
 
Zn+1 Zn
E n+1 Fn = n .
m m

À noter que les espérances conditionnelles sont bien définies puisque les variables aléa-
toires sont positives. A posteriori, on observe par récurrence que Zn est bien intégrable
puisque  
E[|Zn |] = E[Zn ] = E E[Zn+1 |Fn ] = m E[Zn ] < +∞.
Cette martingale modélise l’évolution d’une population avec loi de reproduction µ. Dans
cette interprétation, N représente les numéros des générations successives, Xn+1,j est le
nombre d’enfants de l’individu j de la génération n pour former la génération n + 1 et
Zn désigne la taille de la population à la génération n.

Exemple 3.23 (Wright-Fisher) Soit E = {0, 1 . . . , N } et X0 ∈ {1, 2 . . . , N − 1}. Par


récurrence, on définit les lois conditionnelles
 
L Xn+1 Fn = B N, Xn /N . (3.6)

Cela définit une martingale par rapport à la filtration naturelle puisque


X 
  n
E Xn+1 |Fn = N = Xn .
N
Exemple 3.24 (Cascade aléatoire) Soit (Xn )n≥1 une suite de variables aléatoires inté-
grables indépendantes telle que E[Xn ] = 1 pour tout n ≥ 1. On note (Fn )n≥1 la filtration
naturelle de (Xn )n≥1 et on pose Y0 = 1, et
n
Y
Yn = Xi .
i=1

Alors (Yn )n≥0 est une (Fn )-martingale.


Chapitre 3. ©JCB – M1math – Université de Rennes 47

En effet, il est clair que Yn est Fn -mesurable et intégrable puisque par indépendance des
Xi :
hYn i Y n
   
E |Yn | = E |Xi | = E |Xi | < +∞.
i=1 i=1

Puis comme Yn est Fn -mesurable et Xn+1 ⊥


⊥ Fn , avec le Th. 2.22 on a :
     
E Yn+1 |Fn = E Yn Xn+1 |Fn = Yn E Xn+1 |Fn = Yn E[Xn+1 ] = Yn .

Lorsque les variables aléatoires Xi sont toutes positives, on a des résultats analogues
pour des sous-martingales quand E[Xi ] ≥ 1 pour tout i ≥ 1 ou des sur-martingales
quand E[Xi ] ≤ 1 pour tout i ≥ 1.

3.4 Propriétés des martingales


De façon générale, les énoncés pour les martingales s’adaptent pour des sous-martingales
ou des sur-martingales.
Proposition 3.25 Si (Xn )n≥0 est une (Fn )-martingale alors (Xn )n≥0 est une (Gn )-martingale
pour Gn = σ(X1 , . . . , Xn ). Le même énoncé reste vrai pour des sous-martingales ou sur-
martingales.
Démonstration : Puisque (Xn )n≥0 est une (Fn )-martingale, chaque Xn est intégrable.
Puis par définition de (Gn )n≥0 , (Xn )n≥0 est (Gn )-adaptée. Comme X1 , . . . , Xn sont Fn -
mesurables, il est immédiat que Gn ⊂ Fn . Par le Th. 2.12 (conditionnement en cascade),
on a alors
=Xn
  z }| {   
E Xn+1 |Gn = E E[Xn+1 |Fn ] |Gn = E Xn |Gn = Xn
puisque (Xn )n≥0 est une (Fn )-martingale et Xn est Gn -mesurable. □

Proposition 3.26 Dans la définition d’une martingale


 (Définition 3.17), (3.3) est équi-
valente à : pour tout n > m, on a E Xn |Fm = Xm . Résultats analogues pour des sous
ou sur-martingales.

Démonstration : Par définition (Définition 3.18), le résultat est vrai pour n = m + 1. Si


on suppose qu’il est vrai pour n = m+k−1, k ≥ 2, alors par le Th. 2.12 (conditionnement
en cascade) et la monotonie de l’espérance conditionnelle (Prop. 2.15), on a
     
E Xn+k |Fm = E E[Xn+k |Fm+k−1 ] |Fm = E Xn+k−1 |Fm

et le résultat découle maintenant de l’hypothèse de récurrence. □

Proposition 3.27 Soit (Xn )n≥0 une martingale (resp. sous-martingale, sur-martingale).
Alors E[Xn+1 ] = E[Xn ](= E[X0 ]) (resp. E[Xn+1 ] ≥ E[Xn ], E[Xn+1 ] ≤ E[Xn ]).
Chapitre 3. ©JCB – M1math – Université de Rennes 48

Remarque 3.28 En quelque sorte, il faut retenir que les sous-martingales sont des ana-
logues aléatoires des suites numériques croissantes (E[Xn ] ≤ E[Xn+1 ] pour tout n ≥ 0).

Démonstration : En prenant l’espérance dans la propriété de martingale (3.3), on a


 
E[Xn+1 ] = E E[Xn+1 |Fn ] = E[Xn ].

On adapte facilement l’argument pour les sous-martingales et pour les sur-martingales. □

Proposition 3.29 (Martingale et Jensen)


(1) Si (Xn )n≥0 est une (Fn )-martingale et φ : R → R est une fonction convexe telle que
E |φ(Xn )| < +∞ pour tout n ≥ 0 alors Yn = φ(Xn ), n ≥ 0, est une (Fn )-sous-
martingale.
(2) Si (Xn )n≥0 est une (Fn )-sous-martingale
 et φ : R → R est une fonction convexe et
croissante telle que E |φ(Xn )| < +∞ pour tout n ≥ 1 alors Yn = φ(Xn ), n ≥ 0,
est une (Fn )-sous-martingale.

Démonstration : (1) D’abord Yn est clairement Fn -mesurable puisque Xn l’est et φ


convexe est mesurable. Puis, par l’inégalité de Jensen conditionnelle (Prop. 2.19), on a :
      
E Yn+1 |Fn = E φ(Xn+1 ) |Fn ≥ φ E Xn+1 |Fn = φ(Xn ) = Yn .

(2) La preuve du 1) s’adapte facilement en utilisant en plus la croissance de φ :


     
E Yn+1 |Fn = E φ(Xn+1 ) |Fn ≥ φ E[Xn+1 |Fn ] ≥ φ(Xn ) = Yn .

 p

Corollaire 3.30
 Soit (X n ) n≥0 une (F n )-martingale avec E |X n | < +∞ pour tout n ≥ 0.
Alors |Xn |p n≥1 est une (Fn )-sous-martingale.

Démonstration : Application directe de la Prop. 3.29 avec la fonction convexe φ(x) =


|x|p . □

Corollaire 3.31 Soit a ∈ R.



(1) Soit (Xn )n≥1 une (Fn )-sous-martingale. Alors (Xn − a)+ n≥0
est une (Fn )-sous-
martingale.

(2) Soit (Xn )n≥1 une (Fn )-sur-martingale. Alors min(Xn , a) n≥1 est une (Fn )-sur-
martingale.
Chapitre 3. ©JCB – M1math – Université de Rennes 49

Démonstration : 1) On applique la Prop. 3.29 avec la fonction convexe croissante φ(x) =


(x − a)+ .
2) On applique 1) à la sous-martingale (−Xn )n≥1 et la fonction convexe croissante
φ(x) = max(x, −a) pour avoir que φ(−Xn ) est une sous-martingale. Il s’ensuit que
−φ(−Xn ) = − max(−Xn , −a) = min(Xn , a), n ≥ 0, forme une martingale. □

On rappelle que la notion de prévisibilité est donnée en Définition 3.5.

Proposition 3.32 Soit (Xn )n≥0 une (Fn )-sous-martingale. Si (Hn )n≥1 est une suite pré-
visible positive avec chaque Hn bornée alors (H · X) définie par (H · X)0 = 0 et
n
X
(H · X)n = Hk (Xk − Xk−1 ), n ≥ 1,
k=1

forme une (Fn )-sous-martingale. La même affirmation est vraie pour une sur-martingale
ou pour une martingale sans la restriction de positivité Hn ≥ 0 dans le cas d’une mar-
tingale.

Démonstration : On observe sans difficulté que (H · X)n est Fn -mesurable pour tout
n ≥ 1 : comme
(H · X)n = (H · X)n−1 + Hn (Xn − Xn−1 ), (3.7)
un argument par récurrence ramène à voir que Hn (Xn −Xn−1 ) est Fn -mesurable ce qui est
bien le cas puisque Hn , Xn , Xn−1 le sont. Puis (H · X) ∈ L1 car chaque Hk (Xk − Xk−1 ) ∈
L1 puisque X ∈ L1 et H est bornée.
Ensuite, en utilisant (3.7) et la prévisibilité de Hn , on a :
   
E (H · X)n+1 |Fn = (H · X)n + E Hn+1 (Xn+1 − Xn ) |Fn
 
= (H · X)n + Hn+1 E Xn+1 − Xn |Fn .
 
On conclut en observant que E Xn+1 − Xn|Fn ≥ 0 si (Xn)n≥1 est une sous-martingale
avec Hn ≥ 0. On conclut
 de même avec E Xn+1 − Xn |Fn ≤ 0 si (Xn )n≥1 est une sur-
martingale et avec E Xn+1 − Xn |Fn = 0 si c’est une martingale (sans condition sur le
signe de H). □

Remarque 3.33 (Interprétation en termes financiers) On considère un actif risqué pre-


nant la valeur Xn à la date n. Une suite prévisible (Hn )n≥1 s’interprète dans ce contexte
comme une stratégie d’investissement : il s’agit de la quantité Hn d’actif risqué acheté à
la date n. La valeur du portefeuille à la date n est alors
n
X
(H · X)n = Hi (Xi − Xi−1 ).
i=1
Chapitre 3. ©JCB – M1math – Université de Rennes 50

En effet (H · X)n est la valeur (H · X)n−1 à la date n − 1 plus la valeur du nouvel actif
Hn Xn moins le coût de l’achat Hn Xn−1 .
On interprète également (H ·X)n comme une intégrale stochastique (discrète) de (Hn )n≥1
contre la suite (Xn )n≥1 .
La prévisibilité de H s’interprète alors de la façon suivante : chaque jour, les ordres
d’achat sont passés le matin et les prix re-actualisés au cours de la journée. Ainsi, le jour
n, la quantité Hn d’actif risqué est achetée à la valeur Xn−1 du (n − 1)-ième jour. La
décision d’acheter est donc prise avec l’information dont on dispose à la date n − 1, ie.
les Xi , i ≤ n − 1 (il n’y a pas de délit d’initié). Cela justifie que la variable aléatoire Hn
doit être Fn−1 -mesurable.

3.5 Martingale arrêtée


Étant donné un (Fn )-temps d’arrêt T et une suite X = (Xn )n≥0 , la suite X T =
(XT ∧n )n≥0 s’appelle la suite arrêtée.

Proposition 3.34 Soit T un (Fn )-temps d’arrêt.


(1) Soit (Xn )n≥0 une suite (Fn )-adaptée. Alors X T = (XT ∧n )n≥0 est encore une suite
(Fn )-adaptée.
(2) Soit (Hn )n≥0 une suite (Fn )-prévisible. Alors H T = (HT ∧n )n≥0 est encore une suite
prévisible.

Démonstration : 1) Pour B ∈ B(R) on a


 T 
Xn ∈ B = XT ∧n ∈ B
n
!
[  
= Xp ∈ B, T = p ∪ Xn ∈ B, T ≥ n + 1 ∈ Fn
p=0

puisque, pour 0 ≤ p ≤ n, {Xp ∈ B} ∈ Fp ⊂ Fn , {T = p ∈ Fp ⊂ Fn , {Xn ∈ B} ∈ Fn ,


{T ≥ n + 1} = {T ≤ n}c ∈ Fn .
2) Pour B ∈ B(R) on a
 T 
Hn+1 ∈ B = HT ∧(n+1) ∈ B
n
!
[  
= Hp ∈ B, T = p ∪ Hn+1 ∈ B, T ≥ n + 1 ∈ Fn
p=0

puisque, pour 0 ≤ p ≤ n, {Hp ∈ B} ∈ Fp−1 ⊂ Fn , {T = p ∈ Fp ⊂ Fn , {Hn+1 ∈ B} ∈


Fn , {T ≥ n + 1} = {T ≤ n}c ∈ Fn . □
Chapitre 3. ©JCB – M1math – Université de Rennes 51

Définition 3.35 (Martingale arrêtée) Si (Xn )n≥0 est une (Fn )-martingale
 et T est un
(Fn )-temps d’arrêt. On appelle martingale arrêtée la suite Xn n≥0 avec XnT = XT ∧n .
T

On introduit des notions analogues pour les sous-martingales ou sur-martingales.

En fait, on montre qu’une (sur/sous)-martingale arrêtée est une (sur/sous)-martingale.

Proposition 3.36 (Martingale arrêtée) Si T est un (Fn )-temps


 d’arrêt et (Xn )n≥0 une
T
(Fn )-martingale, sur ou sous-martingale. Alors X = XT ∧n n≥0 est une (Fn )-martingale,
sur ou sous-martingale. La (sous/sur)-martingale arrêtée est donc une (sous/sur)-martingale !

Démonstration : On a vu en (3.1) que la suite (Hn )n≥0 donnée par Hn = 1{T ≥n} est
(Fn )-prévisible. Dès lors, d’après la Prop. 3.32, on a :
n
X n∧T
X
(H · X)n = 1{T ≥k} (Xk − Xk−1 ) = (Xk − Xk−1 ) = XT ∧n − X0 , n ≥ 0,
k=1 k=1

est une (Fn )-martingale, sur ou sous-martingale selon ce qu’est X, ce qui établit le ré-
sultat puisque la somme de martingale, sur ou sous-martingales est de même nature. □

Le théorème d’arrêt consiste à généraliser la propriété de martingale (ou de sur/sous


martingale) à des dates m ≤ n données par des temps d’arrêt S ≤ T , cf. Prop. 3.26.
On commence par une version faible de cette propriété sur la constance (ou crois-
sance/décroissance) des suites d’espérance, cf. Prop. 3.27. D’abord, on donne une pre-
mière forme du théorème d’arrêt pour des temps d’arrêt bornés :
Théorème 3.37 Soit (Xn )n≥0 une sous-martingale et T un temps d’arrêt tel que T ≤ k
ps pour un k ∈ N donné (ie. T est borné). Alors XT ∈ L1 et

E[X0 ] ≤ E[XT ] ≤ E[Xk ]. (3.8)

De plus,
— il y a égalité dans (3.8) si (Xn )n≥0 est une martingale ;
— Pour une sur-martingale, (3.8) est valable avec des bornes inversées.

Exemple
Pn3.38 (Contre-exemple au Th. 3.37) Soit (Sn )n≥0 la marche aléatoire simple :
1
Sn = i=1 Xi avec Xi iid de loi de Rademacher P(X1 = 1) = P(X1 = −1) = 2 et
S0 = 0. Il s’agit d’une martingale pour la filtration des Fn = σ(X1 , . . . , Xn ), n ≥ 1.

On note T = inf n ≥ 0 : Sn = −1 . Il s’agit d’un temps d’arrêt par 2) dans Exemple 3.9.
Alors E[S0 ] = 0 > −1 = E[ST ]. On note que T n’est pas borné puisque

{T ≥ n} ⊃ {X1 = 1, X2 = 1, . . . , Xn = 1}

et donc
1
P(T ≥ n) ≥ P(X1 = 1, X2 = 1, . . . , Xn = 1) = .
2n
Ainsi la première inégalité dans le Th. 3.37 n’est pas automatique si T n’est pas bornée.
Chapitre 3. ©JCB – M1math – Université de Rennes 52

Démonstration : On considère d’abord X = (Xn )n≥0 une sous-martingale. Comme 0 ≤


T ≤ k, on a XT = ki=0 Xi 1{T =i} et il vient d’abord XT ∈ L1 puisque |XT | ≤ ki=0 |Xi |.
P P

Par la Prop. 3.36, (XT ∧n )n≥0 est une sous-martingale. Ainsi comme 0 ≤ T ≤ k ps, en
utilisant la croissance des espérances pour la sous-martingale arrêtée X T (Prop. 3.27),
on a :    
E[X0 ] = E XT ∧0 ≤ E XT ∧k = E[XT ]
ce qui prouve la première inégalité de (3.8). Pour prouver la deuxième inégalité de (3.8),
la propriété de sous-martingale donne pour tout 0 ≤ i ≤ k : Xi ≤ E[Xk |Fi ] ps et comme
{T = i} ∈ Fi :
     
E Xi 1{T =i} ≤ E E[Xk |Fi ]1{T =i} = E Xk 1{T =i} ,

et donc
k
hX i k
X k
  X  
E[XT ] = E XT 1{T =i} = E Xi 1{T =i} ≤ E Xk 1{T =i} = E[Xk ].
i=0 i=0 i=0

Si (Xn )n≥0 est une sur-martingale on applique le résultat (3.8) à la sous-martingale


(−Xn )n≥0 pour avoir E[X0 ] ≥ E[XT ] ≥ E[Xk ].
Si (Xn )n≥0 est une martingale, on a (3.8) pour (Xn )n≥0 et pour (−Xn )n≥0 , ce qui donne
l’égalité. □

Théorème 3.39 Soit (Xn )n≥0 une sous-martingale et T un temps d’arrêt. Sous chacune
des conditions suivantes, on a XT ∈ L1 et

E[X0 ] ≤ E[XT ]. (3.9)

(1) T est borné (ie. il existe C > 0 tel que T ≤ C ps) ;


(2) la suite X est bornée (il existe K > 0 tel que |Xn | ≤ K ∀n ps) et T est fini ps ;
(3) E[T ] < +∞ et il existe K > 0 tel que |Xn+1 − Xn | ≤ K ps pour tout n ≥ 0.
De plus, si (Xn )n≥0 une martingale, sous (1), (2) ou (3), on a l’égalité dans (3.9) :

E[XT ] = E[X0 ].

Enfin si (Xn )n≥0 est une sur-martingale, on a E[X0 ] ≥ E[XT ] sous (1), (2), (3) ou encore
sous
(4) Xn ≥ 0 et T est fini ps.

Démonstration : On suppose d’abord que (Xn )n≥0 est une sous-martingale.


1) découle du Th. 3.37 appliqué à la sous-martingale (Xn )n≥0 . On peut noter qu’on
n’utilise que la partie facile du Th. 3.37 qui se réduit à : la sous-martingale arrêtee est
une sous-martingale (Prop. 3.36) donc d’espérances croissantes.
Chapitre 3. ©JCB – M1math – Université de Rennes 53

2) Comme T ∧ n est un temps d’arrêt borné, la partie 1) s’applique avec T ∧ n et donne


 
E XT ∧n ≥ E[X0 ]. (3.10)
Quand n → +∞, on a XT ∧n → XT ps (car T < +∞ ps) et sous 2)
+∞
X +∞
X
Xn∧T = Xn∧T 1{T =i} = Xn∧i 1{T =i}
i=0 i=0
+∞
X +∞
X
et |Xn∧T | ≤ |Xn∧i |1{T =i} ≤ K1{T =i} ≤ K.
i=1 i=1
n→+∞
Comme XT ∧n −−−−→ XT , on a aussi |XT | ≤ K. On a donc XT ∈ L1 . Puis le théorème
de convergence dominée s’applique pour donner (3.9) à partir de (3.10) :
 
E[XT ] = lim E XT ∧n ≥ E[X0 ].
n→+∞

3) Par 1), on a toujours (3.10) pour T ∧ n avec limn→+∞ XT ∧n = XT ps (T < +∞ ps).


Sous 3), on peut écrire
T ∧n
X
X T = X0 + (Xk − Xk−1 )
k=1
T ∧n
X
et |XT | ≤ |X0 | + |Xk − Xk−1 | ≤ |X0 | + KT ∈ L1
k=1

car E[T ] < +∞. Le théorème de convergence dominée s’applique alors


 
E[XT ] = lim E XT ∧n ≥ E[X0 ],
n→+∞

ce qui assure (3.9). De plus, on a même


   
E |XT | = lim E |XT ∧n | ≤ E[|X0 |] + KE[T ] < +∞
n→+∞
1
soit XT ∈ L .
Enfin, si (Xn )n≥0 est une martingale alors par le Th. 3.37, il y a égalité dans (3.10) et
les passages à la limite précédents dans 2), 3) les préservent. Puis comme en particulier,
X est une sous-martingale, on a toujours XT ∈ L1 par le cas sous-martingale.
Puis, si (Xn )n≥0 est une sur-martingale, on peut appliquer 1), 2), 3) à la sous-martingale
(−Xn )n≥0 pour obtenir E[XT ] ≤ E[X0 ] (noter que les hypothèses de 1), 2), 3) sont insen-
sibles aux changements de signe). Enfin, sous 4), partant de E[XT ∧n ] ≤ E[X0 ] pour la sur-
martingale arrêtée (XnT )n≥0 (avec T ∧n dû à 1), comme on a encore limn→+∞ XT ∧n = XT
(T < +∞ ps), le lemme de Fatou donne
h i h i
E[XT ] = E lim XT ∧n = E lim inf XT ∧n
n→+∞ n→+∞
 
≤ lim inf E XT ∧n ≤ E[X0 ]
n→+∞

en particulier comme XT ≥ 0, on a aussi XT ∈ L1 puisque E[X0 ] < +∞. □


Chapitre 3. ©JCB – M1math – Université de Rennes 54

3.6 Décomposition de Doob


Théorème 3.40 (Décomposition de Doob) Toute (Fn )-sous-martingale (Xn )n≥0 se dé-
compose de façon (presque sûrement) unique sous la forme

Xn = Mn + An (3.11)

où (Mn )n≥0 est une (Fn )-martingale et (An )n≥0 est une suite croissante (Fn )-prévisible
avec A0 = 0 et donnée par
n
X   
An = E Xk |Fk−1 − Xk−1 . (3.12)
k=1

Démonstration : Existence. Pour avoir la décomposition (3.11), on doit nécessairement


avoir
     
E Xn |Fn−1 = E Mn |Fn−1 + E An |Fn−1
= Mn−1 + An
= Xn−1 − An−1 + An ,

car (Mn )n≥1 est une martingale et An est Fn−1 -mesurable. On pose donc
 
An − An−1 := E Xn |Fn−1 − Xn−1 (3.13)
Mn := Xn − An ,

ce qui définit les deux suites (Mn )n≥0 et (An )n≥0 en prenant en plus A0 = 0 et M0 = X0 .
Il s’agit de vérifier que pour ce choix, (Mn )n≥0 est bien une martingale et (An )n≥0 est
croissante, prévisible, la décomposition (3.11) étant satisfaite par construction.
Comme (Xn )n≥1 est une sous-martingale, (3.13) assure
 
An − An−1 = E Xn |Fn−1 − Xn−1 ≥ 0, (3.14)

et An = (An − An−1 ) + An−1 est bien Fn−1 -mesurable pour tout n ≥ 0 par récurrence
puisque An − An−1 l’est par (3.14). On note que An ∈ L1 pour tout n ≥ 1 puisque
     
E |An − An−1 | = E E Xn |Fn−1 − Xn−1 ≤ E[|Xn |] + E[|Xn−1 |] < +∞.

Pour montrer que (Mn )n≥0 est une martingale, on observe d’abord que Mn = Xn − An
est Fn -mesurable puis Mn ∈ L1 car Xn ∈ L1 ((Xn )n≥0 sous-martingale) et An ∈ L1 .
Pour la propriété de martingale (3.3), on utilise (3.13) et la Fn−1 -mesurabilité de An :
   
E Mn |Fn−1 = E Xn − An |Fn−1
   
= E Xn |Fn−1 − E An |Fn−1

= An − An−1 + Xn−1 − An
= Xn−1 − An−1 = Mn−1 .
Chapitre 3. ©JCB – M1math – Université de Rennes 55

L’unicité est assurée par le raisonnement par condition nécessaire en début de démons-
tration. On peut aussi la vérifier directement en supposant qu’on a deux décompositions

Xn = Mn + An = Mn′ + A′n

avec (Mn )n≥0 , (An )n≥0 et (Mn′ )n≥0 , (A′n )n≥0 vérifiant les hypothèses du Th. 3.40. Alors
Un = An − A′n = Mn − Mn′ définit une suite constante puisque

= E Mn − Mn′ |Fn−1 ((Mn )n≥0 , (Mn′ )n≥0 martingales)
 
Un−1 = Mn−1 − Mn−1
= E An − A′n |Fn−1 = An − A′n = Un (An , A′n sont Fn−1 -mesurables).
 

Comme U0 = 0, on a Un = 0 pour tout n ≥ 0 et il vient An = A′n et Mn = Mn′ pour


tout n ≥ 0 presque sûrement. □

Remarque 3.41 La décomposition (3.11) est vraie pour toute suite (Xn )n≥1 adaptée et
L1 avec (Mn )n≥0 martingale et (An )n≥0 prévisible partant de A0 = 0. En fait (Xn )n≥0
est une sous-martingale si et seulement si (An )n≥0 est croissante, cf. (3.14).

Soit (Xn )n≥0 une martingale de carré intégrable et nulle en 0. Comme (Xn2 )n≥0 est une
sous-martingale (Prop. 3.29), le Th. 3.40 donne la décomposition de Doob (3.11) sui-
vante :
Xn2 = Mn + An , n ≥ 0, (3.15)
où M = (Mn )n≥0 est une martingale et A = (An )n≥0 est une suite prévisible croissante.

Définition 3.42 (Compensateur) On note ⟨X, X⟩ le processus A croissant prévisible dans


la décomposition de Doob (3.15) de X 2 et on l’appelle le compensateur de la martingale
X ∈ L2 .

Dans ce cas, l’expression (3.12) se réécrit :


n
X
E Xk2 |Fk−1 − Xk−1
2
  
⟨X, X⟩n =
k=1
n
X
E (Xk − Xk−1 )2 |Fk−1 ,
 
= (3.16)
k=1

où la formulation (3.16) vient du lemme suivant :

Lemme 3.43 (Formule de la variance conditionnelle) Soit (Xn )n≥1 une martingale telle
que E[Xn2 ] < +∞ pour tout n ≥ 1. Alors pour n ≥ k, on a

E (Xn − Xk )2 |Fk = E[Xn2 |Fk ] − Xk2 .


 
Chapitre 3. ©JCB – M1math – Université de Rennes 56

Démonstration : Pour n ≥ k, on a :
E (Xn − Xk )2 |Fk = E Xn2 − 2Xn Xk + Xk2 |Fk
   

= E Xn2 |Fk − 2Xk E Xn |Fk + Xk2


   

= E Xn2 |Fk − Xk2 .


 

Dans l’expression (3.16), ⟨X, X⟩n apparaı̂t comme la variance jusqu’à la date n et
⟨X, X⟩∞ (qui par croissance existe toujours quitte à avoir +∞) est la variance totale de
toute la suite (Xn )n≥0 .
Le comportement L2 d’une martingale (Xn )n≥0 de carré intégrable peut se lire sur son
compensateur :
Proposition 3.44 (Martingale bornée dans L2 et compensateur) Soit (Xn )n≥0 une mar-
tingale carré intégrable. Alors elle est bornée dans L2 si et seulement si son compensateur
vérifie E[⟨X, X⟩∞ ] < +∞.

Démonstration : Comme Xn2 − ⟨X, X⟩n ) n≥0 est une martingale, la propriété de mar-

tingale donne E Xn2 − ⟨X, X⟩n ] = E[X02 − ⟨X, X⟩] = E[X02 , c’est à dire
E ⟨X, X⟩n = E[Xn2 ] − E[X02 ],
 

pour tout n ≥ 0. Comme ⟨X, X⟩ est une suite croissante, le théorème de convergence
monotone donne alors
  
E ⟨X, X⟩∞ = lim E ⟨X, X⟩n = sup E ⟨X, X⟩n = sup E[Xn2 ] − E[X02 ],
    
n→+∞ n≥0 n≥0

prouvant l’équivalence. □

Proposition 3.45 Soit (Xn )n≥0 une martingale de carré intégrable, nulle en 0 et T un
temps d’arrêt. Alors
⟨X T , X T ⟩ = ⟨X, X⟩T ps,
ie. le crochet de la martingale arrêtée est le crochet arrêté de la martingale.
Démonstration : Par la Prop. 3.36, (X T )2 = M T + ⟨X, X⟩T est une sous-martingale,
M T est une martingale, et, par la Prop. 3.34, ⟨X, X⟩T est une suite croissante et
prévisible. L’unicité (presque sûre) de la décomposition de Doob (3.15) de X T exige
⟨X T , X T ⟩ = ⟨X, X⟩T ps. □

Exemple 3.46 (Somme de variables aléatoires iid) Soit (Xn )n≥1 une suite de P variables
aléatoires iid centrées, de carrés intégrables avec Var(X1 ) = σ 2 . Alors Sn = nk=1 Xk ,
n ≥ 1, (avec S0 = 0) est une martingale L2 de compensateur ⟨S, S⟩n = nσ 2 :
En effet, d’après (3.16), en utilisant Xk ⊥
⊥ Fk−1 = σ(X1 , X2 , . . . , Xk−1 ), on a
Xn n n
2
 X  2  X
E[Xk2 ] = nσ 2 .

⟨S, S⟩n = E (Sk − Sk−1 ) |Fk−1 = E Xk |Fk−1 =
k=1 k=1 k=1
Chapitre 4

Convergences de martingales

Dans ce chapitre, on étudie les limites de martingales. On commence par les outils
clef que sont les inégalités pour martingales en Section 4.1. On donne ensuite des ré-
sultats de convergence presque sûre en Section 4.2 puis en norme L1 en Section 4.4 et
en norme Lp en Section 4.5. On donne ensuite en Section 4.7 un résultat fondamental
(théorème d’arrêt) qui généralise la propriété de martingale aux dates données par des
temps d’arrêt.
Dans la suite, on considère un espace de probabilité filtré (Ω, F, (Fn )n≥0 , P). Par
défaut, les (sur/sous)-martingales et temps d’arrêt sont par rapport à cette filtration
(Fn )n≥0 .

4.1 Inégalités de martingales


Les inégalités de martingales sont dues à Doob 1 . Essentiellement, elles donnent une
bornes pour le sup d’une martingale sur [0, n] par sa valeur en n, cf. (4.1)–(4.5), (4.11),
(4.15). Étant donné une suite (Xn )n≥0 , on note X n = max0≤k≤n Xk .

4.1.1 Inégalité maximale de Doob


Théorème 4.1 (Inégalité maximale de Doob)
(1) Soit (Xn )n≥0 une sous-martingale et x > 0. Alors
 
 E Xn 1{X n ≥x} E[Xn+ ] E[|Xn |]
P Xn ≥ x ≤ ≤ ≤ . (4.1)
x x x

(2) Soit (Xn )n≥0 une sur-martingale, et x > 0. Alors


 E[|X0 |] + E[|Xn |]
P Xn ≥ x ≤ . (4.2)
x
1. Joseph Leo Doob (1910–2004) probabiliste américain.

57
Chapitre 4. ©JCB – M1math – Université de Rennes 58

(3) Soit (Xn )n≥0 une sur-martingale positive, et x > 0. Alors


 E[X0 ]
P Xn ≥ x ≤ . (4.3)
x
(4) Soit (Xn )n≥0 une martingale, sous-martingale ou sur-martingale, et x > 0, on a
 E[|X0 |] + 2E[|Xn |]
P max |Xk | ≥ x ≤ . (4.4)
0≤k≤n x

(5) Pour une martingale (Xn )n≥0 , on peut améliorer (4.4) en :


  E|X |
n
P max |Xk | ≥ x ≤ , x > 0. (4.5)
0≤k≤n x

Démonstration : 1) Les deux


 inégalités de droite dans (4.1) sont immédiates.
 Pour celle
de gauche, on note A = X n ≥ x et on pose S = inf k ≥ 0 : Xk ≥ x et T = S ∧ n.
Comme T ≤ n, le Th. 3.37 assure E[XT ] ≤ E[Xn ], ou encore

E[XT 1A ] + E[XT 1Ac ] = E[XT ] ≤ E[Xn ] = E[Xn 1A ] + E[Xn 1Ac ]. (4.6)



Sur l’évènement Ac = X n < x , on a S > n et donc T = n et XT = Xn . Il vient
E[Xn 1Ac ] = E[XT 1Ac ] et (4.6) se réécrit E[XT 1A ] ≤ E[Xn 1A ]. De plus, sur l’évènement
A, on a S ≤ n donc T = S et par définition de S : XT = XS ≥ x. Finalement, il vient

xP(A) = E[x1A ] ≤ E[XT 1A ] ≤ E[Xn 1A ],

ce qui prouve (4.1) puisque x > 0.


2) et 3) On adapte la preuve de 1) ci-dessus au cas d’une sur-martingale X. Pour T ≤ n,
le Th. 3.37 assure E[XT ] ≤ E[X0 ], soit

E[XT 1A ] + E[XT 1Ac ] = E[XT ] ≤ E[X0 ]. (4.7)

Comme précédemment, on a E[XT 1Ac ] = E[Xn 1Ac ] et E[XT 1A ] ≥ xP(A) et (4.7) donne

E[|X0 |] + E[|Xn |] en général, d’où (4.2),
xP(A) ≤ E[X0 ] − E[Xn 1Ac ] ≤
E[X0 ] si Xn ≥ 0, d’où (4.3).

4) Comme {maxk≤n |Xk | ≥ x} ⊂ {maxk≤n Xk ≥ x} ∪ {maxk≤n (−Xk ) ≥ x}, on a


  
P max |Xk | ≥ x ≤ P max Xk ≥ x + P max (−Xk ) ≥ x (4.8)
0≤k≤n 0≤k≤n 0≤k≤n

et (Xn )n≥0 , (−Xn )n≥0 sont des sous-martingales et sur-martingales (ou l’inverse) et on
majore chaque terme de (4.8) par (4.1) et (4.2) pour avoir la conclusion (4.4).
5) Lorsque (Xn )n≥0 est une martingale, on peut appliquer (4.1) à la sous-martingale
positive (|Xn |)n≥0 et avoir (4.5). □
Chapitre 4. ©JCB – M1math – Université de Rennes 59

Corollaire 4.2 (Inégalité maximale de Kolmogorov) Soit (Xn )n≥1 des variables aléatoi-
res indépendantes centrées et de variances finies. On pose Sn = X1 + · · · + Xn . Alors
pour x > 0, on a :
  Var(S )
n
P max |Sk | ≥ x ≤ . (4.9)
1≤k≤n x2

Démonstration : Dans l’Exemple 3.20, on a vu que que (Sn )n≥1 est une martingale pour
la filtration canonique engendrée par la suite (Xn )n≥1 . Par le Corollaire 3.30, Yn = Sn2 ,
n ≥ 1, définit une sous-martingale à laquelle on applique l’inégalité maximale de Doob
(4.1) avec u = x2 (Th. 4.1). On obtient alors l’inégalité maximale de Kolmogorov (4.9)
puisque E[Sn2 ] = Var(Sn ). □

Remarque 4.3 (Comparaison avec Tchebychev) Dans le contexte du Corollaire 4.2, l’in-
égalité de Tchebychev donne pour tout 1 ≤ k ≤ n :

Var(Sk ) Var(Sn )
P(|Sk | ≥ x) ≤ 2

x x2
Pk Pn
car Var(Sk ) = i=1 E[Xi2 ] ≤ i=1 E[Xi2 ] = Var(Sn ). On a donc

Var(Sn )
max P(|Sk | ≥ x) ≤ . (4.10)
1≤k≤n x2
Comme n
[   
max P(|Sk | ≥ x) ≤ P {|Sk | ≥ x} = P max |Sk | ≥ x ,
1≤k≤n 1≤k≤n
k=1

l’inégalité (4.9) est meilleure que (4.10).

4.1.2 Inégalité de moments de Doob


Théorème 4.4 (Inégalité de moments pour sous-martingale) Soit (Xn )n≥0 une sous-martingale
avec X0 ≥ 0. Alors pour p > 1, on a
 p   p p  + p 
E Xn ≤ E (Xn ) . (4.11)
p−1
 p
Démonstration : Comme X0 ≥ 0, on note que X n ≥ 0 pour chaque n ≥ 0. Si E X n = 0,
 p
alors (4.11) est immédiate, on suppose donc E X n > 0 et par convergence monotone,
   
pour M assez grand, on a E (X n ∧ M )p > 0. On a donc 0 < E (X n ∧ M )p ≤ M .
On utilise l’inégalité maximale de Doob (4.1) (Th. 4.1) avec des variables aléatoires
tronquées au niveau M > 0 :
"Z #
X n ∧M Z M 
p p−1 p−1
 
E (X n ∧ M ) = E px dx = E 1{x≤X n } px dx
0 0
Chapitre 4. ©JCB – M1math – Université de Rennes 60

Z M
pxp−1 P X n ≥ x dx (Fubini-Tonelli)

=
0
Z M  
pxp−1 x−1 E Xn+ 1{X n ≥x} dx (Th. 4.1-1)


0
" #
Z X n ∧M
= pE Xn+ xp−2 dx (Fubini-Tonelli)
0
p p−1 
E Xn+ X n ∧ M

=
p−1
 p   p (p−1)/p  + p 1/p
≤ E Xn ∧ M E (Xn ) (Hölder).
p−1
En simplifiant la borne précédente, il vient
 p
  p p  + p 
E (X n ∧ M ) ≤ E (Xn ) .
p−1
 
Noter que pour simplifier la borne comme ci-dessus, il est nécessaire que E (X n ∧ M )p
soit fini et non nul, d’où l’importance de tronquer par M , assez grand. Finalement, on
obtient (4.11) en faisant M → +∞ avec le théorème de convergence monotone. □

Remarque 4.5 Attention, l’inégalité maximale Lp (Th. 4.4) est fausse pour p = 1 même
avec une autre constante.
Pour des martingales, on spécialise le Th. 4.4 comme suit :
Corollaire 4.6 (Inégalité de moments pour martingale)
(1) Pour une martingale (Xn )n≥0 , on a :
h p i  p p 
E |Xn |p .

E max |Xk | ≤ (4.12)
1≤k≤n p−1
(2) Pour une martingale (Xn )n≥0 nulle en 0 (donc centrée) de carré intégrable, on a :
h 2 i
≤ 4E ⟨X, X⟩2n
 
E max |Xk | (4.13)
1≤k≤n
h 2 i  
E sup |Xn | ≤ 4E ⟨X, X⟩∞ . (4.14)
n≥1

Démonstration : On considère une martingale (Xn )n≥0 .


1) s’obtient directement en appliquant le Th. 4.4 à la sous-martingale Yn = |Xn |, n ≥ 0.
2
2) est une spécialisation de 1) lorsque  2 que X − ⟨X, X⟩ est
 p2 = 2. Dans ce cas, on utilise
une martingale centrée pour avoir E Xn − ⟨X, X⟩n ] = 0, soit E Xn ] = E[⟨X, X⟩n ], ce qui
assure (4.13) en l’injectant dans (4.12). Pour (4.14), on utilise la convergence monotone
h 2 i h 2 i
≤ lim 4E ⟨X, X⟩2n = 4E ⟨X, X⟩∞ .
   
E sup |Xn | = lim E max |Xk |
n≥1 n→+∞ 1≤k≤n n→+∞


Chapitre 4. ©JCB – M1math – Université de Rennes 61

4.1.3 Nombre de montées


Une sous-martingale (Xn )n≥1 a une tendance à croı̂tre comme l’indique la croissance
de l’espérance E[Xn ] ≤ E[Xn+1 ], n ≥ 0. Cette croissance peut être contrôlée par l’inéga-
lité sur le nombre de montées à travers un intervalle [a, b] où a < b, cf. Th. 4.8.
Pour présenter cette inégalité, on pose N0 = 0 et on définit les variables aléatoires
Nk , k ≥ 1, à valeurs dans N ∪ {+∞} :
 
N1 = min n ≥ 1 : Xn ≤ a , N2 = min n ≥ N1 : Xn ≥ b ,
et par récurrence pour k ≥ 2 :
 
N2k−1 = min n ≥ N2k−2 : Xn ≤ a , N2k = min n ≥ N2k−1 : Xn ≥ b ,
avec la convention inf ∅ = +∞. On a
N1 < N2 < · · · < N2k−2 < N2k−1 < N2k < · · ·
et Nk ≥ k ps.
Lemme 4.7 Les variables aléatoires Nk , k ≥ 1, sont des temps d’arrêt.
Démonstration : D’abord
n
[
{N1 ≤ n} = {Xk ≤ a} ∈ Fn
k=1

puisque {Xk ≤ a} ∈ Fk ⊂ Fn pour 0 ≤ k ≤ n. Puis


n−1
[
{N2 = n} = {N1 = j} ∩ {N2 = n}
j=1
n−1 n−1
!
[ \
= {N1 = j} ∩ {Xk < b} ∩ {Xn ≥ b} ∈ Fn
j=1 k=j+1

puisque {N1 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 et {Xk < b} ∈ Fk ⊂ Fn pour


j + 1 ≤ k ≤ n − 1 et {Xn ≥ b} ∈ Fn . Ensuite par récurrence sur k :
n−1
[

N2k−1 = n = {N2k−2 = j} ∩ {N2k−1 = n}
j=1
n−1 n−1
!
[ \
= {N2k−2 = j} ∩ {Xk > a} ∩ {Xn ≤ a} ∈ Fn
j=1 k=j+1

puisque {N2k−2 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 (hypothèse de récurrence) et


{Xk > a} ∈ Fk ⊂ Fn pour j + 1 ≤ k ≤ n − 1 et {Xn ≤ a} ∈ Fn . Et enfin, de même :
n−1
[

N2k = n = {N2k−1 = j} ∩ {N2k = n}
j=1
Chapitre 4. ©JCB – M1math – Université de Rennes 62

n−1 n−1
!
[ \
= {N2k−1 = j} ∩ {Xk < b} ∩ {Xn ≥ b} ∈ Fn
j=1 k=j+1

puisque {N2k−1 = j} ∈ Fj ⊂ Fn pour 1 ≤ j ≤ n − 1 (hypothèse de récurrence) et


{Xk < b} ∈ Fk ⊂ Fn pour j + 1 ≤ k ≤ n − 1 et {Xn ≥ b} ∈ Fn . □

Comme
XN2k−1 ≤ a et XN2k ≥ b,
entre les dates N2k−1 et N2k , (Xn )n≥1 monte d’au dessous de a à au dessus de b (exacte-
ment une fois). Notons Un ([a, b]) le nombre de telles montées le long de l’intervalle [a, b]
de la suite (Xn )n≥1 jusqu’à la date n, c’est à dire

Un ([a, b]) = sup k ∈ N : N2k ≤ n .

Comme Un ([a, b]) est le nombre de montées de X1 , . . . , Xn le long de [a, b], on a immé-
diatement Un ([a, b]) ≤ [n/2]. En observant que N2k ≤ n < N2k+2 signifie qu’il y a eu
exactement k montées réalisées jusqu’à la date n, on peut écrire
[n/2]
X
Un ([a, b]) = k 1{N2k ≤n<N2k+2 } .
k=1

Ainsi chaque Un ([a, b]) est positive, bornée par [n/2] et donc intégrable. La suite (Un ([a, b]))n≥1
est croissante. Le nombre de montées d’une sous-martingale est contrôlé (en moyenne)
par l’inégalité suivante due à Doob :
Théorème 4.8 (Nombre de montées) Soit (Xn )n≥0 une sous-martingale. Alors pour tout
a < b, on a :
  E[(Xn − a)+ ]
E Un ([a, b]) ≤ . (4.15)
b−a
Remarque : Le Th. 4.8 s’applique pour une suite finie (Xk )k=0,...,n qui forme une mar-
tingale : E[Xk+1 |Fk ] = Xk pour tout 0 ≤ k < n.
Comme les Nk , k ≥ 1, sont des temps d’arrêt, on a
   c
N2k+1 < j ≤ N2k+2 = N2k+1 ≤ j − 1 ∩ N2k+2 ≤ j − 1 ∈ Fj−1 ,

de sorte que

1 si pour un k ∈ N, on a N2k < j ≤ N2k+1
Yj =
0 sinon, ie. pour un k, on a N2k+1 < j ≤ N2k+2 ,

j ≥ 1, définit une suite prévisible.


— On a Y1 = 1 car 0 = N0 < 1 ≤ N1 correspond à k = 0 ;
— On a Y2 = 1{N1 ≥2} = 1{X1 >a} car N2 ≥ 2 exige d’avoir encore k = 0 dans la
définition de Y2 ;
Chapitre 4. ©JCB – M1math – Université de Rennes 63

— Pour j ≥ 2, on a Yj = 1 si et seulement si Xj est dans une descente (de b vers


a) de la suite (Xn )n≥0 . Il y a 2 possibilités pour que Xj soit dans une phase de
descente :
— soit Xj−1 est dans une descente qui n’est pas finie (Yj−1 = 1, Xj−1 > a) ;
— soit Xj−1 est dans une montée qui termine (Yj−1 = 0, Xj−1 ≥ b).
On a donc aussi
Yj = 1{Yj−1 =0,Xj−1 ≥b}∪{Yj−1 =1,Xj−1 >a}
et on retrouve (par récurrence) que Yj est σ(X1 , . . . , Xj−1 )-mesurable, et donc la
suite (Yj )j≥1 est prévisible.
On a alors :
Lemme 4.9 Pour toute suite finie X1 , X2 , . . . , Xn , on a
n
X
Yk (Xk − Xk−1 ) ≤ (a − b)Un ([a, b]) + (Xn − a)+ . (4.16)
k=2

Démonstration :[Lemme 4.9]


Cas 1 : Un ([a, b]) = 0, ie. il n’y a aucune montée jusqu’à la date n, donc N2 > n.
(a) Si N1 = 1 alors pour k = 2, . . . , n : N1 = 1 < k ≤ n < N2 et Yk = 0 et (4.16) est
immédiate car son membre de gauche se réduit à 0.
(b) Si 1 < N1 ≤ n alors pour 2 ≤ k ≤ N1 : N0 = 0 < 1 ≤ k ≤ N1 et Yk = 1, et pour
N1 < k ≤ n : N1 < k ≤ n < N2 et Yk = 0. On a donc :
n
X
Yk (Xk − Xk−1 ) = XN1 − X1 ≤ XN1 − a ≤ 0 ≤ (Xn − a)+
k=2

puisque XN1 ≤ a < X1 (N1 > 1) et (4.16) est vraie.


(c) Si N1 > n alors pour 2 ≤ k ≤ n : N0 = 0 < 2 ≤ k ≤ n < N1 et Yk = 1. On a donc :
n
X
Yk (Xk − Xk−1 ) = Xn − X1 ≤ Xn − a ≤ (Xn − a)+ .
k=2

Cas 2 : Un ([a, b]) > 0, ie. il y a au moins 1 montée avant la date n donc en particulier
N1 < N2 ≤ n.
Pour N0 = 0 < 1 ≤ k ≤ N1 , on a Yk = 1, et pour N1 < k ≤ N2 , on a Yk = 0. Ainsi
≤0
n
X z }| { n
X
Yk (Xk − Xk−1 ) = (XN1 − X1 ) + Yk (Xk − Xk−1 )
k=2 k=N2 +1
n
X
≤ Yk (Xk − Xk−1 ), (4.17)
k=N2 +1

car soit N1 = 1 et XN1 − X1 = 0, soit N1 > 1 et XN1 ≤ a < X1 .


Il y a maintenant deux sous-cas complémentaires à considérer dans (4.17) selon que
Chapitre 4. ©JCB – M1math – Université de Rennes 64

(a) soit la date n correspond à une phase de montée : pour un ℓ ∈ N, on a N2ℓ+1 < n ≤
N2ℓ+2 et Un ([a, b]) = ℓ ;
(b) soit la date n correspond à une phase de descente : pour un ℓ′ ∈ N, on a N2ℓ′ < n ≤
N2ℓ′ +1 et Un ([a, b]) = ℓ′ .
Dans le sous-cas (a) (phase de montée), on a

n Yk =0 pour les termes résiduels k∈]N2ℓ+1 ,n]


X z}|{
Yk (Xk − Xk−1 ) = (XN3 − XN2 ) + · · · + (XN2ℓ+1 − XN2ℓ ) + 0
k=N2 +1
≤ (a − b)ℓ = (a − b)Un ([a, b])

car XN2s+1 − XN2s ≤ a − b pour chaque s = 1, . . . , ℓ et (4.16) suit dans ce sous-cas.


Dans le sous-cas (b) (phase de descente), on a
n
X
Yk (Xk − Xk−1 )
k=N2 +1
Yk =1 pour les termes résiduels k∈]N2ℓ′ ,n]
z }| {
= (XN3 − XN2 ) + · · · + (XN2ℓ′ −1 − XN2ℓ′ −2 ) + (Xn − XN2ℓ′ )
= (XN3 − XN2 ) + · · · + (XN2ℓ′ −1 − XN2ℓ′ −2 ) + (a − XN2ℓ′ ) +(Xn − a)
| {z } | {z }
≤(ℓ′ −1)(a−b) ≤a−b

≤ (a − b)ℓ + (Xn − a)
≤ (a − b)Un ([a, b]) + (Xn − a)+

car de nouveau XN2s+1 − XN2s ≤ a − b pour chaque s = 1, . . . , ℓ′ − 1, Un (a, b) = ℓ′ et


a < b. La conclusion (4.16) suit encore dans ce sous-cas, ce qui prouve le Lemme 4.9. □

Démonstration :[Th. 4.8] Comme (Xn )n≥1 est une sous-martingale et comme on a vu
que Yk est Fk−1 -mesurable positive, on a
   
E Yk (Xk − Xk−1 ) = E E[Yk (Xk − Xk−1 ) |Fk−1 ]
 
= E Yk E[Xk − Xk−1 |Fk−1 ] ≥ 0,
| {z }
≥0

par la propriété de sous-martingale et parce que Yk ≥ 0. Avec le Lemme 4.9, on a donc


" n #
X
Yk (Xk − Xk−1 ) ≤ (a − b)E Un ([a, b]) + E (Xn − a)+ ,
   
0≤E
k=2
   
d’où il suit (b − a)E Un ([a, b]) ≤ E (Xn − a)+ et donc (4.15) puisque a < b. □
Chapitre 4. ©JCB – M1math – Université de Rennes 65

4.2 Convergence presque sûre de martingales


Théorème 4.10 (Convergence ps de sous-martingale) Soit (Xn )n≥0 une sous-martingale
telle que supn≥0 E[Xn+ ] < +∞. Alors quand n → +∞, (Xn )n≥0 converge ps vers une li-
mite X ∈ L1 .
Remarque 4.11 Comme on l’a vu en Remarque 3.28, les sous-martingales sont des ana-
logues aléatoires de suites croissantes et le résultat précédent généralise à ces objets le
résultat bien connu pour les suites majorées qui convergent !
Lemme 4.12 Une suite (xn )n≥1 converge dans R si et seulement si pour tout rationnels
a < b, le nombre de montées de (xn )n≥1 le long de [a, b] vérifie U∞ ([a, b], x) < +∞.
Démonstration : On a (xn )n≥1 diverge si et seulement si lim inf n→+∞ xn < lim supn→+∞ xn
c’est à dire s’il existe a < b rationnels tels que
lim inf xn < a < b < lim sup xn .
n→+∞ n→+∞

Cela a lieu si et seulement si U∞ ([a, b], x) = +∞. □

Démonstration : Soit (Xn )n≥0 une suite de variables aléatoires. D’après le Lemme 4.12,
(Xn )n≥0 converge vers une limite (finie ou pas) si et seulement si U∞ ([a, b]) < +∞. Pour
voir cela, on utilise le Th. 4.8 sur le nombre de montées.
Soit a < b. Comme le nombre de montées Un ([a, b]) le long de [a, b] est une suite crois-
sante, on note U∞ ([a, b]) := limn→+∞ Un ([a, b]) pour le nombre total de montées le long
de [a, b]. Avec le théorème de convergence monotone, l’inégalité sur le nombre de montées
(Th. 4.8) donne
     
E U∞ ([a, b]) = lim E Un ([a, b]) = sup E Un ([a, b])
n→+∞ n≥0
|a| + supn≥0 E[Xn+ ]
≤ < +∞
(b − a)
en utilisant (Xn −a)+ ≤ Xn+ +|a| et l’hypothèse d’intégrabilité. On a donc E[U∞ ([a, b])] <
+∞ et U∞ ([a, b]) < +∞ ps. Comme pour tout a < b on a
n o
lim inf Xn < a < b < lim sup Xn ⊂ {U∞ ([a, b]) = +∞},
n→+∞ n→+∞

il suit que l’évènement


[ 
lim inf Xn < a < b < lim sup Xn
n→+∞ n→+∞
a,b∈Q

est de probabilité nulle et donc X := limn→+∞ Xn existe presque sûrement par le


Lemme 4.12. Ensuite, par le lemme de Fatou
h i h i
+ + +
E[X ] = E lim Xn = E lim inf Xn
n→+∞ n→+∞
Chapitre 4. ©JCB – M1math – Université de Rennes 66

≤ lim inf E[Xn+ ] ≤ sup E[Xn+ ] < +∞,


n→+∞ n≥0

ce qui assure X < +∞ ps. Pour s’assurer aussi de X > −∞ ps, on utilise Xn = Xn+ −Xn−
et la propriété de sous-martingale pour (Xn )n≥0 :

E[Xn− ] = E[Xn+ ] − E[Xn ] ≤ E[Xn+ ] − E[X0 ].

Il suit alors encore par le lemme de Fatou


h i h i
E[X − ] = E lim Xn− = E lim inf Xn−
n→+∞ n→+∞
≤ lim inf E[Xn− ] < sup E[Xn+ ] − E[X0 ] < +∞.
n→+∞ n≥0

On en déduit X − < +∞ et finalement |X| = X + + X − < +∞ ps et E[|X|] =


E[X + ] + E[X − ] < +∞. □

Remarque 4.13 Dans la preuve, on a établi que si le nombre de montées de (Xn )n≥1 sur
]a, b[ est fini pour tout a, b ∈ Q alors la limite de Xn existe ps.

Corollaire 4.14 (Convergence ps de martingale bornée dans L1 ) Soit (Xn )n≥0 une mar-
tingale ou sous/sur-martingale bornée dans L1 (supn≥0 E[|Xn |] < +∞). Alors (Xn )n≥0
converge presque sûrement.

Démonstration : Il suffit de considérer le cas de (Xn )n≥0 sous-martingale, les autres s’en
déduisent facilement. Comme E[Xn+ ] ≤ E[|Xn |], on a supn≥0 E[Xn+ ] ≤ supn≥0 E[|Xn |] et
la condition du Th. 4.10 est satisfaite lorsque la sous-martingale est bornée dans L1 ,
justifiant la convergence presque sûre. □

Le corollaire suivant généralise « une suite positive décroissante converge ! »


Corollaire 4.15 (Convergence ps de sur-martingale positive)
Soit (Xn )n≥1 une sur-martingale positive (Xn ≥ 0 pour tout n ≥ 0). Alors, quand
ps
n → +∞, Xn −→ X avec E[X] ≤ E[X0 ].
Démonstration : On définit une sous-martingale négative en prenant Yn = −Xn , n ≥ 0.
On a supn≥1 E[Yn+ ] = 0 < +∞ et (Yn )≥0 converge ps par le Th. 4.10. Comme par la
propriété de sur-martingale (E[Xn ])n≥0 décroı̂t on a E[Xn ] ≤ E[X0 ]. Le lemme de Fatou
donne alors
   
E[X] = E lim Xn = E lim inf Xn ≤ lim inf E[Xn ] ≤ E[X0 ].
n→+∞ n→+∞ n→+∞

La convergence presque sûre du Corollaire 4.15 peut ne pas être L1 comme le montre
l’exemple qui suit :
Chapitre 4. ©JCB – M1math – Université de Rennes 67

Exemple 4.16 (Martingale qui converge ps mais pas L1 )


On reprend l’Exemple 3.20 de la marche aléatoire symétrique avec une suite de variables
1
aléatoires (Xi )i≥1 iid de loi donnée par P(X1 = 1) = P(X1 = −1)  = 2 . On considère
Sn = Sn−1 + Xn avec S0 = 1. On pose T = inf n ≥ 0 : Sn = 0 le temps d’atteinte
de 0 de la marche et on considère Yn = ST ∧n . Comme on observe que T est un temps
d’arrêt, il vient que Y = (Yn )n≥0 est une martingale (Prop. 3.36) positive (par définition
de l’arrêt en T , temps d’atteinte de 0).
ps
Par le Corollaire 4.15, on a Yn −→ Y∞ .
On doit avoir Y∞ = 0 : en effet, Yn ∈ N et la convergence vers k ∈ N est impossible
puisque si Yn = k > 0 alors Yn+1 = k±1. (Une suite entière convergeant ne peut converger
vers un entier qu’en devenant stationnaire, ce qui n’est possible que si la marche a atteint
0 où elle est arrêtée !). Comme sur {T = +∞}, on a |ST ∧(n+1) − ST ∧n | = |Sn+1 − Sn | = 1,
cela oblige d’avoir P(T = +∞) = 0 et donc T < +∞ ps.
Comme par la propriété de martingale, E[Yn ] = E[Y0 ] = 1, on ne peut pas avoir la
convergence L1 de Yn vers Y∞ = 0.

4.3 Uniforme intégrabilité


La notion d’uniforme intégrabilité qu’on introduit dans cette section sera utile pour
étudier la convergence dans L1 de martingales en Section 4.4. On pourra aussi consulter
[Bre-proba].

Définition 4.17 (Uniforme intégrabilité) Une suite de variables aléatoires intégrables


(Xn )n≥0 est dite uniformément intégrable (UI) si
 
lim sup E |Xn |1{|Xn |>c} = 0.
c→+∞ n≥0

Remarque 4.18 — La même définition s’applique à une famille non-dénombrable de


variables aléatoires.
— Une famille de variables aléatoires avec un seul élément (intégrable) est unifor-
mément intégrable (par convergence dominée !).
— Une suite de variables aléatoires dominées par une variable aléatoire Z intégrable
est uniformément intégrable. En effet par croissance de x ∈ R+ 7→ x1{x>c} ,
|Xn |1{|Xn |>c} ≤ Z1{Z>c} , d’où :
 
lim sup E |Xn |1{|Xn |>c} ≤ lim E[Z1{Z>c} ] = 0,
c→+∞ n≥0 c→+∞

où la dernière limite s’obtient par convergence dominée avec Z ∈ L1 .


— Une suite finie de variables aléatoires intégrables est
Pnuniformément intégrable. En
effet, une telle suite (Xk )k=1,...,n est dominée par k=1 |Xk | intégrable.
— Si (Xn )n≥0 et (Yn )n≥0 sont deux suites de variables aléatoires avec |Xn | ≤ |Yn |
pour tout n ≥ 0 et (Yn )n≥0 uniformément intégrable alors (Xn )n≥0 l’est aussi.
Chapitre 4. ©JCB – M1math – Université de Rennes 68

Proposition 4.19 Soit (Xn )n≥1 une suite de variables aléatoires dans L1 telle que pour
δ > 0 la suite est bornée dans L1+δ . Alors la suite (Xn )n≥0 est uniformément intégrable.

Démonstration : On a :
   
sup E |Xn |1{|Xn |>c} = sup E |Xn | × 1 × 1{|Xn |/c>1}
n≥1 n≥1
 |Xn |δ 
≤ sup E |Xn | × δ × 1{|Xn |/c>1}
n≥1 c
1
≤ δ sup E |Xn |1+δ = O c−δ → 0,
  
c → +∞.
c n≥1

Rappelons la propriété suivante d’une variable aléatoire intégrable :


Lemme 4.20 Soit X une variable aléatoire intégrable. Alors pour tout ε > 0, il existe
η > 0 tel que si A ∈ F avec P(A) < η alors E[|X|1A ] < ε.
Démonstration : Par le théorème de convergence dominée, pour c assez grand, on a
E[|X|1{|X|>c} ] ≤ ε/2 ; puis pour η < ε/(2c), on a
      ε ε
E |X|1A = E |X|1A∩{|X|>c} + E |X|1A∩{|X|≤c} ≤ + c P(A) ≤ + c η < ε.
2 2

Pour des variables aléatoires uniformément intégrables, on a la généralisation suivante


de ce rappel :
Proposition 4.21 (Critère d’uniforme intégrabilité) Une suite de variables aléatoires réelles
(Xn )n≥0 est uniformément intégrable si et seulement si
(i) ∀ε > 0, ∃η > 0 tel que pour A ∈ F avec P(A) < η on a E[|Xn |1A ] < ε pour tout
n ∈ N.
(ii) supn≥0 E[|Xn |] < +∞ (ie. la famille est bornée dans L1 ).
Démonstration : On suppose d’abord  que (Xn )n≥0  est uniformément intégrable : pour
tout ε > 0, ∃c > 0 tel que supn≥0 E |Xn |1{|Xn |>c} < ε/2. Alors pour A ∈ F et n ∈ N,
on a       ε
E |Xn |1A = E |Xn |1A∩{|Xn |>c} + E |Xn |1A∩{|Xn |≤c} ≤ + cP(A).
2
On obtient alors (i) avec η = ε/(2c) et (ii) avec A = Ω.
Réciproquement, on fixe ε > 0 et on considère η > 0 donné par (i) et M = supn≥0 E[|Xn |] <
+∞ par (ii). D’après l’inégalité de Markov, pour tout c ≥ M/η, on a
E[|Xn |] M
P(|Xn | > c) ≤ ≤ ≤ η.
c c
Chapitre 4. ©JCB – M1math – Université de Rennes 69

 
En appliquant le (i) pour chaque n ≥ 0 avec A = {|Xn | > c}, on a E |Xn |1{|Xn |>c} ≤ ε.

Proposition 4.22 Soit X ∈ L1 (F). Alors la famille (a priori non dénombrable) de va-
riables aléatoires E[X|G] : G ⊂ F sous-tribu de F est uniformément intégrable.

Démonstration : Pour cela, notons ZG = E[|X| |G]. Comme {ZG > c} est G-mesurable,
par définition de l’espérance conditionnelle ZG = E[|X| |G], on a :

E[ZG 1{ZG >c} ] = E[|X|1{ZG >c} ]. (4.18)

Mais par l’inégalité de Markov


 
E[ZG ] E E[|X| |G] E[|X|]
P(ZG > c) ≤ = = .
c c c
Puis comme X est intégrable, pour tout ε > 0, le Lemme 4.20 donne l’existence de δ > 0
tel que si P(A) < δ alors E[|X|1A ] < ε. Avec c > E[|X|]/δ, on a P(ZG > c) ≤ δ et donc
E[|X|1{ZG >c} ] < ε. Finalement avec l’égalité (4.18), on a E[ZG 1{ZG >c} ] < ε, c’est à dire
 
lim sup E ZG 1{ZG >c} = 0,
c→+∞
G sous-tribu de F

ce qui prouve la Proposition 4.22. □

Théorème 4.23 (Vitali) Soit (Xn )n≥0 une suite de variables aléatoires intégrables. Il y
a équivalence entre
(1) (Xn )n≥0 converge dans L1 ;
(2) (Xn )n≥0 est uniformément intégrable et (Xn )n≥0 converge en probabilité.

Démonstration : (1)⇒(2). D’abord, la convergence L1 entraı̂ne la convergence en pro-


babilité (par l’inégalité de Markov). Elle entraı̂ne aussi que la suite (Xn )n≥0 est bornée
L1
dans L1 (point (ii) de Prop. 4.21). Ensuite pour tout ε > 0, comme Xn −→ X, il existe
n0 tel que pour n ≥ n0 , on a E[|Xn − X|] < ε/2 et donc

E[|Xn |1A ] ≤ E[|Xn − X|1A ] + E[|X|1A ] ≤ E[|Xn − X|] + E[|X|1A ]


≤ ε/2 + E[|X|1A ].

On a donc
sup E[|Xn |1A ] ≤ ε/2 + E[|X|1A ].
n≥n0

Avec A = Ω, on déduit supn≥n0 E[|Xn |] < +∞. Puis comme X est intégrable, par le
Lemme 4.20, il existe δ > 0 tel que P(A) < δ implique E[|X|1A ] ≤ ε/2. On a donc
Chapitre 4. ©JCB – M1math – Université de Rennes 70

supn≥n0 E[|Xn |1A ] ≤ ε pour un tel A. Comme la suite finie (Xn )n<n0 est uniformément
intégrable, il existe aussi δ ′ > 0 tel que P(A) < δ ′ implique E[|Xk |1A ] ≤ ε pour k < n0 .
Finalement lorsque P(A) ≤ min(δ, δ ′ ), on a supn≥0 E[|Xn |1A ] ≤ ε. La Prop. 4.21 assure
alors que (Xn )n≥0 est uniformément intégrable.

(2)⇒(1). Comme (Xn )n≥0 converge en probabilité vers X, presque sûrement, on peut
ps
extraire une sous-suite (nk )k≥1 telle que Xnk −→ X, k → +∞. Le lemme de Fatou, avec
l’uniforme intégrabilité, garantit X ∈ L1 :
h i  
E[|X|] = E lim inf |Xnk | ≤ lim inf E |Xnk | ≤ sup E[|Xn |] < +∞
k→+∞ k→+∞ n≥0

d’après l’uniforme intégrabilité (critère de la Prop. 4.21). Puis pour tout ε > 0, on a
   
E[|Xn − X|] ≤ E |Xn − X|1{|Xn −X|≤ε/3} + E |Xn − X|1{|Xn −X|>ε/3}
   
≤ E |Xn − X|1{|Xn −X|≤ε/3} + E |Xn |1{|Xn −X|>ε/3}
 
+E |X|1{|Xn −X|>ε/3}
   
≤ ε/3 + E |Xn |1{|Xn −X|>ε/3} + E |X|1{|Xn −X|>ε/3} . (4.19)

Comme {X, X1 , . . . , Xn , . . . } est uniformément intégrable, par le critère de la Prop. 4.21


il existe η > 0 tel que pour P(A) ≤ η :

E[|Xn |1A ] < ε/3, E[|X|1A ] < ε/3.


P
Puis d’après la convergence en probabilité Xn −→ X pour n assez grand P(|Xn − X| >
ε/3) ≤ η si bien que
   
E |Xn |1{|Xn −X|>ε/3} < ε/3, E |X|1{|Xn −X|>ε/3} < ε/3.

Finalement pour n assez grand, (4.19) assure E[|Xn − X|] < ε, ce qui prouve le 1). □

4.4 Convergence L1 et martingales fermées


La convergence L1 de martingale est liée à la fermeture de martingale qu’on définit :
Définition 4.24 (Martingale fermée) Une (Fn )-martingale (Xn )n≥0 est dite fermée par
une variable aléatoire X ∈ L1 (F) si Xn = E[X |Fn ] pour tout n ≥ 0.

Théorème 4.25 (Sous-martingales UI) Soit (Xn )n≥0 une sous-martingale. Alors les as-
sertions suivantes sont équivalentes :
(1) (Xn )n≥0 est uniformément intégrable ;
(2) (Xn )n≥0 converge ps et dans L1 ;
L’énoncé s’applique aussi aux sur-martingales et aux martingales.
Chapitre 4. ©JCB – M1math – Université de Rennes 71

Démonstration : (1)⇒(2). L’uniforme intégrabilité implique supn≥0 E[|Xn |] < +∞. Le


théorème de convergence presque sûre des (sous-)martingales s’applique (Corollaire 4.14)
et donne la convergence presque sûre. Cette convergence implique la convergence en pro-
babilité. Dès lors avec le théorème de Vitali (Th. 4.23), l’uniforme intégrabilité implique
la convergence L1 .
(2)⇒(1). Par le théorème de Vitali (Th. 4.23), la convergence L1 implique l’uniforme
intégrabilité. □

Pour des martingales, on peut compléter le Th. 4.25 avec la représentation des martin-
gales avec le (3) ci-dessous :

Théorème 4.26 (Martingales UI et fermées) Pour une martingale (Xn )n≥0 , les asser-
tions suivantes sont équivalentes :
(1) (Xn )n≥0 est uniformément intégrable ;
(2) (Xn )n≥0 converge presque sûrement et dans L1 ;
(3) (Xn )n≥0 est une martingale fermée, ie. il existe une variable aléatoire X ∈ L1 (F)
telle que Xn = E[X|Fn ] ∀n ≥ 0.
Dans ce cas, on a E[Xn ] = E[X] pour tout n ≥ 0.

Démonstration : Il reste à montrer que (3) est équivalente aux deux premiers points.
L1
On a (3)⇒(1) par la Prop. 4.22. Puis en supposant (2), c’est à dire notamment Xn −→
X ∈ L1 , comme (Xn )n≥0 est une martingale, pour k ≥ n et A ∈ Fn on a :

E[Xk 1A ] = E[Xn 1A ].

Mais limk→+∞ E[Xk 1A ] = E[X1A ] car E[Xk 1A ] − E[X1A ] ≤ E[|Xk − X|] et donc pour
tout A ∈ Fn :
E[Xn 1A ] = E[X1A ]
c’est à dire Xn = E[X |Fn ] par définition de l’espérance conditionnelle, on a donc
(2)⇒(1).
Lorsque ces conditions sont remplies, il y a convergence L1 donc convergence des es-
pérances E[Xn ], n ≥ 0, vers E[X]. Comme pour une martingale les espérances sont
constantes, la conclusion s’ensuit. □

Applications des convergences ps et L1 de martingales


W S 
On rappelle que pour une famille de tribus (Gi )i∈I , on note i∈I Gi := σ i∈I Gi .
W on écrit Fn ↗ F∞ pour signifier qu’on considère une filtration (Fn )n≥0
Dans la suite,
avec F∞ := n∈N Fn , la tribu limite la plus grande quand n → +∞.
Chapitre 4. ©JCB – M1math – Université de Rennes 72

Théorème 4.27 (Continuité croissante du conditionnement) Soit Fn ↗ F∞ . Alors pour


X ∈ L1 (F), on a
ps,L1
E[X|Fn ] −→ E[X|F∞ ], n → +∞.
Démonstration : En notant Xn = E[X|Fn ] alors (Xn )n≥0 est une martingale fermée
donc convergente ps et dans L1 vers une variable aléatoire limite Z ∈ L1 par le Th. 4.26.
Comme Xn est Fn - donc F∞ -mesurable, Z = limn→+∞ Xn est aussi F∞ -mesurable.
Pour A ∈ Fn , on a E[X1A ] = E[Xn 1A ] (propriété de martingale) et E[XnS1A ] → E[Z1A ],
n → +∞, (convergence L1 ). Ainsi, pour tout A ∈ Fn et donc tout A ∈ n≥0 Fn , on a :

E[X1A ] = E[Z1A ]. (4.20)


S
Comme (Fn )n≥1 est une filtration, n≥1 Fn est stable par intersection (finie). Puis

M = A ∈ F : E[X1A ] = E[Z1A ]

est une classe monotone car


— Ω ∈ M puisque E[X] = E[Z] ;
— si A, B ∈ M avec A ⊂ B alors B \ A ∈ M : comme 1B\A = 1B − 1A ,

E[X1B\A ] = E[X(1B − 1A )] = E[X1B ] − E[X1A ]


= E[Z1B ] − E[Z1A ] = E[Z(1B − 1A )] = E[Z1B\A ];
S
— si An ∈ M avec An ⊂ An+1 alors n≥0 An ∈ M :comme 1Sn≥0 An = limn→+∞ 1An ,
   
E X1Sn≥0 An = E X lim 1An = lim E[X1An ]
n→+∞ n→+∞
   
= = lim E[Z1An ] = E Z lim 1An = E Z1Sn≥0 An ,
n→+∞ n→+∞

en utilisant (2 fois) la convergene dominée avec |X1An | ≤ |X| ∈ L1 et |Z1An | ≤


|Z| ∈ L1 .
le théorème des classes monotones (Th. 0.2), assure alors que
_ [ 
F∞ = Fn = σ Fn ⊂ M,
n≥0 n≥0

et on a donc (4.20) pour tout A ∈ F∞ .


Mais Z est F∞ -mesurable car limite des Xn qui sont Fn donc F∞ -mesurables. Finale-
ps,L1
ment (4.20) assure Z = E[X|F∞ ] et on a donc Xn −→ E[X|F∞ ] quand n → +∞. □

Le résultat suivant généralise la Prop. 2.17 et le Th. 4.27 :


ps
Théorème 4.28 (Convergence dominée pour l’espérance conditionnelle) On suppose Xn −→
X et |Xn | ≤ Z ∈ L1 pour tout n ≥ 1. Alors si Fn ↗ F∞ , on a
  ps,L1  
E Xn |Fn −→ E X |F∞ , n → +∞.
Chapitre 4. ©JCB – M1math – Université de Rennes 73


Démonstration : On note WN = sup |Xn − Xm | : n, m ≥ N . Comme on observe que
WN ≤ 2Z, on a E[WN ] < +∞ pour tout N ≥ 1. Pour n ≥ N , on a |Xn − X| ≤ WN et
avec le Th. 4.27, il vient presque sûrement
 
lim sup E |Xn − X| |Fn ≤ lim E[WN |Fn ] = E[WN |F∞ ]. (4.21)
n→+∞ n→+∞

Comme WN ↘ 0 ps avec WN ≤2Z ∈ L1 , la Prop.  2.17 assure limN →+∞ E[WN |F∞ ] = 0
ps, soit avec (4.21) : limn→+∞ E |Xn − X| |Fn = 0 ps.
Par l’inégalité de Jensen conditionnelle, on a :
  ps
E[Xn |Fn ] − E[X |Fn ] ≤ E |Xn − X| Fn −→ 0, n → +∞.
ps
Par ailleurs toujours avec le Th. 4.27, on a E[X |Fn ] −→ E[X |F∞ ], n → +∞. Finale-
ment,

E[Xn |Fn ] − E[X |F∞ ] = E[Xn |Fn ] − E[X |Fn ] + E[X |Fn ] − E[X |F∞ ]
ps
≤ E[Xn |Fn ] − E[X |Fn ] + E[X |Fn ] − E[X |F∞ ] −→ 0, n → +∞.

Pour la convergence L1 , on a
L1
— E[X|Fn ] −→ E[X|F∞ ] par la Prop. 4.27 et
L1
— comme par convergence dominée usuelle Xn −→ X :
   
E E[Xn |Fn ] − E[X |Fn ] ≤ E E[|Xn − X| |Fn ] = E[|Xn − X|] → 0, n → +∞,
L1
on a aussi E[Xn |Fn ] − E[X |Fn ] −→ 0.
L1
Il suit donc E[Xn |Fn ] −→ E[X |F∞ ], n → +∞. □

Comme conséquence du Th. 4.27, on a :


Théorème 4.29 (Loi du 0/1 de Lévy) On suppose Fn ↗ F∞ . Alors pour A ∈ F∞ , on a
ps,L1
E[1A |Fn ] −→ 1A quand n → +∞.
Démonstration : Il suffit d’appliquer le Th. 4.27 avec X = 1A , pour A ∈ F∞ puisque
dans ce cas E[1A |F∞ ] = 1A . □

La loi du 0/1 de Kolmogorov concerne la tribu asymptotique d’une suite de variables


aléatoires indépendantes. On commence par rappeler pour une suite de variables aléa-
toires (Xn )n≥0 : 
— les tribus du futur : F (n) = σ Xn , Xn+1 , . . . , n ≥ 0 ;
— la tribu asymptotique F (∞) = n≥0 F (n) .
T

Théorème 4.30 (Loi du 0/1 de Kolmogorov) Lorsque les variables aléatoires (Xn )n≥0
sont indépendantes, la tribu asymptotique F (∞) se réduit, aux négligeables près, à {∅, Ω},
ie. ∀A ∈ F (∞) , P(A) ∈ {0, 1}.
Chapitre 4. ©JCB – M1math – Université de Rennes 74

Démonstration : On note Fn = σ(X0 , . . . , Xn ) et F∞ = n≥0 Fn . Soit A ∈ F (∞) .


W

Pour tout n ≥ 1, (X0 , . . . , Xn ) et 1A sont indépendantes car A ∈ F (n+1) . On a donc


E[1A ] = E 1A |Fn et avec le Th. 4.27 :
   
E[1A ] = lim E 1A |Fn = E 1A |F∞ = 1A ps
n→+∞

en utilisant A ∈ F (∞) ⊂ F∞ . En effet, on peut écrire F (n) = σ p≥n Fnp où Fnp =
S

σ(Xi : n ≤ i ≤ p). Comme Fnp ⊂ Fp ⊂ F∞ , on a F (n) ⊂ F∞ pour tout n ≥ 0 et donc


F (∞) ⊂ F∞ .
Finalement, on a 1A = Cte ps, avec nécessairement Cte ∈ {0, 1}, c’est à dire P(A) ∈
{0, 1}. □

4.5 Convergence Lp de martingales pour p > 1


Théorème 4.31 (Convergence Lp de martingale) Soit (Xn )n≥0 une sous ou sur-martin-
  ps,L1
gale telle que supn≥0 E |Xn |p < +∞ pour p > 1. Alors Xn −→ X quand n → +∞. Si
de plus, (Xn )n≥0 est une martingale alors il y a convergence vers X ps et dans Lp , avec
E[X] = E[Xn ] pour tout n ≥ 0.
 
Démonstration : Soit (Xn )n≥0 une sur- ou sous-martingale. Comme supn≥0 E |Xn |p <
+∞, (Xn )n≥0 est uniformément intégrable par la Prop. 4.19 et donc elle converge ps et
L1 par le Th. 4.25.
Si de plus, (Xn )n≥0 est une martingale, par l’inégalité de moments (4.12) du Corol-
laire 4.6, on a h i  p p 
E sup |Xk |p ≤ E |Xn |p .

0≤k≤n p−1
En faisant n → +∞ avec le théorème de convergence monotone, on obtient
h i  p p
E sup |Xk |p ≤ sup E |Xn |p < +∞,
 
(4.22)
k≥0 p − 1 n≥0

c’est à dire Z := supn≥0 |Xn | ∈ Lp .


ps
Maintenant, comme |Xn − X|p ≤ (2Z)p ∈ L1 et toujours Xn −→ X, le théorème de
convergence dominée implique alors

lim E |Xn − X|p = 0.


 
n→+∞

L’égalité des espérances est due au Théorème 4.26. □


Chapitre 4. ©JCB – M1math – Université de Rennes 75

4.6 Martingales carré-intégrables


On rappelle qu’une martingale (Xn )n≥0 carré-intégrable admet un compensateur
 
(⟨X, X⟩n )n≥0 (Déf. 3.42) et qu’elle est bornée dans L2 si et seulement si E ⟨X, X⟩∞ <
+∞ (Prop. 3.44).

Convergence ps de martingale L2 et compensateur


Théorème 4.32 (Convergence ps de martingale L2 et compensateur) Soit (Xn )n≥0 une
martingale de carré intégrable et de compensateur ⟨X, X⟩.
(1) Pour presque tout ω ∈ Ω tel que ⟨X, X⟩∞ (ω) < +∞, limn→+∞ Xn (ω) existe.
(2) Si (Xn )n≥0 a des accroissements bornés, ie. il existe K < +∞ tel que |Xn −
Xn−1 | ≤ K ps, alors pour presque tout ω tel que limn→+∞ Xn (ω) existe dans R,
on a ⟨X, X⟩∞ (ω) < +∞.

Démonstration : Sans perte de généralité, on suppose pour simplifier que X0 = 0. 


1) On note An = ⟨X, X⟩n . Comme (An )n≥0 est prévisible, Sk = inf p ≥ 0 : Ap+1 > k
est un temps d’arrêt : pour tout n ≥ 0,
[
{Sk ≤ n} = {Ap+1 > k} ∈ Fn .
| {z }
p≤n
∈Fp

Par la Prop. 3.34, la suite ASk = ASk ∧n n≥0 est prévisible et, par la Prop. 3.45, ASk =
⟨X Sk , X Sk ⟩. Par la propriété de martingale, il vient :

E (X Sk )2n − ASnk = E (X Sk )20 − AS0 k = 0,


   

soit par définition de l’arrêt Sk :

E (X Sk )2n = E ASnk ≤ k
   

pour tout n ≥ 0 et donc X Sk est bornée dans L2 . Par l’inégalité de Cauchy-Schwarz,


X Sk est aussi bornée dans L1 et le Corollaire 4.14 assure la convergence presque sûre.
S
Comme {A∞ < +∞} = k≥0 {Sk = +∞}, si ω ∈ {A∞ < +∞} alors il existe k(ω) tel que
S (ω)
Sk(ω) (ω) = +∞ et Xn k(ω) (ω) = Xn (ω). Pour presque chaque tels ω ∈ {A∞ < +∞},
(Xn (ω))n≥0 converge.
2) On raisonne par l’absurde et on suppose que
 
P A∞ = +∞ et sup |Xn | < +∞ > 0. (4.23)
n≥0

En notant Tc = inf(n ≥ 0 : |Xn | > c), on a {Tc = +∞} = {supn≥0 |Xn | ≤ c} et par
convergence monotone

P A∞ = +∞ et Tc = +∞
Chapitre 4. ©JCB – M1math – Université de Rennes 76

 
= P A∞ = +∞, sup |Xn | ≤ c ↗ P A∞ = +∞, sup |Xn | < +∞ .
n≥0 n≥0

Pour c > 0 assez grand, on déduit donc de (4.23) que



P A∞ = +∞ et Tc = +∞ > 0. (4.24)

D’après le théorème d’arrêt borné (Th. 3.37) avec le temps d’arrêt borné Tc ∧ n et la
martingale X 2 − A, on a
E[XT2c ∧n ] − E[ATc ∧n ] = 0.
Mais XT2c ∧n est bornée par (c+K)2 : en effet, à la date (Tc ∧n)−1 < Tc , on a X(Tc ∧n)−1 ≤ c
et comme un accroissement (de la date (Tc ∧ n) − 1 à la date (Tc ∧ n)) est borné par K,
on a
E[ATc ∧n ] = E[XT2c ∧n ] ≤ (c + K)2 .
En faisant n → +∞ par le théorème de convergence monotone, on a

E[ATc ] ≤ (c + K)2 ,

ce qui est en contradiction avec (4.24) et donc (4.23) car en notant B = {A∞ =
+∞ et Tc = +∞}, on a

E[ATc ] ≥ E[ATc 1B ] = E[A∞ 1B ] = +∞

puisque P(B) > 0 et A∞ = +∞ sur B.


Finalement, on doit avoir A∞ < +∞ dès que supn≥0 |Xn | < +∞, en particulier dès que
(Xn )n≥1 converge dans R. □

Martingale bornée dans L2


Dans le cas de martingale L2 , le Théorème 4.31 s’écrit

Corollaire 4.33 (Convergence de martingale bornée dans L2 ) Soit (Xn )n≥0 une mar-
tingale bornée dans L2 (ou de façon équivalente, de compensateur ⟨X, X⟩ intégrable
ps
en +∞). Alors Xn −→ X ps et dans L2 . De plus, E[X0 ] = E[Xn ] = E[X].

Le résultat suivant est une LGN presque sûre pour les martingales. Il complète le
Th. 4.32.

Théorème 4.34 (LGN pour martingale) Soit (Xn )n≥0 une (Fn )-martingale de carré in-
tégrable avec X0 = 0. Alors sur {⟨X, X⟩∞ = +∞}, on a
Xn ps
−→ 0, n → +∞. (4.25)
⟨X, X⟩n
Chapitre 4. ©JCB – M1math – Université de Rennes 77

Remarque 4.35 (Cas iid) Lorsque (Xn )n≥1 est une suite de variables Pn aléatoires iid cen-
2
trées de carrés intégrables, on retrouve la LGN forte L : Sn = k=1 Xk est une mar-
tingale L2 de compensateur ⟨S, S⟩n = nσ 2 (où σ 2 = E[X12 ], voir Exemple 3.46) et (4.25)
se réécrit
Sn ps
−→ 0, n → +∞.
n

Démonstration : On considère la suite prévisible H = (1+⟨X, X⟩n )−1 n≥0 , et W = H·X




donnée par W0 = 0 et
n
X Xk − Xk−1
Wn = , n ≥ 1.
k=1
1 + ⟨X, X⟩k

Comme H est bornée par 1, la Prop. 3.32 assure que W = (Wn )n≥0 définit une martin-
gale. En utilisant l’expression (3.16) du compensateur, celui de W est donné par
⟨W, W ⟩n − ⟨W, W ⟩n−1 = E (Wn − Wn−1 )2 |Fn−1
 
" 2 #
Xn − Xn−1
= E Fn−1
1 + ⟨X, X⟩n
1
E (Xn − Xn−1 )2 |Fn−1
 
= 2
(1 + ⟨X, X⟩n )
⟨X, X⟩n − ⟨X, X⟩n−1
=
(1 + ⟨X, X⟩n )2
⟨X, X⟩n − ⟨X, X⟩n−1

(1 + ⟨X, X⟩n )(1 + ⟨X, X⟩n−1 )
1 1
= − .
1 + ⟨X, X⟩n−1 1 + ⟨X, X⟩n
On en déduit
n
X  1
⟨W, W ⟩n = ⟨W, W ⟩k − ⟨W, W ⟩k−1 ≤ 1 − ≤1 ps.
k=1
1 + ⟨X, X⟩n

En passant à la limite, on a ⟨W, W ⟩∞ ≤ 1 ps et par le Th. 4.32 la martingale W converge


ps. Par le lemme de Kronecker (Lemme 4.37) avec ak = 1 + ⟨X, X⟩k , il suit
Xn ps
−→ 0, n → +∞,
1 + ⟨X, X⟩n
ou de façon équivalente
Xn ps
−→ 0, n → +∞.
⟨X, X⟩n

On prouve ci-dessous les lemmes de Césaro (Lemme 4.36) et de Kronecker (Lemme 4.37)
pour la convergence de séries numériques.
Chapitre 4. ©JCB – M1math – Université de Rennes 78

Lemme 4.36 (Césaro) Soit (un )n≥1 une suite d’un espace vectoriel
Pn normé E qui converge
vers ℓ et (αn )n≥1 une suite positive, de sommes partielles an = k=1 αn qui tendent vers
+∞. Alors on a
n
1 X
lim αk uk = ℓ.
n→+∞ an
k=1

Démonstration : Soit ε > 0 et n0 ≥ 1 tel que, pour n ≥ n0 , on a |un − ℓ| < ε. Comme


P n
k=1 αk = an , on a
n n
1 X  1 X
αk uk − ℓ = αk (uk − ℓ)
an k=1 an k=1
n0 n
1 X 1 X
≤ αk ∥uk − ℓ∥ + αk ∥uk − ℓ∥
an k=1 an k=n +1
0
n0
1 X an − an0
≤ αk ∥uk − ℓ∥ + ε.
an k=1 an
an −an0 1
Pn0
Comme an
≤ 1 et limn→+∞ an k=1 αn ∥uk − ℓ∥ = 0 (an → +∞), on a
n
1 X
lim sup αn uk − ℓ ≤ ε,
n→+∞ an k=1

ce qui permet de conclure puisque ε > 0 est arbitraire :


n n
1 X 1 X
0 ≤ lim inf αn uk − ℓ ≤ lim sup αn uk − ℓ = 0,
n→+∞ an n→+∞ a n
k=1 k=1

soit n
1 X
lim αn uk − ℓ = 0.
n→+∞ an k=1

Lemme 4.37 (Kronecker) Soit (xn )n≥1 une suite dans un espace vectoriel normé P+∞ etxn
(an )n≥1 une suite croissante strictement positive convergeant vers +∞. Si la série n=1 an
converge alors
n
1 X
lim xk = 0.
n→+∞ an
k=1
Pk xn
Démonstration : On note Sk = n=1 an . En écrivant xk /ak = Sk − Sk−1 , on a par une
transformation d’Abel :
n
X n
X n−1
X
xk = ak (Sk − Sk−1 ) = (ak − ak+1 )Sk + an Sn ,
k=1 k=1 k=1
Chapitre 4. ©JCB – M1math – Université de Rennes 79

avec S0 = 0 par convention et donc


n n−1
1 X X ak+1 − ak
xk = Sn − Sk . (4.26)
an k=1 k=1
a n

Comme Sk converge vers S, le Lemme 4.36 (Césaro) avec αk = ak − ak−1 ≥ 0 de somme


partielle an → +∞ assure
n−1
X ak+1 − ak
Sk → S, n → +∞,
k=1
an

ce qui conclut le Lemme 4.37 (Kronecker) quand on passe à la limite dans (4.26). □

4.7 Théorème d’arrêt


Dans cette section, on cherche à généraliser la propriété de martingale (3.3) à des
temps d’arrêt. On rappelle que si T, S sont des temps d’arrêt avec S ≤ T , alors pour
une sous-martingale (Xn )n≥0 on n’a pas toujours E[XS ] ≤ E[XT ].
On rappelle le contre-exemple (Exemple 3.38) de la marche aléatoire simple (Sn )n≥0
partant de S0 = 0 avec T = inf n ≥ 1 : Sn = −1 (temps d’atteinte de −1) : on a
E[ST ] = −1 et E[S0 ] = 0 alors que T ≥ S = 0.
Au contraire si S ≤ T avec T borné (ie. P(T ≤ k) = 1 pour un k ∈ R+ ) alors pour une
sous-martingale (Xn )n≥1 , on a E[XS ] ≤ E[XT ]. En effet, XnT = XT ∧n , n ≥ 0, est une
sous-martingale arrêtée donc une sous-martingale (Prop. 3.36). Le Th. 3.37 appliqué à
X T avec le temps d’arrêt S borné donne
E[XS ] = E[XT ∧S ] = E XST ≤ E XkT = E[XT ∧k ] = E[XT ].
   

En fait, on a un résultat plus général :


Proposition 4.38 Soit (Xn )n≥0 une sous-martingale uniformément intégrable et T un
temps d’arrêt. Alors :
(1) X T = (XT ∧n )n≥0 est une sous-martingale uniformément intégrable
ps,L1
(2) XT ∧n −−−→ XT , n → +∞
(3) E[X0 ] ≤ E[XT ] ≤ E[X∞ ] où X∞ = limn→+∞ Xn .
Démonstration : D’abord, comme (Xn )n≥0 est une sous-martingale uniformément inté-
grable, le Th. 4.25 assure que (Xn )n≥0 converge ps (et dans L1 ) vers X∞ , XT est bien
défini même pour T = +∞.
Ensuite, on sait déjà que X T = (XT ∧n )n≥0 est une martingale par la Prop. 3.36. On
montre d’abord qu’elle converge ps vers XT ∈ L1 en appliquant le Th. 4.10 en vérifiant
sup E XT+∧n < +∞
 
(4.27)
n≥0
Chapitre 4. ©JCB – M1math – Université de Rennes 80

En effet, comme φ(x) = x+ est croissante et convexe, (Xn+ )n≥0 est aussi une sous-
martingale (Prop. 3.29). En appliquant le Th. 3.37 à la sous-martingale (Xn+ )n≥0 et au
temps d’arrêt T ∧ n borné, on a

E XT+∧n ≤ E Xn+ ≤ E |Xn | .


     

Comme (Xn )n≥0 est uniformément intégrable, on a

sup E XT+∧n ≤ sup E |Xn | < +∞,


   
n≥0 n≥0

ce qui assure (4.27) et donc la convergence ps de XT ∧n vers XT ∈ L1 .


Ensuite, on établit que X T est uniformément intégrable : pour tout c > 0, on a :
 
E |XT ∧n |1{|XT ∧n |≥c}
   
= E |XT |1{|XT ≥c} 1{T ≤n} + E |Xn |1{|Xn |≥c} 1{T >n} (4.28)
   
≤ E |XT |1{|XT |≥c} + E |Xn |1{|Xn |≥c} .
 
Comme Xn : n ∈ N ∪ {XT } est uniformément intégrable, la famille XT ∧n : n ∈ N
l’est aussi, ce qui prouve 1).
Finalement, le Th. 4.25 s’applique à la sous-martingale X T et prouve la convergence L1
vers XT , ce qui achève de prouver 2).
Le Th. 3.37 pour les temps d’arrêt bornés donne

E[X0 ] ≤ E[XT ∧n ] ≤ E[Xn ].

Par 1), limn→+∞ E[XT ∧n ] = E[XT ] et par le le Th. 4.25 limn→+∞ E[Xn ] = E[X∞ ]. On
obtient donc 3) en faisant n → +∞. □

De (4.28) dans la preuve précédente, on déduit en particulier :

Corollaire 4.39 Soit (Xn )n≥0 une sous-martingale. Si E[|XT |] < +∞ et (Xn 1{T >n} )n≥0
est uniformément intégrable. Alors X T = (XT ∧n )n≥0 est uniformément intégrable.

On arrive à la forme générale du théorème d’arrêt :

Théorème 4.40 (Arrêt de Doob) Soit S ≤ T des temps d’arrêt et (Xn )n≥0 une sous-
martingale uniformément intégrable. Alors E[XS ] ≤ E[XT ] et

XS ≤ E[XT |FS ]. (4.29)

On a des énoncés analogues pour les martingales et sur-martingales.


Chapitre 4. ©JCB – M1math – Université de Rennes 81

Remarque 4.41 Si T ≤ k ps alors


k
  X  
E |XT | = E |Xn |1{T =n} ≤ kE[|Xk |] < +∞
n=1

et Xn 1{T >n} est uniformément intégrable puisque la famille est finie (pour n > k,
Xn 1{T >n} = 0). D’après le Corollaire 4.39, X T = (XT ∧n )n≥0 est uniformément inté-
grable et le théorème d’arrêt (Th. 4.40) s’applique à X T = (XT ∧n )n≥0 quand T est
borné : on retrouve bien l’exemple introductif de la section dans ce théorème général.

Démonstration :[Th. 4.40] On pose Yn = XT ∧n , n ≥ 0. D’après la Prop. 4.38, (Yn )n≥0


est une sous-martingale uniformément intégrable et on peut lui appliquer le 3) de la
Prop. 4.38 avec le temps d’arrêt S pour avoir E[YS ] ≤ E[Y∞ ], soit comme S ≤ T ,
YS = XS et Y∞ = XT :
E[XS ] ≤ E[XT ],
ce qui prouve la première partie du Th. 4.40.
On observe que XS est FS -mesurable puisque pour tout B ∈ B(R), on a XS−1 (B) =
{XS ∈ B} ∈ FS : {XS ∈ B} ∩ {S = n} = {Xn ∈ B} ∩ {S = n} ∈ Fn .
Pour la deuxième partie (4.29), on considère A ∈ FS et on pose

U = S1A + T 1Ac .

On observe que U est un temps d’arrêt car

{U ≤ n} ∩ A ∪ {U ≤ n} ∩ Ac
 
{U ≤ n} =
{S ≤ n} ∩ A ∪ {T ≤ n} ∩ Ac .
 
=

Mais {S ≤ n} ∈ Fn et donc, comme A ∈ FS , {S ≤ n} ∩ A ∈ Fn . Puis {T ≤ n} ∈ Fn


et donc, comme A ∈ FS ⊂ FT , {T ≤ n} ∩ Ac ∈ Fn . On a donc bien {U ≤ n} ∈ Fn ,
justifiant que U est temps d’arrêt.
Comme U ≤ T , par la première partie de la preuve, il vient

E[XU ] ≤ E[XT ]. (4.30)

Comme U = S sur A et U = T sur Ac , on a


   
E[XU ] = E XU 1A + E XU 1Ac
   
= E XS 1A + E XT 1Ac (4.31)
   
≤ E[XT ] = E XT 1A + E XT 1Ac (4.32)

où (4.32) vient de (4.30). En simplifiant (4.31)≤(4.32), il vient pour tout A ∈ FS


     
E XS 1A ≤ E XT 1A = E Z1A ,
Chapitre 4. ©JCB – M1math – Université de Rennes 82

en notant Z = E[XT |FS ]. On a donc E[(Z − XS )1A ] ≥ 0 pour tout A ∈ FS . Comme


A = {Z − XS < 0} ∈ FS (Z, XS sont FS -mesurables) on a (Z − XS )1A ≤ 0 et donc
E (Z − XS )1A = 0 ce qui exige (Z − XS )1A = 0 ps et comme Z − XS < 0 sur A, il vient
1A = 0 ps, c’est à dire P(A) = 0 et donc XS ≤ Z ps, achevant la preuve du théorème
d’arrêt (Th. 4.40). □

On a un résultat analogue sans l’hypothèse d’uniforme intégrabilité pour les sur-martin-


gales qui sont positives :

Proposition 4.42 Soit (Xn )n≥1 une sur-martingale positive et T un temps d’arrêt. Alors
E[XT ] ≤ E[X0 ] + E[X∞ ] où la limite X∞ = limn→+∞ Xn existe par le Corollaire 4.15.

Démonstration : Par le Corollaire 4.15, la sur-martingale (Xn )n≥0 converge ps vers X∞ .


Comme X T = (XT ∧n )n≥0 est aussi une sur-martingale (Prop. 3.36), son espérance dé-
croı̂t :
E[XT ∧n ] ≤ E[XT ∧0 ] = E[X0 ]. (4.33)
Comme la sur-martingale est positive, par convergence monotone, on a
     
E XT 1{T <+∞} = lim E XT 1{T ≤n} = lim E XT ∧n 1{T ≤n}
n→+∞ n→+∞
 
≤ lim E XT ∧n ≤ E[X0 ] (4.34)
n→+∞

en utilisant (4.33). On a aussi


   
E XT 1{T =+∞} = E X∞ 1{T =+∞} ≤ E[X∞ ]. (4.35)

Ainsi, en combinant (4.34) et (4.35), on a


   
E[XT ] = E XT 1{T <+∞} + E XT 1{T =+∞}
≤ E[X0 ] + E[X∞ ].


Troisième partie

Chaı̂nes de Markov

83
Chapitre 5

Dynamique markovienne

Introduction
On considère un système qui peut être dans un nombre fini ou infini dénombrable
d’états. L’ensemble des états, noté E, est appelé espace d’états et on supposera dans
ce cours que E est dénombrable (souvent, E sera N ou une partie de N). On suppose le
système observé en des temps discrets n = 0, 1, 2, . . . et l’état du système à la date n est
noté Xn .
Comme on s’intéresse aux systèmes non déterministes, on considère des suites de
variables aléatoires (Xn )n≥0 . Pour étudier de tels systèmes aléatoires (Xn )n≥0 , on suppose
que le système –ou son évolution– satisfait certaines propriétés.
La propriété la plus simple est de supposer que les variables aléatoires Xn , n ≥ 0, sont
(mutuellement) indépendantes, c’est à dire de supposer que les états du système sont
tous indépendants. En pratique, une telle hypothèse est trop restrictive pour modéliser
nombre de phénomènes intéressants.
En fait, de nombreux systèmes ont la propriété –plus générale– suivante : l’état pré-
sent du système étant connu, les états passés n’ont pas d’influence sur les états futurs.
Autrement dit le système n’évolue pas indépendamment dans le temps mais évolue sans
mémoire (seul le présent, et non le passé, influe sur le futur). Cette propriété est dite
propriété de Markov et les systèmes qui la vérifient sont des chaı̂nes de Markov (Défi-
nition 5.5).
Pour formaliser ce type de propriété, on commence par un exemple très simple de
système markovien ne pouvant prendre que deux valeurs.

Exemple 5.1 (Chaı̂nes de Markov à deux états) Considérons une machine qui au début
de chaque jour est soit en état de fonctionnement (état 1) soit en panne (état 0). On
note alors Xn = 1 si la machine fonctionne au début du n-ème jour, Xn = 0 sinon. On
suppose que si la machine est en panne le n-ème jour, la probabilité qu’elle soit réparée et
fonctionne au début du (n + 1)-ème jour est p ∈]0, 1[. On suppose aussi que si la machine
fonctionne le n-ème jour, la probabilité qu’un problème survienne et qu’elle soit en panne
au début du (n + 1)-ème jour est q ∈]0, 1[. (Attention, avec ces notations, il n’y a pas de
raison que p + q = 1 comme c’est souvent le cas.) Enfin, on décrit par µ0 = (µ0 (0), µ0 (1))

84
Chapitre 5. ©JCB – M1math – Université de Rennes 85

l’état initial de la machine, ie. µ0 (0) est la probabilité que la machine soit en panne au
début du 0-ème jour et µ0 (1) la probabilité qu’elle fonctionne (ou encore : X0 ∼ µ0 ). Le
modèle se réécrit

P(Xn+1 = 1|Xn = 0) = p, P(Xn+1 = 0|Xn = 1) = q

avec P(X0 = 0) = µ0 (0) et il se représente par le graphe de transitions suivant :


p

1−p 0 1 1−q
q

Comme les probabilités conditionnelles sont des probabilités, on en déduit immédiate-


ment
P(Xn+1 = 0|Xn = 0) = 1 − p, P(Xn+1 = 1|Xn = 1) = 1 − q
et la probabilité d’être en fonction à la date 0 est µ0 (1) = 1 − µ0 (0).
On calcule P(Xn = 0) et P(Xn = 1) par la formule des probabilités totales (1.3) :

P(Xn+1 = 0) = P(Xn+1 = 0|Xn = 0)P(Xn = 0) + P(Xn+1 = 0|Xn = 1)P(Xn = 1)


= (1 − p)P(Xn = 0) + qP(Xn = 1)
= (1 − p − q)P(Xn = 0) + q.

Lorsque p + q ̸= 0, comme P(X0 = 0) = µ0 (0), on en déduit par récurrence :


n−1
X
n
P(Xn = 0) = (1 − p − q) µ0 (0) + q (1 − p − q)j
j=0
q n
 q 
= + (1 − p − q) µ0 (0) − . (5.1)
p+q p+q

Comme P(Xn = 1) = 1 − P(Xn = 0), on a aussi


p  p 
P(Xn = 1) = + (1 − p − q)n µ0 (1) − . (5.2)
p+q p+q

Si |1 − p − q| < 1, en passant à la limite n → +∞, on a


q p
lim P(Xn = 0) = , lim P(Xn = 1) = .
n→+∞ p+q n→+∞ p+q
Ces probabilités s’interprètent comme une sorte de régime asymptotique :
 q p 
n→+∞
Xn =⇒ µ∞ := , .
p+q p+q
Chapitre 5. ©JCB – M1math – Université de Rennes 86

Si p = q = 1, alors il est facile de voir que le système est périodique de période 2 avec

P(X2n = 0) = µ0 (0), P(X2n = 0) = µ0 (1);


P(X2n+1 = 0) = µ0 (1), P(X2n+1 = 0) = µ0 (0)

ie. X2n ∼ µ0 et X2n+1 ∼ 1 − µ0 . Dans ce cas, (Xn )n≥0 ne converge pas en loi.
Enfin, si p = q = 0 et on a facilement P(Xn = 0) = µ0 (0) et P(Xn = 1) = µ0 (1) et le
système n’évolue donc pas, la loi reste donnée en tout temps par µ0 et donc à la limite
aussi : Xn ∼ µ0 pour tout n ≥ 0.
Observons qu’on peut aussi obtenir les probabilités limites p/(p + q) et q/(p + q) autre-
ment : si on choisit µ0 (0) et µ0 (1) de façon que P(Xn = 0) et P(Xn = 1) ne dépendent
pas de n alors on constate dans les expressions de P(Xn = 0) en (5.1) et P(Xn = 1) en
(5.2) que nécessairement
q p
µ0 (0) = , µ0 (1) = (5.3)
p+q p+q
et dans ce cas si la chaı̂ne (Xn )n≥0 démarre avec la distribution donnée par (5.3), on a
pour tout n ≥ 0 :
q p
P(Xn = 0) = , P(Xn = 1) = .
p+q p+q
La distribution (5.3) s’interprète comme une distribution stationnaire (ou invariante) et
on constate donc que les distributions limite et stationnaire coı̈ncident.
Approche matricielle 
Le modèle se représente aussi matriciellement en notant µn = P(Xn = 0), P(Xn = 1)
et  
1−p p
P = .
q 1−q
La formule des probabilités totales (1.3) s’écrit

µn+1 = µn P, et par récurrence µn = µ0 P n .

Pour calculer P n , on observe que le spectre de P est Sp(P ) = {1, 1 − p − q} avec les
espaces propres R2 = Vect (1, 1)t ⊗ Vect (p, −q)t . On en déduit la matrice de passage
A et son inverse
   
1 p −1 1 q p
A= et A = .
1 −q p + q 1 −1
On a donc  
1 0
P =A A−1
0 1−p−q
et
 
1 0
P n
= A A−1
0 (1 − p − q)n
Chapitre 5. ©JCB – M1math – Université de Rennes 87

(1 − p − q)n
   
1 q p p −p
= + .
p+q q p p+q −q q

Enfin puisque µn = µ0 P n , il vient


 
q n
 q  p n
 p 
µn = + (1 − p − q) µ0 (0) − , + (1 − p − q) µ0 (1) −
p+q p+q p+q p+q

ce qui retrouve (5.1) et (5.2).

5.1 Probabilités de transition


On rappelle la notion de noyau de probabilité aussi appelé noyau de transition ou
noyau markovien (cf. Définition 2.29) :

Définition 5.2 (Noyau de transition) Étant donné deux espaces mesurables (E, E) et
(F, F), on appelle noyau de transition (ou noyau de probabilité ou noyau markovien)
de E dans F toute application ν : E × F → [0, 1] qui vérifie
(i) ∀x ∈ E, ν(x, ·) est une probabilité sur (F, F) ;
(ii) ∀A ∈ F, ν(·, A) est E-mesurable.

Dans la suite, on considérera E = F et on supposera l’ensemble E au plus dénombrable


avec E = F = P(E) si bien que le point (ii) sera automatique.

Définition 5.3 (Matrice stochastique) On appelle matrice stochastique sur E (éventuel-


lement infinie) toute famille (P (x, y))x,y∈E de réels tels que
(i) ∀(x, y) ∈ E 2 , 0 ≤ P (x, y) ≤ 1
P
(ii) ∀x ∈ E, y∈E P (x, y) = 1.

Remarque 5.4
— Dire qu’une matrice P (à coefficients positifs) est stochastique, c’est dire que
(1, . . . , 1)t est vecteur propre de P associé à la valeur propre 1.
— Si l’espace E est fini de cardinal d, on peut supposer sans perte de généralité que
E = {1, . . . , d} et alors (P (x, y))x,y∈E = (Px,y )x,y∈E est une « vraie » matrice de
taille d × d, à coefficients positifs dont les sommes des lignes valent toutes 1.
— Dans le cas où l’ensemble E est dénombrable les notions de noyau de transition
et de matrice stochastique sont équivalentes. Ainsi :
P
(i) Si P est une matrice stochastique, ν(x, A) = y∈A P (x, y) définit un noyau
de transition ;

(ii) Si ν est un noyau de transition, P (x, y) = ν x, {y} définit une matrice sto-
chastique.
En particulier, noter que pour chaque x ∈ E : P (x, •) est une loi de probabilité.
Chapitre 5. ©JCB – M1math – Université de Rennes 88

Quelques notations :
— Si f : E → R+ , on note P f la fonction de E dans R+ donnée par
X
P f (x) = P (x, y)f (y), x ∈ E.
y∈E

En interprétant les fonctions (donc ici f et P f ) comme des vecteurs colonnes,


le vecteur colonne P f s’obtient par le produit matriciel (à droite) et P f (x) =
EP (x,•) [f ].
— En interprétant une mesure µ sur E comme un vecteur (ligne), on définit la mesure
µP par X
(µP )(y) = µ(x)P (x, y), y ∈ E.
x∈E

Le vecteur ligne µP s’obtient par produit matriciel (à gauche).


— On définit le produit P Q de deux matrices stochastiques P, Q par
X
(P Q)(x, y) = P (x, z)Q(z, y). (5.4)
z∈E

On voit facilement que P Q est une matrice stochastique puisque pour tout x ∈ E :
X XX XX
(P Q)(x, y) = P (x, z)Q(z, y) = P (x, z)Q(z, y)
y∈E y∈E z∈E z∈E y∈E
X X 
= P (x, z) Q(z, y) = 1.
z∈E y∈E
| {z }
=1

— Dans la suite, on considère P n la puissance n-ème de P dans le sens du produit


matriciel (5.4) : pour n = 0 P 0 (x, y) = 1{x=y} , pour n = 1 P 1 = P et pour n ≥ 2 :
X
Pn+1 (x, y) = Pn (x, z)P (z, y) (5.5)
z∈E
X X
= ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )P (yn , y) (5.6)
y1 ∈E yn ∈E

où (5.6) vient de (5.5) par une récurrence immédiate.

Définition 5.5 (Chaı̂ne de Markov) On appelle chaı̂ne de Markov sur un espace d’états
E dénombrable toute suite de variables aléatoires (Xn )n∈N à valeurs dans E telle que les
lois conditionnelles vérifient pour tout n ≥ 0

L(Xn+1 |X0 , X1 , . . . , Xn ) = L(Xn+1 |Xn ) (5.7)

c’est à dire pour tout x0 , x1 , . . . , xn ∈ E tel que P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) > 0


et pour y ∈ E

P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P Xn+1 = y |Xn = xn ). (5.8)
Chapitre 5. ©JCB – M1math – Université de Rennes 89

On dit que la chaı̂ne de Markov est homogène s’il existe une matrice stochastique P telle
que L(Xn+1 |Xn ) = P (Xn , •) ou P Xn+1 = y |Xn = xn ) = P (xn , y), dans ce cas, (5.7) et
(5.8) se réécrivent

L(Xn+1 |X0 , X1 , . . . , Xn ) = P (Xn , •)



P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P (xn , y).

Remarque 5.6 — Autrement dit, si la chaı̂ne est en xn à la date n, peu importe


de savoir où elle était avant pour connaı̂tre sa probabilité d’aller en y à la date
suivante n + 1, dans tous les cas cette probabilité est P (x, y). Ainsi, P (x, y) est
appelée aussi probabilité de transition (en une étape) de la chaı̂ne de Markov
(Xn )n≥0 de x vers y.
— On dit encore que le futur ne dépend du passé que par le présent où passé, présent,
futur proviennent des interprétations suivantes :

présent
z}|{
X0 , . . . , Xn−1 , Xn , Xn+1 , Xn+2 , . . .
| {z } | {z }
passé futur

— (Homogénéité) Dans ce cours, la matrice de transition P ne dépend pas de n et


on parle de chaı̂ne de Markov homogène. On pourrait envisager une chaı̂ne dont
les transitions sont données par

P Xn+1 = y |X0 = x0 , X1 = x1 , . . . , Xn = xn = P (n) (xn , y)




c’est à dire avec un noyau de transition P (n) qui dépend de n ; on parlerait alors
de chaı̂ne de Markov inhomogène.

5.2 Exemples de chaı̂ne de Markov


Exemple 5.7 (Suite de variables aléatoires indépendantes et identiquement distribuées)
Soit (Xn )n≥0 une suite de variables aléatoires indépendantes et identiquement distribuées
de loi f à valeurs dans E alors (Xn )n≥0 est une chaı̂ne de Markov de matrice de transition
P (x, y) = f (y) pour tout x, y ∈ E.
Il s’agit d’une chaı̂ne de Markov de matrice stochastique P (x, y) = f (y) car

P(Xn+1 = y |X0 = x0 , . . . , Xn = x) = P(Xn+1 = y) = f (y)

puisque {Xn+1 = y} ⊥
⊥ {X0 = x0 , . . . , Xn = x} et de même

P(Xn+1 = y |Xn = x) = P(Xn+1 = y) = f (y).


Chapitre 5. ©JCB – M1math – Université de Rennes 90

...

...
... µ(y)
µ(x)

µ(y)
x y

µ(x)

Exemple 5.8 (Marche aléatoire sur Zd ) Soit (Xn )n≥0 une suite de variables aléatoires
indépendantes et identiquement distribuées à valeurs entières de distribution f (ie.
P(X1 = x) = f (x)). On considère une variable aléatoire X0 de loi µ0 indépendante
de la suite (Xn )n≥0 et on note Sn = X0 + X1 + · · · + Xn . La suite (Sn )n≥0 est appelée
une marche aléatoire : S0 = X0 est la position initiale d’un marcheur et Xn est le pas
effectué à la date n qui l’amène à sa position Sn à la date n. C’est une chaı̂ne de Markov
d’espace d’états E = N et de noyau de transition P (x, y) = f (y − x) car
P(Sn+1 = y|S0 = x0 , S1 = x1 , . . . , Sn = x) = P(Xn+1 = y − x|S0 = x0 , S1 = x1 , . . . , Sn = x)
= P(Xn+1 = y − x) = f (y − x).
De même
P(Sn+1 = y|Sn = x) = P(Xn+1 = y − x|Sn = x) = P(Xn+1 = y − x) = f (y − x).
On a aussi la probabilité d’une trajectoire jusqu’à la date n :
P(S0 = x0 , . . . , Sn = xn ) = P(X0 = x0 , X1 = x1 − x0 , . . . , Xn = xn − xn−1 )
= P(X0 = x0 )P(X1 = x1 − x0 ) . . . P(Xn = xn − xn−1 )
= µ0 (x0 )f (x1 − x0 ) . . . f (xn − xn−1 ).

f (y − x)
... x y ...

f (x − y)

On peut considérer le cas spécial d’une marche simple sur Z avec f (1) = p, f (−1) = q
et f (0) = r avec p + q + r = 1 (le marcheur fait un pas sur la droite (+1) ou sur la
gauche (−1) ou reste sur place (0) avec probabilités respectives p, q, r). Dans ce cas, les
transitions sont gouvernées par


 p si y = x + 1
q si y = x − 1

P (x, y) =

 r si y = x
0 sinon.

Chapitre 5. ©JCB – M1math – Université de Rennes 91

p p p p p p
r 0 1 ... x−1 x x+1 ...
q
q r q q q q r
r r
r r

Exemple 5.9 (Marche aléatoire sur un graphe) On se donne un graphe au plus dénom-
brable (E, A) où E désigne l’ensemble des sommets et A celui des arêtes. On note Ax
l’ensemble des arêtes issues de x ∈ E. On suppose que pour tout x ∈ E, Ax est fini et
non vide. On pose alors

1/card(Ax ) si (x, y) ∈ A
P (x, y) =
0 sinon.

Une chaı̂ne de Markov de transition P est appelée marche aléatoire simple sur le graphe
(E, A).

Exemple 5.10 (Ehrenfest) Il s’agit d’un modéle élémentaire d’échange de molécules de


gaz entre deux corps isolés introduit par le (couple de) physiciens Ehrenfest 1 .
Considérons deux boı̂tes A et B et d boules numérotées de 1 à d. On suppose qu’à l’origine
certaines boules sont dans A, les autres dans B. À chaque étape (et indépendamment
des autres étapes), on choisit au hasard une boule parmi 1, 2, . . . , d et elle est retirée de
sa boı̂te pour être placée dans l’autre. On note Xn le nombre de boules présentes dans
la boı̂te A après n étapes.
Il s’agit d’une chaı̂ne de Markov à espace d’états E = {0, . . . , d}. Si on suppose que
Xn = x, alors avec une probabilité x/d on tire une boule de la boı̂te A pour la déplacer
en B si bien que Xn+1 = x − 1. Avec probabilité (d − x)/d, on a Xn+1 = x + 1. On en
déduit les probabilités de transition

 x/d si y = x − 1
P (x, y) = P(Xn+1 = y|Xn = x) = (d − x)/d si y = x + 1
0, sinon.

Noter qu’en une étape la chaı̂ne d’Ehrenfest ne peut passer de l’état x ̸∈ {0, d} qu’à
l’état x − 1 ou x + 1 tandis que 0 mène à 1, d à d − 1.
1 (d − 1)/d (d − x + 1)/d (d − x)/d 1/d

0 1 ... x−1 x x+1 ... d


1/d 2/d x/d (x + 1)/d (d − 1)/d

1. Paul Ehrenfest (autrichien, 1880–1933) et Tatiana Ehrenfest-Afanaseva (russo-néerlandaise, 1876–


1964).
Chapitre 5. ©JCB – M1math – Université de Rennes 92

Exemple 5.11 (Ruine du joueur) On considère un joueur qui commence une partie avec
un capital en euro (=C) et fait une série de paris de 1 =
C. On suppose qu’il a une probabilité
p de gagner chaque pari, q = 1 − p de le perdre et que si son capital atteint 0 alors il
est ruiné et doit arrêter. On note Xn son capital après le n-ème pari. C’est une chaı̂ne
de Markov avec 0 comme état absorbant, d’espace d’états E = N et de fonction de
transition donnée par P (0, 0) = 1 (et P (0, y) = 0 pour y > 0) et si x > 0

 q si y = x − 1
P (x, y) = P(Xn+1 = y|Xn = x) = p si y = x + 1
0 sinon.

p p p p p
q
1 0 1 ... x−1 x x+1 ...
q q q q q

On parle de la chaı̂ne de la ruine du joueur sur E = N. On pourrait rajouter un deuxième


état absorbant en d en demandant au joueur d’arrêter si son capital atteint d.
On peut aussi supposer que deux parieurs jouent l’un contre l’autre par des paris de 1 =
C
=
avec un capital total fixe de d C dont la répartition entre les deux joueurs évolue en
fonction des résultats des paris.
Définition 5.12 (État absorbant) On appelle état absorbant d’une chaı̂ne de Markov de
noyau de transition P tout état a ∈ E tel que P (a, a) = 1, ie. si la chaı̂ne arrive en a,
elle y reste !

5.3 Probabilités trajectorielles


On considère dans cette section une chaı̂ne de Markov (Xn )n≥0 d’espace d’états E
dénombrable et de noyau de transition P .
Proposition 5.13 Une suite de variables aléatoires (Xn )n≥0 à valeurs dans E est une
chaı̂ne de Markov de matrice de transition P si et seulement si pour tout n ≥ 0 et pour
tout x0 , . . . , xn ∈ E
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) = P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn ). (5.9)
Remarque 5.14 Les lois jointes d’une chaı̂ne de Markov (homogène) sont donc entière-
ment déterminées si on donne sa distribution initiale µ0 (point de départ) et son noyau
de transition P (évolution au cours du temps). Voir aussi la Déf. 5.34.

Démonstration :[Prop. 5.13] Si (Xn )n≥0 est une chaı̂ne de Markov de noyau de transi-
tion P alors l’identité (5.9) s’obtient par une récurrence immédiate : en effet, la récurrence
est automatiquement initialisée pour n = 0 ; puis si (5.9) est vraie pour le rang n alors
d’abord lorsque P X0 = x0 , X1 = x1 , . . . , Xn = xn ̸= 0 on a :
P(X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 )
Chapitre 5. ©JCB – M1math – Université de Rennes 93

 
= P X0 = x0 , X1 = x1 , . . . , Xn = xn P Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn

= P X0 = x0 , X1 = x1 , . . . , Xn = xn P (xn , xn+1 )
= P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn )P (xn , xn+1 ) (hyp. récurrence (5.9) pour n).
Puis lorsque P X0 = x0 , X1 = x1 , . . . , Xn = xn ) = 0 alors d’une part
P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn ) = 0
donc P(X0 = x0 )P (x0 , x1 ) . . . P (xn+1 , xn )P (xn , xn+1 ) = 0 et d’autre part

P X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1 = 0,
si bien que (5.9) reste vraie, ce qui achève d’établir complètement (5.9) par récurrence.
Réciproquement, si (5.9) est vraie pour tout n ≥ 0 alors pour x0 , x1 , . . . , xn ∈ E tels que
P(X0 = x0 , X1 = x1 , . . . , Xn = xn ) ̸= 0, on a

P Xn+1 = xn+1 |X0 = x0 , X1 = x1 , . . . , Xn = xn

P X0 = x0 , X1 = x1 , . . . , Xn = xn , Xn+1 = xn+1
= 
P X0 = x0 , X1 = x1 , . . . , Xn = xn
P(X0 = x0 )P (x0 , x1 ) . . . P (xn−1 , xn )P (xn , xn+1 )
=
P(X0 = x0 )P (x0 , x1 ) . . . P (xn−1 , xn )
= P (xn , xn+1 )
et donc la Définition 5.5 d’une chaı̂ne de Markov est bien satisfaite. □

Proposition 5.15 (1) Soit (Xn )n≥0 une chaı̂ne de Markov sur E de noyau de transi-
tion P . Alors, pour tout n ≥ 0 et f : E → R, on a
   
E f (Xn+1 ) |X0 , . . . , Xn = E f (Xn+1 )|Xn = P f (Xn ).
(2) Plus généralement, pour tout i1 , . . . , ik ∈ {0, . . . , n − 1}, on a
   
E f (Xn+1 )|Xi1 , . . . , Xik , Xn = E f (Xn+1 ) |Xn = P f (Xn ).
Démonstration : (1) Comme l’espérance conditionnelle est l’espérance par rapport à la
conditionnelle (cf. (1.13)), d’après la Définition 5.5, on a
    X
E f (Xn+1 )|X0 , . . . , Xn = E f (Xn+1 )|Xn = P (Xn , y)f (y) = P f (Xn ).
y∈E

(2) Ensuite, si i1 , . . . , ik ∈ {0, . . . , n − 1}, par conditionnement en cascade (Prop. 1.13


ou Th. 2.12) avec G1 := σ(Xi1 , . . . , Xik , Xn ) ⊂ G2 := σ(X0 , . . . , Xn ), on a :
  h i
E f (Xn+1 ) |Xi1 , . . . , Xik , Xn = E E[f (Xn+1 ) |X0 , . . . , Xn ] Xi1 , . . . , Xik , Xn
 
= E P f (Xn ) |Xi1 , . . . , Xik , Xn
= P f (Xn ),
puisque P f (Xn ) est σ(Xn ) donc σ(Xi1 , . . . , Xik , Xn )-mesurable. □
Chapitre 5. ©JCB – M1math – Université de Rennes 94

Transition en n étapes
Le noyau de transition en n étapes donne, pour tout x, y ∈ E, la probabilité d’aller
de x en y en n étapes ie. Pn (x, y) = P(Xn = y|X0 = x). Il est donné par

Pn = P n (5.10)

où pour rappel P n est la puissance n-ème de P , dans le sens du produit matriciel (5.4),
cf. (5.6)).
En effet P0 (x, y) = δx (y), P1 (x, y) = P (x, y) et pour n ≥ 2, avec la partition
G 
{Xn = y} = X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y ,
x1 ∈E,...,xn−1 ∈E

par additivité de P(·|X0 = x), on a :


X
Pn (x, y) = P(X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y|X0 = x)
x1 ∈E,...,xn−1 ∈E
X P(X0 = x, X1 = x1 , X2 = x2 , . . . , Xn−1 = xn−1 , Xn = y)
=
x1 ∈E,...,xn−1 ∈E
P(X0 = x)
X
= P (x, x1 )P (x1 , x2 ) . . . P (xn−1 , y) = P n (x, y), (5.11)
x1 ∈E,...,xn−1 ∈E

en utilisant (5.9). Ainsi, on a :

Proposition 5.16 (Chapman-Kolmogorov) Le noyau de transition en n étapes vérifie


une propriété de semi-groupe (dite relation de Chapman-Kolmogorov) : Pn+m = Pn Pm
(dans le sens du produit (5.4)), ie.
X
Pn+m (x, y) = Pn (x, z)Pm (z, y). (5.12)
z∈E

Démonstration : C’est immédiat par (5.10) puisque Pn+m = P n+m = P n P m = Pn Pm ;


cela se retrouve aussi directement par le calcul à partir de l’expression (5.11), on a :
X X X
Pn+m (x, y) = ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )P (yn , yn+1 )
y1 ∈E yn ∈E yn+m−1 ∈E

P (yn−2 , yn−1 ) . . . P (yn+m−1 , y)


 
X X X
=  ··· P (x, y1 )P (y1 , y2 ) . . . P (yn−1 , yn )
yn ∈E y1 ∈E yn−1 ∈E
 
X X
 ··· P (yn , yn+1 )P (yn−2 , yn−1 ) . . . P (yn+m−1 , y)
yn+1 ∈E yn+m−1 ∈E
Chapitre 5. ©JCB – M1math – Université de Rennes 95
X
= Pn (x, yn )Pm (yn , y).
yn ∈E


Remarque 5.17 (Semi-groupe) — La formule de Chapman-Kolmogorov (5.12) montre
que Pn est la puissance n-ème de P en terme de produit matriciel : Pn = P n . On
utilise indifféremment l’une ou l’autre notation dans la suite.
— Dans le cas E espace d’états fini, il s’agit de vraies matrices et de vrais produits
matriciels. Dans le cas E dénombrable, il s’agit d’une généralisation naturelle aux
matrices infinies.

Si on note µ0 = (P(X0 = x))x∈E la distribution initiale de la chaı̂ne et µn = (P(Xn =


x))x∈E celle de l’état Xn à la date n, alors pour tout y ∈ E :
X
P(Xn = y) = P(Xn = y|X0 = x)µ0 (x)
x∈E
X
= µ0 (x)P n (x, y),
x∈E
n
c’est à dire µn = µ0 P . On a aussi µn = µn−1 P puisque pour tout y ∈ E :
X
P(Xn = y) = P(Xn−1 = x)P (x, y).
x∈E

On détermine donc la distribution de Xn à partir de la distribution initiale µ0 et du


noyau de transition en n étapes P n . On peut aussi calculer µn à partir de la loi à la date
précédente µn−1 avec transition en une étape :
Notations. Dans la suite, on utilise la notation Pν pour indiquer qu’on suppose que la
loi initiale de la chaı̂ne est ν ie. X0 ∼ µ0 = ν. On note aussi Px = Pδx lorsque la chaı̂ne
part de X0 = x, autrement dit avec la distribution initiale µ0 = δx , cf. après la Déf. 5.34.

Expressions explicites
La proposition suivante donne des expressions explicites pour les calculs de lois jointes
conditionnelles :
Proposition 5.18 (Lois jointes d’une chaı̂ne de Markov) Pour une chaı̂ne de Markov (Xn )n≥0
d’espace d’états E (dénombrable) et de noyau de transition P , en supposant les probabi-
lités conditionnelles bien définies, on a
(1) Pour x0 , . . . , xn−1 , xn et y1 , . . . , ym dans E on a :
P(Xn+1 = y1 , . . . , Xn+m = ym |X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn )
= P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ); (5.13)
En particulier, on a
 
P Xn+m = ym |X0 = x0 , . . . , Xn = xn = P Xn+m = ym |Xn = xn = Pm (xn , ym );
(5.14)
Chapitre 5. ©JCB – M1math – Université de Rennes 96

(2) Pour A0 , . . . , An−1 ⊂ E, on a :

P(Xn+1 = y1 , . . . , Xn+m = ym |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )


= P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ); (5.15)

(3) Pour A0 , . . . , An−1 ⊂ E et B1 , . . . , Bm ⊂ E, on a :

P(Xn+1 ∈ B1 , . . . , Xn+m ∈ Bm |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )


X X
= ··· P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ). (5.16)
y1 ∈B1 ym ∈Bm

La preuve va utiliser le résultat suivant :

Lemme 5.19 (Probabilités conditionnelles) Soit A ⊂ E et Bi des évènements disjoints


non-négligeables. Lorsque P(A|Bi ) ne dépend pas de i ∈ I, alors
 G 
P A Bi = P(A|Bi ) ∀i ∈ I. (5.17)
i∈I

Démonstration :[Lemme 5.19] En notant PC = P(·|C), observer que PC (A|B) = P(A|B ∩


C). En effet

PC (A ∩ B) P(A ∩ B|C) P(A ∩ B ∩ C) P(C)


PC (A|B) = = =
PC (B) P(B|C) P(C) P(B ∩ C)
P(A ∩ (B ∩ C))
= = P(A|B ∩ C).
P(B ∩ C)

Lorsque P(A|Bi) = α pour tout i ∈ I, la formule des probabilités totales (1.3) avec
F
PB ig(· i∈I Bi = P i∈I Bi , on a
F

 G  X
P A Bi = PFi∈I Bi (A|Bi )PFi∈I Bi (Bi )
i∈I i∈I
X  G 
= P(A|Bi )P Bi Bi
i∈I i∈I
X  G 
= α P Bi | Bi = α.
i∈I i∈I
| {z }
=1

Démonstration :[Prop. 5.18] (1) Les lois jointes conditionnelles sont données par :

P(Xn+1 = xn+1 , . . . , Xn+m = xn+m |X0 = x0 , . . . , Xn = xn )


Chapitre 5. ©JCB – M1math – Université de Rennes 97

P(X0 = x0 , . . . , Xn = xn , Xn+1 = xn+1 , . . . , Xn+m = xn+m )


=
P(X0 = x0 , . . . , Xn = xn )
µ0 (x0 )P (x0 , x1 ) · · · P (xn+m−1 , xn+m )
=
µ0 (x0 )P (x0 , x1 ) · · · P (xn−1 , xn )
= P (xn , xn+1 ) · · · P (xn+m−1 , xn+m )

qu’on peut réécrire sous la forme (5.13). Le cas particulier (5.14) s’obtient alors en faisant
la somme sur y1 , . . . , yp−1 ∈ E et avec la définition (5.11) de Pm et la définition (5.8)
d’une chaı̂ne de Markov.
(2) On écrit la partition
 G 
X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn } = X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn .
xi ∈Ai
0≤i≤n−1

Comme d’après (5.13), on a

P(Xn+1 = y1 , . . . , Xn+m = ym |X0 = x0 , . . . , Xn−1 = xn−1 , Xn = xn )


= P (xn , y1 ) . . . P (ym−1 , ym )

pour tout xi ∈ Ai , 0 ≤ i ≤ n − 1, (5.17) dans le Lemme 5.19 s’applique et assure (5.15).


(3) Cela vient de (5.15) avec la σ-additivité de P :

P(Xn+1 ∈ B1 , . . . , Xn+m ∈ Bm |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )


X X
= ··· P(Xn+1 = y1 , . . . , Xn+m = ym |X0 ∈ A0 , . . . , Xn−1 ∈ An−1 , Xn = xn )
y1 ∈B1 ym ∈Bm
X X
= ··· P (xn , y1 )P (y1 , y2 ) . . . P (ym−1 , ym ).
y1 ∈B1 ym ∈Bm

Approche récursive
Pour montrer qu’une suite de variables aléatoires à valeurs dans E est une chaı̂ne de
Markov, la proposition suivante est souvent plus pratique que de revenir à la Défini-
tion 5.5.

Proposition 5.20 (Suite récursive et Markov) Soit X0 une variable aléatoire à valeurs
dans E de loi ν. Soit (Un )n≥0 une suite de variables aléatoires indépendantes et identi-
quement distribuées de loi µ à valeurs dans F , indépendantes de X0 . Pour une fonction
f : E × F → E mesurable, on définit par récurrence

Xn+1 = f Xn , Un+1 , n ≥ 0. (5.18)
Chapitre 5. ©JCB – M1math – Université de Rennes 98

Alors (Xn )n≥0 est une chaı̂ne de Markov (homogène) de transition



P (x, y) = P f (x, U ) = y (5.19)

où U ∼ µ.

Démonstration : D’abord, on observe que pour chaque n ≥ 0 : Xn est σ(X0 , U1 , . . . , Un )-


mesurable. En effet, c’est clair pour n = 0 et si c’est vrai pour Xn alors Xn+1 =
f (Xn , Un+1 ) est mesurable par rapport à σ(Xn , Un+1 ) ⊂ σ(X0 , U1 , . . . , Un , Un+1 ). On
en déduit σ(X0 , . . . , Xn ) ⊂ σ(X0 , U1 , . . . , Un ).
On vérifie la Définition 5.5 pour (Xn )n≥0 définie en (5.18). Pour cela, soit x1 , . . . , xn , xn+1 ∈
E avec P(X0 = x0 , . . . , Xn = xn ) ̸= 0. On a

P Xn+1 = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (Xn , Un+1 ) = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (xn , Un+1 ) = xn+1 |X0 = x0 , . . . , Xn = xn

= P f (xn , Un+1 ) = xn+1 (car Un+1 ⊥ ⊥ σ(X0 , U1 , . . . , Un ) ⊃ σ(X0 , . . . , Xn ))
= P (xn , xn+1 ),

ce qui vérifie la Définition 5.5 d’une chaı̂ne de Markov de matrice stochastique P . □

Exemple 5.21 (Suites récursives) On donne quelques exemples de chaı̂nes de Markov


données sous forme de suites récursives.
Marche aléatoire sur Zd . On reprend l’Exemple 5.8. Soit X0 , X1 , . . . , Xn , . . . des va-
d
riables aléatoires indépendantes
Pn et identiquement distribuées dans Z de loi µ.
Alors, pour n ≥ 1, Sn = i=0 Xi définit une chaı̂ne de Markov de la forme
Sn+1 = f (Sn , Xn ) avec f (x, y) = x + y et (Xn )n≥1 indépendantes et identique-
ment distribuées. On retrouve le noyau de transition avec (5.19) :

P (x, y) = P(x + X1 = y) = P(X1 = y − x) = µ(y − x).

En fait, la forme récursive (5.18) de la Prop. 5.20 est la forme typique d’une chaı̂ne de
Markov comme le justifie le résultat suivant :
Proposition 5.22 (Markov et suite récursive) Une chaı̂ne de Markov homogène à va-
leurs réelles peut être vue (en loi) comme une suite récurrente définie comme dans
(5.18).
La preuve de cette proposition repose sur le lemme suivant sur lequel se fonde la méthode
dite d’inversion (voir [Bre-proba]) :
Lemme 5.23 (Méthode d’inversion) Soit µ une loi de probabilité de fonction de ré-
partition F . On pose F −1 (u) = inf(x ∈ R : F (x) > u) pour u ∈]0, 1[. Alors pour
U ∼ U(]0, 1[), on a F −1 (U ) ∼ µ.
Chapitre 5. ©JCB – M1math – Université de Rennes 99

Démonstration :[Proposition 5.22] Soit (Xn )n≥0 une chaı̂ne de Markov homogène de
transition P . Il s’agit de trouver f et U1 telles que X1 = f (x, U1 ) si X0 = x. La loi de X1
est P (x, ·). Soit U1 une variable aléatoire de loi uniforme sur ]0, 1[ indépendante de X0
et f (x, ·) l’inverse généralisé de la fonction de répartition de X1 sachant X0 = x donnée
par 
f (x, u) = inf y ∈ R : P (x, ] − ∞, y]) > u , u ∈]0, 1[.
Alors f (x, U1 ) a la même loi que L(X1 |X0 = x) (par la méthode d’inversion du Lemme 5.23).
Considérons (Ui )i≥1 des variables aléatoires indépendantes et identiquement distribuées
de loi uniforme sur ]0, 1[ et indépendantes de X0 . On définit la chaı̂ne (X en )n≥0 par la

récurrence (5.18) : X en+1 = f X en , Un+1 avec f comme ci-dessus et avec X e0 ∼ µ0 . Soit
Pe sa matrice stochastique. Par la Prop. 5.20, on a

Pe(x, y) = P f (x, U1 ) = y = P (x, y).

Exemple 5.24 (Urne de Ehrenfest) On reprend l’Exemple 5.10 pour lequel on a Xn+1 =
Xn + Yn+1 où
 X
 dn si x = −1
d−Xn Xn d − Xn
P(Yn+1 = x|Xn ) = d
si x = +1 ⇐⇒ L(Yn+1 |Xn ) = δ−1 + δ1 .
d d
0 sinon

En considérant (Un )n≥1 une suite iid de loi U([0, 1]), on a


x d−x
(21[0,(d−x)/d] (Un ) − 1) ∼ δ−1 + δ1 ,
d d
si bien qu’avec f (x, u) = x + (21[0,(d−x)/d] (u) − 1), on a Xn+1 ∼ f (Xn , Un+1 ).

Temps d’atteinte
Une notion utile dans les calculs de loi pour les chaı̂nes de Markov est celle de temps
d’atteinte :
Définition 5.25 (Temps d’atteinte) Soit A ⊂ E. Le temps d’atteinte de A est TA =
min(n ≥ 0 : Xn ∈ A) avec par convention min ∅ = +∞.
Le temps d’atteinte TA est la première date où la chaı̂ne atteint A. En particulier,
pour un état y, on définit Ty = min(n ≥ 0 : Xn = y) le temps d’atteinte de y et
Tey = min(n > 0 : Xn = y) le temps d’atteinte de y après le départ. Sous Px pour x ̸= y
(ie. lorsque la chaı̂ne part de x ̸= y), on a Tey = Ty . Sous Py , Ty = 0 et Tey désigne le
temps de premier retour pour la chaı̂ne qui part de y.
La proposition suivante donne une équation utile reliant les temps d’atteinte aux proba-
bilités de transition.
Chapitre 5. ©JCB – M1math – Université de Rennes 100

Proposition 5.26 Pour tout x, y ∈ E avec x ̸= y, et n ≥ 1, on a


n
X
n
P (x, y) = Px (Ty = k)P n−k (y, y). (5.20)
k=1

Démonstration : Avec la partition {Xn = y} = nk=1 {Ty = m, Xn = y} de {Xn = y}


F
(ie. {Ty = k, Xn = y}, 1 ≤ k ≤ n, sont disjoints et de réunion {Xn = y}), on a :
n
X
n
P (x, y) = Px (Xn = y) = Px (Ty = k, Xn = y)
k=1
n
X
= Px (Ty = k) P(Xn = y|X0 = x, Ty = k)
k=1
Xn
= Px (Ty = k) P(Xn = y|X0 = x, X1 ̸= y, . . . Xk−1 ̸= y, Xk = y)
k=1
n
X
= Px (Ty = k) P(Xn = y|Xk = y) (5.21)
k=1
n
X
= Px (Ty = k) P n−k (y, y),
k=1

en utilisant (5.15) en (5.21). □

En particulier pour un état absorbant a (Définition 5.12), on a la relation suivante :


Proposition 5.27 Si a est un état absorbant, alors P n (x, a) = Px (Ta ≤ n).
Démonstration : Comme a est absorbant, on a P n−m (a, a) = 1 pour tout 1 ≤ m ≤ n et
(5.20) devient
n
X n
X
P n (x, a) = Px (Ta = m)P n−m (a, a) = Px (Ta = m) = Px (Ta ≤ n).
m=1 m=1


Noter encore la relation Px (Ty = 1) = Px (X1 = y) = P (x, y) et
X X
Px (Ty = 2) = Px (X1 = z, X2 = y) = P (x, z)P (z, y).
z̸=y z̸=y

Plus généralement pour n ≥ 1, on trouve Px (Ty = n) par récurrence à partir de


X
Px (Ty = n + 1) = P (x, z)Pz (Ty = n)
z̸=y

puisque pour aller de x à y en exactement n + 1 étapes, il faut aller de x à n’importe


quel z ̸= y en 1 étape puis de ce z à y en exactement n étapes.
Chapitre 5. ©JCB – M1math – Université de Rennes 101

5.4 Chaı̂ne de Markov canonique


On commence par expliquer que la donnée d’une loi uniforme U[0, 1] est équivalente
à la donnée d’une suite de lois de Bernoulli b(1/2) indépendantes. Rappelons que tout
x ∈ [0, 1] s’écrit en base 2 sous la forme
+∞
X εn (x)
x= avec εn (x) ∈ {0, 1}, n ≥ 1. (5.22)
n=1
2n

Lemme 5.28 (Poisson/Bernoulli) Soit X une variable aléatoire à valeurs dans [0, 1] avec
la décomposition (5.22). Alors X est de loi uniforme U[0, 1] si et seulement si les va-
riables aléatoires εn := εn (X), n ≥ 1, sont indépendantes et identiquement distribuées
de loi de Bernoulli b(1/2).

Démonstration : D’abord, on note que X est mesurable si et seulement si les εn , n ≥ 1,


le sont. C’est clair dans le sens réciproque, X étant limite des sommes partielles qui sont
alors mesurables ; dans le sens direct, on procède par récurrence en écrivant
h p−1 i
X
p p−k
εp = 2 X − 2 εk
k=1

où [x] désigne la partie entière de x. On suppose que les εk sont indépendantes et iden-
tiquement distribuées de loi de Bernoulli b(1/2) et on calcule la fonction caractéristique
de X :
" +∞
# " n
# " n
#
 X εk   X εk   X εk 
φ(t) = E exp i k
t = E lim exp i k
t = lim E exp i t
k=1
2 n→+∞
k=1
2 n→+∞
k=1
2k
(convergence dominée)
n n k n 
Y t Y 1 + eit/2 Y k+1
 t 
= lim φε1 k = lim = lim eit/2 cos k+1
n→+∞
k=1
2 n→+∞
k=1
2 n→+∞
k=1
2
+∞ +∞ +∞
X it  Y  t 
it/2
Y  t 
= exp k+1
cos k+1
= e cos k+1
.
k=1
2 k=1
2 k=1
2
Qn  
Mais de sin t = 2 cos(t/2) sin(t/2), on déduit sin(t/2) = 2n k=1 cos t/2k+1
×sin t/2n+1

et donc
+∞
Y  t  sin(t/2) 2 sin(t/2) eit/2 − e−it/2
cos = lim  = = .
k=1
2k+1 n→+∞ 2n sin t/2n+1 t it

On a alors
eit/2 − e−it/2 eit − 1
φX (t) = eit/2 = ,
it it
Chapitre 5. ©JCB – M1math – Université de Rennes 102

c’est à dire X ∼ U[0, 1].


Réciproquement, pour tout n ≥ 1 et ai ∈ {0, 1}, 1 ≤ i ≤ n, on a
n n
 X a i
X ai
X 1
P ε 1 = a1 , . . . , ε n = an = P i
≤X< +
i=1
2 i=1
2i i>n 2i
n n
X ai X ai 1 1
= P i
≤X< i
+ n = n,
i=1
2 i=1
2 2 2

ce qui permet de voir par  récurrence que P(ε i = a i ) = 1/2 et P ε 1 = a 1 , . . . , ε n = a n =
P ε1 = a1 ) . . . P(εn = an , soit εi , i ≥ 1, sont indépendantes et identiquement distribuées
de loi b(1/2). □

Lemme 5.29 (Suite de variables uniformes iid) L’espace de probabilité ([0, 1[, B([0, 1[), λ),
où λ est la mesure de Lebesgue sur [0, 1[, supporte une suite (Un )n≥0 de variables aléa-
toires uniformes indépendantes et identiquement distribuées.

Démonstration : Par le Lemme 5.28, ω ∈ [0, 1[ s’écrit en base 2 sous la forme (5.22) avec
εn := εn (ω) ∈ {0, 1}, n ≥ 1, indépendantes et de loi b(1/2).
On considère une injection φ de N × N dans N et on pose ηi,j = εφ(i,j) . Les variables aléa-
toires P
ηi,j restent indépendantes et identiquement distribuées de loi b(1/2). On pose alors
Ui = +∞ j=1 ηi,j 2
−j
et on observe par le théorème des coalitions ([Bre-proba, Th. 5.1.1])
que les variables aléatoires U0 , U1 , . . . sont (mutuellement) indépendantes, de loi uni-
forme sur [0, 1[ (Lemme 5.28). □

Proposition 5.30 (Construction d’une chaı̂ne de Markov) Soit E un espace au plus dé-
nombrable et P = (P (x, y))x,y∈E une matrice stochastique. On peut trouver un espace de
 
e F,
probabilité Ω, e sur lequel il existe pour tout x ∈ E une suite X ex
n n≥0 qui est une
e P
chaı̂ne de Markov de transition P et qui est issue de Xe x = x (ie. µ0 = δx ).
0


Démonstration : On considère l’espace de probabilité Ω, e F,
e Pe = ([0, 1[, B([0, 1[), λ) et
la suite de variables aléatoires (Ui )i≥1 indépendantes et de loi U[0, 1] construites dans le
Lemme 5.29. Soit (yn )n≥1 une énumération des éléments de E (supposé dénombrable).
On pose X e0x = x puis
X X
Xe x = yk si P (x, yj ) < U1 ≤ P (x, yj )
1
1≤j<k 1≤j≤k
.. ..
. .
X X
e x = yk
X si e x , yj ) < Un+1 ≤
P (X e x , yj ).
P (X
n+1 n n
1≤j<k 1≤j≤k
Chapitre 5. ©JCB – M1math – Université de Rennes 103


Par construction, on a P enx = y X
e X x
en−1 = z = P (z, y) pour chaque n ≥ 1.
e x = x est sûr
En effet, pour n = 1 : comme X 0

e x = yk |X
e X
P e x = x) = P e x = yk )
e X
1 0 1
!
X X
= P P (x, yj ) < U1 ≤ P (x, yj )
1≤j<k 1≤j≤k
X X
= P (x, yj ) − P (x, yj ) = P (x, yk ).
1≤j≤k 1≤j<k

Puis comme les variables aléatoires Ui , i ≥ 0, sont indépendantes :


 
e X x e0x = x, X enx = xn
e1x = x1 , . . . , X
P en+1 = yk X
 X X
e x , yj ) < Un+1 ≤ e x , yj ) X
e x = x, X
e x = x1 , . . . , X
e x = xn

= P e P (X n P (X n 0 1 n
1≤j<k 1≤j≤k
 X X 
= P
e P (xn , yj ) < Un+1 ≤ P (xn , yj ) (5.23)
1≤j<k 1≤j≤k
X X
= P (xn , yj ) − P (xn , yj ) = P (xn , yk )
1≤j≤k 1≤j<k

 x
en utilisant X e1x = x1 , . . . , X
e 0 = x0 , X enx = xn ∈ σ(U1 , . . . , Un ) ⊥
⊥ Un+1 pour se débar-

rasser du conditionnement en (5.23). Ainsi par la Définition 5.5, X enx est bien une
n≥0
chaı̂ne de Markov issue de x et de matrice stochastique P . □

Dans la Prop. 5.30, le choix de l’espace de probabilité ([0, 1[, B([0, 1[), λ) fait dans sa
preuve est un peu arbitraire. On considère un espace vraiment canonique en prenant :
— Ω = E N,
— F est la tribu cylindrique σ(Cyl) engendrée par la famille Cyl des cylindres

C = ω ∈ E N : ωi1 = xi1 , . . . , ωin = xin (5.24)

où n ∈ N, 0 ≤ i0 < · · · < in et xi1 , . . . , xin ∈ E.


Sur cet espace mesurable (Ω, F), ω ∈ Ω est une suite ω = (ωn )n∈N de E et on considère
les applications coordonnées : Xn (ω) = ωn , n ≥ 0.

Lemme 5.31 La tribu cylindrique σ(Cyl) est la plus petite tribu rendant mesurables les
applications coordonnées Xn , n ≥ 0.

Démonstration : On note G la plus petite tribu rendant mesurables les applications


coordonnées Xn , n ≥ 0, et on montre la double inclusion.
— Soit x ∈ E, alors Xn−1 ({x}) = {ω ∈ E N : ωn = x} ∈ Cyl ⊂ σ(Cyl), ce qui justifie
la mesurabilité de chaque Xn pour σ(Cyl) et donc G ⊂ σ(Cyl).
Chapitre 5. ©JCB – M1math – Université de Rennes 104

Tn
— Soit C ∈ Cyl comme en (5.24). Comme C = p=1 Xi−1
p
({xip }), on a C ∈ G et
donc Cyl ⊂ G et σ(Cyl) ⊂ G.


La suite s’applique avec tout espace de probabilité Ω, e F, e vérifiant la Prop. 5.30.
e P
D’après la preuve de cette proposition, ([0, 1[, B([0, 1[), λ) convient mais tout autre es-
pace vérifiant la proposition ferait l’affaire. On rappelle que, ci-dessous, (Ω, F) désigne
(E N , σ(Cyl)).

Lemme 5.32 Soit ψ : Ω, e Fe → (Ω, F). Alors ψ est mesurable si et seulement si Xn ◦ ψ
est mesurable pour tout n ≥ 0.

Démonstration : ⇒ Le sens direct est immédiat puisqu’il s’agit alors de composition


d’applications mesurables, d’après le choix de F = σ(Cyl).
⇐ Pour le sens réciproque, la famille G = A ∈ F : ψ −1 (A) ∈ Fe est une tribu qui
contient tous les Xn−1 ({x}), x ∈ E, puisque Xn−1 ({x}) = {ω ∈ E N : ωn = x} ∈ Cyl ⊂ F
et par hypothèse
ψ −1 Xn−1 ({x}) = (Xn ◦ ψ)−1 ({x}) ∈ F.

e
La tribu G rend donc mesurables les applications coordonnées Xn , n ≥ 0. Par le
Lemme 5.31, F étant la plus petite tribu rendant mesurables ces applications coor-
données Xn , n ≥ 0, on a F ⊂ G et finalement G = F, ce qui signifie que ψ est bien
(F,
e F)-mesurable. □

Théorème 5.33 (Chaı̂ne canonique) Soit E un espace d’états au plus dénombrable et


P = (P (x, y))x,y∈E une matrice stochastique sur E. Pour toute loi de probabilité ν sur
E, il existe une unique probabilité Pν sur (Ω, F) = (E N , σ(Cyl)) telle que sous Pν la suite
des applications coordonnées (Xn )n≥0 est une chaı̂ne de Markov de matrice stochastique
P et de loi initiale ν.

Démonstration : Existence lorsque ν = δx . On commence par traiter le cas de ν =


δx , pour x ∈ E, et on cherche une probabilité Px telle que, sous Px , les applications
coordonnées (Xn )n≥0 forment une chaı̂ne de Markov de matrice stochastique P partant
de x.

e F,
D’après la Prop. 5.30, il existe un espace de probabilité Ω, e et (X x )n≥0 une chaı̂ne
e P n
de Markov de matrice stochastique P avec X0x = x. On considère alors l’application
(
e Fe) −→ (Ω, F)
(Ω,
ψx : 
e 7−→ Xnx (e
ω ω ) n≥0 .

Par la première construction de la Prop. 5.30, pour chaque n ≥ 0, Xn ◦ ψx = Xnx est une
variable aléatoire. Le Lemme 5.32 assure alors que ψx est une application mesurable. On
définit alors
Px = Pe ◦ ψ −1 (5.25)
x
Chapitre 5. ©JCB – M1math – Université de Rennes 105

e par ψx . Par définition de la mesure image, avec C0 = {ω ∈


comme la mesure image de P
Ω : w0 = x}, on a

e ψ −1 (C0 ) = P e X x = x = 1.
e (X x )n≥0 ∈ C0 = P
  
Px (X0 = x) = Px (C0 ) = P x n 0

Puis, pour tout n ≥ 1, x0 , x1 , . . . , xn ∈ E, en notant Cn = {ω ∈ Ω : ω0 = x0 , ω1 =


x1 , . . . , ωn = xn } le cylindre associé, on a

e ψ −1 (Cn ) = P e (X x )n≥0 ∈ Cn
  
P x X 0 = x0 , . . . , X n = xn = Px (Cn ) = P x n
e X x = x0 , X x = x1 , · · · , X x = xn

= P 0 1 n
e X x = x0 P (x0 , x1 ) . . . P (xn−1 , xn )

= P 0 (5.26)
= δx,x0 P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn ) (5.27)

en utilisant la Prop. 5.13 pour la chaı̂ne de Markov (Xnx )n≥0 en (5.26). D’après cette
même Prop. 5.13, (5.27) assure que sous Px , (Xn )n≥0 est une chaı̂ne de Markov de
matrice stochastique P , et par construction, elle part de x.
Existence dans le cas général. Étant donné une loi ν sur E, on considère
X
Pν = ν(x) Px . (5.28)
x∈E
P
Comme x∈E ν(x) = 1, Pν définit bien une probabilité sur (Ω, F) = (E N , σ(Cyl)). De
plus d’après (5.27), on a
 X 
P ν X 0 = x0 , . . . , X n = xn = ν(x)Px X0 = x0 , . . . , Xn = xn
x∈E
X
= ν(x)δx,x0 P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn )
x∈E
= ν(x0 ) P (x0 , x1 )P (x1 , x2 ) . . . P (xn−1 , xn ), (5.29)

ce qui caractérise une chaı̂ne de Markov de loi initiale ν et de matrice stochastique P


par la Prop. 5.13.
Unicité. Si une autre probabilité P′ν satisfait l’énoncé alors, (5.29) est vérifiée pour les
deux probabilités, Pν et P′ν . Cela signifie que Pν et P′ν coı̈ncident sur les cylindres. Comme
l’intersection de deux cylindres est encore un cylindre, Cyl est stable par intersection et
forme donc un π-système. Par le théorème des classes monotones (Th. 0.2), on a Pν = P′ν
sur F = σ(Cyl) (tribu cylindrique engendrée par les cylindres). □

Du Th. 5.33, il résulte la définition suivante :

Définition 5.34 (Loi d’une chaı̂ne de Markov) La loi d’une chaı̂ne de Markov homogène
sur E de matrice de stochastique P et de loi initiale ν est l’unique probabilité Pν sur
(E N , σ(Cyl)) du Th. 5.33.
Chapitre 5. ©JCB – M1math – Université de Rennes 106

De plus, d’après la Prop. 5.13, la loi Pν est caractérisée par :



Pν {ω ∈ E N : ω0 = x0 , . . . , ωn = xn } = ν(x0 )P (x0 , x1 ) . . . P (xn−1 , xn ),

pour tout n ≥ 1 et x0 , . . . , xn ∈ E. Dans la suite, on note Eν l’espérance Pν et lorsque


ν = δx , on écrit Ex = Eδx . De (5.28), on déduit
X
Eν = ν(x) Ex . (5.30)
x∈E

Remarque 5.35 Si (Xn′ )n≥0 est une chaı̂ne de Markov de loi initiale ν, de matrice sto-


chastique P alors pour tout B ∈ F = σ(Cyl) : P (Xn )n≥0 ∈ B = Pν (B). Les résultats
en loi obtenus pour la chaı̂ne canonique se transposent donc à toute chaı̂ne de Markov
de même matrice de stochastique P et de même loi initiale ν.

5.5 Propriétés de Markov


Sur l’espace canonique (Ω, F) = (E N , σ(Cyl)), on considère les opérateurs de décalage
ou translation (ou shift) : si k ∈ N,

Θk (ωn )n≥0 = (ωk+n )n≥0 .

On a Θk = Θ◦k 1 . Comme, pour tout n ≥ 0, Xn ◦ Θk = Xn+k est mesurable, le Lemme 5.32


assure que les Θk sont des applications mesurables de (Ω, F) = (E N , σ(Cyl))) dans lui
même. On note Fn = σ(X0 , . . . , Xn ), n ≥ 0, la filtration naturelle associée à la suite
(Xn )n≥0 , Ex l’espérance sous la probabilité Px du Th. 5.33, ie. Ex [1A ] = Px (A) pour
A ∈ F.

Théorème 5.36 (Markov faible) Soit G : Ω → R une fonction mesurable positive ou


bornée. Alors pour tout x ∈ E, on a :
 
Ex G ◦ Θn |Fn = EXn [G]. (5.31)

De manière équivalente, pour toute fonction Fn -mesurable F : Ω → R positive ou bornée,


on a :    
Ex F × (G ◦ Θn ) = Ex F EXn [G] . (5.32)
Les identités (5.31), (5.32) se généralisent au cas où Ex est remplacée par Eν , l’espérance
sous Pν pour toute loi initiale ν sur E.

Démonstration : On prouve la formulation (5.31) de la propriété de Markov faible. La


formulation (5.32) en découle par la caractérisation de l’espérance conditionnelle de la
Chapitre 5. ©JCB – M1math – Université de Rennes 107

Prop. 2.4. Pour prouver (5.31), on commence par observer que EXn [G] est σ(Xn ) donc
Fn -mesurable en tant que composée de Xn et de x ∈ E 7→ Ex [G]. Ensuite, on établit
   
E 1A G ◦ Θn = E 1A EXn [G] , ∀A ∈ Fn . (5.33)

Étape 1. On montre d’abord (5.33) pour G = 1B avec

B = {X0 = y0 , . . . , Xp = yp } ∈ Cyl, (5.34)

pour p ∈ N, y0 , . . . , yp ∈ E. Pour y ∈ E, on a
 
Ey [G] = Ey 1{X0 =y0 ,...,Xp =yp }
= Py (X0 = y0 , . . . , Xp = yp )
= 1{y0 =y} P (y0 , y1 ) . . . P (yp−1 , yp ). (5.35)

Lorsque A ∈ Fn est de de forme cylindrique

A = {X0 = x0 , . . . , Xn = xn } (5.36)

pour x0 , . . . , xn ∈ E, comme G ◦ Θn = 1{Xn =y0 ,...,Xn+p =yp } , on a


   
Ex 1A × (G ◦ Θn ) = Ex 1{X0 =x0 ,...,Xn =xn } 1{Xn =y0 ,...,Xn+p =yp }

= Px X0 = x0 , . . . , Xn = xn , Xn = y0 , . . . , Xn+p = yp
= 1{x0 =x} P (x0 , x1 ) . . . P (xn−1 , xn )1{xn =y0 } P (y0 , y1 ) . . . P (yp−1 , yp ).

Puis, en utilisant (5.35) on a aussi


   
Ex 1A EXn [G] = Ex 1A 1{y0 =Xn } P (y0 , y1 ) . . . P (yp−1 , yp )
 
= Ex 1{X0 =x0 ,...,Xn =xn } 1{y0 =Xn } P (y0 , y1 ) . . . P (yp−1 , yp )
= 1{x=x0 } P (x0 , x1 ) . . . P (xn−1 , xn )1{xn =y0 } P (y0 , y1 ) . . . P (yp−1 , yp ),

ce qui prouve bien (5.33) pour G = 1B avec (5.34) et A ∈ Fn donné par (5.36).
Comme la famille des cylindres Cyl est un π-système, par un argument de classe mono-
tone (Th. 0.2), on étend (5.32) de A comme en (5.36) à A ∈ Fn . En effet,
  
M1 = A ∈ F : Ex [1A (1B ◦ Θn )] = Ex 1A EXn [1B ]

est une classe monotone (linéarité de E et convergence monotone). Comme (5.33) est
vraie pour A, B ∈ Cyl en (5.34) alors Cyl∩Fn ⊂ M1 . Puis comme Cyl∩Fn est stable par
intersection, le théorème de classes monotones (Th. 0.2) assure Fn = σ(Cyl ∩ Fn ) ⊂ M1 .
On a alors (5.33) pour tout A ∈ Fn et cela prouve (5.31) pour G = 1B , B ∈ Cyl.
Étape 2. On montre que (5.31) reste vraie pour G = 1B avec B ∈ F. On pose
  
M2 = B ∈ F : Ex [1A (1B ◦ Θn )] = Ex 1A EXn [1B ] ∀A ∈ Fn .
Chapitre 5. ©JCB – M1math – Université de Rennes 108

Il s’agit de nouveau d’une classe monotone, et, qui contient Cyl, par l’Étape 1. Comme
Cyl est stable par intersection, le théorème de classes monotones (Th. 0.2) assure encore
F = σ(Cyl) ⊂ M2 et on a alors (5.33) pour tout A ∈ Fn et G = 1B , B ∈ F, ce qui
prouve (5.31) pour G = 1B , B ∈ F.
Étape 3. Enfin, par les arguments usuels de théorie de la mesure (linéarité pour passer
aux fonctions simples, convergence monotone pour passer aux fonctions mesurables posi-
tives, parties positive et négative pour traiter le cas de fonctions de signes quelconques),
on étend encore (5.31) aux fonctions F-mesurables G pour lesquelles les espérances sont
bien définies.
Finallement, lorsque (5.31) est vraie pour Ex , on la déduit immédiatement pour Eν par
sommation à partir de (5.30) :
  X   X
Eν G ◦ Θn |Fn = ν(x)Ex G ◦ Θn |Fn = ν(x)EXn [G] = EXn [G].
x∈E x∈E

La propriété de Markov reste vraie si on conditionne avec un temps d’arrêt T (Défini-


tion 3.7) :

Théorème 5.37 (Markov fort) Soit T un temps d’arrêt de la filtration naturelle (Fn )n≥0
de la chaı̂ne de Markov (Xn )n≥0 . Alors pour toute fonction mesurable G : Ω → R positive
ou bornée, on a :  
Ex 1{T <+∞} G ◦ ΘT |FT = 1{T <+∞} EXT [G]. (5.37)
De manière équivalente, pour toute fonction FT -mesurable F : Ω → R positive ou bornée,
on a :    
Ex 1{T <+∞} F × (G ◦ ΘT ) = Ex 1{T <+∞} F EXT [G] . (5.38)
De nouveau, (5.37) et (5.38) restent vrais si on y remplace Ex par Eν , pour toute loi ν
sur E.

Démonstration : D’abord, on observe que 1{T <+∞} EXT [G] est FT -mesurable. En effet
pour tout borélien B
 [ 
1{T <+∞} EXT [G] ∈ B ∩ {T ≤ n} = {EXk [G] ∈ B} ∩ {T = k} ∈ Fn
k≤n

car pour k ≤ n, {T = k} ∈ Fk ⊂ Fn , {EXk [G] ∈ B} ∈ Fk ⊂ Fn (Fk -mesurabilité


de EXk [G]. On a donc {1{T <+∞} EXT [G] ∈ B} ∈ FT et 1{T <+∞} EXT [G] est bien FT -
mesurable.
Ensuite pour A ∈ FT , on a
 
A ∩ {T = n} = A ∩ {T ≤ n} \ A ∩ {T ≤ n − 1} ∈ Fn
Chapitre 5. ©JCB – M1math – Université de Rennes 109

puisque A ∩ {T ≤ n} ∈ Fn et A ∩ {T ≤ n − 1} ∈ Fn−1 ⊂ Fn . On a alors


+∞
X +∞
    X  
Ex 1A 1{T <+∞} G ◦ ΘT = Ex 1A∩{T =n} G ◦ ΘT = Ex 1A∩{T =n} G ◦ Θn
n=0 n=0
+∞
X +∞
X
   
= Ex 1A∩{T =n} EXn [G] = Ex 1A∩{T =n} EXT [G](5.39)
n=0 n=0
 
= Ex 1A 1{T <+∞} EXn [G]

en appliquant la propriété de Markov faible (5.31) dans (5.39).


Comme pour le Th. 5.36, on montre que (5.37), (5.38) restent vraies pour Eν à partir de
(5.30). □

La situation la plus intéressante du Th. 5.37 est lorsqu’on sait que T est fini p.s. :

Corollaire 5.38 Soit T un temps d’arrêt tel que Px (T < +∞) = 1. On suppose qu’il
existe y ∈ E tel que Px (XT = y) = 1. Alors sous Px , ΘT est indépendante de FT et a
pour loi Py , ce qu’on peut écrire :

FT ⊥
⊥Px ΘT ∼ Py .

Ce corollaire s’applique typiquement avec T = Ty = inf(n ≥ 0 : Xn = y), le temps


d’atteinte de y ∈ E (récurrent, cf. Déf. 6.3).
Démonstration : Soit A ∈ FT et B ⊂ E, alors
   
Px (A, ΘT ∈ B) = Ex 1A 1B ◦ ΘT = Ex 1A EXT [1B ]
 
= Ex 1A Ey [1B ] = Ex [1A ] Ey [1B ] = Px (A) Py (B). (5.40)
P
Avec A = Ω, (5.40) donne Px (ΘT ∈ B) = Py (B), c’est à dire ΘT ∼x Py . Et en ré-injectant
cette égalité dans (5.40), on a pour tout A ∈ FT et B ⊂ E

Px (A, ΘT ∈ B) = Px (A)Px (ΘT ∈ B)

soit FT ⊥
⊥Px ΘT . □

Remarque 5.39 (Propriétés de Markov sous Pν ) Les propriétés de Markov faibles (5.31),
(5.32) du Théorème 5.36 et fortes (5.37), (5.38) du Théorème 5.37 restentPvraies si on
remplacePEx par Eν pour toute loi initiale ν. En effet, on rappelle que Pν = x∈E ν(x)Px
et Eν = x∈E ν(x)Ex , cf. 5.28). Ainsi en sommant convenablement par exemple l’égalité
(5.38) on obtient    
Eν F × (G ◦ ΘT ) = Eν F EXT [G] . (5.41)
De même pour (5.31), (5.32) et (5.37) et pour le Corollaire 5.38 qui restent vrais pour
Pν à la place de Px .
Chapitre 5. ©JCB – M1math – Université de Rennes 110

Reformulation de la propriété de Markov



En notant Lν (Xn )n≥0 la loi de la chaı̂ne de Markov (Xn )n≥0 avec X0 ∼ ν, la
propriété de Markov (5.38) s’écrit
 
Lν (Xn )n≥T |FT = LXT (Xn )n≥0 , (5.42)
ou pour B ∈ F = σ(Cyl) :
 
Pν (Xn )n≥T ∈ B|FT = PXT (Xn )n≥0 ∈ B .
Lorsque T est un temps d’arrêt, il s’agit de Markov fort ; lorsque T = p est déterministe,
il s’agit de Markov faible.
Avec des indicatrices, les propriétés de Markov s’écrivent encore
Corollaire 5.40 Pour tout A ∈ F, (xn )n≥0 ∈ E N , y ∈ E, et T temps d’arrêt (ps fini) :

Pν Θp X ∈ A |X0 = x0 , . . . , Xp = xp = Pxn (X ∈ A) (Markov faible)

Pν ΘT X ∈ A |X0 = x0 , . . . , XT = y = Py (X ∈ A) (Markov fort).
Démonstration : On prouve la formulation Markov fort, celle-ci contient la formulation
Markov faible quand on prend le temps d’arrêt constant T = p.
En appliquant (5.38) avec la fonction FT -mesurable F = 1{X0 =x0 ,...,XT =y} et la fonction
mesurable G = 1{X∈A} , on a
   
Eν 1{X0 =x0 ,...,XT =y} 1{X◦θT ∈A} = Eν 1{X0 =x0 ,...,XT =y} EXT [1{X∈A} ]
 
= Eν 1{X0 =x0 ,...,XT =y} Ey [1{X∈A} ]
 
= Eν 1{X0 =x0 ,...,XT =y} Ey [1{X∈A} ]
= Pν (X0 = x0 , . . . , XT = y)Py (X ∈ A).
On a donc
 Pν (ΘT X ∈ A, X0 = x0 , . . . , XT = y)
Pν ΘT X ∈ A |X0 = x0 , . . . , XT = y =
Pν (X0 = x0 , . . . , XT = y)
Eν [1{X0 =x0 ,...,XT =y} 1{X◦θT ∈A} ]
=
Pν (X0 = x0 , . . . , XT = y)
= Py (X ∈ A).

La propriété de Markov justifie également que, pour une chaı̂ne de Markov, passé et
futur sont indépendants sachant le présent :
Corollaire 5.41 (Passé, présent, futur) Soit n ≥ 1 et A ∈ Fn et B ∈ σ(Xk : k ≥ n)
alors
P(A ∩ B |Xn ) = P(A |Xn ) P(B |Xn ).
De la même façon, si T est un temps d’arrêt Px -ps fini. Alors pour A ∈ FT et B ∈
{Θ−1
T (A) : A ∈ F}, on a

P(A ∩ B |XT ) = P(A |XT ) P(B |XT ).


Chapitre 5. ©JCB – M1math – Université de Rennes 111

Remarque 5.42 Comme ΘT est mesurable, {Θ−1 T (A) : A ∈ F} est une tribu qui contient
les évènements réalisés après T . C’est la façon correcte d’écrire σ(Xk : k ≥ T ) puisque
les évènements typiques en sont {(X1 , . . . , Xn ) ◦ ΘT ∈ B} = {(XT +1 , . . . , XT +n ) ∈ B}
pour tout B ∈ σ(Cyl).

Démonstration : Soit A ∈ Fn -mesurable et B ∈ σ(Xk : k ≥ n). On peut écrire B =


T heta−1 ′
n (B ). On a alors

Px (A ∩ B|Xn ) = Px (A ∩ Θ−1 ′
 
n (B )|Xn ) = Ex 1A 1B ′ ◦ Θn |Xn
 
= Ex Ex [1A 1B ′ ◦ Θn |Fn ] |Xn
(conditionnement en cascade du Th. 2.12)
 
= Ex 1A Ex [1B ′ ◦ Θn |Fn ] |Xn
 
= Ex Ex [1A EXn [1B ′ ] |Fn ] |Xn
(par la propriété de Markov (5.31))
= Ex [1A |Xn ] EXn [1B ′ ]
= Px (A|Xn ) PXn (B ′ ). (5.43)

Avec A = Ω, (5.43) donne P(B|Xn ) = PXn (B ′ ), ce qu’en ré-injectant dans (5.43) donne

Px (A ∩ B|Xn ) = Px (A|Xn ) P(B|Xn )

pour tout A ∈ Fn et B ∈ σ(Xk : k ≥ n), ce qui prouve la première partie du Corol-


laire 5.41. La deuxième partie se prouve de la même façon avec la propriété de Markov
forte (5.38) en (5.43). □
Chapitre 6

Récurrence et transience

Introduction et notations
Exemple 6.1 Sur l’espace E = {1, 2, 3, 4, 5, 6}, on considère une chaı̂ne de Markov de
matrice de transition
 
1/2 1/2 0 0 0 0
 0 0 1 0 0 0 
 
 1/3 0 0 1/3 1/3 0 
P =
 0 1/2 1/4 0
.
 0 1/4  
 0 0 0 0 0 1 
0 0 0 0 1 0
Le graphe associé est alors
1/3 1/3
1/2 1 3 5

1/2 1 1/4 1/3 1 1

2 4 6
1/2 1/4

Les états {1, 2, 3, 4} semblent visités un nombre fini de fois P1 -ps. Au contraire, {5, 6}
sont visités une infinité de fois P1 -ps.
Exemple 6.2 Sur l’espace E = {1, 2, 3, 4, 5}, on considère maintenant une chaı̂ne de
Markov de matrice de transition
 
1/2 0 0 0 1/2
 0 1/2 0 1/2 0 
 
P =  0 0 1 0 0 .

 0 1/4 1/4 1/4 1/4 
1/2 0 0 0 1/2

112
Chapitre 6. ©JCB – M1math – Université de Rennes 113

Le graphe associé est alors


1/2

1/2 1 2

1/2 1/2 1/4 1/2

3 1
1/2 1/4
5 4
1/4

1/4

Cette fois, P2 -ps les états 2 et 4 semblent visités un nombre finis de fois, alors que {1, 5}
et {3} sont visités une infinité de fois mais ne communiquent pas.

L’objet de cette section est de comprendre le comportement qualitatif d’une chaı̂ne de


Markov comme dans les exemples ci-dessus. Il s’agit d’un comportement qualitatif car
les assertions précédentes ne semblent pas dépendre des probabilités de transition mais
seulement de leur non-nullité.
On verra ensuite ce qu’on peut donner comme information quantitative sur la chaı̂ne,
par exemple la proportion de temps passé en un état.

Notations
On considère (Xn )n≥0 une chaı̂ne de Markov d’espace d’états E et de matrice sto-
chastique P . Si nécessaire, on travaille avec la chaı̂ne canonique construite dans le Théo-
rème 5.33. Dans la suite, on note Ex l’espérance par rapport à Px , c’est à dire on suppose
que la chaı̂ne part de x (ie. µ0 = δx ). Pour y ∈ E, avec la convention min ∅ = +∞, on
note

Ty = min n ≥ 0 : Xn = y (temps d’atteinte de y)
+∞
X
N (y) = 1{Xk =y} (nombre de visites en y).
k=0

On note également

Tey = min n > 0 : Xn = y (temps d’atteinte de y)
+∞
X
N (y) =
e 1{Xk =y} (nombre de visites de y après le départ).
k=1
Chapitre 6. ©JCB – M1math – Université de Rennes 114

Les variables aléatoires Ty et Tey sont des temps d’arrêt pour la filtration canonique
associée à la chaı̂ne de Markov (Xn )n≥0 , cf. 2 dans l’Exemple 3.9.
On a les liens suivants selon le point de départ de la chaı̂ne :
— sous Px , avec x ̸= y : Tey = Ty est le temps d’atteinte de y et N e (y) = N (y) ;
— sous Py : Tey > 0 = T (y) est le temps de retour de la chaı̂ne en y et N e (y) =
N (y) − 1 ;

On note également ρx,y = Px Tey < +∞ la probabilité que partant de x ∈ E la chaı̂ne
puisse arriver en temps fini en y ∈ E. En particulier, ρx,x est la probabilité que la chaı̂ne
partant de x finisse par y revenir.
(0)
Enfin, par récurrence, on définit les temps de retours successifs en y ∈ E avec Ty = 0
(convention) et pour k ≥ 1 :

Ty(k) = inf n > Ty(k−1) : Xn = y



(6.1)
= Ty(k−1) + Ty(1) ◦ ΘTy(k−1) , (6.2)

où (6.2) vient de

Ty(k) = Ty(k) + inf j > 0 : Xj+Ty(k−1) = y = Ty(k−1) + inf j > 0 : Xj ◦ ΘTy(k−1) = y


 

= Ty(k−1) + inf j > 0 : Xj = y ◦ Ty(k−1) = Ty(k−1) + Ty(1) ◦ ΘTy(k−1) .




(k−1) (k)
— Observer que, par (6.1) ou par (6.2), lorsque Ty = +∞ alors Ty = +∞ aussi.
(k−1) (k)
— Lorsqu’ il est fini, l’intervalle de temps [Ty , Ty ] s’appelle une excursion de la
chaı̂ne entre deux visites en y.
(k)
— Les variables aléatoires Ty sont des temps d’arrêt puisque pour tout p ≥ 0 :

{Ty(k) ≤ p} = {la chaı̂ne est passée n fois en y avant la date p}


∈ σ(X1 , . . . , Xp ) = Fp .

6.1 États récurrents et transitoires


On distingue les états selon la propension qu’a la chaı̂ne d’y revenir :

Définition 6.3 (Récurrence et transience) Soit (Xn )n≥0 une chaı̂ne de Markov.

— Un état x ∈ E est dit récurrent si ρx,x = Px Tex < +∞ = 1.

— Un état x ∈ E est dit transitoire (transient) si ρx,x = Px Tex < +∞ < 1.

En particulier, on appelle état absorbant tout étatx ∈ E tel que P (x, x) = 1 (Déf. ??).
Un tel état est récurrent puisque ρx,x = Px Tex = 1 = P (x, x) = 1.
Chapitre 6. ©JCB – M1math – Université de Rennes 115

Nombre de passages
Pour un état transitoire x, une chaı̂ne partant de x a une probabilité non nulle de
ne jamais y revenir alors que si l’état est récurrent, elle y reviendra une fois et donc par
récurrence, avec la propriété de Markov forte, une infinité de fois. On formalise cette
intuition dans la proposition suivante qui montre que le nombre de passages en un état
x dépend fondamentalement de sa nature récurrente ou transitoire.

Proposition 6.4 (Nombre de passages en un état) Pour tout état x ∈ E, on a l’alter-


native suivante :
P
(1) Si x est récurrent alors N (x) = +∞ Px -ps (N (x) ∼x δ+∞ ).
(2) Si x est transitoire alors
P
N (x) ∼x G(1 − ρx,x ). (6.3)
1
En particulier, N (x) < +∞ Px -ps et Ex [N (x)] = 1−ρx,x
.

Démonstration : D’abord on a Px (N (x) ≥ 1) = 1. Ensuite, on observe que sous Px ,


lorsque Tex < +∞, on a :
X X X
N (x) = 1{Xk =x} = 1 + 1{Xk =x} = 1 + 1{Xj+Tex =x}
k≥0 k≥Tex j≥0
X X 
= 1+ 1{Xj ◦ΘTex =x} = 1 + 1{Xj =x} ◦ ΘTex = 1 + N (x) ◦ ΘTex . (6.4)
j≥0 j≥0

Pour k ≥ 1, on a donc 1{N (x)≥k+1} = 1{Tex <+∞} 1{N (x)≥k} ◦ ΘTex Px -ps, et :
   
Px (N (x) ≥ k + 1) = Ex 1{N (x)≥k+1} = Ex 1{Tex <+∞} 1{N (x)≥k} ◦ ΘTex
    
= Ex 1{Tex <+∞} EXTex [1{N (x)≥k} ] = Px Tex < +∞ Ex 1{N (x)≥k}
(propriété de Markov forte sous la forme du Corollaire 5.38)
= ρx,x Px (N (x) ≥ k).

Comme Px (N (x) ≥ 1) = 1, on déduit d’une récurrence immédiate que

Px (N (x) ≥ k) = ρk−1
x,x . (6.5)

Dès lors,
— (1) lorsque x est récurrent alors ρx,x = 1 et en faisant k → +∞ par convergence
monotone, on obtient

Px (N (x) = +∞) = lim Px (N (x) ≥ k) = 1,


n→+∞

ie. N (x) = +∞ Px -ps ;


Chapitre 6. ©JCB – M1math – Université de Rennes 116

— (2) lorsque x est transitoire alors ρx,x < 1 et (6.5) donne pour tout k ≥ 0

Px (N (x) = k) = Px (N (x) ≥ k) − Px (N (x) ≥ k + 1)


= ρk−1 k k−1
x,x − ρx,x = ρx,x (1 − ρx,x ) (6.6)
P
et il vient N (x) ∼x G(1 − ρx,x ). A fortiori, on a Ex [N (x)] = 1/(1 − ρx,x ) et
N (x) < +∞ Px -ps.

Lorsque la chaı̂ne part d’un état x différent de l’état y où on considère les visites de la
chaı̂ne, la Prop. 6.4 prend la forme suivante :
Proposition 6.5 (Nombre de passages en y partant de x ̸= y) Soit x, y deux états avec
x ̸= y. Sous Px (ie. lorsque la chaı̂ne part de x),
(1) Si y est récurrent (ρy,y = 1) alors partant de x, soit la chaı̂ne ne rejoint pas y
(N (y) = 0) soit elle le rejoint une fois puis alors une infinité de fois (N (y) = +∞) :
P
N (y) ∼x (1 − ρx,y )δ0 + ρx,y δ+∞ , (6.7)

on a Px (N (y) = +∞) = ρx,y .


(2) Si y est transitoire (ρy,y < 1) alors le nombre de passages en y est de loi
P
N (y) ∼x (1 − ρx,y ) δ0 + ρx,y G(1 − ρy,y ), (6.8)

et on a Px (N (y) < +∞) = 1.

Démonstration : On suppose que la chaı̂ne part de x ̸= y. On a {N


e (y) ≥ 1} = {Tey <
+∞} et  
e (y) ≥ 1 = Px Tey < +∞ = ρx,y .
Px N
Étant donné m1 , m2 ≥ 0, la probabilité que la chaı̂ne partant de x visite y la première
fois à la date m1 et n’y revienne qu’en date m1 + m2 est

Px Ty(1) = m1 , Ty(2) = m1 + m2

 
= Ex 1{Ty(1) =m1 } 1{Ty(2) =m1 +m2 }
h i
(2) (1) (1)
= Ex 1{Ty(1) =m1 } 1 (1) (car par (6.2) : Ty = Ty + Ty ◦ ΘTy(1) )
Ty ◦Θ (1) =m2
Ty
h  i
= Ex 1{Ty(1) =m1 } EX (1) 1{Ty(1) =m2 } (par Markov fort avec le Corollaire 5.38)
Ty
 
= Px Tey = m1 Py Tey = m2 (car XTy(1) = y et donc EX (1) = Ey ).
Ty

On a donc

Px (N (y) ≥ 2)
Chapitre 6. ©JCB – M1math – Université de Rennes 117

+∞
X 
= Px X visite y la première fois à la date m1 et n’y revient qu’en date m1 + m2
m1 ,m2 =1
+∞
X +∞ X
X +∞
Px Ty(1) m1 , Ty(2)
 
= = = m1 + m2 ) = Px Tey = m1 Py Tey = m2
m1 ,m2 =1 m1 =1 m2 =1
+∞
! +∞
!
X  X 
= Px Tey = m1 Py Tey = m2
m1 =1 m2 =1
 
= Px Tey < +∞ Py Tey < +∞ = ρx,y ρy,y .

Plus généralement, un raisonnement analogue montre que pour k ≥ 1 :

Px (N (y) ≥ k) = ρx,y ρk−1


y,y . (6.9)

En effet, pour m1 , . . . , mk ≥ 1, on a
" k
#
 \  Y
Px {Ty(j) = m1 + · · · + mj } = Ex 1{Ty(j) =m1 +···+mj }
1≤j≤k j=1
" k−1
! #
Y
= Ex 1{Ty(j) =m1 +···+mj } 1{Ty(k) =m1 +···+m
k}
j=1
" k−1
! #
Y
= Ex 1{Ty(j) =m1 +···+mj } 1{Ty(1) =m ◦ ΘTy(k−1)
k}
j=1
(k) (k−1) (1)
(car par (6.2) : Ty + Ty ◦ ΘTy(k−1) )
= Ty
!
h k−1
Y  i
= Ex 1{Ty(j) =m1 +···+mj } Ex 1{Ty(1) =m } ◦ ΘTy(k−1) FTy(k−1)
k
j=1
| {z }
FTy(k−1) -mesurable
(j)
(car, pour j ≤ k − 1, Ty est FTy(k−1) -mesurable)
" k−1 ! #
Y  
= Ex 1{Ty(j) =m1 +···+mj } EX (k−1) 1{Ty(1) =m }
Ty k
j=1

(par Markov fort avec le Corollaire 5.38)


" k−1 !#
Y  
= Ex 1{Ty(j) =m1 +···+mj } Ey 1{Ty(1) =m }
k
j=1
 \ 
= Px {Ty(j) = m1 + · · · + mj } Py (Ty(1) = mk )
1≤j≤k−1
k−1
!
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj ) Py (Ty(1) = mk )
j=2
Chapitre 6. ©JCB – M1math – Université de Rennes 118

k
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj )
j=2
T 
(j)
par hypothèse de récurrence pour Px 1≤j≤k−1 {Ty = m1 + · · · + mj } . On a alors

Px (N (y) ≥ k)
X 
= Px X visite y la j-ème fois à la date m1 + · · · + mj , ∀j ∈ J1, kK
mj ≥1
1≤j≤k
X  \ 
= Px {Ty(j) = m1 + · · · + mj }
mj ≥1 1≤j≤k
1≤j≤k

X k
Y
= Px (Ty(1) = m1 ) Py (Ty(1) = mj )
mj ≥1 j=2
1≤j≤k
!  
X k
Y X
= Px (Ty(1) = m1 )  Py (Ty(1) = mj )
m1 ≥1 j=2 mj ≥1
k
Y
= Px (Ty(1) < +∞) Py (Ty(1) < +∞) = ρx,y ρy,y
k−1
,
j=2

ce qui établit (6.9).


Puis comme Px (N (y) = k) = Px (N (y) ≥ k) − Px (N (y) ≥ k − 1), on a aussi
Px (N (y) = k) = ρx,y ρk−1
y,y (1 − ρy,y ), k ≥ 1, (6.10)
et
Px (N (y) = 0) = 1 − Px (N (y) ≥ 1) = 1 − ρx,y . (6.11)
Dans le cas où y est récurrent (ρy,y = 1), on déduit de (6.9) par convergence monotone
que
Px (N (y) = +∞) = lim Px (N (y) ≥ k) = ρx,y ,
k→+∞

ce qui établit 1). Puis 2) découle de (6.10). □

Remarque 6.6 — Attention, dans le cas x = y, les formules (6.10) et (6.11) sont
remplacées par (6.6) dans la Proposition 6.4. La différence vient du fait que sous
Px , on a N (x) ≥ 1 puisque la chaı̂ne part de x. Il y a donc un décalage dans le
compte des passages en x dû au point de départ.
— En fait, ces formules (6.10) et (6.11) sont intuitivement claires avec la description
heuristique suivante : pour que partant de x la chaı̂ne visite m fois y, elle com-
mence à aller de x à y (facteur ρx,y ) puis visite y m − 1 fois (facteur ρy,y pour
chaque visite donc globalement ρm−1
y,y ) et n’y retourne plus (facteur 1 − ρy,y ).
Chapitre 6. ©JCB – M1math – Université de Rennes 119

— Les Propositions 6.4 et 6.5 décrivent la différence fondamentale entre un état


transitoire et un état récurrent :
— Si l’état y est transitoire, alors quelque soit l’état initial de la chaı̂ne, il y aura
un nombre fini de passages en y et le nombre moyen de passages est fini aussi.
— Si l’état y est récurrent alors quand la chaı̂ne part de cet état, elle y repasse
une infinité de fois. Si elle part d’ailleurs soit elle n’y va jamais soit elle y va
une fois et alors elle y retourne nécessairement une infinité de fois.

Potentiel ou fonction de Green


À la chaı̂ne de Markov (Xn )n≥0 de matrice stochastique P , on associe :

Définition 6.7 (Potentiel/fonction de Green) Soit x, y ∈ E, on note G(x, y) le nombre


moyen de passages en y de la chaı̂ne partant de x :
+∞
X +∞
X
 
G(x, y) = Ex N (y) = Px (Xk = y) = Pk (x, y).
k=0 k=0

(Les égalités
P ci-dessus viennent du théorème de convergence monotone et de l’expression
N (y) = k≥0 1{Xk =y} .)

Théorème 6.8 (Nature et potentiel)


(1) Si y est un état transitoire (ρy,y < 1), alors le potentiel (fonction de Green) G(x, y)
est fini pour tout état x et vaut
( ρ
x,y
1−ρy,y
si x ̸= y,
G(x, y) = 1
1−ρy,y
si x = y.

(2) Si y est un état récurrent alors G(y, y) = +∞ et


— si ρx,y = 0 alors G(x, y) = 0 ;
— si ρx,y > 0, G(x, y) = +∞.

Démonstration : La preuve vient de la Proposition 6.5 et des lois (6.7)–(6.8) de N (y)


̸ y ou (6.3) lorsque x = y.
sous Px lorsque x =
D’abord, si x ̸= y, alors par la Prop. 6.5 :
(a) Soit y un état transitoire, G(x, y) = Ex [N (y)] est l’espérance de (1 − ρx,y ) δ0 +
ρx,y G(1 − ρy,y ) donc vaut ρx,y /(1 − ρy,y ).
(b) Si y est récurrent, G(x, y) = Ex [N (y)] est l’espérance de (1 − ρx,y )δ0 + ρx,y δ+∞ donc
vaut 0 si ρx,y = 0 et +∞ sinon.

Ensuite, si x = y, alors par la Prop. 6.4 :


(a) Soit y un état transitoire, G(x, y) = Ex [N (y)] est l’espérance de G(1 − ρy,y ) donc
vaut 1/(1 − ρy,y ).
Chapitre 6. ©JCB – M1math – Université de Rennes 120

(b) Si y est récurrent, G(x, y) = +∞ puisque N (y) = +∞.


De l’alternative du Théorème 6.8, on déduit immédiatement un critère de récurrence à


l’aide du potentiel :
Corollaire 6.9 (Récurrence et potentiel) Un état x est récurrent si et seulement si G(x, x) =
+∞.

Corollaire 6.10 En convenant que 0 × (+∞) = 0, pour x ̸= y, on a :

G(x, y) = ρx,y G(y, y). (6.12)

La preuve du Corollaire 6.10 s’obtient des expressions explicites de G(x, y) dans le Théo-
rème 6.8. On peut aussi le prouver directement à partir de la propriété de Markov forte :
Démonstration : Soit x ̸= y. Sous Px , lorsque Ty = +∞ on a N (y) = 0 et lorsque
Ty < +∞

N (y) = #(n ≥ 0 : Xn = y) = #(n ≥ Ty : Xn = y)


 
= # k ≥ 0 : Xk+Ty = y = # k ≥ 0 : Xk ◦ ΘTy = y

= # k ≥ 0 : Xk = y ◦ ΘTy = N (y) ◦ ΘTy .

On a donc N (y) = N (y) ◦ ΘTy Px -ps et par la propriété de Markov forte (5.38) (sous la
forme du Corollaire 5.38), on a alors
    
Ex [N (y)] = Ex 1{Ty <+∞} (N (y) ◦ ΘTy ) = Ex 1{Ty <+∞} Ex (N (y) ◦ ΘTy ) FΘTy
   
= Ex 1{Ty <+∞} EXTy [N (y)] = Ex 1{Ty <+∞} Ey [N (y)]
= Px (Ty < +∞) Ey [N (y)]

ie. G(x, y) = ρx,y G(y, y). □

On précise la notion de récurrence d’un état selon la durée moyenne d’un retour en cet
état.
Définition 6.11 (Récurrence
 nulle et positive) Un état x récurrent
  est dit récurrent po-
sitif si mx = Ex Tx < +∞. Il est dit récurrent nul si mx = Ex Tex = +∞.
e

Ainsi  
— si x est récurrent positif : Tex < +∞ Px -ps et mx = Ex Tex < +∞ ;
 
— si x est récurrent nul : Tex < +∞ Px -ps mais mx = Ex Tex = +∞ ;
— si x
 est
 transitoire : Tx = +∞ avec probabilité Px positive et a fortiori mx =
e
Ex Tex = +∞.

Définition 6.12 (Chaı̂nes récurrente et transitoire) Une chaı̂ne est dite :


Chapitre 6. ©JCB – M1math – Université de Rennes 121

— transitoire si tous ses états sont transitoires ;


— récurrente si tous ses états sont récurrents ;
— récurrente positive si tous ses états sont récurrents positifs ;
— récurrente nulle si tous ses états sont récurrents nuls.
Remarque 6.13 (1) Noter que si y est un état transitoire alors pour tout x ∈ E,
lim P n (x, y) = 0.
n→+∞

En effet cela découle de la convergence de la série G(x, y) = +∞ n


P
n=0 P (x, y) < +∞.
(2) Si une chaı̂ne (Xn )n≥0 a un nombre fini d’états, alors nécessairement il y a au moins
un état récurrent et la chaı̂ne ne peut pas être transitoire. En effet, si tous les états
étaient transitoires alors on aurait l’égalité absurde suivante :
X X
0= lim P n (x, y) = lim P n (x, y) = lim Px (Xn ∈ E) = 1.
n→+∞ n→+∞ n→+∞
y∈E y∈E
P
La première égalité vient de 1) ci-dessus, la deuxième du fait que la somme y∈E
est finie.

Excursions
(k)
On rappelle que les Ty , k ≥ 0, désignent les dates de retours successifs de la chaı̂ne en
y et qu’ils sont définis en (6.1) et satisfont (6.2).
(n)
Proposition 6.14 (Indépendance des excursions) Sachant Ty < +∞ (qu’on suppose
(k) (k) (k−1)
non négligeable), les variables aléatoires ∆y = Ty − Ty , 1 ≤ k ≤ n, sont iid sous
Py .
Démonstration : Il s’agit de montrer pour des fonctions gi , 1 ≤ i ≤ n, mesurables
bornées sur R+ , on a :
" n # n
Y Y h i
(i) (n) (1)
  (n)
Ey gi ∆y Ty < +∞ = Ey gi ∆y Ty < +∞ . (6.13)
i=1 i=1
(n) Pn (i)
Comme Ty = i=1 ∆y , on a
n
\
{Ty(n) < +∞} = {∆(i)
y < +∞}, (6.14)
i=1

et on commence par montrer que pour toutes fonctions gi , 1 ≤ i ≤ n, mesurables bornées


sur R+ : " n #
Y  Yn
(i)
Ey gi ∆(1)
   
Ey gi ∆y 1{∆y(i) <+∞} = y 1 (1)
{∆y <+∞}
. (6.15)
i=1 i=1
On procède par récurrence sur n ≥ 1. Pour n = 1, l’égalité (6.15) est immédiate. On
suppose alors (6.15) établie pour n − 1 fixé et on la prouve pour n. Pour cela, on observe
que
Chapitre 6. ©JCB – M1math – Université de Rennes 122

(1) (n−1)
— les variables aléatoires ∆y , . . . , ∆y sont FTy(n−1) -mesurables,
— ΘTy(n−1) est indépendante de FTy(n−1) et de loi Py (propriété de Markov forte, Co-
rollaire 5.38),
(n) (1) (n) (n−1) (1)
— ∆y = ∆y ◦ ΘTy(n−1) ; en effet par (6.2), on a Ty = Ty + Ty ◦ ΘTy(n−1) et on
a donc
∆(n)
y = Ty
(n)
− Ty(n−1) = Ty(1) ◦ ΘTy(n−1) = ∆(1)
y ◦ ΘTy(n−1) .

En utilisant dans la 3-ème égalité la propriété de Markov fort (Corollaire 5.38), on a :


" n #
Y 
Ey gi (∆(i)
y )1{∆y(i) <+∞}
i=1
"n−1 #
Y 
gi (∆(i) gn ∆(1)

= Ey y )1{∆y(i) <+∞} y ◦ ΘTy(n−1) 1
 (1)
∆y ◦Θ (n−1) <+∞
i=1 Ty
"n−1 " ##
Y 
gi (∆(i) (1)

= Ey y )1{∆y(i) <+∞} Ey gn ∆y ◦ ΘTy(n−1) 1 FTy(n−1)
 (1)
∆y ◦Θ (n−1) <+∞
i=1 Ty
"n−1  #
Y 
gi (∆(i) gn ∆(1)

= Ey y )1{∆y(i) <+∞} EX (n−1) y 1 (1)
Ty ∆y <+∞
i=1
"n−1 #
Y 
gi (∆(i) Ey gn (∆(1)
 
= Ey y )1{∆y(i) <+∞} y )1{∆(1)
y <+∞}
i=1
n−1
Y h i
gi (∆(1) Ey gn (∆(1)
 
= Ey y )1{∆(1)
y <+∞} y )1{∆(1)
y <+∞}
i=1

en utilisant l’hypothèse de récurrence, ce qui prouve (6.15) par récurrence.


On déduit deux cas particuliers de (6.15) :
— Lorsque toutes les gi sont égales à 1, (6.15) devient
n
Py Ty(n) < +∞ = Py ∆(1)

y < +∞ . (6.16)

— Lorsque les gj sont égales à 1 pour tous les j ̸= i, (6.15) devient


" n
#
h i Y
Ey gi ∆(i) = Ey gi ∆(i)
 
y 1{Ty(n) <+∞} y 1{∆y(j) <+∞}
j=1
" #
 Y
gi ∆(i)

= Ey y 1 (i)
{∆y <+∞}
1{∆(j)
y <+∞}
j̸=i
 Y 
= Ey gi ∆(1)
  
y 1 (1)
{∆y <+∞}
× Ey 1 (1)
{∆y <+∞}
j̸=i

= Ey gi ∆(1) × Py (∆(1) n−1


  
y 1{∆(1)
y <+∞} y < +∞) .(6.17)
Chapitre 6. ©JCB – M1math – Université de Rennes 123

Finalement pour montrer (6.13), on écrit :


hQ  i
" # n (i) 
n
Y Ey i=1 gi ∆y 1{Ty(n) <+∞}
gi ∆(i) Ty(n) < +∞ =

Ey y (n)
i=1 Py (Ty < +∞)
hQ  i
n (i) 
Ey i=1 gi ∆y 1{∆(i)
y <+∞}
= (n)
(en utilisant (6.14))
Py (Ty < +∞)
Qn  (1)  
i=1 Ey gi ∆y 1{∆(1)
y <+∞}
= (n)
(en utilisant (6.15))
Py (Ty < +∞)
Qn   (1)   Q
i=1 Ey ig ∆ y 1 (1)
{∆y <+∞}
n (1)
P (∆y < +∞)n−1 i=1 y
= (n) (n)
Py (Ty < +∞) Py (Ty < +∞)n−1
| {z }
=1
Qn   (1)   (1)

i=1 Ey gi ∆y 1{∆(1)
y <+∞}
Py (∆y < +∞)n−1
= (n)
(6.18)
Py (Ty < +∞)n
Qn (1) (n)
en notant grâce à (6.16) que i=1 Py (∆y < +∞)n−1 = Py (Ty < +∞)n−1 . En utilisant
(6.17), on a alors
h i
" # Qn (i) 
n
Y i=1 Ey gi ∆y 1{T (n) <+∞} y
gi ∆(i)
 (n)
Ey y Ty < +∞ = (n)
i=1 Py (Ty < +∞)n
n
Y  
gi ∆(i) Ty(n)

= Ey y < +∞ .
i=1

Finalement, on a obtenu (6.13) ce qui prouve la Proposition 6.14. □

Temps passé en un état


On note Nn (y) (resp. N
en (y)) la variable aléatoire qui indique le temps passé en un
état y ∈ E jusqu’au temps n en comptant la date initiale (resp. en ne la comptant pas) :
n
X n
X
Nn (y) = 1{Xk =y} et N
en (y) = 1{Xk =y} , (6.19)
k=0 k=1

et Gn (x, y) le temps moyen passé en y jusqu’au temps n lorsque la chaı̂ne part de x :


n
X
Gn (x, y) = Ex [Nn (y)] = P k (x, y).
k=0
Chapitre 6. ©JCB – M1math – Université de Rennes 124

Théorème 6.15 (Proportion du temps de visite) Pour tout état y ∈ E et toute loi ini-
tiale ν, on a
Nn (y) 1{Tey <+∞}
lim = Pν -ps. (6.20)
n→+∞ n my
De plus, pour tout x ∈ E, on a
Gn (x, y) ρx,y
lim = . (6.21)
n→+∞ n my
Remarque 6.16 Ces résultats se justifient heuristiquement : dès que la chaı̂ne atteint
un état y récurrent, elle revient en y en moyenne en my étapes. Donc si Tey < +∞,
et n est grand, la proportion d’étapes parmi les n premières où la chaı̂ne est en y est
d’ordre 1/my . Le résultat (6.21) vient de (6.20) en prenant l’espérance. Par ailleurs si y
est transitoire, il y a un nombre fini de visite en y donc la proportion du temps passé en
y est asymptotiquement nulle, ce qu’on retrouve avec my = +∞ dans ce cas.
Démonstration : a) On commence par considérer le cas y récurrent et une chaı̂ne de
Markov qui démarre de ce y. Avec probabilité 1, la chaı̂ne revient en y une infinité
(n)
de fois (Proposition 6.4). Comme y est récurrent, Ty est fini Py -ps pour tout n ≥ 0
(n) (k) (k) (k−1)
(Ty = 0), et la Proposition 6.14 donne que les variables aléatoires ∆y = Ty − Ty ,
k ≥ 1, (durée entre la (k − 1)-ème visite et la k-ème visite en y) sont iid. Comme
(n) (1) (n)
Ty = ∆y + · · · + ∆y , la loi des grands nombres (LGN) donne alors, Py -ps
(n) (1) (n)
Ty ∆y + · · · + ∆y
lim = lim = my . (6.22)
n→+∞ n n→+∞ n
En effet,
(1)
— si my < +∞, alors ∆y ∈ L1 et (6.22) s’obtient directement par la LGN ;
— si my = +∞, on commence par appliquer la LGN aux variables aléatoires iid
(i) 
∆y ∧ a ∈ L1 où a > 0 quelconque est préalablement fixé :
(1)  (n) 
∆y ∧ a + · · · + ∆y ∧ a
= Ey ∆(1)
 
lim y ∧a .
n→+∞ n
(1) (1)
Comme ∆y ≥ ∆y ∧ a, on a
(1) (n)
∆y + · · · + ∆y
lim inf
n→+∞ n
(1)  (n) 
∆y ∧ a + · · · + ∆y ∧ a
≥ lim inf
n→+∞ n
(1)
= Ey [∆y ∧ a].
(1) (1)
Mais comme par convergence monotone Ey [∆y ∧ a] ↗ Ey [∆y ] = my = +∞
quand a → +∞, on a
(1) (n)
∆y + · · · + ∆y
lim = +∞,
n→+∞ n
ce qui correspond à (6.22) avec my = +∞.
Chapitre 6. ©JCB – M1math – Université de Rennes 125

(k)
Par définition de Ty et N
en (y), on a

Ty(Nn (y)) ≤ n < Ty(Nn (y)+1)


e e

en (y) ≥ 1)
et donc pour n assez grand (pour assurer N
(N
e (y)) (N
e (y)+1)
Ty n n Ty n
≤ < . (6.23)
N
en (y) Nen (y) N
en (y)
Mais comme N en (y) → +∞ Py -ps et (N
en (y) + 1)/Nen (y) → 1 quand n → +∞, la LGN
(6.22) donne aussi :
(N
e (y)) (N
en (y)+1)
Ty n Py −ps Ty Py −ps
−−−−→ my et −−−−→ my . (6.24)
en (y) n→+∞
N Nen (y) n→+∞
Le théorème des gendarmes, (6.23) et (6.24) assurent alors que Py -ps :
n
lim = my ,
n→+∞ N en (y)
en (y)/Nn (y) →
ce qui prouve (6.20) dans ce cas (départ de la chaı̂ne de y, récurrent) puisque N
1 quand n → +∞.
b) On suppose maintenant que la chaı̂ne part de x ̸= y. Dans ce cas, la chaı̂ne peut
ne jamais rejoindre y. Cependant si elle rejoint y, l’argument précédent s’applique et se
réécrit alors
Nn (y) 1{Tey <+∞}
lim = Px -ps.
n→+∞ n my
On a donc (6.20) Px -presque sûrement pour tout x ∈ E lorsque y est récurrent.
c) On considère y transitoire et la chaı̂ne part d’un état x quelconque. Par la Prop. 6.4 et
la Prop. 6.5, on a limn→+∞ Nn (y) = N (y) < +∞ Px -presque sûrement pour tout x ∈ E,
et donc
Nn (y)
lim =0
n→+∞ n
ce qui correspond à (6.20) dans ce cas puisque my = 0. On a donc établi (6.20) Px -ps
pour tout x ∈ E.
d) En notant que si Px (A) = 1 pour tout x ∈ E alors par la définition de Pν en (5.28),
on a : X X
Pν (A) = ν(x) Px (A) = ν(x) = 1,
x∈E x∈E
on a encore (6.20) Pν -presque sûrement pour toute loi initiale ν.
e) Pour prouver (6.21), on observe que 0 ≤ Nn (y)/n ≤ 1 puisque 0 ≤ Nn (y) ≤ n. Dés
lors, le théorème de convergence dominée permet d’obtenir (6.21) de (6.20) :

1{Tey <+∞}
     
Nn (y) Nn (y) Px Tey < +∞ ρx,y
lim Ex = Ex lim = Ex = = .
n→+∞ n n→+∞ n my my my

Chapitre 6. ©JCB – M1math – Université de Rennes 126

6.2 Ensembles clos et irréductibilité


Relations entre états
On note ER l’ensemble des états récurrents et ET l’ensemble des états transitoires.
D’après la Proposition 6.4, on a
E = ER ⊔ ET . (6.25)
Dans cette section, on précise cette partition de l’espace d’états E.

Définition 6.17 Étant donné deux états x, y ∈ E, on dit que x peut mener à y et on note
x ⇝ y si ρx,y = Px Tey < +∞ > 0.

Proposition 6.18 Pour des états x, y distincts, on a les équivalences :


(1) x ⇝ y ;
(2) G(x, y) > 0 ;
(3) ∃n ≥ 1 tel que P n (x, y) > 0, ie., avec une probabilité strictement positive, il existe
un chemin de x à y en un nombre fini d’étape.

Démonstration : On suppose que la chaı̂ne part de x ̸= y.


1)⇐⇒2). Comme {N (y) ≥ 1} = {Tey < +∞}, on a Px (N (y) ≥ 1) = ρx,y . La condition
ρx,y > 0 est alors équivalente à avoir N (y) ≥ 1 avec probabilité Px positive donc à
G(x, y) = Ex [N (y)] > 0.
2)⇐⇒3) suit immédiatement de G(x, y) = n≥0 P n (x, y) = n≥1 P n (x, y) (n ̸= 0 car
P P
x ̸= y et P 0 (x, y) = δx,y = 0). □

La relation ⇝ est transitive :


Proposition 6.19 Si x ⇝ y et y ⇝ z alors x ⇝ z.
Démonstration : En effet, pour aller de x à z on peut en particulier aller de x à y et de
y à z : plus précisement, on a
ρx,z = Px (Tz < +∞)

≥ Px Ty < +∞, Tz ◦ ΘTy < +∞
    
= Ex 1{Ty <+∞} 1{Tz ◦ΘTy <+∞} = Ex 1{Ty <+∞} Ex 1{Tz ◦ΘTy <+∞} |FTy
     
= Ex 1{Ty <+∞} EXTy [1{Tz <+∞} ] = Ex 1{Ty <+∞} Ey 1{Tz <+∞}
= Px (Ty < +∞) Py (Tz < +∞) = ρx,y ρy,z > 0,
due à la propriété de Markov forte (5.38) sous la forme du Corollaire 5.38.
Autre façon de faire, x ⇝ y et y ⇝ z impliquent P n (x, y) > 0 et P m (y, z) > 0 pour des
entiers n, m ≥ 1. En utilisant la relation de Chapman-Kolmogorov (5.12), on a x ⇝ z
car X
P n+m (x, z) = P n (x, w)P m (w, z) ≥ P n (x, y)P m (y, z) > 0.
w∈E
Chapitre 6. ©JCB – M1math – Université de Rennes 127

Théorème 6.20 Soit x ∈ ER et y ∈ E tel que x ⇝ y (ie. G(x, y) > 0). Alors y ∈ ER
et ρy,x = Py (Tex < +∞) = 1. En particulier, y ⇝ x (ie. G(y, x) > 0) et on a même
ρx,y = 1.
Démonstration : Pour y = x, l’énoncé est immédiat (ρx,x = 1 car x ∈ ER ). On suppose
donc y ̸= x et on dispose de la Proposition 6.18.
On commence par montrer que Py (Tex < +∞) = 1. Lorsque Tey < +∞ et Tex ◦ ΘTey = +∞,
on a nécessairement N (x) ≤ Tey (puisque après Tey , il n’y a plus de visite en x), on a donc

Tey < +∞ et Tex ◦ ΘTey = +∞ ⊂ {N (x) < +∞}.
Comme x est récurrent, on a

0 = Px (N (x) < +∞) ≥ Px Tey < +∞ et Tex ◦ ΘTey = +∞
    
= Ex 1{Tey <+∞} (1{Tex =+∞} ◦ ΘTey ) = Ex 1{Tey <+∞} Ex (1{Tex =+∞} ◦ ΘTey )|FTey
     
= Ex 1{Tey <+∞} EXTey [1{Tex =+∞} ] = Ex 1{Tey <+∞} Ey 1{Tex =+∞}
(propriété de Markov forte (5.38) sous la forme du Corollaire 5.38)
 
= Px Tey < +∞ Py Tex = +∞ .
 
Comme x ⇝ y, on a ρx,y = Px Tey < +∞ > 0, et cela exige Py Tex = +∞ = 0 et donc

ρy,x = Py Tex < +∞ = 1, c’est à dire y ⇝ x.
On termine en montrant que y ∈ ER . Comme par définition (Déf. 6.7) du potentiel G :
X X
G(x, y) = P k (x, y) > 0, G(y, x) = P k (y, x) > 0,
k≥0 k≥0

on peut trouver des entiers n1 , n2 ≥ 1 tels que


P n1 (x, y) > 0, P n2 (y, x) > 0. (6.26)
Pour tout entier k ≥ 0, on a alors
P n1 +k+n2 (y, y) ≥ P n2 (y, x)P k (x, x)P n1 (x, y)
et donc
+∞ +∞
!
X X
G(y, y) ≥ P n1 +k+n2 (y, y) ≥ P n2 (y, x) P k (x, x) P n1 (x, y) = +∞
k=0 k=0
P+∞
puisque k=0 P k (x, x) = G(x, x) = +∞ et n1 , n2 satisfont (6.26). On a donc y ∈ ER .
Pour terminer, on obtient ρx,y en échangeant les rôles de x et y puisqu’on sait que y ∈ ER
et y ⇝ x. □
Chapitre 6. ©JCB – M1math – Université de Rennes 128

Remarque 6.21 (x ∈ ER ̸⇝ y ∈ ET ) Si x ∈ ER et y ∈ ET alors nécessairement par


le Théorème 6.20 on a G(x, y) = 0 : un état récurrent ne peut pas mener à un état
transitoire !

Le résultat suivant précise le Théorème 6.20.

Théorème 6.22 Soit x un état récurrent positif (resp. nul). Si x ⇝ y alors y est récurrent
positif (resp. nul).

Démonstration : Soit x ∈ ER ⇝ y. D’après le Théorème 6.20, on sait déjà que y ∈ ER


et y ⇝ x.
D’abord, on suppose que x est récurrent positif. Il existe donc des entiers n1 , n2 ≥ 1 tels
que
P n1 (x, y) > 0, P n2 (y, x) > 0. (6.27)
On a alors
P n1 +k+n2 (y, y) ≥ P n2 (y, x)P k (x, x)P n1 (x, y),
puis en sommant sur k = 0, 2, . . . , n, et en divisant par n, on obtient
n1 +n
X 2 +n n
X
j
Gn1 +n+n2 (y, y) − Gn1 +n2 −1 (y, y) = P (y, y) = P n1 +k+n2 (y, y)
j=n1 +n2 k=0
n n
!
X X
≥ P n2 (y, x)P k (x, x)P n1 (x, y) = P n2 (y, x) P k (x, x) P n1 (x, y)
k=0 k=0
= P n1 (y, x)P n2 (x, y)Gn (x, x). (6.28)

Par le Théorème 6.15, quand n → +∞,

Gn1 +n+n2 (y, y) Gn1 +n2 (y, y) 1


lim − =
n→+∞ n n my
Gn (x, x) P n2 (y, x)P n1 (x, y)
lim P n2 (y, x)P n1 (x, y) = ,
n→+∞ n mx
et donc par (6.28)
1 P n2 (y, x)P n1 (x, y)
≥ > 0,
my mx
car mx < +∞ (x récurrent positif) et par choix de n1 , n2 en (6.27), ce qui exige my <
+∞, c’est à dire y est récurrent positif.
Ensuite, dans le cas où x est récurrent nul, nécessairement y doit l’être aussi car si y
était récurrent positif, comme y ⇝ x (Th. 6.20), la première partie exigerait x récurrent
positif, ce qui n’est pas le cas. □
Chapitre 6. ©JCB – M1math – Université de Rennes 129

Ensemble clos
Définition 6.23 (Ensemble clos) Un ensemble d’états C ⊂ E est dit clos si aucun état
de C ne peut mener à l’extérieur de C, ie. ρx,y = 0, ∀x ∈ C, y ̸∈ C ou encore pour tout
n ≥ 1, x ∈ C, y ̸∈ C, P n (x, y) = 0.

Exemple 6.24 Un état absorbant (Déf. 5.12) est un cas (très) particulier d’ensemble clos.

En fait, par récurrence on montre qu’il suffit de voir la propriété de la Définition 6.23
pour n = 1 :

Proposition 6.25 Si pour tout x ∈ C et y ̸∈ C on a P (x, y) = 0, alors l’ensemble C est


clos.

Démonstration : On montre par récurrence que P n (x, y) = 0 pour tout x ∈ C, y ̸∈ C et


n ≥ 1 dès que c’est vrai pour n = 1. Si c’est le cas pour P n−1 alors
X X
P n (x, y) = P (x, z)P n−1 (z, y) = P (x, z)P n−1 (z, y) = 0
z∈E z∈C

par la relation de Chapman-Kolmogorov (5.12) pour la première égalité, l’hypothèse sur


x ∈ C dans la deuxième et par hypothèse de récurrence sur P n pour la troisième. □

Irréductibilité
Définition 6.26 (Irréductibilité) Un ensemble C clos est dit irréductible si pour tout
x, y ∈ C alors x peut mener à y (et y à x). Une chaı̂ne est dite irréductible si l’espace
d’états E entier l’est.

Remarque 6.27 D’après la Proposition 6.18, la Définition 6.26 est équivalente à


— pour tout x, y ∈ C, on a G(x, y) > 0 ;
— pour tout x, y ∈ C, il existe n = n(x, y) ≥ 1 tel que P n (x, y) > 0 ;
— pour tout x, y ∈ C, il existe n = n(x, y) ≥ 1 et x0 = x, x1 . . . , xn = y tels que
P (xi , xi+1 ) > 0 pour tout 0 ≤ i ≤ n − 1.

Proposition 6.28 Dans un ensemble clos irréductible, tous les états sont de même na-
ture : tous transitoires ou tous récurrents positifs ou tous récurrents nuls.

Démonstration : S’il existe x ∈ C récurrent positif (resp. récurrent nul) alors par le
Théorème 6.22, tous les autres états de C sont récurrents positifs (resp. récurrents nuls).
Sinon c’est que tous les états de C sont transitoires. □

En fait, on a :

Théorème 6.29 Soit (Xn )n≥0 une chaı̂ne de Markov.


Chapitre 6. ©JCB – M1math – Université de Rennes 130

(1) Soit C un ensemble clos irréductible d’états récurrents. Alors pour tout x, y ∈ C
on a ρx,y = 1, Px (N (y) = +∞) = 1 et G(x, y) = +∞.
(2) Soit C un ensemble fini d’états, clos irréductible. Alors tous les états de C sont
récurrents positifs.
(3) En particulier, une chaı̂ne irréductible sur un espace d’états fini est nécéssairement
récurrente positive.

Démonstration : 1) vient des Propositions 6.4 et 6.5 et du Théorème 6.8.

2) D’abord, un ensemble C fini et clos a au moins un état récurrent. En effet, de la même


façon que dans la Remarque 6.13, comme la chaı̂ne ne quitte pas C, si tous les états
étaient transitoires alors on aurait en partant de x ∈ C :
X X
0= lim P n (x, y) = lim P n (x, y) = lim Px (Xn ∈ C) = 1.
n→+∞ n→+∞ n→+∞
y∈C y∈C

Cela exige donc que l’ensemble C contienne au moins un état récurrent.


Puis, il y a même nécessairement un état récurrent positif dans C : si la chaı̂ne part de
C, on a
X X Nn (y)
n= Nn (y) et 1 =
y∈C y∈C
n

et pour tout x ∈ C :
" #   X
X Nn (y) X Nn (y) Gn (x, y)
1 = Ex = Ex = .
y∈C
n y∈C
n y∈C
n

Comme C est fini :


X Gn (x, y) X Gn (x, y) X ρx,y
1 = lim = lim = .
n→+∞
y∈C
n y∈C
n→+∞ n y∈C
my

Il existe donc y ∈ C avec my < +∞, c’est à dire y ∈ C est récurrent positif. Puis comme
y mène à tout x ∈ C (par la Déf. 6.23 de C clos), on a aussi x récurrent positif par le
Théorème 6.22.
3) Appliquer 1) avec C = E. □

Corollaire 6.30 (Irréductibilité, récurrence et transience) Si (Xn )n≥0 est une chaı̂ne
de Markov irréductible partant de x ∈ E, on a l’alternative :
(1) ou bien la chaı̂ne est récurrente : tous les états sont récurrents

Px N (y) = +∞ ∀y ∈ E = 1.
Chapitre 6. ©JCB – M1math – Université de Rennes 131

(2) ou bien la chaı̂ne est transitoire : tous les éléments sont transitoires

Px N (y) < +∞ ∀y ∈ E = 1.

Une chaı̂ne de Markov irréductible est donc soit transitoire soit récurrente positive soit
récurrente nulle.

Démonstration : S’il existe un état x récurrent, le Théorème 6.20 montre que tous les
états sont récurrents puisque par irréductibilité, x mène à tous les états y. De plus,
puisque G(x, y) > 0 pour tout x, y ∈ E, il n’y a qu’une seule classe de récurrence. Le
reste découle du Théorème 6.29. □

Définition 6.31 (Récurrence et irréductibilité) Une chaı̂ne de Markov irréductible dont


tous les états sont récurrents est dite récurrente irréductible.

Exemple 6.32 Classifier les états de la chaı̂ne de Markov sur un espace d’états fini avec
pour matrice stochastique
 
1 0 0 0 0 0
 1 1 1
0 0 0 
 4 2
1
4
2 1

 0
5 5 5
0 15 
P = .
 0
 0 0 16 31 12 

 0 0 0 12 0 12 
0 0 0 14 0 34

1/2 3/4

2 6
1/2
1/4

1/5
1 1 1/5 1/4 1/2 1/4 5
1/3

1/2

On observe que 3 4
1/5
— 1 est absorbant
2/5 1/6
— 2 est transitoire car 2 ⇝ 1,
— 3 est transitoire car 3 ⇝ 2 ⇝ 1,
— {4, 5, 6} forme une classe close irréductible qui est donc récurrente (positive).
On en déduit la classification :

{1, 2, 3, 4, 5, 6} = {1} ∪ {4, 5, 6} ∪ {2, 3}.


| {z } | {z }
classes de récurrence états transitoires
Chapitre 6. ©JCB – M1math – Université de Rennes 132

6.3 Classes de récurrence


Dans cette section, on précise les ensembles clos récurrents.

Définition 6.33 (Relation d’équivalence ∼) On dit que deux états x et y communiquent


et on note x ∼ y lorsque x ⇝ y et y ⇝ x.

Proposition 6.34 Sur ER la relation ∼ définit bien une relation d’équivalence. De plus
on a :

x ∼ y ⇔ x ⇝ y ⇔ y ⇝ x ⇔ G(x, y) > 0 ⇔ G(y, x) > 0 ⇔ ρx,y > 0 ⇔ ρy,x > 0 (6.29)

et dans ce cas ρx,y = ρy,x = 1.

Démonstration : On définit bien une une relation d’équivalence sur ER puisque


— réflexivité (x ∼ x) car ρx,x = 1 et donc x ⇝ x ;
— symétrie par définition ;
— transitivité par la Proposition 6.19.
De plus d’après le Théorème 6.20 si x ∈ ER ⇝ y alors y ∈ ER et y ⇝ x, prouvant que
x ∼ y est équivalent à x ⇝ y pour des états récurrents. Le reste de (6.29) s’en déduit
facilement, notamment avec la Proposition 6.18. □

On a la partition de l’ensemble des états récurrents ER en classes d’équivalence de la


relation d’équivalence ∼ :
G G  G 
ER = ERi = ERi ⊔ ERi . (6.30)
i∈I i∈I+ i∈I0

Les ensembles ERi , i ∈ I, sont appelés les classes de récurrence de la chaı̂ne. Une classe
de récurrence est close et irréductible et, d’après le Théorème 6.22, elle est soit récurrente
positive (lorsque i ∈ I + ) soit récurrente nulle (lorsque i ∈ I0 ). Les partitions (6.25) et
(6.30) se combinent en la partition globale de l’espace d’états qu’on appelle classification
des états de la chaı̂ne de Markov
G  G 
E = ET ⊔ ERi ⊔ E Ri (6.31)
i∈I+ i∈I0

où ET est l’ensemble (a priori non clos, non irréductible) des états transitoires, les classes
ERi sont récurrentes positives pour i ∈ I+ et récurrentes nulles pour i ∈ I0 . Et les classes
de récurrence sont closes irréductibles.
Théorème 6.35 (Classes de récurrence) Les classes de récurrence ERi , i ∈ I, de la par-
tition (6.30) de l’ensemble des états récurrents ER vérifient
(1) Si x ∈ ERi alors Px -ps
— N (y) = +∞ pour tout y ∈ ERi ;
— N (y) = 0 pour tout y ̸∈ ERi .
Chapitre 6. ©JCB – M1math – Université de Rennes 133


(2) Si x ∈ ET et TER = inf n ≥ 0 : Xn ∈ ER alors
— ou bien TER = +∞ et Px -ps : N (y) < +∞ pour tout y ∈ E ;
— ou bien TER < +∞ et Px -ps : ∃j ∈ I (aléatoire) tel que pour tout n ≥ TER on a
Xn ∈ E R j .
Démonstration : 1) Soit x ∈ ERi . On a G(x, y) = 0 pour tout y ∈ E \ ERi . En effet,
— si y ∈ ERj , j ̸= i, la partition garantit que x et y ne communiquent pas et donc
G(x, y) = 0 et N (y) = 0 Px -ps ;
— puis si y ∈ ET , le Théorème 6.20 assure encore G(x, y) = 0. En particulier,
N (y) = 0 Px -ps.
En revanche si y ∈ ERi , on a ρx,y = Px (Tey < +∞) = 1 d’après le Théorème 6.20 et par
la Prop. 6.5, on a Px (N (y) = +∞) = 1.
2) Soit maintenant x ∈ ET . F
— Si TER < +∞ : la chaı̂ne rentre dans ER = j∈I Ej donc dans une des classes ERj
(pour un j aléatoire). D’après la propriété de Markov (5.38) (Théorème 5.37) et
la première partie de l’énoncé, on a Xn ∈ ERj pour tout n ≥ TERj = TER .
— Si TER = +∞, alors N (y) = 0 pour y ∈ ER (puisque TER = +∞) et Px (N (y) <
+∞) = 1 par la Prop. 6.5. □

Avec le Théorème 6.35, on peut préciser le Théorème 6.15 de la façon suivante :


Corollaire 6.36 Soit C un ensemble clos irréductible d’états récurrents. Alors
Gn (x, y) 1
lim = , x, y ∈ C, (6.32)
n→+∞ n my
et si P(X0 ∈ C) = 1 alors avec probabilité 1 :
Nn (y) 1
lim = , y ∈ C. (6.33)
n→+∞ n my
Exemple 6.37 Retour sur l’Exemple 6.2 de l’introduction dont on rappelle le graphe de
transition :
1/2

1/2 1 2

1/2 1/2 1/4 1/2

3 1
1/2 1/4
5 4
1/4

1/4
Chapitre 6. ©JCB – M1math – Université de Rennes 134

— Les classes de récurrence sont

ER1 = {1, 5}, ER2 = {3} (ie. 3 est absorbant).

— Les états transitoires sont {2, 4} = ET .


En effet

P (1, 5) > 0, P (5, 1) > 0, P (1, 1) > 0, P (5, 5) > 0,


P (1, j) = 0, P (5, j) = 0 ∀j ̸∈ {1, 5}

assurent G(1, 5) > 0, G(5, 1) > 0 et G(1, j) = G(5, j) = 0 ∀j ̸= 1, 5. Puis

P (3, 3) > 0 et P (3, j) = 0 ∀j ̸= 3.



Par ailleurs P1 Te1 < +∞ = 1 car

P1 Te1 = +∞ = P1 (X1 = 5 et Xn = 5 ∀n ≥ 2)
= P (1, 5)P5 (Xn = 5 ∀n ≥ 1)

≤ P (1, 5) lim P5 Xn = 5 ∀n ∈ {1, . . . , N }
N →+∞
 1 N
≤ P (1, 5) lim = 0,
N →+∞ 2


ie. P1 Te1 < +∞ = 1 et 1 est donc récurrent.
 
De la même façon P5 Te5 < +∞ = 1 ie. 5 est récurrent et P3 Te3 < +∞ = 1 = P (3, 3)
donc 3 est récurrent.
 
L’état {2} est transitoire car P2 Te2 < +∞ < 1, ie. P2 Te2 = +∞ > 0. En effet,
 1 1 1
P2 Te2 = +∞ ≥ P2 (X1 = 4 et X2 = 3) = P (2, 4)P (4, 3) = × = .
3 4 12
L’état {4} est transitoire car
 1
P4 Te4 = +∞ ≥ P4 (X1 = 3) = > 0.
4
On a alors la décomposition de l’espace d’états

E = 1, 2, 3, 4, 5 = {2, 4} ⊔ {1, 5} ⊔ {3} .
| {z } | {z } |{z}
ET ER1 ER2
| {z }
ER

Exemple 6.38 (Marche aléatoire simple sur Z) On considère Sn = ni=1 Xi avec Xi iid
P
de loi de Rademacher (1 − p)δ−1 + pδ1 . La chaı̂ne (Sn )n≥0 a pour espace d’états Z et
matrice stochastique P (x, y) = (1 − p)1{y=x−1} + p1{y=x+1} .
Chapitre 6. ©JCB – M1math – Université de Rennes 135

p p p p
... x−1 x x+1 ...
q q q q

On a immédiatement l’irréductibilité de la chaı̂ne puisque pour tout x ̸= y : P |x−y| (x, y) =


py−x > 0 (si x < y) ou (1 − p)x−y > 0 (si y < x) et P 2 (x, x) = 2p(1 − p). La nature de
la chaı̂ne est donc déterminée par la nature d’un point quelconque. On détermine celle
de l’état 0 (est-il récurrent ou transitoire ?).
Pour cela, en vertu du Corollaire 6.9, on se ramène à calculer G(0, 0) :
+∞
X +∞
X
G(0, 0) = Pn (0, 0) = P2n (0, 0)
n=0 n=0

car P2n+1 (0, 0) = 0. De plus comme

(4p(1 − p))n
 
2n n (2n)! n
P2n (0, 0) = p (1 − p)n = p (1 − p)n
∼ √
n (n!)2 πn

en utilisant la formule de Stirling n! ∼ (n/e)n 2πn. Ainsi, P+∞
— si p ̸= 1/2, alors (4p(1 − p)) < 1 et G(0, 0) = n=0 P2n (0, 0) < +∞ : 0 est
transitoire (et tous les états le sont !) ; P+∞ √
— si p = 1/2, alors (4p(1 − p)) = 1 et G(0, 0) ∼ n=0 (1/ πn) = +∞ : 0 est
récurrent (et tous les états le sont !).
Pour décider si la chaı̂ne est récurrente positive ou nulle, voir le Chapitre 7 (Exemple 7.5
et Th. 7.25).

6.4 Absorption dans les classes de récurrence


Pour calculer les durées d’absorption dans les classes de récurrence lorsque la chaı̂ne
part de x, on introduit les quantités suivantes :

(temps d’absorption) Si = min n ≥ 0 : Xn ∈ ERi
 
(probabilité d’absorption) ρi (x) = Ex 1{Si <+∞} = Px (Si < +∞)
 
(temps moyen d’absorption tronqué) τi (x) = Ex Si 1{Si <+∞}
 
(temps moyen d’absorption) ti (x) = Ex Si |Si < +∞ .

Si ρi (x) > 0 alors ti (x) est bien défini et on a


 
  Ex Si 1{Si <+∞} τi (x)
ti (x) = Ex Si |Si < +∞ = = . (6.34)
Px (Si < +∞) ρi (x)
Immédiatement, on a :
Chapitre 6. ©JCB – M1math – Université de Rennes 136

— si x ∈ ERi , alors sous Px , Si = 0 et donc ρi (x) = 1 et τi (x) = ti (x) = 0 ;


— si x ∈ ERj pour j ̸= i, alors sous Px , Si = +∞, et donc ρi (x) = 0 et τi (x) = 0.
Le cas restant, intéressant à traiter, est le cas x transitoire. De plus, si x ∈ ET alors a
fortiori x ̸∈ ERi et Si ≥ 1 ; dés lors ρi (x) = 0 implique τi (x) = 0. Ainsi si ρi (x) = 0, on
convient de prendre ti (x) = 0.
Théorème 6.39 (Absorption) Soit x ∈ ET . Pour chaque i ∈ I, les probabilités d’ab-
sorption ρi (x) et le temps moyen d’absorption τi (x), ti (x) sont solutions du système
linéaire :
X
ρi (x) = P (x, y)ρi (y) (6.35)
y∈E
X
τi (x) = ρi (x) + P (x, y)τi (y), (6.36)
y∈E

et lorsque ρi (x) > 0 :


X ρi (y)
ti (x) = 1 + P (x, y) ti (y). (6.37)
y∈E
ρi (x)

Démonstration : Soit x ∈ ET , on a Si ≥ 1 et on peut même écrire sous Px :



Si = inf n ≥ 1 : Xn ∈ ERi

= 1 + inf(k ≥ 0 : Xk+1 ∈ ERi
= 1 + Si ◦ Θ1 .

On utilise la propriété de Markov faible (5.32) en conditionnant par la première transi-


tion. Pour les probabilités d’absorption, on a :
  
ρi (x) = Px Si < +∞ = Ex 1{Si <+∞}
   
= Ex 1{1+Si ◦Θ1 <+∞} = Ex 1{Si ◦Θ1 <+∞}
     
= Ex Ex 1{Si ◦Θ1 <+∞} |F1 = Ex EX1 1{Si <+∞}
(propriété de Markov faible (5.32) à la date p = 1)
  X
= Ex ρi (X1 ) = P (x, y)ρi (y),
y∈E

ce qui prouve le système (6.35). Puis pour les temps moyens d’absorption (tronqués), on
a par un raisonnement analogue :
   
τi (x) = Ex Si 1{Si <+∞} = Ex (1 + Si ◦ Θ1 )1{(1+Si ◦Θ1 )<+∞}
  
= Ex Ex (1 + Si ◦ Θ1 )1{(1+Si ◦Θ1 )<+∞} |F1
  
= Ex EX1 (1 + Si )1{Si <+∞}
(propriété de Markov faible (5.32) à la date p = 1)
h    i
= Ex EX1 Si 1{Si <+∞} + EX1 1{Si <+∞}
Chapitre 6. ©JCB – M1math – Université de Rennes 137

   
= Ex τi (X1 ) + Ex ρi (X1 )
X X
= P (x, y)τi (y) + P (x, y)ρi (y)
y∈E y∈E
X
= P (x, y)τi (y) + ρi (x),
y∈E

en utilisant (6.35) déjà prouvée, ce qui prouve le système (6.36). Puis (6.37) découle de
(6.36) avec (6.34) :
τi (x) X τi (y) X ρi (y)
ti (x) = =1+ P (x, y) =1+ P (x, y) ti (y).
ρi (x) y∈E
ρi (x) y∈E
ρi (x)

Exemple 6.40 Retour sur l’Exemple 6.2 avec le calcul des probabilités d’absorption. On
calcule ρi (x) pour i ∈ {1, 5}, {3} et x ∈ {2, 4}.
Comme ρ1 (1) = ρ1 (5) = 1 et ρ1 (3) = 0, on a :
ρ1 (2) = 21 ρ1 (2) + 12 ρ1 (4)
 
ρ1 (2) = ρ1 (4)
1 1 1 1 ⇐⇒
ρ1 (4) = 4 ρ1 (2) + 4 ρ1 (3) + 4 ρ1 (4) + 4 ρ1 (5) 3ρ1 (4) = ρ1 (2) + 1
1
⇐⇒ ρ1 (2) = ρ1 (4) =
2
Comme ρ2 (1) = ρ2 (5) = 0 et ρ1 (3) = 1, on a :
ρ2 (2) = 21 ρ2 (2) + 12 ρ2 (4)
 
ρ2 (2) = ρ2 (4)
⇐⇒
ρ2 (4) = 41 ρ2 (2) + 14 ρ2 (3) + 41 ρ2 (4) + 41 ρ2 (5) 3ρ2 (4) = ρ2 (2) + 1
1
⇐⇒ ρ2 (2) = ρ2 (4) =
2
Puis avec le calcul des temps moyens d’absorption : comme τ1 (1) = τ1 (3) = τ1 (5) = 0,
on a :
τ1 (2) = 21 τ1 (2) + 21 τ1 (4) + ρ1 (2)
 
τ1 (2) = τ1 (4) + 1
⇐⇒
τ1 (4) = 14 τ1 (2) + 41 τ1 (3) + 14 τ1 (4) + 41 τ1 (5) + ρ1 (4) 3τ1 (4) = τ1 (2) + 2
5 3 5 1 3 1
⇐⇒ τ1 (2) = , τ1 (4) = et τ1 (2) = / = 5, τ1 (4) = / = 3
2 2 2 2 2 2
Comme τ2 (1) = τ2 (3) = τ2 (5) = 0, on a :
τ2 (2) = 12 τ2 (2) + 21 τ2 (4) + ρ2 (2)
 
τ2 (2) = τ2 (4) + 1
1 1 1 1 ⇐⇒
τ2 (4) = 4 τ2 (2) + 4 τ2 (3) + 4 τ2 (4) + 4 τ2 (5) + ρ2 (4) 3τ2 (4) = τ2 (2) + 2
5 3 5 1 3 1
⇐⇒ τ2 (2) = , τ2 (4) = et τ2 (2) = / = 5, τ2 (4) = / = 3
2 2 2 2 2 2
Chapitre 7

Invariance et équilibre

Dans ce chapitre, on étudie les mesures qui sont invariantes pour une chaı̂ne de
Markov. On fait le lien entre ces mesures, les états récurrents (positifs) et leur temps de
retour. On étudie le comportement en temps long des chaı̂nes de Markov et la convergence
vers un régime d’équilibre, en lien avec le théorème ergodique.
Génériquement, on considère dans ce chapitre une chaı̂ne de Markov (Xn )n≥0 sur un es-
pace d’états au plus dénombrable E et avec une matrice stochastique P = (P (x, y))x,y∈E .

7.1 Mesures invariantes


Invariance
Définition 7.1 (Mesure invariante) Soit π une mesure (positive) sur E telle que π(x) <
+∞ pour tout x ∈ E et π ̸= 0. On dit que π est invariante (ou stationnaire) pour le
noyau de transition P si π est solution de l’équation de Chapman-Kolmogorov :
X
π = π P ⇐⇒ ∀y ∈ E, on a π(y) = π(x)P (x, y). (7.1)
x∈E

Par une récurrence immédiate de l’équation de Chapman-Kolmogorov (7.1), on a π =


π P n pour tout n ≥ 0. Dans le cas d’une probabilité, on a l’équivalence suivante pour
l’invariance :
Proposition 7.2 Soit (Xn )n≥0 une chaı̂ne de Markov. La loi de Xn est indépendante de
n si et seulement si la distribution initiale µ0 est une probabilité invariante π.
Démonstration : Pour le sens direct, comme µn = µ0 P n , si la loi µn de Xn ne dépend pas
de n alors en particulier µ1 = µ0 donne µ0 = µ0 P et µ0 vérifie l’équation de Chapman-
Kolmogorov (7.1). Le sens réciproque est immédiat par (7.1) puisque si µ0 = π, on a
µn = πP n = (πP )P n−1 = πP n−1 = · · · = π.

138
Chapitre 7. ©JCB – M1math – Université de Rennes 139

Remarque 7.3 (Probabilité et mesure invariantes) Attention, quand E est infini, il se


peut qu’il existe une mesure invariante π mais pas de probabilité invariante, cf. l’exemple
de la marche aléatoire simple qui suit. Dans ce cas, π est de poids π(E) = +∞ et n’est
pas normalisable en une probabilité.

Exemple 7.4 (Mesures invariantes de la chaı̂ne à deux états) Pour la chaı̂ne de Mar-
1−p p
kov à deux états de l’Exemple 5.1 avec la matrice P = , on a vu
q 1−q
que les mesures invariantes sont proportionnelles à (q, p) et il y a une seule probabilité
invariante donnée par :  
q p
π= , .
p+q p+q

Exemple 7.5 (Marche aléatoire symétrique sur Z) La mesure uniforme est l’unique me-
sure invariante pour la marche aléatoire simple sur Z mais il n’existe pas de probabilité
invariante.
Supposons que π est invariante pour la marche aléatoire simple sur Z. Alors pour tout
n ∈ Z, on a :
X 1 1
π(n) = P (k, n)π(k) = π(n − 1) + π(n + 1).
k∈Z
2 2
D’où
π(n + 1) − π(n) = π(n) − π(n − 1) = π(1) − π(0) := α.
On déduit alors π(n) = π(0) + nα pour tout n ∈ Z. Si α ̸= 0, c’est absurde pour n
grand ou −n grand car π(n) devient négatif. Cela exige α = 0 et π(1) = π(0) = π(n)
pour tout n ∈ Z, ie. π est une mesure uniforme. Réciproquement, la mesure uniforme
est bien solution de π = πP donc invariante. À facteur multiplicatif près, il s’agit donc
de l’unique mesure invariante de cette chaı̂ne. De plus, il est impossible de normaliser la
mesure uniforme sur Z en une mesure de probabilité : il n’existe donc pas de probabilité
invariante pour la marche aléatoire simple symétrique.

Exemple 7.6 On considère une chaı̂ne de Markov sur E = {0, 1, 2} de matrice stochas-
tique  
1/3 1/3 1/3
 1/4 1/2 1/4  .
1/6 1/3 1/2
Le graphe de transitions est :
Chapitre 7. ©JCB – M1math – Université de Rennes 140

1/3

0
1/4 1/3
1/3 1/6
1/4
1/2 1 2 1/2

1/3

Une probabilité invariante π est solution du système π = πP :


 1
π(0) + 14 π(1) + 16 π(2) = π(0)
 31


3
π(0) + 12 π(1) + 13 π(2) = π(1)
1
π(0) + 14 π(1) + 12 π(2) = π(2)
 3


π(0) + π(1) + π(2) = 1

où la dernière équation est donnée par le fait que π est une probabilité. On en déduit
facilement
6 2 9
π(0) = , π(1) = , π(2) = .
25 5 25
On s’assure facilement que cette probabilité π est bien solution de (7.1), on a donc
existence et unicité de la probabilité invariante.

De façon, générale, la recherche de mesure invariante π consiste à résoudre l’équation de


Chapman-Kolmogorov (7.1) π = πP , c’est à dire un système linéaire de taille card(E)
(possiblement infini). Même si E est fini, le système peut être de grande taille et difficile
à résoudre !

Exemple 7.7 (Matrice bistochastique) Une matrice est dite bistochastique lorsque P t
est stochastique, ie. en plus de ses lignes, la somme de chacune de ses colonnes fait 1.
Pour une telle matrice P , on observe que

(1, 1, . . . )P = (1, 1, . . . )

ie. (1, 1, . . . ) est vecteur propre à gauche de P pour la valeur propre 1. Comme ce vecteur
correspond à la mesure uniforme sur E, cela signifie que la mesure uniforme est invariante
pour une matrice bistochastique.
De plus, si E est fini de cardinal d alors on peut normaliser le vecteur (1, 1, . . . ) en
(1/d, . . . , 1/d) et dans ce cas, la probabilité uniforme sur E est invariante pour P bisto-
chastique.

Proposition 7.8 L’ensemble des mesures invariantes d’un noyau de transition est fermé
et stable par combinaison linéaire à coefficients positifs. L’ensemble des probabilités in-
variantes est convexe, fermé et, si E est fini, il s’agit d’un compact.
Chapitre 7. ©JCB – M1math – Université de Rennes 141

Démonstration : La linéarité et la fermeture suivent facilement de l’équation de Chapman-


Kolmogorov (7.1) (linéaire et fermée). Si E est fini, l’ensemble des probabilités invariantes
s’identifie à la partie de Rd+

(µ1 , . . . , µd ) ∈ Rd+ : µ1 + · · · + µd = 1 .

(7.2)

Comme en dimension finie, la compacité est équivalente à être fermé et borné, l’ensemble
(7.2) est clairement compact. Dès lors, la condition (7.1) définissant les mesures inva-
riantes étant fermée, la compacité de l’ensemble des mesures invariantes suit. □

Il n’existe pas toujours de mesure invariante pour une chaı̂ne de Markov comme on le
voit dans les exemples suivants :
Exemple 7.9 (Chaı̂ne de Markov sans mesure invariante) Soit (Xn )n≥0 une chaı̂ne de
Markov sur E = N avec P (i, i + 1) = 1 pour tout i ≥ 0.

1 1 ... 1 1 ...
0 1 x x+1

Si π est une mesure vérifiant l’équation de Chapman-Kolmogorov (7.1) π = πP , alors


on doit avoir
X
π(i) = π(j)P (j, i) = π(i − 1), i ≥ 1,
j∈N
X
et π(0) = π(j)P (j, 0) = 0 car P (j, 0) = 0 pour tout j ∈ N.
j∈N

Il vient π = 0 et il n’existe pas de mesure invariante !


L’exemple suivant généralise l’Exemple 7.9 à une chaı̂ne de Markov irréductible sans
mesure invariante :
Exemple 7.10 (Chaı̂nes de Markov irréductible sans mesure P invariante) Soit (pi )i≥0 telle
que p0 = 1, pi > 0 et qi := 1 − pi > 0 pour tout i ≥ 1 avec i≥1 qi < +∞ (par exemple
pi = 1 − 1/(2i2 )). On considère la chaı̂ne de Markov (Xn )n≥0 sur E = N avec le noyau
de transition : P (0, 1) = p0 = 1 et

P (i, i + 1) = pi , P (i, 0) = qi , ∀i ≥ 1.

1 p1 pi
0 1 ... i i+1 ...
q1
qi
qi+1
Chapitre 7. ©JCB – M1math – Université de Rennes 142

Il s’agit d’une chaı̂ne de Markov irréductible puisque pour tout i, j ∈ N, le chemin


i −→ 0 −→ 1 −→ 2 −→ . . . −→ j − 1 −→ j est possible lorsque pi ̸= 1 pour tout i ∈ N.
Pour une mesure π invariante, l’équation de Chapman-Kolmogorov (7.1) se réduit à
X
π(0) = qi π(i), π(i) = pi−1 π(i − 1), ∀i ≥ 1. (7.3)
i≥1

Une récurrence immédiate assure


i−1
Y
π(i) = π(0) pj (7.4)
j=0

ce qui, reinjectée dans (7.3), donne

X Y i−1  i−1
XY i
Y   n
Y 
π(0) = π(0) qi pj = π(0) pj − pj = π(0) 1 − lim pj .
n→+∞
i≥1 j=0 i≥1 j=0 j=0 j=0
P Q
Comme j≥1 qj < +∞ implique j≥1 pj > 0, on doit avoir π(0) = 0 (sinon on aurait
π(0) < π(0)) et donc par (7.4), il suit π = 0 et il n’y a pas de mesure invariante pour
cette chaı̂ne.

Réversibilité
Définition 7.11 (Réversibilité) Une mesure π (positive) non nulle sur E telle que π(x) <
+∞ pour tout x ∈ E est dite réversible pour le noyau P si pour tout x, y ∈ E :

π(x)P (x, y) = π(y)P (y, x). (7.5)

Par une récurrence simple, la définition (7.5) est équivalente à avoir pour toute suite
x0 , . . . , x n ∈ E :

π(x0 )P (x0 , x1 ) · · · P (xn−1 , xn ) = π(xn )P (xn , xn−1 ) · · · P (x1 , x0 ). (7.6)

On en déduit immédiatement un résultat qui éclaire la terminologie dans le cas d’une


mesure de probabilité :
Proposition 7.12 (Réversibilité) Une probabilité π est réversible pour un noyau P si et
seulement si pour toute chaı̂ne de Markov (Xn )n≥0 de noyau P et de loi initiale π et
tout entier n ≥ 0, on a

Lπ (X0 , X1 , . . . , Xn ) = Lπ (Xn , Xn−1 , . . . , X0 ).

Démonstration : Pour le sens direct, cela vient de (7.6) puisque pour tout x0 , . . . , xn ∈ E,
on a

Pπ X0 = x0 , X1 = x1 , . . . Xn = xn ) = π(x0 )P (x0 , x1 ) · · · P (xn−1 , xn )


Chapitre 7. ©JCB – M1math – Université de Rennes 143

Pπ Xn = x0 , Xn−1 = x1 , . . . X0 = xn ) = Pπ X0 = xn , X1 = xn−1 , . . . Xn = x0 )
= π(xn )P (xn , xn−1 ) · · · P (x1 , x0 ).
Pour le sens indirect, L(X0 , X1 ) = L(X1 , X0 ) donne pour tout x0 , x1 ∈ E :
Pπ X0 = x0 , X1 = x1 ) = Pπ X1 = x0 , X0 = x1 ) = Pπ X0 = x1 , X1 = x0 ),
soit π(x0 )P (x0 , x1 ) = π(x1 )P (x1 , x0 ). □

Proposition 7.13 (Réversibilité et invariance) Une mesure réversible pour un noyau mar-
kovien est invariante pour ce noyau.
Démonstration : On vérifie immédiatement l’équation de Chapman-Kolmogorov (7.1)
en utilisant la réversibilité (7.5) : pour une mesure π réversible, on a
X X X 
(πP )(y) = π(x)P (x, y) = π(y)P (y, x) = π(y) P (y, x) = π(y),
x∈E x∈E x∈E

ie. π est invariante. □

Exemple 7.14 (Mesures réversibles)


(1) Marche aléatoire sur Z avec P (i, i + 1) = p, P (i, i − 1) = q = 1 − p avec p ∈]0, 1[
i
(cf. Exemple 6.38). La mesure définie par π(i) = pq , i ∈ Z, est réversible :
 i
p pi+1 pi+1
π(i)P (i, i + 1) = p = i = i+1 q = π(i + 1)P (i + 1, i)
q q q
puis comme P (i, j) = 0 lorsque |i − j| > 1 alors π(i)P (i, j) = 0 = π(j)P (j, i).
(2) Marche aléatoire sur un graphe de degré fini. La mesure définie par π(x) = card(Ax )
est réversible : si P (x, y) > 0 et P (y, x) > 0
1 1
π(x)P (x, y) = card(Ax ) = card(Ay ) = π(y)P (y, x).
card(Ax ) card(Ay )
(3) Urne d’Ehrenfest sur {0, . . . , d}. Il s’agit de la chaı̂ne de matrice stochastique
j
P (j, j + 1) = 1 − , 0 ≤ j ≤ d,
d
j
P (j, j − 1) = , 0 ≤ j ≤ d.
d
Alors une mesure π est réversible si et seulement si
 j j + 1
π(j) 1 − = π(j + 1) ∀j ∈ {0, . . . , d − 1}.
d d
On vérifie sans peine que π(j) = dj , 0 ≤ j ≤ d, convient. Comme dj=0 dj =
 P 

(1 + 1)d = 2d , alors π(j) = dj /2d , 0 ≤ j ≤ d, définit une probabilité invariante, c’est




à dire π = B(d, 1/2).


Chapitre 7. ©JCB – M1math – Université de Rennes 144

Remarque 7.15 Pour trouver des mesures invariantes, il faut résoudre le système linéaire
donné par l’équation de Chapman-Kolmogorov (7.1). En pratique, ce système peut être
compliqué à résoudre (il est même infini si E l’est). Dans ce cas, il est intéressant de
rechercher mieux en cherchant des mesures réversibles car l’équation (7.5) est en pratique
plus simple à résoudre. On est alors assuré par la Proposition 7.13 qu’une solution serait
aussi invariante.

7.2 Invariance et récurrence


Dans cette section, on discute de l’existence et de l’unicité de mesures ou probabilités
invariantes pour des chaı̂nes de Markov. On voit en particulier que les mesures invariantes
sont liées aux états récurrents (positifs).
Ci-dessous, les échanges de limites et de sommes sont justifiés par le résultat d’interver-
sion suivant dû au théorème de convergence dominée :
Lemme 7.16 (Convergence dominée) Soit (a(x))x∈E ∈ RE une suite de réels positifs de
somme finie et (bn (x))x∈E , n ≥ 1, telle que, pour tout x ∈ E, |bn (x)| ≤ 1, n ≥ 1 et
limn→+∞ bn (x) = b(x). Alors on a
X X
lim a(x)bn (x) = a(x)b(x).
n→+∞
x∈E x∈E

On commence par préciser le support d’une mesure ou probabilité invariante :


Proposition 7.17 (Support d’une mesure invariante) Soit π une mesure invariante d’une
chaı̂ne de Markov.
(1) Si π(x) > 0 alors on a aussi π(y) > 0 pour tout y tel que x ⇝ y.
(2) Si la chaı̂ne est irréductible, le support de π est E.
(3) Si en plus π est une probabilité (invariante) alors π(x) = 0 pour tout x transitoire
ou récurrent nul, π ne charge que les états récurrents positifs et son support est une
union de classes de récurrence positives (closes, irréductibles).
Démonstration : 1) Soit x ∈ E tel que π(x) > 0 et x ⇝ y. Il existe n ≥ 1 tel que
P n (x, y) > 0. L’équation de Chapman-Kolmogorov (7.1) π = πP n pour ce n donne alors
X
π(y) = π(z)P n (z, y) ≥ π(x)P n (x, y) > 0.
z∈E

2) Comme π ̸= 0, il existe x ∈ E tel que π(x) > 0 et comme par irréductibilité, x mène
à tout y, on a aussi π(y) > 0 pour tout y ∈ E.
3) On supposeque π est une probabilité invariante. Si x est transitoire ou récurrent nul
alors mx = Ex Tex = +∞ et la Proposition 6.15 donne pour tout z ∈ E :

Gn (z, x) ρz,x
lim = = 0. (7.7)
n→+∞ n mx
Chapitre 7. ©JCB – M1math – Université de Rennes 145

Comme par invariance de π, on a pour k ≥ 1 : πP k = π, ie.


X
π(x) = π(z)P k (z, x),
z∈E

en sommant sur k = 0, . . . , n et en divisant par n + 1, on obtient


X Gn (z, x)
π(x) = π(z) .
z∈E
n+1

Comme π est une probabilité, le Lemme 7.16 s’applique et il permet de passer à la limite
avec (7.7) pour obtenir lorsque x est transitoire ou récurrent nul :
!  
X Gn (z, x) X Gn (z, x)
π(x) = lim π(z) = π(z) lim = 0.
n→+∞
z∈E
n + 1 z∈E
n→+∞ n + 1

La probabilité π ne charge que des états récurrents positifs et comme d’après le 1), son
support contient les classes de récurrence de ses éléments, le support est donc exactement
une union de classes de récurrence positive. □

Remarque
P 7.18 — L’utilisation du Lemme 7.16 dans la preuve précédente exige que
x∈E π(x) < +∞ et, à normalisation près, que π soit une probabilité. Le 3)
dans la Prop. 7.17 ne concerne donc que les probabilités invariantes (ou mesures
invariantes finies mais pas les mesures invariantes de poids infinis !).
— Par conséquent, une chaı̂ne qui n’a pas d’états récurrents positifs n’a pas de
probabilité invariante (une probabilité ne peut pas être concentrée sur des points
qu’elle ne charge pas !).

Proposition 7.19 (Invariance et transience/récurrence nulle) Pour une chaı̂ne de Mar-


kov transitoire ou récurrente nulle, une mesure invariante est de poids infini. En parti-
culier, l’espace d’états doit être infini et il n’y a pas de probabilité invariante.

Démonstration : Si π est une mesure invariante de poids π(E) < +∞, alors π e = π/π(E)
serait une probabilité. D’après 3) dans la Prop. 7.17, π
e ne charge pas les états transi-
toires ou récurrents nuls, ce qui est absurde puisqu’il n’y a que de tels états. On doit
donc avoir π(E) = +∞. Le reste en découle facilement. □

Exemple 7.20 (Mesure invariante d’une chaı̂ne transitoire) On reprend l’exemple de la


marche aléatoire simple sur Z avec P (i, i + 1) = p, P (i, i − 1) = q = 1 − p avec p ∈]0, 1[.
D’après l’Exemple 6.38, la marche est transitoire si p ̸= 1/2. D’après l’Exemple 7.14, la
i
mesure donnée par π(i) = pq , i ∈ Z, est invariante (car réversible) :
Chapitre 7. ©JCB – M1math – Université de Rennes 146

On montre maintenant qu’on peut associer une mesure invariante à tout état x récurrent
en calculant pour chaque état y le nombre moyen de visite de cet état dans l’excursion
de la chaı̂ne entre deux visites de x. Il s’agit d’une construction trajectorielle de mesures
invariantes. On rappelle que Tex = inf(n > 0 : Xn = x) (date de premier retour en x sous
Px ) et on pose pour y ∈ E :

x −1
 TeX 
νx (y) = Ex 1{Xk =y} (7.8)
k=0
Tex
X 
= Ex 1{Xk =y} . (7.9)
k=1

L’égalité entre (7.9) et (7.8) vient de ce que sous Px , on a X0 = XTex = x. À titre


d’exemple, lorsque x est absorbant, on a νx = δx . Pour étudier la mesure νx , on utilise
le lemme technique suivant :

Lemme 7.21 Pour tout p ≥ 0, et x, y ∈ E, on a :


   
(p+1)∧(Tex −1) p∧(Tex −1)
X X X 
Ex  1{Xk =y}  = Ex  1{Xk =z}  P (z, y) + Px Tex > p + 1 δx,y .
k=0 z∈E k=0
(7.10)

Démonstration : D’abord, on observe que

(p+1)∧(Tex −1) (p+1)∧Tex


X X
1{Xk =y} − 1{Xk =y} = 1{X0 =y} − 1{XTex =y} 1{Tex ≤p+1}
k=0 k=1

0 si y ̸= x
=
1 − 1{Tex ≤p+1} = 1{Tex >p+1} si y = x.

On a alors
   
(p+1)∧(Tex −1) (p+1)∧Tex
X X
Ex  1{Xk =y}  = Ex  1{Xk =y} + 1{Tex >p+1} δx,y 
k=0 k=1
 
p∧(Tex −1)
X
= Ex  1{Xk+1 =y}  + Px (Tex > p + 1) δx,y . (7.11)
k=0

Par la propriété de Markov faible (5.32) :


 
p∧(Tex −1) p h i
X XX
Ex  1{Xk+1 =y} =
 Ex 1{Xk =z} 1{Tex −1≥k} 1{Xk+1 =y}
k=0 z∈E k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 147

p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} Ex [1{Xk+1 =y} |Fk ]
z∈E k=0 | {z }
Fk -mesurable
p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} EXk [1{X1 =y} ]
z∈E k=0
| {z }
Ez [1{X1 =y} ]=P (z,y)
p h i
XX
= Ex 1{Xk =z} 1{Tex −1≥k} P (z, y)
z∈E k=0
 
p∧(Tex −1)
X X
= Ex  1{Xk =z}  P (z, y). (7.12)
z∈E k=0

Les égalités (7.11) et (7.12) concluent à (7.10). □

Proposition 7.22 (Mesure invariante d’un état récurrent) On considère une chaı̂ne de
Markov (Xn )n≥0 et x un état récurrent de la chaı̂ne (s’il y en a !).
(1) La mesure νx est invariante et νx (x) = 1.
(2) La mesure νx a pour support la classe de récurrence de x : νx (y) > 0 si et seulement
si y appartient à la même classe de récurrence que x.
Démonstration : D’abord puisque sous Px , X0 = x et Xk ̸= x pour 1 ≤ k ≤ Tex − 1, on a
PTex −1
k=0 1{Xk =x} = 1 et donc νx (x) = 1 par la définition (7.8). Ensuite, si y n’est pas dans
la classe de récurrence de x, alors x et y ne communiquent pas et G(x, y) = 0, d’où il
vient :
" +∞ #
X x −1
 TeX 
 
0 = G(x, y) = Ex Ny = Ex 1{Xk =y} ≥ Ex 1{Xk =y} = νx (y)
k=0 k=0

et donc nécessairement νx (y) = 0. À ce stade, le support de νx est inclus dans la classe


de récurrence de x. Lorsque l’invariance de νx sera établie, le 1) de la Prop. 7.17 donnera
que le support de νx est exactement la classe de récurrence de x.
L’équation de Chapman-Kolmogorov (7.1) pour νx (νx = νx P ) découle de (7.10) dans le
Lemme 7.21 en passant à la imite p → +∞ par convergence monotone, en notant que
comme x est récurrent, on a Px (Tex < +∞) = 1 et donc Px (Tex > p + 1) −−−−→ 0.
p→+∞

On achève de montrer que νx est une mesure invariante en montrant que νx (y) < +∞
pour tout y ∈ E :
— si y n’est pas dans la classe de x alors on a vu que νx (y) = 0 ;
— si y ∼ x alors il existe m ≥ 1 tel que P m (y, x) > 0 et en itérant pour ce m la
relation νx = νx P obtenue précédemment, on a νx = νx P m et
X
νx (x) = νx (z)P m (z, x) ≥ νx (y)P m (y, x);
z∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 148

comme νx (x) = 1 et P m (y, x) > 0, cela exige νx (y) < +∞.


Finalement, νx (y) < +∞ pour tout y ∈ E et νx est bien invariante (Définition 7.1). □

Pour relier les mesures invariantes aux mesures νx , on commence par :


Proposition 7.23 Soit (Xn )n≥0 une chaı̂ne de Markov admettant un état récurrent x.
Si π est une mesure invariante alors pour tout y ∈ E, on a π(y) ≥ π(x)νx (y) où
νx est associée en (7.8) à l’état récurrent x. De plus si y ⇝ x, alors il y a égalité :
π(y) = π(x)νx (y)
Démonstration : À l’aide du Lemme 7.21, on commence par montrer par récurrence que
pour tout entier p ≥ 0, et tout état y ∈ E, on a
 
p∧(Tex −1)
X
π(y) ≥ π(x) Ex  1{Xk =y}  . (7.13)
k=0

D’abord, l’inégalité (7.13) est facilement vérifiée si y = x ou p = 0 :


Pp∧(Te −1)
— si y = x alors k=0 x 1{Xk =x} = 1 (terme d’indice 0) et l’inégalité (7.13) se
réduit à π(x) ≥ π(x) × 1 (qui est vraie) ;
Pp∧(Tex −1)
— si p = 0 alors k=0 1{Xk =y} = 1{X0 =y} et l’espérance dans (7.13) vaut
Px (X0 = y) = δx,y (7.13) se réduit à π(y) ≥ π(x)δx,y (qui est vraie).
Pour le cas général (y ̸= x et p ≥ 1), on procède par récurrence sur p et on suppose que
(7.13) est vraie pour un entier p fini et y ∈ E. Par le Lemme 7.21, on a
   
(p+1)∧(Tex −1) p∧(Tex −1)
X X X
π(x) Ex  1{Xk =y}  = π(x)Ex  1{Xk =z}  P (z, y)
k=0 z∈E k=0
X
≤ π(z)P (z, y) = π(y)
z∈E

par hypothèse de récurrence (7.13) et invariance de π.


En faisant p → +∞ par convergence monotone dans (7.13), on obtient
 
Te
Xx −1

π(y) ≥ π(x) Ex  1{Xk =y}  = π(x)νx (y). (7.14)


k=0

Pour la deuxième partie, en combinant alors l’invariance de π, (7.14), l’invariance de νx


et νx (x) = 1 (Proposition 7.22), on a pour tout n ≥ 1 :
X
π(x) = π(z)P n (z, x)
z∈E
X
≥ π(x)νx (z)P n (z, x) (7.15)
z∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 149

= π(x) νx (x) = π(x). (7.16)

Cela exige l’égalité ci-dessus dans (7.15) et donc dans (7.14) dès que P n (z, x) > 0. Ainsi
pour y ⇝ x, il existe un tel n avec P n (y, x) > 0, ce qui assure π(y) = π(x)νx (y) dès que
P n (y, x) > 0. □

Théorème 7.24 (Mesure invariante et classe de récurrence) On considère une chaı̂ne


de Markov (Xn )n≥0 . Sur une classe de récurrence ERi (close, irréductible), il y a unicité
à facteur multiplicatif près de la mesure invariante, en particulier π invariante s’écrit
π = π(x)νx pour tout x de la classe de récurrence. On a alors l’alternative :
(1) Si ces mesures sont de poids finis, il y a une unique probabilité invariante sur la classe
de récurrence et elle est récurrente positive ; la probabilité invariante est donnée par
1
∀x ∈ ERi , π(x) =  . (7.17)
Ex Tex

(2) Si ces mesures sont de poids infinis, il n’y a pas de probabilité invariante sur la classe
de récurrence et elle est récurrente nulle.

Démonstration : Étant donné un état x quelconque de la classe de récurrence ERi consi-


dérée, pour tout y de la classe, on a y ⇝ x. D’après le Lemme 7.23, on a π(y) = π(x)νx (y).
Comme νx est concentrée sur la classe de récurrence (Proposition 7.22) et π aussi (par
hypothèse), on a bien π = π(x)νx . Les mesures invariantes sur ERi sont donc propor-
tionnelles ; en particulier, elles sont toutes de poids finis ou toutes de poids infinis.
1) S’il existe une mesure invariante finie sur la classe récurrente considérée, elles le sont
toutes et on note π l’unique probabilité invariante et νx la mesure invariante associée à
un état x (récurrent !) en (7.8)
 
Te
Xx −1

νx (y) = Ex  1{Xk =y}  .


k=0

Comme π et νx sont proportionnelles (début de la démonstration), π est une probabilité


et νx (x) = 1 (Proposition 7.22), on a
νx
π = π(x)νx = .
νx (E)
On a donc π(x) ̸= 0 et
1
π(x) = .
νx (E)
De plus, par convergence monotone :
 
X X Te
Xx −1

νx (E) = νx (y) = Ex  1{Xk =y} 


y∈E y∈E k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 150
 
Te
Xx −1  X   
= Ex  1{Xk =y}  = Ex Tex (7.18)
k=0 y∈E

P  
puisque y∈E 1{Xk =y} = 1. On a donc Ex Tex < +∞ et x est récurrent positif et donc
la classe de récurrence est récurrente positive.
2) Dans le cas alternatif où toute
  les mesures invariantes sont de poids infinis, alors νx
est de poids infini et donc Ex Tex = +∞ par le même calcul (7.18) que juste précédem-
ment : x est récurrent nul, et sa classe est donc une classe de récurrente nulle. □

Chaı̂nes de Markov irréductibles


Dans le cas irréductible, il n’y a qu’une classe de récurrence et le Théorème 7.24 se
spécialise en le théorème suivant qui dresse un bilan des résultats précédents pour l’inva-
riance d’une chaı̂ne Markov irréductible. Attention, on rappelle que d’après l’Exemple 7.10,
il n’existe pas toujours de mesure invariante, même pour une chaı̂ne irréductible.
Théorème 7.25 (Invariance et irréductibilité) On considère une chaı̂ne de Markov (Xn )n≥0
irréductible. Alors, il y a trois cas distincts :
(1) La chaı̂ne est transitoire (tous les états sont transitoires) : toute mesure invariante
π est de poids infini et il n’y a pas de probabilité invariante ;

 est récurrente nulle (tous les états sont récurrents nuls : pour tout x ∈ E,
(2) La chaı̂ne
Ex Tex = +∞) : les mesures invariantes sont toutes proportionnelles et de poids
infinis (π(E) = +∞) ; il n’existe alors pas de probabilité invariante ;
(3) La chaı̂ne est
 récurrente
 positive (tous les états sont récurrents positifs : pour tout
x ∈ E, Ex Tex < +∞) : les mesures invariantes sont toutes proportionnelles et
de poids finis (π(E) < +∞), il existe une unique probabilité invariante et elle est
donnée par
1
∀x ∈ E, π(x) =   .
Ex Tex

Remarque 7.26 (Probabilité invariante) — En particulier, une chaı̂ne de Markov


irréductible sur un espace d’états fini est récurrente positive et admet donc une
unique probabilité invariante.
— On peut préciser 3) dans la Prop. 7.17  : Quand elle existe, l’unique probabilité
invariante est donnée par π(x) = 1/Ex Tex , x ∈ E (et π(x) > 0 si et seulement si
x est récurrent positif). Elle est concentrée sur les états récurrents positifs.

On déduit du Théorème 7.25 la caractérisation suivante pour l’existence et unicité de la


probabilité invariante
Corollaire 7.27 (Existence et unicité de probabilité invariante) Pour une chaı̂ne de Mar-
kov irréductible, les assertions suivantes sont équivalentes :
Chapitre 7. ©JCB – M1math – Université de Rennes 151

(1) il existe une (unique) probabilité invariante π ;


 
(2) la mesure π définie, pour x ∈ E par π(x) = 1/Ex Tex est la probabilité invariante ;
(3) il existe un état récurrent positif ;
(4) tous les états sont récurrents positifs.

Démonstration : (1)⇒(2)⇒(3) par le Théorème 7.25 et la Remarque 7.26 ; (3)⇒(4) par


irréductibilité ; (4)⇒(1) par le Théorème 7.25. □

Exemple 7.28 (Marche aléatoire simple sur Z) On considère la marche aléatoire sur Z
aux plus proches voisins avec P (x, x+1) = 1−P (x, x−1) = p et P (x, y) = 0 si y ̸= x±1.
p p p p
... x−1 x x+1 ...
q q q q

— D’après l’Exemple 6.38, la marche aléatoire non-symétrique (p ̸= 1/2) est transi-


toire.
— D’après l’Exemple 7.5, π uniforme sur Z est une mesure invariante. Comme cette
mesure est de poids infini, le Théorème 7.25 montre alors que cette chaı̂ne est
récurrente nulle.

Exemple 7.29 (Chaı̂ne de naissance et de mort réfléchie) On considère la chaı̂ne de Mar-


kov irréductible de transition

P (k, k + 1) = p, P (k, k − 1) = 1 − p, P (0, 1) = 1.

1 p p p
... x−1 1−p x ...
0 1−p 1 1−p 1−p x+1

p
k 
On vérifie que la mesure π = 1−p k≥0
est réversible donc invariante.
— Si p < 1/2 alors π est de poids fini et la chaı̂ne est récurrente positive par le
Théorème 7.25. La probabilité invariante correspondante, obtenue en normalisant
π, est la loi géométrique G(p/(1 − p)) sur N.
— Si p ≥ 1/2 alors π est de poids infini et la chaı̂ne est récurrente nulle ou transitoire.
Pour trancher, il faut par exemple étudier en détails la probabilité de retour en 0
et on montre que
— pour p = 1/2 : la chaı̂ne est récurrente nulle ;
— pour p > 1/2 : la chaı̂ne est transitoire.
Chapitre 7. ©JCB – M1math – Université de Rennes 152

Chaı̂nes de Markov non irréductibles


De façon générale, une chaı̂ne de Markov admet une classification (6.31) non tri-
viale de ses états. Dans cette partition, les classes récurrentes positives ERi+ sont les
seules classes irréductibles qui portent une probabilité invariante πi . L’ensemble des pro-
babilités invariantes est alors donné par les combinaisons convexes de ces probabilités
invariantes πi .

Théorème 7.30 (Mesures invariantes pour les chaı̂nes non irréductibles) Soit (Xn )n≥0
une chaı̂ne de Markov non irréductible.
(1) Sur chaque classe de récurrence, il existe une mesure invariante (unique à facteur
multiplicatif près).
(2) Il existe une probabilité invariante sur cette classe si et seulement
  si la classe est
récurrente positive et elle est alors donnée par π(x) = 1/Ex Tx pour tout état x de
e
la classe.
(3) L’ensemble des probabilités invariantes est donné par les combinaisons convexes des
probabilités invariantes de chaque classe de récurrence positive.

Démonstration : (1) Toute mesure νx associée à un x de la classe par (7.8) est invariante
sur la classe par la Proposition 7.22. Puis par le 1) dans le Théorème 7.24, toutes les
mesures invariantes concentrées sur une classe de récurrence sont proportionnelles et
s’écrivent π = π(x)νx , pour tout état x de la classe.
(2) Cela découle de l’alternative du Théorème 7.24.
(3) Il est immédiat que toute combinaison convexe de probabilités invariantes est une
probabilité invariante (l’équation de Chapman-Kolmogorov (7.1) et être une probabilité
sont des notions stables par combinaison convexe).
Par le Théorème 7.24, il existe une probabilité invariante sur chaque classe de récur-
rence positive. Si π est une probabilité invariante arbitraire, il existe x, nécessairement
récurrent positif par la Prop. 7.17 tel que π(x) > 0. On note ERi la classe de récurrence
(positive) à laquelle x appartient et on montre que la restriction πi = π|ERi de π à la
classe ERi de x reste invariante. En effet, pour y ∈ ERi , on a
X X X
πi (z)P (z, y) = π(z)P (z, y) = π(z)P (z, y) = π(y) = πi (y)
z∈E z∈ERi z∈E

où la première égalité vient de la restriction à ERi , la deuxième de ce qu’un état z qui
peut mener à y ∈ ERi est soit transitoire (et alors π(z) = 0 par la Prop. 7.17) soit dans
la classe de récurrence ERi , les autres ne communiquent pas avec y, la troisième égalité
vient de l’invariance de π. Puis pour y ̸∈ ERi , on a πi (y) = 0 et P (z, y) = 0 pour z ∈ ERi
si bien que X X
πi (z)P (z, y) = π(z)P (z, y) = 0 = πi (y),
z∈E z∈ERi

assurant l’équation de Chapman-Kolmogorov πi = πi P et l’invariance de πi .


Chapitre 7. ©JCB – M1math – Université de Rennes 153

Comme par ailleurs pour tout xi ∈ ERi , νxi est une mesure invariante (finie) de support
ERi , l’unicité à facteur multiplicatif près des mesures invariantes donnée par le Théo-
rème 7.24 assure alors que πi = π(xi )νx = π(xi )νxi (E)e νxi en notant νexi = νxi /νxi (E) la
probabilité associée à νxi . Finalement, comme π est concentrée sur les classes de récur-
rence positive (Prop. 7.17) qui sont disjointes, on a
X X 
π= πi = π(xi )νxi (E) νexi (7.19)
i∈I+ i∈I+
P
Comme on a des probabilités, il vient i∈I+ π(xi )νxi (E) = 1 et (7.19) prouve que π est
combinaison convexe des νexi , i ∈ I + . □

On déduit immédiatement du 3) dans le Théorème 7.30 que l’unicité d’une probabilité


invariante est équivalente à l’unicité d’une classe de récurrence positive.

Corollaire 7.31 (Existence et unicité des probabilités invariantes) Il existe une unique
probabilité invariante si et seulement s’il existe une unique classe de
 récurrence
 positive.
Dans ce cas, la probabilité invariante est donnée par π(x) = 1/Ex Tx , x ∈ E.
e

7.3 Périodicité et forte irréductibilité


Périodicité
Définition 7.32 (Période) On appelle période de l’état x ∈ E d’une chaı̂ne de Markov
de matrice stochastique P l’entier

dx = PGCD n ≥ 1 : P n (x, x) > 0




avec la convention dx = 0 si P n (x, x) = 0 pour tout n ≥ 1. Si dx = 1, on dit que l’état


x est apériodique.

Exemple 7.33 (Période)


— Pour la marche aléatoire sur Z, on a vu que P 2n+1 (0, 0) = 0 pour tout n ≥ 0 et
P 2n (0, 0) > 0 pour tout n ≥ 1 (Exemple 6.38). On a donc d0 = 2.
— De même dans le modèle de l’urne d’Ehrenfest (Exemple 5.10, exercice).

Proposition 7.34 (Période commune des états communiquants) Si x ∼ y alors dx =


dy .

Démonstration : Si x ∼ y alors il existe des entiers n ≥ 1 et m ≥ 1 tels que P n (x, y) > 0


et P m (y, x) > 0. Dès lors
N
P m+n+N k (x, x) ≥ P n (x, y) P k (y, y) P m (y, x).

Donc pour tout k ≥ 0 tel que P k (y, y) > 0 on a P m+n+N k (x, x) > 0, ie. dx divise
n + m + N k pour tout N (dx | n + m + N k). En particulier dx divise k (dx | k).
Chapitre 7. ©JCB – M1math – Université de Rennes 154

On en déduit que dx divise dy , et par symétrie dy divise dx , soit finalement dx = dy . □

D’après la Proposition 7.34, la définition qui suit à un sens :

Définition 7.35 (Période) Si la chaı̂ne de Markov est irréductible, tous les états ont
même période, appelée période de la chaı̂ne. Si cette période est 1, on dit que la chaı̂ne
est apériodique.

Forte irréductibilité
Définition 7.36 (Forte irréductibilité) Une chaı̂ne de Markov (Xn )n≥0 de matrice sto-
chastique P est dite fortement irréductible s’il existe k ≥ 1 tel que pour tout x, y ∈ E,
on a P k (x, y) > 0.

D’après la Définition 6.26, un noyau P est irréductible si pour tout x, y ∈ E, il existe un


chemin fini de x à y : ∃n ≥ 1, (xi )0≤i≤n ∈ E n avec x0 = x, xn = y et

P n (x, y) ≥ P (x, x1 )P (x1 , x2 ) . . . P (xn−1 , y) > 0.

Il y a forte irréductibilité quand il existe une longueur commune de chemin reliant tout
x, y ∈ E.

Proposition 7.37 Une chaı̂ne de Markov fortement irréductible est irréductible et apé-
riodique.

Démonstration : Il est immédiat que la forte irréductibilité implique l’irréductibilité. On


considère (x, y) ∈ E 2 tel que P (y, x) > 0. Avec l’indice k de la Déf. 7.36 de la forte
irréductibilité, on a P k (x, x) > 0 et P k (x, y) > 0. On a donc

P k+1 (x, x) ≥ P k (x, y)P (y, x) > 0.

On a donc k, k+1 ∈ R(x) := {n ∈ N : P n (x, x) > 0}, ce qui assure dx = PGCD(R(x)) =


1 et donc la chaı̂ne est apériodique. □

Proposition 7.38 Soit (Xn )n≥0 chaı̂ne de Markov irréductible et apériodique. Alors pour
tout x ∈ E, il existe n(x) ≥ 1 tel que pour tout n ≥ n(x), on a P n (x, x) > 0.

Démonstration : Par irréductibilité, pour tout x, y ∈ E, il existe n(x, y) ≥ 1 tel que


P n(x,y) (x, y) > 0. Comme la chaı̂ne est apériodique, il existe n1 , . . . , nk ∈ R(x) des
entiers de PGCD égale à 1. Par le théorème de Bézout, il existe q1 , . . . , qk ∈ Z tels que
q1 n1 + · · · + qk nk = 1. On note
X X
a(x) = qi ni , b(x) = − qi ni ≥ 0,
i : qi >0 i : qi <0
Chapitre 7. ©JCB – M1math – Université de Rennes 155

de sorte que a(x) = b(x) + 1. Comme ni ∈ R(x), on a


Y Y
P a(x) (x, x) ≥ P ni (x, x)qi > 0, P b(x) (x, x) ≥ P ni (x, x)−qi > 0.
i : qi >0 i : qi <0

On a donc b(x), b(x) + 1 ∈ R(x). Pour tout n ∈ N, on écrit la division euclidienne de n


par b(x) :
n = qb(x) + r = (q − r)b(x) + ra(x) (7.20)
avec 0 ≤ r ≤ b(x) − 1. On pose alors n(x) = b(x)2 − 1. Pour n ≥ n(x), on doit avoir
q ≥ r car ra(x) ≤ (b(x) − 1)(b(x) + 1) = b(x)2 − 1 = n(x). De l’écriture (7.20) de n, i
suit
P n (x, x) ≥ P b(x) (x, x)q−r P a(x) (x, x)r > 0,
puisque a(x), b(x) ∈ R(x). □

En fait, quand E est fini, on la caractérisation suivante de la forte irréductibilité :


Proposition 7.39 Si E est fini, la forte irréductibilité est équivalente à l’irréductibilité
plus l’apériodicité.
Démonstration : On suppose (Xn )n≥0 irréductible, apériodique sur E fini et il s’agit
de montrer que (Xn )n≥0 est fortement irréductible.
 Pour cela, avec les notations de la
Prop. 7.38, soit k = sup n(x) + n(x, y) : x, y ∈ E . Observer que k est fini car l’espace
d’état E est fini. Pour x, y ∈ E quelconques, on écrit k = n(x) + j + n(x, y) avec
j = j(x, y) ≥ 0 et d’après la Prop. 7.38, on a

P k (x, y) ≥ P n(x)+j (x, x)P n(x,y) (x, y) > 0.

7.4 Équilibre d’une chaı̂ne de Markov


Dans cette section, on considère une chaı̂ne de Markov (Xn )n≥0 sur un espace d’états
E dénombrable, de matrice stochastique P .
Théorème 7.40 (Convergence vers l’équilibre) On considère une chaı̂ne de Markov (Xn )n≥0
irréductible récurrente positive et apériodique. Alors si π désigne l’unique probabilité in-
variante (Théorème 7.24), pour tout x ∈ E :
X
lim Px (Xn = y) − π(y) = 0. (7.21)
n→+∞
y∈E

On a aussi pour toute loi initiale ν


X
lim Pν (Xn = y) − π(y) = 0. (7.22)
n→+∞
y∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 156

Remarque 7.41 — Les convergences (7.21) et (7.22) impliquent en particulier


n→+∞ n→+∞
Px (Xn = y) −−−−→ π(y) et Pν (Xn = y) −−−−→ π(y)

c’est à dire la convergence en loi de (Xn )n≥0 vers π sous Px ou sous Pν .


n→+∞
— Noter que Px (Xn = y) = P n (x, y) on a donc P n (x, y) −−−−→ π(y). De là vient
que sous les conditions du Théorème 7.40, on a la convergence de P n vers P ∞
dont toutes les lignes valent π.
— Le Théorème 7.40 implique que la convergence est uniforme en y ∈ E.
— La convergence (7.21) énonce en fait la convergence en variation totale de la loi
var
L(Xn |X0 = x) vers la probabilité invariante π : µn −→ π sous Px .

La démonstration du Th. 7.40 utilise un argument de couplage fondé sur le lemme


suivant :

Lemme 7.42 (Couplage) Soit P une matrice stochastique sur E. Alors :


(i) On définit une matrice stochastique P = P ⊗ P sur E 2 avec

P (x1 , x2 ), (y1 , y2 ) = P (x1 , y1 )P (x2 , y2 ), (7.23)

et on a
n
(x1 , x2 ), (y1 , y2 ) = P n (x1 , y1 )P n (x2 , y2 ).

P (7.24)

(ii) Si P est irréductible apériodique alors P aussi.


(iii) Si π est une probabilité invariante pour P alors π ⊗ π = (π(x)π(y))(x,y)∈E 2 en est
une de P .
 (1) (2) 
(iv) Si X n n≥0 = (Xn , Xn ) n≥0 est une chaı̂ne de Markov sur E 2 de matrice sto-
(i)
chastique P et de loi initiale ν sur E 2 alors (Xn )n≥0 est une chaı̂ne de Markov
sur E de matrice stochastique P et de loi initiale νi (où ν1 (A) = ν(A × E) et
ν2 (B) = ν(E × B)), ie.

Pν Xn(i) = x = Pνi (Xn = x) i = 1, 2,



(7.25)

en notant de façon générique (Xn )n≥0 une chaı̂ne de Markov de matrice stochas-
tique P .

Démonstration : i) Pour tout (x1 , x2 ) ∈ E 2 , on a :


X  X
P (x1 , x2 ), (y1 , y2 ) = P (x1 , y1 )P (x2 , y2 )
(y1 ,y2 )∈E×E (y1 ,y2 )∈E×E
X  X 
= P (x1 , y1 ) P (x2 , y2 ) = 1 × 1 = 1,
y1 ∈E y2 ∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 157


ce qui justifie que P est une matrice stochastique car en plus P (x1 , x2 ), (y1 , y2 ) ≥
0. Puis on prouve (7.24) par récurrence : l’initialisation est due à (7.23) ; ensuite, en
supposant (7.24) vraie pour l’entier n − 1, on le montre pour l’entier n :
n  X n−1  
P (x1 , x2 ), (y1 , y2 ) = P (x1 , x2 ), (z1 , z2 ) P (z1 , z2 ), (y1 , y2 )
(z1 ,z2 )∈E 2
X
= P n−1 (x1 , z1 )P n−1 (x2 , z2 )P (z1 , y1 )P (z2 , y2 )
(z1 ,z2 )∈E 2
! !
X X
= P n−1 (x1 , z1 )P (z1 , y1 ) P n−1 (x2 , z2 )P (z2 , y2 )
z1 ∈E z2 ∈E
= P n (x1 , y1 )P n (x2 , y2 ).

ii) Pour tout (x1 , x2 ), (y1 , y2 ) ∈ E 2 , par irréductibilité de P , il existe m1 ≥ 1 tel que
P m1 (x1 , y1 ) > 0 et par irréductibilité et apériodicité (Proposition 7.38), il existe n1 ≥ 1
tel que P n1 +k (x1 , x1 ) > 0 pour tout k ≥ 0. De la même façon, il existe m2 , n2 ≥ 1 tels
que P m2 (x2 , y2 ) > 0 et P n2 +k (x2 , x2 ) > 0 pour tout k ≥ 0. Alors pour tout k ≥ 0, on a :

P n1 +m1 +k (x1 , y1 ) ≥ P n1 +k (x1 , x1 )P m1 (x1 , y1 ) > 0,


P n2 +m2 +k (x2 , y2 ) ≥ P n2 +k (x2 , x2 )P m2 (x2 , y2 ) > 0.

Cela assure que pour tout n ≥ max(n1 + m1 , n2 + m2 ), on a


n
P (x1 , x2 ), (y1 , y2 ) = P n (x1 , y1 )P n (x2 , y2 )


= P n1 +m1 +k1 (x1 , y1 )P n2 +m2 +k2 (x2 , y2 ) > 0,

en écrivant n = n1 + m1 + k1 = n2 + m2 + k2 avec k1 , k2 ≥ 0 et la matrice stochastique


P est bien irréductible. De plus, de cette façon, on montre que chaque (x1 , x2 ) ∈ E 2
n  n+1 
pour n assez grand P (x1 , x2 ), (x1 , x2 ) > 0 et P (x1 , x2 ), (x1 , x2 ) > 0 si bien que
la période de la chaı̂ne (Prop. 7.34) divise n et n + 1 et vaut donc 1.
iii) La mesure produit π ⊗ π est invariante pour P puisque pour tout (y1 , y2 ) ∈ E 2 on
a:
X  X
(π ⊗ π)(x1 , x2 )P (x1 , x2 ), (y1 , y2 ) = π(x1 )π(x2 )P (x1 , y1 )P (x2 , y2 )
(x1 ,x2 )∈E 2 x1 ,x2 ∈E
! !
X X
= π(x1 )P (x1 , y1 ) π(x2 )P (x2 , y2 )
x1 ∈E x2 ∈E

= π(y1 )π(y2 ) = (π ⊗ π)(y1 , y2 ),

soit l’équation de Chapman-Kolmogorov (7.1) pour P : (π ⊗ π) = (π ⊗ π)P , et π ⊗ π ̸= 0


charge finiment tous les points. De plus π ⊗ π est une probabilité puisque
X X X  X 
(π ⊗ π)(x1 , x2 ) = π(x1 )π(x2 ) = π(x1 ) π(x2 ) = 1 × 1 = 1.
(x1 ,x2 )∈E 2 x1 ,x2 ∈E x1 ∈E x2 ∈E
Chapitre 7. ©JCB – M1math – Université de Rennes 158

(1)  (1) 
iv) On montre que Pν Xn = x = Pν1 Xn = x (on procèderait de la même façon
pour i = 2). Pour cela, on a :
 X
Pν Xn(1) = x = Pν Xn(1) = x, Xn(2) = y

y∈E
X X n 
= ν(x0 , y0 )P (x0 , y0 ), (x, y)
y∈E (x0 ,y0 )∈E 2
X X
= ν(x0 , y0 )P n (x0 , x)P n (y0 , y)
y∈E (x0 ,y0 )∈E 2
X X X 
= P n (x0 , x) ν(x0 , y0 ) P n (y0 , y)
x0 ∈E y0 ∈E y∈E
X
ν1 (x0 )P (x0 , x) = Pν1 Xn(1) = x
n

=
x0 ∈E

P n (y0 , y) = 1 et en notant ν1 (x0 ) = ν({x0 } × E).


P
car y∈E □

Démonstration :[Théorème 7.40] On commence par prouver (7.21) en utilisant le cou-


(1) (2) 
plage du Lemme 7.42. On considère la chaı̂ne X = Xn , Xn n≥0 de matrice sto-
chastique P en (7.23) qui est irréductible, apériodique, de probabilité invariante π ⊗2
(Lemme 7.42). D’après le Théorème 7.25, (X n )n≥0 est donc récurrente positive (car ir-
réductible et existence d’une probabilité invariante, cf. 3) dans le Th.7.25). On note
∆ = {(x, x) ∈ E 2 : x ∈ E} la diagonale de E 2 . Comme la chaı̂ne (X n )n≥0 est récurrente
2
et irréductible, elle atteint presque sûrement en temps fini tout état  de E quelque soit
(1) (2)
la loi initiale. Par conséquent, T∆ = inf n ≥ 0 : (Xn , Xn ) ∈ ∆ est un temps d’arrêt
et il est fini presque sûrement pour toute loi initiale de (X n )n≥0 , en particulier π ⊗ δx .
(2)  (1)
L’identité
 (7.25) du Lemme 7.42 assure P π⊗δ x X n = y = Px (Xn = y) et Pπ⊗δx Xn =
y = π(y). On a donc

Px (Xn = y) − π(y) = Pπ⊗δx Xn(2) = y − Pπ⊗δx Xn(1) = y


 
h i
= Eπ⊗δx 1{Xn(2) =y} − 1{Xn(1) =y} .

En distinguant selon les valeurs de T∆ , on a :


h i
Px (Xn = y) − π(y) = Eπ⊗δx 1{Xn(2) =y} − 1{Xn(1) =y}
h  i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
n
X h  i
+ Eπ⊗δx 1{T∆ =k} 1{Xn(2) =y} − 1{Xn(1) =y}
k=0
h  i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
Chapitre 7. ©JCB – M1math – Université de Rennes 159

n X
X h  i
+ Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} − 1{Xn(1) =y} . (7.26)
k k
k=0 z∈E

En utilisant la propriété de Markov (Théorème 5.36) au temps k avec loi initiale π ⊗ δx


(cf. Remarque 5.39), on a
h i
Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y}
k
h h k ii
= Eπ⊗δx Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} Fk
| {zk k
}
Fk -mesurable
h  i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(X (1) ,X (2) ) 1{X (2) =y} (par Markov faible, Théorème 5.36)
k k k k n−k
h   i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(z,z) 1{X (2) =y}
k k
h i h n−k i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} E(z,z) 1{X (2) =y}
k k n−k
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} Pn−k (z, y)
k k
h i
= Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(1) =y} (par symétrie entre X (1) et X (2) )
k k

ce qui assure pour tout z ∈ E


h  i
Eπ⊗δx 1{T∆ =k} 1{X (1) =X (2) =z} 1{Xn(2) =y} − 1{Xn(1) =y} = 0
k k

et donc (7.26) se réduit à


h  i
Px (Xn = y) − π(y) = Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y} .

Il vient alors
X X h  i
Px (Xn = y) − π(y) = Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
y∈E y∈E
X h i
≤ Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} − 1{Xn(1) =y}
y∈E
X h  i
≤ Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} + 1{Xn(1) =y}
y∈E
h X i
= Eπ⊗δx 1{T∆ >n} 1{Xn(2) =y} + 1{Xn(1) =y}
y∈E
 
= 2 Eπ⊗δx 1{T∆ >n} = 2 Pπ⊗δx (T∆ > n) (7.27)
P P
puisque y∈E 1{Xn(1) =y} = y∈E 1{Xn(2) =y} = 1.
Comme T∆ est fini Pπ⊗δx -ps, par convergence monotone on a
lim Pπ⊗δx (T∆ > n) = 0,
n→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 160

et donc par (7.27) X


lim Px (Xn = y) − π(y) = 0.
n→+∞
y∈E

On termine avec la preuve de (7.22) : on rappelle la définition (5.28) de Pν (Pν =


P
x∈E ν(x)Px ) et on a
X X 
Pν (Xn = y) − π(y) = ν(x)Pν (Xn = y) − ν(x) π(y)
x∈E x∈E
X 
= Px (Xn = y) − π(y) ν(x)
x∈E

et donc
X XX
|Pν (Xn = y) − π(y)| ≤ Px (Xn = y) − π(y) ν(x)
y∈E y∈E x∈E
XX 
= Px (Xn = y) − π(y) ν(x). (7.28)
x∈E y∈E
P
En appliquant le Lemme 7.16 avec a = ν de poids fini et bn (x) = y∈E |Px (Xn = y) − π(y)|
vérifiant X X
0 ≤ bn (x) ≤ Px (Xn = y) + π(y) = 2,
y∈E y∈E

avec limn→+∞ bn (x) = 0 par (7.21), on obtient la conclusion (7.22) en passant à la limite
dans (7.28). □

Remarque 7.43 1) L’apériodicité est essentielle, sans elle, le couplage échoue en général.
Par exemple pour la chaı̂ne à deux états sur E = {0, 1} (Exemple 5.1)
     
0 1 2n 1 0 2n+1 0 1
P = , P = , P = , n ≥ 0,
1 0 0 1 1 0
(1) (2) (1) (2)
et si X0 = 0, X0 = 1, on aura Xn ̸= Xn pour tout n ≥ 0 (ie. pas de couplage
possible).

Cas périodique
Dans le cas d’une chaı̂ne de Markov périodique, on généralise le Théorème 7.40 comme
suit :

Théorème 7.44 Soit (Xn )n≥0 une chaı̂ne irréductible récurrente positive, périodique de
période d et de probabilité invariante π. Alors pour toute paire d’états x, y ∈ E, il existe
r ∈ J0, d − 1K tel que P n (x, y) = 0 si n ̸= r mod d, sinon n = md + r et on a
lim P md+r (x, y) = dπ(y).
m→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 161

Exemple 7.45 (Chaı̂ne de de naissance et de mort) On considère une chaı̂ne de nais-


sance et de mort irréductible récurrente positive de période 2 . Si y − x est pair alors
P 2m+1 (x, y) = 0 pour tout m ≥ 0 et

lim P 2m (x, y) = 2π(y).


m→+∞

Si y − x est impair alors P 2m (x, y) = 0 pour tout m ≥ 0 et

lim P 2m+1 (x, y) = 2π(y).


m→+∞

Démonstration : On commence par une extension du Théorème 7.40 pour une classe
close irréductible récurrente positive apériodique. Soit Ei une telle classe et soit π (i)
la probabilité invariante concentrée sur ERi (Théorème 7.30). En considérant la chaı̂ne
restreinte à ERi , on a d’après le Théorème 7.40 :
1
lim P n (x, y) = π (i) (y) =  , x, y ∈ ERi .
n→+∞ Ey Tey
En particulier si y est un état récurrent positif de période 1 alors en choisissant pour
ERi la classe close irréductible contenant y, on voit que :
1
lim P n (y, y) =  . (7.29)
n→+∞ Ey Tey

On prouve maintenant le Théorème 7.44 pour le cas périodique. Soit donc (Xn )n≥0
une chaı̂ne irréductible récurrente positive et périodique de période d > 1. En posant
(Ym )m≥0 = (Xmd )m≥0 , on définit une chaı̂ne de Markov de matrice stochastique Q = P d .
Soit y ∈ E, alors

PGCD m : Qm (y, y) > 0 = PGCD m : P md (y, y) > 0


 

1
PGCD n : P n (y, y) > 0 = 1.

=
d
Les états sont donc de période 1 pour la chaı̂ne (Ym )m≥0 , qui est donc apériodique.
On suppose que la chaı̂ne (Xn )n≥0 , et donc aussi (Ym )m≥0 , démarre de y. Comme la
chaı̂ne (Xn )n≥0 revisite y la première fois à un multiple de d, la durée d’un retour moyen
en y pour la chaı̂ne (Ym )m≥0 est d−1 Ey Tey où Ey Tey est la durée d’un retour moyen
   

en y de la chaı̂ne (Xn )n≥0 . En particulier, y est récurrent positif pour toute chaı̂ne de
Markov de matrice stochastique Q. En appliquant le résultat préliminaire (7.29) à cette
matrice stochastique, on a
d
lim Qm (y, y) = = dπ(y),
m→+∞ my
soit
lim P md (y, y) = dπ(y), y ∈ E. (7.30)
m→+∞
Chapitre 7. ©JCB – M1math – Université de Rennes 162

Soit x, y ∈ E, par irréductibilité de P , il existe n ≥ 1 tel que P n (x, y) > 0. On pose alors
r1 = min(n ≥ 0 : P n (x, y) > 0). On a en particulier P r1 (x, y) > 0.
On montre que P n (x, y) > 0 seulement si n − r1 est multiple de d : par irréductibilité,
on choisit n1 > 0 tel que P n1 (y, x) > 0, alors
P r1 +n1 (y, y) ≥ P n1 (y, x)P r1 (x, y) > 0
et donc r1 + n1 est multiple de d. Réciproquement, si P n (x, y) > 0 alors de la même
façon,
P n+n1 (x, x) ≥ P n (x, y)P n1 (y, x) > 0
et n + n1 doit être un multiple de d ; par conséquent n − r1 = (n + n1 ) − (r1 + n1 ) aussi.
Finalement, n − r1 doit être multiple de d et n = kd + r1 pour un certain k ∈ N.
Il existe m1 ∈ N tel que r1 = m1 d + r avec r ∈ J0, d − 1K. D’après ce qui précède, on a
P n (x, y) = 0 si et seulement si n ̸= r mod d. On déduit maintenant que
m
X
md+r
Px Tey = kd + r P (m−k)d (y, y).

P (x, y) = (7.31)
k=0

On pose 
P (m−k)d (y, y) si 0 ≤ k ≤ m
bm (k) =
0 si k > m
Alors par (7.30), pour chaque k fixé, on a limm→+∞ bm (k) = dπ(y). En appliquant le
Lemme 7.16 (convergence dominée) avec E = N, b(k) = dπ(y) et a(k) = Px Tey = kd+r
(sommable) pour passer à la limite en m → +∞ dans (7.31), on a
+∞
X
md+r

lim P (x, y) = dπ(y) Px Tey = kd + r
m→+∞
k=0

= dπ(y)Px Ty < +∞
= dπ(y),
P+∞ 
ce qui
 achève la preuve du Théorème 7.44. Noter que k=0 P x T
ey = kd + r = Px Ty <
+∞ vient de P n (x, y) = 0 si n ̸= r mod d.

7.5 Théorème ergodique


Le théorème ergodique relie moyenne temporelle et moyenne spatiale.
Théorème 7.46 (Ergodique) Soit (Xn )n≥0 une chaı̂ne deR Markov récurrente irréductible
et soit π une mesure invariante. Soit f, g ∈ L1 (π) avec E g dπ ̸= 0. Alors pour toute loi
initiale ν sur E, on a
Pn R
f (X k ) f dπ
lim Pk=0n = RE Pν -ps. (7.32)
k=0 g(Xk ) g dπ
n→+∞
E
Chapitre 7. ©JCB – M1math – Université de Rennes 163

R
Remarque 7.47 En fait le résultat reste vrai R si f est positive avec E f dπ = +∞, il
suffit de prendre des fonctions fk ↗ f avec E fk dπ < +∞ et d’utiliser le théorème de
convergence monotone : Comme f ≥ fk , on a :
Pn Pn R
f (X i ) f k (X i ) fk dπ
lim inf Pi=0
n ≥ lim inf Pi=0 n = RE Pν -ps.
i=0 g(Xi ) i=0 g(Xi ) g dπ
n→+∞ n→+∞
E
R
Puis comme E fk dπ ↗ +∞ quand k → +∞, il vient
Pn
f (Xi )
lim Pi=0 n = +∞ Pν -ps.
i=0 g(Xi )
n→+∞

Corollaire 7.48 (Ergodique) Soit (Xn )n≥0 une chaı̂ne de Markov irréductible récurrente
positive et π son unique probabilité invariante. Alors pour toute loi initiale ν sur E et
f ∈ L1 (π), on a :
n Z
1X
lim f (Xk ) = f dπ Pν -ps. (7.33)
n→+∞ n E
k=0

Démonstration : Comme la chaı̂ne (Xn )n≥0 est irréductible récurrente positive, il existe
une unique probabilité invariante π par le Théorème 7.25 et on a 1 ∈ L1 (π). Le Théo-
rème 7.46 s’applique alors avec g(x) = 1 et assure (7.33). □

Remarque 7.49 Cette limite (7.33) est l’essence même de la notion d’ergodicité Pn : la
1
R temporelle n k=0 f (Xk ),
moyenne de f le long de la trajectoire de la chaı̂ne, ie. sa moyenne
converge en temps long (n → +∞) vers la moyenne spatiale E f dπ de f (par rapport
à la probabilité invariante).

Puis en appliquant le Théorème 7.46 avec f (y) = 1{y=x} et g(y) = 1 (avec la Re-
marque 7.47 lorsque g ̸∈ L1 (π)), on récupère immédiatement le Théorème 6.15 :

Corollaire 7.50 (Ergodique) Soit (Xn )n≥0 une chaı̂ne de Markov récurrente irréductible.
Alors pour toute loi initiale ν sur E :
(1) Dans le cas récurrent positif :
n
1X
lim 1{Xk =x} = π(x) Pν -ps ;
n→+∞ n
k=0

(2) Dans le cas récurrent nul :


n
1X
lim 1{Xk =x} = 0 Pν -ps.
n→+∞ n
k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 164

Démonstration :[Théorème 7.46] D’abord on observe qu’il suffit de voir la convergence


(7.32) pour Px pour tout x ∈ E pour laPrécupérer pour toute P loi ν par (5.28) : si
Px (A) = 1 pour tout x ∈ E alors Pν (A) = x∈E ν(x)Px (A) = x∈E ν(x) = 1.
Pour la suite, on fixe x ∈ E. On commence par observer que π(x) > 0 : en effet, par
le Théorème 7.24, les mesures invariantes π = π(x)νx où νx est la mesure invariante
associée à l’état x récurrent dans (7.8). Comme π ̸= 0, cela exige π(x) > 0.
On utilise les dates de retour de la chaı̂ne (Xn )n≥0 en x définies par récurrence en (6.1)
(n) (n−1) 
par Tx = inf k > Tx : Xk = x et satisfaisant (6.2)
Tx(n+1) = Tx(n) + Tx(1) ◦ ΘTx(n) . (7.34)
(n)
Puisque x est récurrent, les temps (Tx )n≥0 sont Px -ps finis (Déf. 6.3 + Markov fort
(5.37)). Pour k ≥ 1, on pose alors
(k)
X−1
Tx
Zk (f ) = f (Xi ). (7.35)
(k−1)
i=Tx

Lemme 7.51 La variable aléatoire Zk (f ) est FTx(k) -mesurable.


Démonstration :[Lemme 7.51] On montre que pour tout A ∈ B(R), on a {Zk (f ) ∈ A} ∈
(k)
FTx(k) . Pour cela, il faut et il suffit de voir que pour tout n ≥ 1 {Zk (f ) ∈ A} ∩ {Tx =
n} ∈ Fn (cf. 2) dans la Prop. 3.15).
n−1
[  
{Zk (f ) ∈ A} ∩ {Tx(k) = n} = {Zk (f ) ∈ A} ∩ {Tx(k) = n} ∩ {Tx(k−1) = m}
m=1
n−1 n−1
!
[ nX o
= f (Xj ) ∈ A ∩ {Tx(k) = n} ∩ {Tx(k−1) = m} ∈ Fn
m=1 j=m
nP o
n−1 (k−1) (k)
car j=m f (Xj ) ∈ A ∈ Fn−1 ⊂ Fn , {Tx = m} ∈ Fm ⊂ Fn , {Tx = n} ∈ Fn . □


Lemme 7.52 Les variables aléatoires Zk (f ) k≥1 sont iid. En particulier avec f = 1,
(n) (n−1)
on obtient que les variables aléatoires Tx − Tx , n ≥ 1, sont iid et on retrouve la
Proposition 6.14.
Démonstration :[Lemme 7.52] Pour tout k ≥ 1, il suffit de voir pour des fonctions gi
mesurables bornées sur R+ (1 ≤ i ≤ k) :
" k # k
Y  Y  
Ex gi Zi (f ) = Ex gi Z1 (f ) . (7.36)
i=1 i=1

Pour cela, on raisonne par récurrence sur l’entier k.


Pour k = 1, l’égalité (7.36) est immédiate. On suppose alors (7.36) établie pour k fixé
et on la prouve pour k + 1. Pour cela, on observe que
Chapitre 7. ©JCB – M1math – Université de Rennes 165

— les variables aléatoires Z1 (f ), Z2 (f ), . . . , Zk (f ) sont FTx(k) -mesurables (Lemme 7.51),


— ΘTx(k) (ω) est indépendante de FTx(k) et de loi Px (propriété de Markov forte sous
la forme du Corollaire 5.38),
— Zk+1 (f ) = Z1 (f ) ◦ ΘTx(k) . En effet, avec (7.34) on a :

(k+1) (k+1) (k)


Tx X−1 Tx −Tx
X −1

Zk+1 (f ) = f (Xi ) = f Xj+Tx(k)
i=Tx
(k) j=0
(1)
Tx ◦Θ (k) −1 (1)
Tx
X x −1
 TX 

= f Xj ◦ ΘTx(k) = f (Xj ) ◦ ΘTx(k)
j=0 j=0
= Z1 (f ) ◦ ΘTx(k) .

En utilisant la propriété de Markov fort (Théorème 5.37), on a donc


"k+1 # " k #
Y Y  
Ex gi (Zi (f )) = Ex gi (Zi (f )) gk+1 Z1 (f ) ◦ ΘTx(k)
i=1 i=1
" k
#
Y  h  i
= Ex gi (Zi (f )) Ex gk+1 Z1 (f ) ◦ ΘTx(k) FTx(k)
i=1
" k
#
Y  h i
= Ex gi (Zi (f )) EX (k)
gk+1 Z1 (f )
Tx
i=1
" k
#
Y  
= Ex gi (Zi (f )) Ex gk+1 (Z1 (f ))
i=1
k
!
Y    
= Ex gi (Zi (f )) Ex gk+1 (Z1 (f )) (par hyp. de récurrence),
i=1

ce qui prouve (7.36) pour k + 1 et donc le Lemme 7.52 par récurrence. □

Suite de la preuve du théorème ergodique (Théorème 7.46). Afin d’appliquer la loi des
grands nombres (LGN) aux variables aléatoires (Zk (f ))k≥1 iid (Lemme 7.52), on montre
qu’elles sont L1 lorsque f ∈ L1 (π) : en effet
 (1)   (1) 
x −1
TX x −1 X
TX
 
Ex |Z1 (f )| ≤ Ex  |f (Xk )| = Ex  |f (y)|1{Xk =y}  (7.37)
k=0 k=0 y∈E
 (1)

x −1
TX R
X X
E
|f | dπ
= |f (y)| Ex  1{Xk =y}  = |f (y)|νx (y) = (7.38)
y∈E k=0 y∈E
π(x)
Chapitre 7. ©JCB – M1math – Université de Rennes 166

puisque π = π(x)νx . Le même calcul avec f à la place de |f |, et égalité dans ce ce cas


dans (7.37), donne
 (1)  R
x −1
TX
f dπ
f (Xk ) = E
 
Ex Z1 (f ) = Ex  < +∞.
k=0
π(x)

La LGN assure alors n R


1X f dπ
lim Zk (f ) = E Px -ps. (7.39)
n→+∞ n π(x)
k=1

ex (n) = Pn 1{X =x} de sorte que


Maintenant, on note N k=1 k

Tx(Nx (n)) ≤ n < Tx(Nx (n)+1) .


e e

Lorsque f est une fonction positive, on a


PTx(Nex (n)) −1 Pn PTx(Nex (n)+1) −1
k=0 f (Xk ) k=0 f (Xk ) k=0 f (Xk )
≤ ≤ .
N
ex (n) N
ex (n) N
ex (n)

En regroupant les paquets Zj (f ) définis en (7.35), on a :


(N
ex (n)) (j)
N
ex (n)
 NeX
x (n)
Tx X −1 X  TX x −1

f (Xk ) = f (Xi ) = Zj (f ),
k=0 j=1 (j−1)
i=Tx j=1

et donc PNex (n) PNex (n)+1


Pn
j=1 Zj (f ) k=0 f (Xk ) j=1 Zj (f )
≤ ≤ . (7.40)
N
ex (n) N
ex (n) N
ex (n)

Comme x est récurrent, Nex (n) → +∞ et (7.39) assurent que les termes de gauche et
R
de droite de (7.40) convergent Px -ps vers E f dπ/π(x) et donc par le théorème des
gendarmes
n R
1 X f dπ
lim f (Xk ) = E Px -ps. (7.41)
n→+∞ N ex (n) π(x) k=0

Si f ∈ L (π) est de signe quelconque, on applique (7.41) à f + = max(f, 0) et à f − =


1

max(−f, 0) et par différence on obtient (7.41) pour f = f + − f − (la différence dans


(7.41) a bien un sens car f ∈ L1 (π)) :
n n
1 X 1 X
f + (Xk ) − f − (Xk )

f (Xk ) =
N
ex (n)
k=0 N
ex (n)
k=0
n n
1 X 1 X
= +
f (Xk ) − f − (Xk )
N
ex (n)
k=0 N
ex (n)
k=0
Chapitre 7. ©JCB – M1math – Université de Rennes 167

f − dπ (f + − f − ) dπ
R R R R
E
f + dπ E E
f dπ
−−−−→ − = = E Px -ps.
n→+∞ π(x) π(x) π(x) π(x)

De la même façon, on obtient pour la fonction g :


n R
1 X g dπ
lim g(Xk ) = E ̸= 0 Px -ps.
n→+∞ N ex (n)
k=0
π(x)

Le rapport des deux limites donne alors


Pn R
f (X k ) f dπ
lim Pk=0
n = RE Px -ps,
k=0 g(Xk ) g dπ
n→+∞
E

prouvant le Théorème 7.46. □

Exemple 7.53 (MCMC) La méthode de Monte Carlo par P chaı̂ne de Markov (Monte
Carlo Markov Chains) vise à estimer une somme S := x∈E ν(x)f (x) où ν est une
1
probabilité, et f ∈ L (ν), a priori difficile à calculer, en trouvant une chaı̂ne de Markov
(Xn )n≥0 (irréductible, récurrente positive) admettant ν comme probabilité invariante.
On a alors n
1X ps
f (Xk ) −−−−→ Eν [f ] = S
n k=0 n→+∞

et pour n assez grand n1 nk=0 f (Xk ) est une bonne estimation de la somme S. Cf. [Rob].
P
Bibliographie

[BL] Philippe Barbe, Michel Ledoux. Probabilité. EDP sciences, 2007.


[Bei] Frank Beichelt. Stochastic processes in Science, Engineering and Finance. Chapman & Hall,
2006.
[BEL] Michel Benaı̈m, Nicole El Karoui. Promenade Aléatoire, Ed. École Polytechnique, 2007.
[BC] Bernard Bercu, Djalil Chafaı̈. Modélisation stochastique et simulation. Dunod Ed., 2007.
[Bre-Leb] Jean-Christophe Breton. Intégrale de Lebesgue. Notes de cours de L3 Mathématiques, Uni-
versité de Rennes 1, 2014.
http://perso.univ-rennes1.fr/jean-christophe.breton/Fichiers/Integrale Lebesgue.pdf
[Bre-proba] Jean-Christophe Breton. Probabilités. Notes de cours de L3 Mathématiques, Université de
Rennes 1, 2014. http://perso.univ-rennes1.fr/jean-christophe.breton/Fichiers/proba base.pdf
[BP] Marc Briane, Gilles Pagès. Théorie de l’intégration, 5ème édition. Coll. Vuibert Supérieur, Ed.
Vuibert, 2012.
[Dud] Richard M. Dudley. Real analysis and Probability. Cambridge studies in advanced mathematics,
vol 74, 2002.
[FF] Dominique Foata, Aimé Fuch. Processus stochastiques. Dunod, 2004.
[Gra] Carl Graham. Chaı̂nes de Markov. Dunod Ed., 2008.
[HPS] Paul G. Hoel, Sidney C. Port et Charles J. Stone. Introduction to stochastic processes. Wa-
veland Ed., 1972.
[JP] Jean Jacod, Philipp Protter. L’essentiel en théorie des probabilités. Vuibert, 2003.
[Jir] Miloslav Jiřina. Conditional probabilities on strictly separable σ-algebras. (Russian, with English
summary) Czechoslovak Math. J. no. 4, vol. 79 pp. 372–380, 1954.
[Kal] Olav Kallenberg. Foundations of modern probability. 2nd Edition, Springer Series in Statistics.
Probability and its Applications, 2002.
[Nev] Jacques Neveu. Martingales à temps discret, Masson, 1972.
[Nor] James Norris. Markov Chains. Cambridge studies in advanced mathematics, 1997.
[Ouv] Jean-Yves Ouvrard. Probabilités. Tomes 1 et 2. Cassini, 2008.
[Pri] Nicolas Privault. Understanding Markov Chains – Examples and Applications. Second Edition,
Springer Undergraduate Mathematics Series, Springer, 2018.
[Rob] Christian Robert. Méthodes de Monte Carlo par chaı̂ne de Markov, Ed. Economica., 1996
[Rue] Alain Ruegg. Processus Stochastique. Presse Universitaire Romande, 1989.
[Wil] David Williams. Probability with martingales. Cambridge mathematical textbooks, 1991.
[Yca] Bernard Ycart. Modèles et Algorithmes Markoviens, Ed. Springer, 2002.

168

Vous aimerez peut-être aussi