0% ont trouvé ce document utile (0 vote)
46 vues87 pages

Poly Processus

Ce document est un cours d'introduction aux processus stochastiques, couvrant des concepts fondamentaux tels que les chaînes de Markov, les martingales et les processus en temps continu. Il inclut des définitions, des propriétés et des théorèmes associés à ces processus, ainsi que des rappels sur l'espérance conditionnelle. Le cours est structuré en plusieurs chapitres, chacun abordant des aspects spécifiques des processus stochastiques.

Transféré par

lhamo1612024
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
46 vues87 pages

Poly Processus

Ce document est un cours d'introduction aux processus stochastiques, couvrant des concepts fondamentaux tels que les chaînes de Markov, les martingales et les processus en temps continu. Il inclut des définitions, des propriétés et des théorèmes associés à ces processus, ainsi que des rappels sur l'espérance conditionnelle. Le cours est structuré en plusieurs chapitres, chacun abordant des aspects spécifiques des processus stochastiques.

Transféré par

lhamo1612024
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux processus stochastiques

Notes de cours

Nicolas Chopin
Table des matières

1 Introduction 7
1.1 Processus stochastiques : définition . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Rappels sur l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . 9

2 Chaînes de Markov 13
2.1 Construction et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Classes d’états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Opérateur potentiel et nature des classes d’états . . . . . . . . . . . . . . . 22
2.6 Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Périodicité, convergence des lois marginales . . . . . . . . . . . . . . . . . 34
2.8 Réversibilité, algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . 37
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler . . . . 40
2.10 Extension à un espace d’états continu . . . . . . . . . . . . . . . . . . . . 42
2.11 Chaînes de Markov cachées . . . . . . . . . . . . . . . . . . . . . . . . . . 45

3 Martingales 49
3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Théorème d’arrêt : le cas borné . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Espaces Lp et inégalité de Doob . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7 Convergence dans L2 (et plus généralement Lp , p > 1) . . . . . . . . . . . 65
3.8 Interlude : urnes de Polya . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.9 Convergence : résultats plus généraux . . . . . . . . . . . . . . . . . . . . 69
3.10 Deuxième interlude : processus de branchement (Galton-Watson) . . . . . 71
3.11 Martingales régulières et théorème d’arrêt . . . . . . . . . . . . . . . . . . 73

4 Processus en temps continu 77


4.1 Processus ponctuels, processus de Poisson . . . . . . . . . . . . . . . . . . 77
4.1.1 Préliminaires : loi de Poisson . . . . . . . . . . . . . . . . . . . . . 77
4.1.2 Les processus de Poisson comme processus ponctuels . . . . . . . . 78
4.1.3 Cas E = R+ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
4.1.4 Généralisation aux processus Markovien en temps discret . . . . . 82

3
Table des matières

4.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83


4.2.1 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
4.2.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . 84
4.2.3 Processus markovien en temps continu . . . . . . . . . . . . . . . . 85

4
Table des matières

La première version de ces notes du cours d’introduction aux processus (deuxième


année de l’ENSAE) est due à Pierre Alquier, qui a enseigné cette matière avant moi. Un
grand merci à lui, ainsi qu’à ses prédécesseurs (Eric Gautier notamment). Depuis cette
première version, le poly a été beaucoup remanié ; n’hésitez pas à me signaler toute erreur
ou faute de frappe qui m’aurait échappé.
Quelques références pour aller plus loin : Le livre de Brémaud (1999) a un point de vue
très mathématique. A l’inverse, le livre de Lawler (2006) offre un panorama assez complet
tout en gardant un niveau de formalisme assez faible : c’est idéal pour se forger une
intuition sur le sujet. Enfin, le livre de Baldi et al. (2002) est une compilation d’exercices
assez utile pour réviser (même si ils sont en général assez difficiles). Il contient également
de brefs rappels de cours assez utiles (et sur lesquels beaucoup des preuves de ce poly
sont basées).

5
1 Introduction
1.1 Processus stochastiques : définition
Dans tout le cours, on considèrera un espace probabilisé (Ω, F, P), un espace mesurable
(E, E) et un ensemble T .
Définition 1.1.1. On appelle processus stochastique, ou processus aléatoire, une famille
(Xt )t∈T de variables aléatoires à valeurs dans E. Autrement dit, pour tout t ∈ T , l’ap-
plication ω 7→ Xt (ω) est une application mesurable de (Ω, F) dans (E, E). On appelle E
l’espace d’états du processus.
En pratique, on utilise souvent les processus pour de la modélisation dynamique : Xt
est la valeur d’une variable d’intérêt à la date t. L’ensemble T représente alors l’ensemble
des dates possibles.
Définition 1.1.2. Lorsque T = N ou T = Z on dit que (Xt )t∈T est un processus à temps
discret. Lorsque T = R, ou un intervalle de R, on parle de processus à temps continu.
Exemple 1.1.1. Un exemple à temps discret : soit Xt le PIB de la France à l’année t
(donc E = R+ ). En revanche, en finance, les prix des actifs, devises, etc. sont mises à
jour avec une fréquence tellement élevée qu’on préfère utiliser une modélisation à temps
continu : soit Xt le cours EURO/DOLLAR à la date t, t mesurée en heures avec t = 0
correspondant au 1er janvier 1999 à 0h.

On peut donc voir un processus comme une fonction de deux variables :

Ω×T →E
(ω, t) 7→ Xt (ω)

qui doit vérifier la condition que, pour t fixé, ω 7→ Xt (ω) est mesurable (autrement dit, Xt
vérifie bien la définition de variable aléatoire). A ω fixé, la fonction t 7→ Xt (ω) s’appelle
une trajectoire du processus.
Définition 1.1.3. On appelle filtration une suite (Ft )t∈T de σ-algèbres vérifiant

s ≤ t ⇒ Fs ⊂ Ft ⊂ F.

7
1 Introduction

Explication sur cette notion : quand on observe un processus au cours du temps, à


la date t, on connaît les valeurs de Xs pour s ≤ t mais on ne connaît pas encore les
valeurs de Xs pour s > t. En terme de conditionnement, ça veut dire qu’on sera souvent
amené à conditionner par les variables (Xs )s≤t , ou de façon équivalente par la σ-algèbre
Ft := σ(Xs , s ≤ t). On vérifie immédiatement que (Ft )t∈T est une filtration, on l’appelle
filtration canonique.
Donc, l’idée d’une filtration (Ft )t∈T est de représenter l’information disponible à la
date t.
On peut se poser la question naturelle : pourquoi introduire un concept général de
filtration plutôt que d’utiliser toujours la filtration canonique ? D’un point de vue intuitif :
à la date t, on peut avoir plus d’informations que les valeurs passées (Xs )s≤t . Dans
l’exemple où Xt est le PIB de la France à l’année t, à la fin de l’année t, on connaît
certes le PIB de la France à l’année t, mais aussi le PIB des USA, des autres pays de la
zone euro, le cours du pétrôle, les différents taux de change, etc. qui peuvent donner de
l’information sur les valeurs futures du PIB de la France. D’un point de vue plus formel,
on peut avoir plusieurs processus définis sur le même (Ω, F, P), par exemple (Xt )t∈T et
(Yt )t∈T , et la considérer la filtration Ft := σ(Xs , Ys , s ≤ t) qui n’est PAS la filtration
canonique pour le processus (Xt ).
Définition 1.1.4. Le processus (Xt )t∈T est dit adapté à la filtration (Ft )t∈T si pour tout
t ∈ T , Xt est Ft -mesurable.
Exemple 1.1.2. Dans cet exemple T = N, soit (εt )t∈N une suite de variables aléatoires
i.i.d de loi N (0, 1), (α, β) ∈ R2 , X0 = 0 et
Xt+1 = αXt + β + εt .
Ce processus est étudié dans le cours de séries temporelles sous le nom de processus
autorégressif (AR). On définit Ft = σ(εs , s ≤ t) la filtration canonique pour (εt )t∈N . On
peut vérifier de façon triviale que le processus (Xt )t∈N est adapté à la filtration (Ft )t∈N .
On peut maintenant annoncer le plan du cours. Dans les Chapitres 3 et 2, on n’étudiera
que des processus à temps discret avec T = N.
Chapitre 2) On étudiera les chaînes de Markov, définies par la propriété
L(Xt+1 |Ft ) = L(Xt+1 |Xt )
(où L se lit “loi de”, là encore, une définition formelle viendra plus tard). On se
restreindra au cas où E est fini ou dénombrable.
Chapitre 3) On étudiera les martingales, c’est-à-dire la classe des processus à valeurs dans E =
R vérifiant la relation
E(Xt+1 |Ft ) = Xt
(une définition formelle sera donnée plus loin).
Chapitre 4) Une toute petite discussion du cas continu, à travers deux exemples (le processus
de Poisson, et le mouvement brownien) définis sur T = R+ .
Comme la définition de martingale repose sur une espérance conditionnelle, la fin de
cette introduction contient quelques rappels sur cette notion.

8
1.2 Rappels sur l’espérance conditionnelle

1.2 Rappels sur l’espérance conditionnelle


On rappelle que pour deux événements A et B dans F, avec P(B) ̸= 0, on a par
définition
P(A ∩ B)
P(A|B) = .
P(B)
Soient deux variables aléatoires réelles définies sur (Ω, F), X et Y . On suppose que X
est intégrable. Dans un premier temps, on va supposer que Y est une variable aléatoire
discrète, à valeurs dans N. On suppose également que pour tout y ∈ N, P(Y = y) > 0.
On a alors, pour tout A ∈ F,
P(A ∩ {Y = y})
P(A|Y = y) =
P(Y = y)
ce qui définit une mesure de probabilité sur (Ω, F), notons-là Py , et il est naturel de
définir Z Z
E(X|Y = y) := X(ω)Py (dω) = XdPy . (1.1)

On vérifie en fait directement que
R
X1{Y =y} dP
E(X|Y = y) = . (1.2)
P(Y = y)
L’important est que l’on voit, que ce soit dans (1.1) ou (1.2), que E(X|Y = y) est une
fonction de y, notons-là f (y). On définit alors simplement E(X|Y ) := f (Y ). Faire bien
attention : E(X) est un nombre réel, déterministe, alors que E(X|Y ) = f (Y ) est une
variable aléatoire, fonction de la variable Y , autrement dit, σ(Y )-mesurable.
Le problème de cette construction intuitive est qu’on ne peut pas l’étendre au cas
où Y est une variable continue. Il faut alors trouver une caractérisation de E(X|Y ) qui
n’implique pas de diviser par P(Y = y) et puisse s’étendre au cas général. On va démon-
trer la propriété suivante : pour toute variable Z bornée qui est aussi σ(Y )-mesurable,
autrement dit, ici, Z = g(Y ), on a
 
E E(X|Y )Z = E(XZ). (1.3)

En effet :

E[E(X|Y )Z] = E[E(X|Y )g(Y )]


 
X∞
= E E(X|Y = y)g(y)1Y =y 
y=0

X
= g(y)E(X|Y = y)P(Y = y)
y=0
X∞
= g(y)E(X1{Y =y} ) d’après (1.1)
y=0

9
1 Introduction
 
X∞
= E X1{Y =y} g(y)
y=0

= E [Xg(Y )]
= E(XZ).

Le théorème suivant dit justement que la propriété 1.3 peut s’étendre au cas général.

Théorème 1.2.1. Soit A ⊂ F une σ-algèbre et X une variable aléatoire réelle, positive
ou intégrable. Alors il existe une variable aléatoire A-mesurable, positive ou intégrable,
unique à un p.s près, notée E(X|A), telle que pour toute variable aléaoire Z, A-mesurable,
positive ou bornée, on a  
E E(X|A)Z = E(XZ). (1.4)
Dans le cas où A = σ(Y ) pour une variable aléatoire Z, on note simplement E(X|Y ) au
lieu de E(X|σ(Y )).

Démonstration. La preuve a été faite en 1ère année, on ne la refait pas complètement.


Rappel de l’idée générale : on commence par traiter le cas où X ∈ L2 l’ensemble des
variables de carré intégrable. Alors
1. On vérifie que ⟨X, Y ⟩ := E(XY ) est bien un produit scalaire qui fait de L2 un
espace de Hilbert.
2. On vérifie que l’ensemble des variables A-mesurables et dans L2 est un sous-espace
vectoriel fermé de L2 . On peut donc définir la projection orthogonale sur ce sous-
espace, Π.
3. La variable X − Π(X) est alors orthogonale à toute variable Z A-mesurable et dans
L2 . Ceci se traduit par
n  o
⟨X − Π(X), Z⟩ = E X − Π(X) Z

soit
E(XZ) = E[Π(X)Z].
On voit donc qu’en posant E(X|A) := Π(X) la relation (1.4) est immédiatement
satisfaite.
Il reste ensuite à travailler un peu pour étendre cette définition au cas où X est
simplement intrégrable (X ∈ L1 ) ou positive.

On rappelle quelques propriétés qu’on utilisera en permanence tout a long de ce cours.


Soient X et Y deux variables aléatoires réelles, λ et µ deux nombres réels, A et B deux
σ-algèbre, (Xn )n∈N une suite de variables aléatoires, et f une fonction R → R.
1. E(λ|A) = λ.
2. E(λX + µY |A) = λE(X|A) + µE(Y |A).
3. X indépendant de A ⇒ E(X|A) = E(X).

10
1.2 Rappels sur l’espérance conditionnelle

4. X A-mesurable ⇒ E(X|A) = X et E(XY |A) = XE(Y |A).


5. E[E(X|A)] = E(X).
6. B ⊂ A ⇒ E[E(X|A)|B] = E(X|B).
7. X ≤ Y p.s ⇒ E(X|A) ≤ E(Y |A) p.s
8. (“Jensen conditionnel”) f convexe ⇒ f (E(X|A)) ≤ E(f (X)|A).
p.s p.s
9. (“TCD cond.”) Xn −−→ X, |Xn | ≤ Z, Z ∈ L1 ⇒ E(Xn |A) −−→ E(X|A).
↗,p.s ↗,p.s
10. (“TCM cond.”) Xn −−−→ X, Xn ≥ 0 ⇒ E(Xn |A) −−−→ E(X|A).
11. (“Fatou cond.”) Xn ≥ 0 ⇒ E(lim inf Xn |A) ≤ lim inf E(Xn |A).

11
2 Chaînes de Markov
2.1 Construction et définitions
Dans tout ce chapitre, (Xt )t∈N un processus à valeurs dans un espace (E, E), et (Ft )
sa filtration canonique Ft = σ(X0 , . . . , Xt ).
Définition 2.1.1. Le processus (Xt )t∈N est markovien si et seulement si

∀t ∈ N, ∀A ∈ E, P(Xt+1 ∈ A|Ft ) = P(Xt+1 ∈ A|Xt ).

Un processus markovien (à temps discret) est aussi appelé chaîne de Markov.


Cette définition étant posée dans le cas général, on va maintenant se restreindre cas où
E est un espace fini ou dénombrable (et E = P(E)). Le cas où E est un espace quelconque
sera uniquement abordé dans la Section 2.10.
Dans ce cas, la propriété de Markov implique que, pour tout (x0 , . . . , xt ) ∈ E t+1 ,

P(Xt = xt |Xt−1 = xt−1 , . . . , X0 = x0 ) = P(Xt = xt |Xt−1 = xt−1 ).

Mais alors, par récurrence,

P(Xt = xt , Xt−1 = xt−1 , . . . , X0 = x0 )


= P(Xt = xt |Xt−1 = xt−1 , . . . , X0 = x0 )P(Xt−1 = xt−1 , . . . , X0 = x0 )
= P(Xt = xt |Xt−1 = xt−1 )P(Xt−1 = xt−1 , . . . , X0 = x0 )
= P(Xt = xt |Xt−1 = xt−1 )P(Xt−1 = xt−1 |Xt−2 = xt−2 )
. . . P(X1 = x1 |X0 = x0 )P(X0 = x0 ).

Donc, on peut décrire la loi de la chaîne (Xt ) par la loi de X0 et la loi de Xt+1 |Xt pour
tout t ∈ N.
Définition 2.1.2. On dit qu’une chaîne de Markov (Xt ) est homogène si, pour tout
(x, y) ∈ E2 , P(Xt+1 = y|Xt = x) ne dépend que de (x, y), et pas de t.
A partir de maintenant, on ne considérera que des chaînes de Markov homogènes.
Un abus (très) fréquent consiste à appeler “chaîne de Markov” uniquement les chaînes
de Markov homogènes, et “chaîne de Markov non homogène” une chaîne de Markov
quelconque. A partir de maintenant, on suivra cette convention.
Définition 2.1.3. Soit (Xt ) une chaîne de Markov (donc, homogène). Notons

P (x, y) = P(Xt+1 = y|Xt = x),

13
2 Chaînes de Markov

on appelle alors P = (P (x, y))(x,y)∈E2 la matrice de transition de (Xt ). Notons

µ(x) = P(X0 = x),

on appelle le vecteur µ = (µx )x∈E la loi initiale de (Xt ).

On a alors

P(Xn = xn , Xn−1 = xn−1 , . . . , X0 = x0 ) = µ(x0 )P (x0 , x1 ) . . . P (xn−1 , xn ).

Même si c’est évident, n’importe quelle matrice ne peut pas être une matrice de tran-
sition !

Proposition 2.1.1. Soit une matrice de transition P d’une chaîne de Markov (Xt ).
Alors, pour tout (x, y), P (x, y) ∈ [0, 1] et
X
P (x, y) = 1.
y∈E

Démonstration. Pour la première propriété, P (x, y) = P(X1 = y|X0 = x) ∈ [0, 1]. Pour
la deuxième :
X X
P (x, y) = P(X1 = y|X0 = x) = P(X1 ∈ E|X0 = x) = 1
y∈E y∈E

On mentionne ensuite une méthode simple pour construire une chaîne de Markov.

Proposition 2.1.2. Pour toute loi initiale µ, et matrice de transition P , sur un espace
dénombrable E, il existe des fonctions f0 et f , et une suite de variables aléatoires IID
(indépendantes et identiquement distribuées) U0 , U1 , . . . telles que la suite de variables
aléatoires X0 = f0 (U0 ), Xt = f (Xt−1 , Ut ) est une chaîne de Markov de loi initiale µ et
de matrice de transition P .

Démonstration. On va prendre pour les Ut des variables de loi uniforme sur [0, 1]. L’espace
E est dénombrable, on peut sans perte de généralité appeler ses éléments 1, 2, . . . . On
définit f0 (u) comme suit : f0 (u) = 1 si u ∈ [0, µ(1)[, f0 (u) = 2 si u ∈ [µ(1), µ1 + µ(2)[,
etc. On montre facilement que X0 = f0 (U0 ) est telle que P(X0 ) ∼ µ0 . On procède de la
même
Pk−1 manière pour P f : pour x ∈ E fixé, f (x, u) est la fonction qui renvoie l’entier k si
k
i=1 P (x, i) ≤ u < i=1 P (x, i).

Ce résultat nous apporte deux choses :


1. Théoriquement : il prouve l’existence des chaînes de Markov. Ce point peut pa-
raître évident à horizon fini (l’existence de X0 , . . . , Xt pour t fixé), il l’est un peu
moins à horizon infini. En particulier, la construction de l’espace de probabilité des
trajectoires de la chaîne de Markov semble être essentiellement la même que celle
de l’espace de probabilité des suites infinies de variables IID.

14
2.2 Propriétés élémentaires

2. Pratiquement : la preuve nous donne aussi un algorithme simple et générique pour


simuler n’importe quelle chaîne de Markov. Ce point sera abordé à nouveau dans
le cours de Simulation et méthodes de Monte Carlo au deuxième semestre. (La
preuve utilise en fait la technique de simulation dite d’inversion de la fonction de
répartition.)
Dans ce chapitre on va essentiellement étudier le comportement asymptotique de (Xt ).
On va voir que les états de E peuvent se répartir dans des classes d’équivalences :
— pour certaines classes (dites transientes) : (Xt ) peut visiter la classe, puis en sort.
— pour les autres (dites récurrentes) : une fois que (Xt ) est dans la classe, il n’en sort
plus.
Cette classification occupera les Sections 2.2, 2.4 et 2.5.
On s’intéressera ensuite au cas des chaînes n’ayant qu’une seule classe d’équivalence.
Pour ces chaînes, on pourra établir en général une loi des grands nombres du type
n
1X
f (Xi ) −−−→ EX∼π [f (X)]
n n→∞
i=1

dans un sens à préciser, et où π est une loi à préciser ! Sous des hypothèses un peu plus
fortes, on pourra établir la convergence en loi de (Xt ) vers π. Ceci sera traité dans les
Sections 2.6 et 2.7 respectivement. Enfin, la Section 2.8 discutera d’une application en
simulation, et la Section 2.10 discutera (à la main, sans rentrer dans les détails) quels
sont les résultats parmi ceux qui précèdent qui peuvent s’étendre au cas où E est un
espace continu.

2.2 Propriétés élémentaires


Il y a une ambiguïté sur la notation P t (x, y) : s’agit-il du nombre P (x, y) à la puissance
t, ou de l’entrée d’indices (x, y) de la matrice P à la puissance t ?
Définition 2.2.1. On note P t (x, y) l’entrée d’indices (x, y) de la matrice P à la puissance
t, P t .
Proposition 2.2.1. Soit (Xt ) une chaîne de Markov de matrice de transition P . Pour
tout (x, y) ∈ E 2 et (m, n) ∈ N2 ,

P(Xn+m = y|Xn = x) = P m (x, y).

Démonstration. Par récurrence. C’est vrai pour m = 1 par définition. Supposons que
m > 1 et que ce soit vrai pour 1, 2, . . . , m − 1. Alors :

P(Xn+m = y|Xn = x)
X
= P(Xn+m = y, Xn+m−1 = z|Xn = x)
z∈E
X
= P(Xn+m = y|Xn+m−1 = z, Xn = x)P(Xn+m−1 = z|Xn = x)
z∈E

15
2 Chaînes de Markov
X
= P(Xn+m = y|Xn+m−1 = z)P(Xn+m−1 = z|Xn = x) (Markov)
z∈E
X
= P (z, y)P m−1 (x, z) (hypothèse de récurrence)
z∈E
m
= P (x, y). □

En conséquence, remarquer que P m vérifie également


P m les hypothèses d’une matrice de
m
transition, en particulier, P (x, y) ∈ [0, 1] et y P (x, y) = 1.

Définition 2.2.2. Soit une loi initiale µ et une matrice de transition P . On note
X
µP (x) = µ(z)P (z, x).
z∈E

Autrement dit, dans nos notations matricielles, on considère une loi initiale comme un
vecteur ligne.

Proposition 2.2.2. Soit (Xt ) une chaîne de Markov de matrice de transition P et de


loi initiale µ. Pour tout x ∈ E et t ∈ N,

P(Xt = x) = µP t (x).

Démonstration. On a
X
P(Xt = x) = P(Xt = x|X0 = z)P(X0 = z)
z∈E
X
= P t (z, x)µ(z) d’après la Proposition 2.2.1
z∈E
X
= µ(z)P t (z, x)
z∈E
t
= µP (x)

Définition 2.2.3. Soit une fonction f : E → R, positive ou bornée, et une matrice de


transition P . On note X
P f (x) = P (x, z)f (z).
z∈E

Autrement dit, dans nos notations matricielles, on considère une loi fonction comme
un vecteur colonne.

Proposition 2.2.3. Soit (Xt ) une chaîne de Markov de matrice de transition P et une
fonction f : E → R, positive ou bornée. Pour tout x ∈ E et t ∈ N,

E[f (Xt )|X0 = x] = P t f (x).

16
2.2 Propriétés élémentaires

Démonstration. On a
X
E[f (Xt )|X0 = x] = f (z)P(Xt = z|X0 = x)
z∈E
X
= f (z)P t (x, z) d’après la Proposition 2.2.1
z∈E
X
= P t (x, z)f (z)
z∈E
n
= P f (x)

Enfin avec les mêmes hypothèses on peut noter


XX
µP t f = µ(x)P t (x, y)f (y) ∈ R
x∈E y∈E

et remarquer que
µP t f = E[f (Xt )].
On peut représenter une matrice de transition P par un graphe orienté : on représente
les états par les sommets du graphes, et si P (x, y) > 0, on trace une flèche de x à y sur
laquelle on écrit la valeur de P (x, y). Le graphe est orienté, il peut y avoir une flèche de
x vers y et/ou une flèche de y versP x. D’autre part, si P (x, x) > 0, il y a une flèche de x à
lui-même. Noter que la condition y P (x, y) = 1 devient : “la somme des flèches partant
du sommet x doit être égale à 1”.

Exemple 2.2.1. Lorsque E est un espace à deux éléments, E = {1, 2}, toute matrice de
transition P peut se mettre sous la forme
 
p 1−p
P =
1−q q

où (p, q) ∈ [0, 1]2 . Le graphe de cette chaîne est alors :

On termine par une petite discussion heuristique sur le comportement asymptotique


d’une chaîne (Xt ) : supposons que Xt converge en loi vers une loi π. Comme la loi de Xt
est en fait µP t , on a µP t → π. En multipliant les deux membres par P , on a µP t P → πP
et d’autre part µP t P = µP t+1 → π. Donc on devrait avoir πP = π. Même si on n’a rien
justifié proprement, cette relation sera très utile.

17
2 Chaînes de Markov

Définition 2.2.4. On appelle π loi invariante pour une chaîne (Xt ) de transition P une
loi vérifiant
πP = π.

Proposition 2.2.4. Si (Xt ) est une chaîne de transition P et de loi initiale π invariante
par P alors, pour tout t ∈ N, Xt ∼ π.

Démonstration. On sait déjà que Xt ∼ πP t et par invariance, π = πP = πP 2 = ...

Par la suite, on justifiera proprement que si (Xt ) converge en loi, c’est vers une loi
invariante. En revanche, il se peut très bien que (Xt ) ne converge pas en loi. De même,
l’existence d’une loi invariante ne garantit pas que (Xt ) converge en loi vers cette loi
invariante (car il peut y avoir plusieurs lois invariantes).

Exemple 2.2.2. Revenons à l’Exemple 2.2.1, cherchons toutes les lois invariantes de P
avec  
p 1−p
P =
1−q q
où (p, q) ∈ [0, 1]2 . On écrit le système πP = π, si π = (π1 π2 ) ça donne :
 
p 1−p
(π1 π2 ) = (π1 π2 )
1−q q

soit : 
pπ1 + (1 − q)π2 = π1
(1 − p)π2 + qπ2 = π2 .
On remarque tout de suite que les deux équations de ce système sont liées : elles sont
équivalentes à
(1 − p)π1 = (1 − q)π2 .
C’est TOUJOURS le cas qu’il y a au moins une équation redondante dans le système
πP = π. Mais il ne faut pas oublier qu’on a une équation supplémentaire : π est une
probabilité, donc π1 + π2 = 1. On cherche donc à résoudre :

(1 − p)π1 = (1 − q)π2
π1 + π2 = 1.

Noter que si (p, q) ̸= (1, 1) alors il y a toujours une solution unique. En effet, le système
peut se réécrire
 1−q
π1 = 1−p π2
π1 + π2 = 1.
et donc en injectant la première équation dans la deuxième,
 
1−q
+ 1 π2 = 1
1−p

18
2.3 Propriété de Markov forte

soit
(2 − p − q)π2 = 1 − p
1−p 1−q
soit π2 = 2−p−q et la première équation du système donne π1 = 2−p−q donc la solution
unique est  
1−q 1−p
π= , .
2−p−q 2−p−q
En revanche, dans le cas p = q = 1, la première équation donne 0 = 0... et on vérifie que
l’ensemble des solutions est donné par

π ∈ {(α, 1 − α), α ∈ [0, 1]} .

On a donc deux cas différents : dans un cas, il y a une loi invariante unique ; dans l’autre
cas, il y a une infinité de lois invariantes.

2.3 Propriété de Markov forte


De la définition d’une chaîne de Markov, on peut aisément déduire des propriétés
d’indépendance conditionnelle des variables Xt . Par exemple :

P(Xt+2 = xt+2 , Xt+1 = xt+1 |X0 = x0 , . . . , Xt = xt ) = P (xt , xt+1 )P (xt+1 , xt+2 )

et donc la loi du bloc (Xt+1 , Xt+2 ) ne dépend pas du passé Xt−1 , . . . , X0 conditionnelle-
ment au présent Xt . C’est vrai aussi bien sûr pour un bloc plus grand (Xt+1 , . . . , Xt+k ),
et pour les marginales correspondantes : Xt+k est indépendante de Xt−l sachant Xt , pour
k, l ≥ 1. Par ailleurs, la loi de Xt+k sachant Xt = x est la même que celle que de (Xk )
sachant X0 = x.
Ce que nous venons d’énoncer est la version la plus basique de la propriété de Markov.
Elle ne peut s’appliquer à des événements concernant la trajectoire complète de la chaîne :
par exemple la probabilité de revisiter un état x dans le futur, sachant Xt = x. On
admettra les propriétés suivantes, dites de Markov forte.
Proposition 2.3.1. Soit (Xt ) une chaîne de Markov (de loi initiale µ) et φ : E ∞ → R,
mesurable, positive ou bornée, alors :

Eµ [φ((Xt+k )t≥0 )|Xk = x] = Ex [φ ((Xt )t≥0 )]

où Eµ est l’espérance sous la loi de (Xt ), et Ex := Eδx est l’espérance sous la même loi,
mais avec loi initiale δx .
En appliquant ce résultat à une fonction indicatrice, on obtient :

Pµ ((Xt+n )n≥0 ∈ A|Xt = x) = Px ((Xn )n≥0 ∈ A)


où A appartient à une tribu sur l’espace des trajectoires, E ∞ . (Grosso modo, le même
type d’espace que celui auquel s’applique le p.s. dans la loi forte des grands nombres.)

19
2 Chaînes de Markov

La vraie propriété de Markov forte est encore un peu plus générale, et permet de
conditionner à un temps aléatoire, à condition que ce temps aléatoire soit un certain type
de variable aléatoire dit temps d’arrêt.

Définition 2.3.1. On appelle temps d’arrêt par rapport à une filtration (Ft ) (rappel :
Ft = σ(X0 , . . . , Xt ) dans ce chapitre) une variable aléatoire τ à valeurs dans N ∪ +∞,
telle que {τ ≤ t} ∈ Ft pour tout t ≥ 0.

La notion de temps d’arrêt est assez technique, et sera vue plus en détail dans la
partie sur les martingales. Pour l’instant, je vous propose l’interprétation semi-formelle
suivante :
— un temps d’arrêt est une fonction déterministe de la trajectoire du processus (Xt ) ;
— telle que l’indicatrice 1{τ ≤ t} ne dépend que de (X0 , . . . , Xt ). En d’autres termes,
observer le processus jusqu’au temps t suffit à déterminer si τ ≤ t ou pas.
Et pour simplifier encore un peu plus les choses, gardez à l’esprit l’exemple suivant,
du temps d’atteinte :
τy = inf{t ≥ 0 : Xt = y} (2.1)

C’est bien un temps d’arrêt. Si la trajectoire du processus ne passe jamais par y, on a :


τy = +∞.
Enfin, définissons Fτ ≈ σ(X0 , . . . , Xτ ) ; cette tribu sera correctement définie dans le
chapitre suivant. Pour l’instant, comprendre que conditionner sur Fτ revient à condition-
ner par rapport à toute information que l’on peut tirer de l’observation de X0 , . . . , Xτ .
On supposera que {τ < ∞} est Fτ -mesurable. (Le vérifier à titre d’exercice quand vous
aurez lu la définition exacte de Fτ .)
On peut désormais énoncer la propriété de Markov forte.

Proposition 2.3.2. Sous les mêmes conditions que la proposition précédente, et pour τ
un temps d’arrêt (par rapport à Ft = σ(X0 , . . . , Xt )), on a :

Eµ [φ((Xτ +n )n≥0 )|Fτ ] 1{τ <+∞} = EXτ [φ ((Xt )t≥0 )] 1{τ <∞} .

Noter que si τ = +∞, la variable Xτ n’est pas clairement définie. C’est pour cela que
l’on a besoin des indicatrices (que l’on pourraient mettre à l’intérieur des espérances).
En fait, dans ce chapitre, on va souvent appliquer cette propriété au temps de retour
en x :
σx = inf{t ≥ 1 : Xt = x}

ce qui est presque la même chose qu’un temps d’atteinte (mais σx ≥ 1). Dans ce cas, la
propriété de Markov forte s’écrit comme suit :

Eµ [φ((Xt+σx )t≥0 )|Fτ ] = Ex [φ ((Xt )t≥0 )] (2.2)

si σx < ∞ p.s. (ou alors rajouter une indicatrice des deux côtés). Noter que le terme de
droite n’est pas aléatoire.

20
2.4 Classes d’états

2.4 Classes d’états


Dans toute cette section, on considère une matrice de transition P sur E.
Définition 2.4.1. Soient (i, j) ∈ E 2 . On dit que i mène à j, et on note i ⇝ j, si il
existe n ∈ N tel que P n (i, j) > 0.
Autrement dit, il y a une probabilité non nulle de passer de i à j en n étapes. Bien noter
que dans le cas n = 0, P n est la matrice identité, pour laquelle P 0 (i, i) = 1, autrement
dit, par convention, on considère toujours que i ⇝ i.
Définition 2.4.2. On dit que i et j communiquent, et on note i ↭ j, si i ⇝ j et j ⇝ i.
Proposition 2.4.1. La relation ↭ est une relation d’équivalence sur E.
Démonstration. Il faut prouver la transitivité, la réflexivité et la symétrie. Or la symé-
trie est évidente à partir de la définition de ↭ et la réflexivité est conséquence de la
convention i ⇝ i.
Reste la transitivité, assez évidente, mais elle utilise une technique de preuve très
classique que l’on réutilisera souvent. Si i ⇝ j, il existe n tel que P n (i, j) > 0. Si de plus
j ⇝ k, il existe m tel que P m (j, k) > 0. Mais alors
X
P n+m (i, k) = P n (i, ℓ)P m (ℓ, k) ≥ P n (i, j)P m (j, k) > 0
ℓ∈E

Définition 2.4.3. Les classes d’équivalences pour la relation ↭ sont appelées “classes
de communication” de P , et par extension, on les appelle également classes de communi-
cation de toutes chaîne de Markov (Xn ) ayant P pour matrice de transition.
On omet souvent le terme communication, on parle alors des classes d’états ou sim-
plement des classes de (Xn ) et de P .
Exemple 2.4.1. On revient à l’exemple à deux états.

Si p < 1 alors 1 ⇝ 2. Si q < 1 alors 2 ⇝ 1. On a donc : soit p < 1 et q < 1 et alors


1 ↭ 2, il y a une seule classe d’équivalence {1, 2} ; soit p = 1 ou q = 1 et alors il y a
deux classes d’équivalence, {1} et {2}.
Dans l’exemple précédent, si p = 1, alors lorsque la chaîne entre dans l’état 1, elle
ne peut plus jamais en sortir, car P (1, 1) = 1. C’est une situation que l’on rencontre
fréquemment en modélisation, par exemple en épidémiologie où les états pour un individu
peuvent être E = {sain, infecté, mort} : on ne sort pas de l’état “mort”. Un tel état
constitue nécessairement une classe à lui tout seul.

21
2 Chaînes de Markov

Définition 2.4.4. Si un état i vérifie P (i, i) = 1 on dit que c’est un “état absorbant”.
A l’inverse, dans l’exemple ci-dessus, si p < 1 et q < 1 alors on a vu qu’il n’y a qu’une
seule classe d’états : {1, 2}. Les chaînes de Markov avec une seule classe sont plus simples
à étudier asymptotiquement.
Définition 2.4.5. Soit (Xn ) une chaîne de Markov avec une seule classe d’états. On dit
que la chaîne (Xn ) est irréductible.

2.5 Opérateur potentiel et nature des classes d’états


Dans toute cette section, (Xn ) est une chaîne de Markov de matrice de transition P
et de loi initiale µ.
Définition 2.5.1. On définit l’opérateur potentiel :
X
U= P k.
k∈N

Bien noter que pour (i, j) ∈ E 2 ,


X
U (i, j) = P k (i, j) ∈ [0, ∞].
k∈N

Énormément des propriétés liées à la communication et aux classes d’états peuvent se


lire sur l’opérateur U . Par exemple, il est évident que

U (i, j) > 0 ⇔ ∃k : P k (i, j) > 0 ⇔ i ⇝ j.

On va maintenant, à l’aide de U , faire une étude plus fine des classes.


Définition 2.5.2. Soit A ∈ F, on définit NA le nombre de passages en A :
X
NA = 1{Xn ∈A} .
n∈N

Lorsque A = {i} a un seul élément, on note souvent Ni au lieu de N{i} :


X
Ni = 1{Xn =i} .
n∈N

Proposition 2.5.1. Pour tout (x, y) ∈ E 2 ,

U (x, y) = Ex (Ny ).

Démonstration. Fixons x et y,
∞ ∞ ∞
!
X X X
Ex (Ny ) = Ex 1{Xn =y} = Px (Xn = y) = P n (x, y) = U (x, y)
n=0 n=0 n=0

22
2.5 Opérateur potentiel et nature des classes d’états

Définition 2.5.3. Un état x est dit


— récurrent si Px (Nx = ∞) = 1 ;
— transient si Px (Nx < ∞) = 1.
On pourrait se poser la question de l’existence d’un cas intermédiaire : est-ce qu’il peut
exister par exemple un état tel que Px (Nx = ∞) = Px (Nx < ∞) = 1/2 ? On va voir dans
le prochain théorème que la réponse est non : tout état est soit récurrent, soit transient.
Théorème 2.5.2. Pour tout x ∈ E,
U (x, x) = ∞ ⇔ x récurrent ⇔ Px (σx < ∞) = 1,
U (x, x) < ∞ ⇔ x transient ⇔ Px (σx < ∞) < 1,
où σx est le temps de retour en x (défini en 2.2).
Démonstration. On introduit les temps d’arrêt σxn , n ≥ 1, par la relation de récurrence
σxn+1 = inf{t > σxn : Xt = x}
que l’on initialise avec σx1 = σx . On commence par démontrer la relation
Px (σxn < ∞) = [Px (σx < ∞)]n (2.3)
qui nous permettra de conclure assez rapidement.
On écrit pour ce faire : σxn = σxn−1 + (σxn − σxn−1 ), où le deuxième terme est le temps
de premier retour en x, pour la trajectoire translatée (Xt+σxn−1 )t≥0 . Posons τ := σxn−1
pour rendre les équations plus lisibles :
Px (σxn < ∞) = Px (τ < ∞, σxn − σxn−1 < ∞)
= Ex [1{τ < ∞}1{σx ((Xt+τ )t≥0 ) < ∞}]
= Ex [E [1{τ < ∞}1{σx ((Xt+τ )t≥0 ) < ∞}|Fτ ]] double espérance
= Ex [1{τ < ∞}E[1{σx ((Xt+τ )t≥0 ) < ∞}]] Markov forte
= Px (τ < ∞)Px (σx < ∞).
Supposons dans un premier temps que Px (σx < ∞) = 1. Alors d’après (2.3), pour tout
n, Px (σxn < ∞) = 1. Donc
X
Nx = 1{X0 =x} + 1{σxn <∞} = ∞ p.s
n≥1

et finalement Ex (Nx ) = U (x, x) = ∞.


Supposons maintenant que Px (σx < ∞) < 1, alors
X
U (x, x) = Ex (Nx ) = 1 + Px (σxn < ∞)
n≥1
X 1
= [Px (σx < ∞)]n = <∞
1 − Px (σx < ∞)
n≥0

et comme Ex (Nx ) = U (x, x) < ∞ on a nécessairement Nx < ∞ p.s.

23
2 Chaînes de Markov

Théorème 2.5.3. Si x ↭ y alors x et y sont de même nature (soit tous les deux
récurrents, soit tous les deux transients).

Avant de prouver le théorème, bien noter que son énoncé implique que la récurrence
et la transience sont en fait des propriétés de classe : une classe contient soit unique-
ment des états récurrents, soit uniquement des états transients. Du coup, on introduit la
terminologie naturelle suivante.

Définition 2.5.4. Si les états d’une classe sont récurrents, on dit que la classe est ré-
currente. Si les états d’une classe sont transients, on dit que la classe est transiente.
Si une chaîne est irréductible et que son unique classe d’états est récurrente, on dit
que la chaîne est récurrente. Si l’unique classe est transiente, on dit que la chaîne est
transiente.

La preuve du théorème utilise un lemme.

Lemme 2.5.4. Pour tout (x, y) ∈ E 2 , U (x, y) ≤ U (y, y).

Preuve du Lemme 2.5.4. Pour cette preuve, on utilise le temps d’arrêt sy = inf{n ≥ 0 :
Xn = y} :

U (x, y) = Ex (Ny )

= Ex 1{sy < ∞}Ny ((Xt+sy )t≥0 )
 
= Ex 1{sy < ∞}Ex Ny ((Xt+sy )t≥0 ) Fsy dble espérance, {sy < ∞} ∈ Fsy
= Ex [1{sy < ∞}Ey (Ny )] Markov forte
= Px (σy < ∞)U (y, y)
≤ U (y, y).

Preuve du Théorème 2.5.3. Soit x récurrent et y tel que x ↭ y. Alors en particulier, il


existe n tel que P n (x, y) > 0. Alors on commence par utiliser le Lemme 2.5.4,
X X
U (y, y) ≥ U (x, y) = P k (x, y) ≥ P k+n (x, y)
k≥0 k≥0
X
≥ P k (x, x)P n (x, y) = U (x, x) P n (x, y) = ∞
| {z } | {z }
k≥0 =∞ >0

et donc y est récurrent.

On finit par quelques exemples qui vont permettre de mieux comprendre ces notions.

Proposition 2.5.5. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente.

Démonstration. Si elle était transiente, p.s, chaque état ne serait visité qu’un nombre
fini de fois. Or, il existe au moins un état visité une infinité de fois.

24
2.5 Opérateur potentiel et nature des classes d’états

Proposition 2.5.6. Sur un espace E dénombrable, non fini, il existe des chaînes irré-
ductibles récurrentes, et des chaînes irréductibles transientes.

Démonstration. On va construire un exemple avec E = Z (on peut l’étendre à tout autre


ensemble E infini dénombrable via une bijection avec Z). On définit la marche aléatoire
sur Z comme la chaîne de Markov dont la matrice de transition est donnée par :

P (i, i − 1) = 1 − p et P (i, i + 1) = p

pour un p ∈]0, 1[ fixé. Vérifier que si p = 1 ou p = 0 la chaîne n’est plus irréductible ; on


élimine ces cas. En revanche, si p ∈]0, 1[, pour tout i, i ⇝ i + 1 ⇝ i et donc la chaîne
est irréductible. On va vérifier que si p ̸= 1/2 la chaîne est irréductible transiente, et si
p = 1/2 elle est irréductible récurrente.
Commençons par le cas p = 1/2 (on parle dans ce cas de marche aléatoire symétrique
sur Z). Dans ce cas on peut calculer explicitement P n (0, 0). En fait, pour n impair,
n = 2k + 1, on a évidemment P n (0, 0) = 0. En revanche, si n pair, P n (0, 0) > 0. En fait,
il y a 22k possibles chemins de longueur 2k, et parmi ceux-ci, mènent de 0 à 0 uniquement
les chemins comportant autant de déplacements vers la gauche que de déplacements vers
2k

la droite. Le nombre de ces chemins est k (il faut choisir exactement k déplacements
vers la gauche parmi 2k déplacements). Donc :
 
2k 1 2k (2k)!
P (0, 0) = 2k = .
2 k (k!)2 22k

En utilisant la formule de Stirling, que l’on rappelle :


 m m √
m! ∼m→∞ 2πm
e
on obtient :
1
P 2k (0, 0) ∼k→∞ √ .
πk
√ P 2k
P (0, 0) = n P n (0, 0) diverge également,
P P
Comme la série k 1/ k diverge, la série
donc U (0, 0) = ∞, et la chaîne est récurrente.
Traitons maintenant le cas p ̸= 1/2 - on va en fait supposer p > 1/2, le cas p < 1/2
étant symétrique. Posons, pour tout n, εn = Xn − Xn−1 . Alors, si X0 = 0,
n
X
Xn = εi .
i=1

On vérifie que les εi sont indépendants. En effet, soit i < j, on a (pour f et g mesurables,
positives),

E0 (f (εj )g(εi )) = E0 (f (Xj − Xj−1 )g(Xi − Xi−1 ))


= E0 [E0 (f (Xj − Xj−1 )g(Xi − Xi−1 )|Fj−1 )]
= E0 [E0 (f (Xj − Xj−1 )|Fj−1 ) g(Xi − Xi−1 )]

25
2 Chaînes de Markov

= E0 [(pf (1) + (1 − p)f (−1)) g(Xi − Xi−1 )]


= (pf (1) + (1 − p)f (−1)) (pg(1) + (1 − p)g(−1))
= E0 (f (εj ))E0 (g(εi )).

Du coup, par la loi des grands nombres,


n
Xn 1X p.s
= εi −−−→ E0 (ε1 ) = p × 1 + (1 − p) × (−1) = 2p − 1 > 0
n n n→∞
i=1

car p > 1/2. Ceci prouve que


p.s
Xn −−−→ ∞
n→∞

et donc que (Xn ) ne passera presque sûrement qu’un nombre fini de fois par 0 : la chaîne
est donc transiente.

On peut se poser la question de la généralisation dans Zd . Pour information, on donne


le résultat suivant. On ne le prouvera pas car la preuve est un peu technique, on renvoie
le lecteur vers les références. (Mais de toutes façons ce théorème ne sera pas utilisé dans
la suite de ce cours).

Théorème 2.5.7 (Théorème de Polya). Soit (Xn ) la marche aléatoire symétrique dans
Zd , c’est-à-dire une chaîne de Markov de matrice de transition donnée par

P ((i1 , i2 . . . , id ), (i1 + 1, i2 , . . . , id )) = P ((i1 , i2 . . . , id ), (i1 − 1, i2 , . . . , id ))


= P ((i1 , i2 . . . , id ), (i1 , i2 + 1, . . . , id ))
= P ((i1 , i2 . . . , id ), (i1 , i2 − 1, . . . , id ))
= ...
= P ((i1 , i2 . . . , id ), (i1 , i2 , . . . , id + 1))
= P ((i1 , i2 . . . , id ), (i1 , i2 , . . . , id − 1))
1
=
2d
pour tout (i1 , . . . , id ) ∈ Zd . Alors (Xn ) est irréductible récurrente si d = 1 ou d = 2, elle
est irréductible transiente si d ≥ 3.

La preuve pour le cas particulier d = 2 reste cependant faisable “à la main”, à essayer !

2.6 Théorèmes ergodiques


On garde toutes les notations de la section précédente.

Théorème 2.6.1. Soit (Xn ) une chaîne irréductible récurrente. Alors :


— (Xn ) possède au moins une mesure invariante µ (qui n’est pas forcément une pro-
babilité), unique (à une constante près), et pour tout x ∈ E, on a 0 < µ(x) < ∞.

26
2.6 Théorèmes ergodiques

— la mesure invariante µx définie par la contrainte de normalisation µx (x) = 1 est


donnée par :
x −1
σX
!
∀y ∈ E, µx (y) = Ex 1y (Xk ) .
k=0

Avant de donner la preuve, on discute les conséquences (importantes) de ce résultat.

Proposition 2.6.2. Pour tout x ∈ E, µx (E) = Ex (σx ).

Démonstration. On a
x −1
σX
!
X X
µx (E) = µx (y) = Ex 1y (Xk )
y∈E y∈E k=0
 
x −1 X
σX x −1
σX
!
= Ex  1y (Xk ) = Ex 1 = Ex (σx ).
k=0 y∈E k=0

Supposons µx (E) < ∞. Alors en définissant π par π(y) = µµxx(E) (y)


, π est d’après le
Théorème 2.6.1 une probabilité invariante pour (Xn ) et elle est unique. En revanche, si
µx (E) = ∞ alors (Xn ) n’admet pas de probabilité invariante.

Définition 2.6.1. Soit (Xn ) une chaîne irréductible récurrente. Alors :


— soit µx (E) = Ex (σx ) < ∞ pour tout x, ce qui implique que (Xn ) admet une unique
probabilité invariante. On dit que (Xn ) est une chaîne récurrente positive.
— soit µx (E) = Ex (σx ) = ∞ pour tout x, ce qui implique que (Xn ) admet une unique
mesure invariante qui ne peut pas se renormaliser en mesure de probabilité. On dit
que (Xn ) est une chaîne récurrente nulle.

On donne quelques exemples : on va voir que toute chaîne irréductible sur E fini est
récurrente positive (on l’énonce comme une proposition), et on donne un exemple de
chaîne irréductible récurrente nulle.

Proposition 2.6.3. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente
positive.

Démonstration. On a X
µx (E) = µx (y) < ∞. □
| {z }
y∈E <∞

Exemple 2.6.1. On a déjà vu dans la preuve de la Proposition 2.5.6 que la marche


aléatoire symétrique sur Z est irréductible récurrente. Il est immédiat que la mesure de
comptage, µ(z) = 1, est invariante. Or elle ne peut pas être normalisée en probabilité.
Donc cette chaîne est récurrente nulle.

27
2 Chaînes de Markov

Un dernier petit résultat utile avant de passer à la preuve du théorème.

Proposition 2.6.4. Supposons que (Xn ) soit une chaîne irréductible admettant une
probabilité invariante. Alors elle est récurrente positive.

Démonstration. Soit π la loi invariante : π = πP = · · · = πP n . Autrement dit, pour tout


x: X
π(x) = π(y)P n (y, x). (2.4)
y∈E

P soit transiente. Alors pour tout (x, y) ; U (x, y) ≤ U (y, y) < ∞


Supposons que la chaîne
et comme U (x, y) = n≥0 P n (x, y) on a nécessairement P n (x, y) → 0 quand n → ∞.
De plus P n (x, y) ≤ 1. Donc on peut appliquer le TCD au membre de droite dans (2.4)
et on obtient
X X
π(x) = lim π(y)P n (y, x) = π(y) lim P n (y, x) = 0.
n→∞ n→∞
y∈E y∈E

Donc pour tout x, π(x) = 0, ce qui est en contradiction avec le fait que π est une mesure
de probabilité. Donc la chaîne ne peut pas être transiente, elle est donc récurrente.

Passons maintenant à la preuve du théorème.


Preuve du Théorème 2.6.1. On fixe une fois pour toutes x ∈ E. On procède en
trois étapes :
1. on va démontrer que la mesure µx définie par

x −1
σX
!
∀y ∈ E, µx (y) = Ex 1y (Xk )
k=0

est bien une mesure invariante.


2. ensuite, on vérifie que pour tout y, 0 < µx (y) < ∞.
3. enfin, on vérifie l’unicité (à un facteur multiplicatif près).
Etape 1. On va montrer que pour toute fonction f : E → R+ on a µx P f = µx f . En
effet :

µx P f = µx (P f )
X
= µx (y)P f (y)
y∈E
x −1
σX
!
X
= Ex 1y (Xk ) P f (y)
y∈E k=0
 
x −1 X
σX
= Ex  1y (Xk )P f (y)
k=0 y∈E

28
2.6 Théorèmes ergodiques

x −1
σX
!
= Ex P f (Xk )
k=0

!
X
= Ex 1{k<σx } E[f (Xk+1 )|Xk )] par définition de P f
k=0

X 
= Ex 1{k<σx } f (Xk+1 ) Fubini, double espérance, {k < σx } est Fk mesurable
k=0
σx
!
X
= Ex f (Xk )
k=1
x −1
σX
!
= Ex f (Xk ) car Xk = X0 = x sachant σx = k
k=0

Etape 2. On fixe y ∈ E. Dans un premier temps, montrons que µx (y) < ∞. En effet, la
chaîne étant irréductible, il existe n tel que P n (y, x) > 0 et alors
X
1 = µx (x) = µx P n (x) = µx (z)P n (z, x) ≥ µx (y)P n (y, x)
z∈E

et donc µx (y) < ∞.


De la même façon, montrons que µx (y) > 0. En effet il existe m tel que P m (y, x) > 0
et alors
X
0 < P m (x, y) = µx (x)P m (x, y) ≤ µx (z)P m (z, y) = µx P m (y) = µx (y).
z

Etape 3. On montre maintenant l’unicité. Pour ceci, on introduit de nouvelles notations.


On définit une nouvelle matrice de transition P ′ par

µx (z)
P ′ (y, z) = P (z, y).
µx (y)

C’est bien une matrice de transition, car P ′ (y, z) ≥ 0 et


P
X
′ µx (z)P (z, y) µx P (y) µx (y)
P (y, z) = z∈E = = = 1.
µx (y) µx (y) µx (y)
z∈E

Soit (Yn ) une chaîne de Markov de transition P ′ . Montrons que, comme (Xn ), (Yn ) est
irréductible récurrente. En effet :
X X µx (t) µx (z)
P ′2 (y, z) = P ′ (y, t)P ′ (t, z) = P (t, y) P (z, t)
t t
µx (y) µx (t)
µx (z) X µx (z) 2
= P (z, t)P (t, y) = P (z, y).
µx (y) t µx (y)

29
2 Chaînes de Markov

Par récurrence, on montre que pour tout n,

µx (z) n
P ′n (y, z) = P (z, y).
µx (y)

Donc :
X µx (z) X n µx (z)
U ′ (y, z) = P ′n (y, z) = P (z, y) = U (z, y).
n
µx (y) n µx (y)

En particulier, U ′ (y, z) > 0 ⇔ U (z, y) > 0, ce qui montre que si (Xn ) étant irréductible,
alors (Yn ) l’est aussi. De plus, U ′ (y, z) = ∞ ⇔ U (z, y) = ∞, ce qui prouve que (Xn )
étant récurrente, (Yn ) aussi.
Cette partie de la preuve repose sur la théorie des martingales, vue dans la prochaine
section. Vous pouvez l’ignorer pour l’instant ; voir aussi la remarque 2.6.1 pour une dé-
monstration directe dans le cas récurent positif.
On va montrer que pour toute fonction f ≥ 0, si P ′ f (z) = f (z) pour tout z, alors f
est constante. Posons Zn = f (Yn ) et Gn = σ(Y0 , . . . , Yn ). Alors

E(Zn+1 |Gn ) = E(f (Yn+1 )|Y0 , . . . , Yn )


= E(f (Yn+1 )|Yn ) (Markov)
= P ′ f (Yn )
= f (Yn ) par hypothèse sur f
= Zn .

On a donc montré que (Zn ) est une martingale pour (Gn ). Comme f est positive,
(Zn ) est une martingale positive, donc en particulier une sur-martingale positive. Donc,
d’après le Lemme 3.9.2 du chapitre sur les martingales, (Zn ) converge p.s vers une variable
p.s
aléatoire Z∞ . Donc : f (Yn ) −−→ Z∞ . Soient y ̸= y ′ . Comme (Yn ) est récurrente, il existe
une infinités de n tels que Yn = y et une infinités de m tels que Ym = y ′ . Ceci prouve
p.s p.s
que f (y) −−→ Z∞ et f (y ′ ) −−→ Z∞ , or comme f (y) et f (y ′ ) ne dépendent pas de n, ceci
montre forcément que f est une fonction constante (et que Z∞ est une variable aléatoire
constante).
On est maintenant en position de démontrer l’unicité. Soit λ une mesure invariante de
(Xn ), le but est de montrer que λ et µx sont proportionnelles. Posons f (y) = λ(y)/µx (y),
on a
X λ(z)
P ′ f (y) = P ′ (y, z)
z
µx (z)
X µx (z) λ(z)
= P (z, y) par def. de P ′
z
µx (y) µx (z)
1 X
= λ(z)P (z, y)
µx (y) z
1
= λP (y)
µx (y)

30
2.6 Théorèmes ergodiques

λ(y)
= par hypothèse sur λ
µx (y)
= f (y).

Donc f vérifie P ′ f (y) = f (y) pour tout y, donc f est constante, ce qui signifie bien que
λ et µx sont proportionnelles. □
On énonce maintenant trois théorèmes, souvent appelés théorèmes ergodiques, qui sont
l’analogue de la loi forte des grands nombres et du théorème central limite pour les chaînes
de Markov. On démontrera les lois des grands nombres, mais le TCL sera admis...

Théorème 2.6.5. Soit (Xn ) une chaîne de Markov irréductible récurrente positive de loi
invariante
R π, de transition P et de loi initiale µ. Alors, pour toute fonction f telle que
|f |dπ < ∞ on a
n Z
1X Pµ −p.s
f (Xi ) −−−−→ f dπ.
n n→∞
i=1

Noter qu’on peut utiliser différentes notations :


Z Z X
π(f ) = f dπ = f (x)π(dx) = f (x)π(x) = EX∼π [f (X)] = . . .
E x∈E

On a en particulier :
n
1X p.s
1{x} (Xi ) −−−→ π(x),
n n→∞
i=1

la proportion de temps passé en x est asymptotiquement π(x).

Théorème 2.6.6. Soit (Xn ) une chaîne de MarkovR irréductible récurrence positive de
loi invariante π. Soit f une fonction telle que |f |dπ < ∞ et
(σ  2 )
Xx Z
∃x, s2 (x) := Ex f (Xi ) − f dπ < ∞.
i=1

Alors σ 2 = s2 (x)π(x) ne dépend en fait pas de x et on a


" n #

Z
1X loi
n f (Xi ) − f dπ −−−→ N (0, σ 2 ).
n n→∞
i=1

(C’est ce théorème qui sera admis).

Théorème 2.6.7. Soit (Xn ) une chaîne de Markov irréductible récurrente nulle. Alors,
pour tout x ∈ E,
n
1X p.s
1{x} (Xi ) −−−→ 0,
n n→∞
i=1

31
2 Chaînes de Markov

Ceci donne une autre interprétation des différences entre chaînes (irréductibles) tran-
sientes, récurrentes nulles et récurrentes positives : dans une chaîne transiente, chaque
état est visité un nombre fini de fois. Dans une chaîne récurrente nulle, chaque état est
visité un nombre infini de fois, mais la proportion de temps passé dans l’état est asymp-
totiquement nul. Dans une chaîne récurrente positive, la proportion de temps passé dans
l’état x est asymptotiquement égale à π(x).
Preuve simultanée des Théorèmes 2.6.5 et 2.6.7. Soit une fonction g ≥ 0. Fixons x ∈ E.
On définit les sommes de blocs :
σx1 −1
X σxk+1
X−1
Z0 = g(Xh ), . . . , Zk = g(Xh ), . . .
h=0 h=σxk

Propriété de Markov forte : les variables Z1 , Z2 , . . . (mais pas nécessairement Z0 ) sont


IID, d’espérance µx (g).
On peut donc utiliser la loi des grands nombres sur les Zi :
n Z
1X p.s
Zi −−−→ gdµx ,
n n→∞
i=1

soit :
σxn n Z
1X Z0 1X g(x) p.s
g(Xi ) = + Zi + −−−→ gdµx .
n n n n n→∞
i=0 i=1

Pour m ≥ 0, on définit : ν(m) = m−1


P
k=0 1x (Xk ) ; c’est l’unique entier tel que

σxν(m) ≤ m < σxν(m)+1

Noter que
m
X
ν(m) ≤ 1{x} (Xk ) = ν(m) + 1{x} (X0 ) ≤ ν(m) + 1
k=0
et donc ν(m) → ∞ quand m → ∞. Mais alors
Pσxν(m) P xν(m)+1
ν(m) + 1 σk=0
Pm
ν(m) k=0 g(Xk ) k=0 g(Xk ) g(Xk )
≤ Pm ≤
ν(m) + 1 ν(m) k=0 1{x} (Xk ) ν(m) ν(m) + 1
| {z } | {z } | {z } | {z }
→1 →1
R R
→ f dµx → f dµx

ce qui montre le résultat intermédiaire :


Pm Z
k=0 g(Xk ) p.s
Pm −−−−→ gdµx . (2.5)
k=0 1{x} (Xk )
m→∞

On conclut d’abord la preuve du Théorème 2.6.5 : on commence par appliquer (2.5)


avec g = 1. On a :
Pm Z
1 m+1 p.s
Pm k=0 = Pm −−−−→ 1dµx = µx (E).
k=0 1{x} (Xk ) k=0 1{x} (Xk )
m→∞

32
2.6 Théorèmes ergodiques

On prend le ratio de cette équation et de (2.5) on obtient :


Pm R Z
k=0 g(Xk ) p.s gdµx
−−−−→ = gdπ
m+1 m→∞ µx (E)

quelle que soit la fonction g ≥ 0. On étend à une fonction f quelconque en la découpant


en partie positive et partie négative : f = f+ − f− et on applique le résultat précédent
successivement sur g = f+ ≥ 0 puis sur g = f− ≥ 0.
Maintenant : le Théorème 2.6.7. Dans ce cas, on prend F ⊂ E fini et on applique (2.5)
respectivement sur g = 1F . En prenant l’inverse de la relation obtenue :
Pm Pm
k=0 1{x} (Xk ) 1{x} (Xk ) p.s µx (x) 1
≤ Pk=0
m −−−−→ = .
m+1 k=0 1F (Xk )
m→∞ µx (F ) µx (F )
Comme µ(E) = ∞, on sait qu’on peut trouver F fini de façon à rendre µx (F ) arbitrai-
rement grand, ce qui permet de conclure. □
Remarque 2.6.1. On peut utiliser ce résultat pour démontrer l’unicité de la loi in-
variante (et ainsi éviter le recours aux martingales dans la preuve du Théorème 2.6.1,
du moins dans le cas récurrent positif ). Pour ce faire, considérer une “autre” loi in-
variante π ′ , et prendre π ′ comme loi initiale. Dans ce cas, Xt ∼ π ′ pour tout t, donc
T −1 Tt=1 g(Xt ) a pour espérance π ′ (g), or, par le TCD (prendre g borné, par ex. g = 1x ),
P
et le théorème précédent, on voit que l’espérance de cette quantité doit converger vers π(g).
On termine cette section en traitant complètement l’exemple de la marche aléatoire
sur N avec réflexion en 0.
Exemple 2.6.2. Transition P (0, 1) = 1 − P (0, 0) = p et ensuite P (i, i + 1) = 1 − P (i, i −
1) = p ∈]0, 1[ pour i > 0. La chaîne est irréductible.
(Pour p > 1/2, on adapte facilement l’argument utilisé pour la marche sur Z pour
montrer que la chaîne est transiente).
Cherchons une loi invariante. On note que le système πP = π conduit à l’équation
générique
(1 − p)πj+1 − πj + pπj−1 = 0,
une récurrence à deux pas, avec en plus π1 = π0 p/(1 − p).
Dans le cas p < 1/2, la solution générique est de la forme
 j
p
πj = α + β ,
1−p
l’équation sur π0 et π1 montre que α = 0 et
 j
p
πj = β
1−p
qui peut se normaliser en probabilité pour β bien choisir :
 j
1 − 2p p
πj = .
1−p 1−p

33
2 Chaînes de Markov

Donc la chaîne EST récurrente positive.


Dans le cas p = 1/2, la solution générique est de la forme

πj = α + βj,

l’équation sur π0 et π1 montre que β = 0 et donc

πj = α

(constante). Cette mesure ne peut pas être normalisée en probabilité. Donc la chaîne n’est
PAS récurrente positive.

2.7 Périodicité, convergence des lois marginales


Intuitivement, on s’attend à avoir, pour une chaîne (Xt ) irréductible récurrente positive
loi
de loi invariante π : Xt −→ π. En fait, ça n’est pas toujours le cas, comme le montre
l’exemple suivant.

Exemple 2.7.1. Soit une chaîne définie sur E = {1, ..., N }, N ≥ 2, telle que P (i, i+1) =
p, P (i, i − 1) = q, avec p + q = 1. De plus, P (N, 1) = p, et P (1, N ) = q. En d’autres
termes, on place les N états sur un ‘’cadran”, avec probabilité p de se déplacer d’un pas
dans le sens trigonométrique, q dans l’autre sens.
Il est facile de vérifier que cette chaîne de Markov admet pour loi invariante la loi
uniforme sur E (le faire à titre d’exercice). Donc la proportion de visites d’un état donné
tend vers 1/N (loi des grands nombres). Ce résultat reste vrai si on prend p = 0 ou
p = 1. En revanche, dans ces cas limites, la chaîne devient périodique (de période N ) :
si on prend par exemple X0 = 1 comme loi initiale, la loi de chaque variable Xt sera
tout simplement un Dirac dépendant du reste de la division euclidienne de t par N , i.e.
XkN +l = l + 1 pour 0 ≤ l ≤ N − 1.

On va voir dans cette section que si on élimine ces phénomènes de périodicité, alors
on peut prouver la convergence en loi.

Définition 2.7.1. On appelle la période d’un élément x ∈ E le nombre entier d(x) défini
par :
d(x) = PGCD(J(x))

J(x) = {n ∈ N : P n (x, x) > 0}.

Exemple 2.7.2. Dans l’Exemple 2.7.1, si on prend N = 2, on a J(1) = {0, 2, 4, 6, . . . }


et donc d(1) = 2. En revanche, si on prenait P (1, 2) = 1 mais P (2, 1) = 0.99 et P (2, 2) =
0.01 on voit que 2 ∈ J(1) et 3 ∈ J(1) donc nécessairement d(1) = 1.

Proposition 2.7.1. Si x ↭ y alors d(x) = d(y).

34
2.7 Périodicité, convergence des lois marginales

Démonstration. Comme x ⇝ y, il existe un n tel que P n (x, y) > 0. De même comme


y ⇝ x il existe m tel que P m (y, x) > 0. Donc P m+n (x, x) > 0, soit m + n ∈ J(x) et donc
m + n = kd(x) avec k ∈ N.
Soit ℓ ∈ J(y), alors

P m+n+ℓ (x, x) ≥ P n (x, y)P ℓ (y, y)P m (y, x) > 0

et donc m + n + ℓ ∈ J(x) et donc m + n + ℓ = hd(x). Donc ℓ = (m + n + ℓ) − (m +


n) = (k − h)d(x) et donc d(x) divise ℓ. Donc, d(x) divise tout élément de J(y) et donc
d(x) ≤ P GCD(J(y)) = d(y).
En refaisant la même preuve en échangeant les rôles de x et y on obtient d(y) ≤ d(x)
et donc d(x) = d(y).

Autrement dit, la période est une propriété de classe, et si la chaîne est irréductible,
tous les éléments ont même période.

Définition 2.7.2. Soit (Xt ) une chaîne irréductible. Elle est dite apériodique si d(x) = 1
pour un x ∈ E (et donc automatiquement pour tout x).

Exemple 2.7.3. La marche aléatoire sur Z est irréductible, et périodique de période 2 :


à chaque étape, (Xt ) alterne entre l’ensemble des nombres pairs et celui dans l’ensemble
des nombres impairs.

Théorème 2.7.2. Supposons que (Xt ) soit une chaîne irréductible récurrente positive de
loi invariante π. Si, de plus, (Xt ) est apériodique alors, quelle que soit la loi initiale µ,

∀x ∈ E, Pµ (Xt = x) −−−→ π(x).


n→∞

Définition 2.7.3. Lorsqu’une chaîne vérifie les conditions du Théorème 2.7.2 on dit
qu’elle est ergodique.

La preuve du théorème nécessite deux lemmes.

Lemme 2.7.3. Si (Xt ) est ergodique, ∀x ∈ E, ∃n(x), ∀n ≥ n(x), P n (x, x) > 0.

Démonstration. Soient n1 , . . . , nk tels que P ni (x, x) > 0 et

PGCD({n1 , . . . , nk }) = 1.

Alors le Théorème de Bézout implique qu’il existe (q1 , . . . , qk ) ∈ Zk tels que


k
X
1= qi n i .
i=1

En posant X X
a(x) = qi ni et b(x) = − qi n i
qi >0 qi ≤0

35
2 Chaînes de Markov

on a a(x) − b(x) = 1. Posons enfin n(x) = b(x)2 − 1.


Pour n ≥ n(x), en écrivant la division euclidienne de n par b(x) on a n = db(x) + r,
avec 0 ≤ r ≤ b(x) − 1. Comme n ≥ n(x) = b(x)2 − 1, d ≥ b(x) ≥ r. Donc :

n = db(x) + r[a(x) − b(x)]


= (d − r)b(x) + ra(x)
X X
= (d − r) (−qi )ni + r qi n i
qi ≤0 qi >0
k
X
= αi ni
i=1

où tous les αi sont ≥ 0. Donc

P n (x, x) ≥ P α1 n1 (x, x) . . . P αk nk (x, x) > 0.

Lemme 2.7.4. Soient (Xt1 ) et (Xt2 ) deux chaînes de Markov indépendantes, de même
matrice de transition P , irréductibles et apériodiques. Alors la chaîne produit (Yt ), définie
sur E 2 par Yt = (Xt1 , Xt2 ) l’est aussi. Si de plus (Xt1 ) et (Xt2 ) sont récurrentes positives
alors (Yt ) l’est aussi.

Démonstration. La matrice de transition Q de (Yt ) est donnée par

Q((x1 , x2 ), (x′1 , x′2 )) = P (x1 , x′1 )P (x2 , x′2 ).

Or il existe m1 et m2 tels que P m1 (x1 , x′1 ) > 0 et P m2 (x2 , x′2 ) > 0 (irréductibilité des
deux chaînes). On utilise le Lemme 2.7.3 et on prend n ≥ n(x′1 ) + n(x′2 ) + m1 + m2 .
Alors :

Qn ((x1 , x2 ), (x′1 , x′2 )) = P n (x1 , x′1 )P n (x2 , x′2 )


′ ′
≥ P m1 (x1 , x′1 )P n(x1 )+n(x2 )+m2 (x′1 , x′1 )
′ ′
× P m2 (x2 , x′2 )P n(x1 )+n(x2 )+m1 (x′2 , x′2 )
>0

et donc (Yt ) est irréductible. En refaisant le même calcul avec t + 1 à la place de t on


obtient également que (Yt ) est apériodique.
Enfin, si P est la matrice de transition de chaînes récurrentes positives, elle admet une
unique loi invariante π, et on vérifie directement que π ⊗ π est invariante pour Q.

On peut maintenant démontrer le théorème. La preuve utilise une technique dite de


« couplage » de deux chaînes, qui est une technique récurrente pour démontrer des pro-
priétés des chaînes de Markov.

36
2.8 Réversibilité, algorithme de Metropolis-Hastings

Démonstration du Théorème 2.7.2. Soient (Xt1 ) et (Xt2 ) deux chaînes de Markov indé-
pendantes, de même matrice de transition P que (Xt ), et donc irréductibles et apério-
diques, récurrentes, positives. Alors d’après le Lemme 2.7.4 la chaîne produit (Yt ), définie
sur E 2 par Yt = (Xt1 , Xt2 ) l’est aussi. On pose

τ = inf t ≥ 0 : Xt1 = Xt2




qui est le temps d’atteinte de la « diagonale », i.e. l’ensemble {(x, x) : x ∈ E}.


En utilisant la propriété forte de Markov comme dans la preuve du Théorème 2.6.5,
on obtient que pour tout t ≥ τ , Xt1 et Xt2 ont la même distribution. Alors :

P(Xt1 = x) = P(Xt1 = x, τ > t) + P(Xt1 = x, τ ≤ t)


= P(Xt1 = x, τ > t) + P(Xt2 = x, τ ≤ t)
≤ P(τ > t) + P(Xt2 = x)

et donc
P(Xt1 = x) − P(Xt2 = x) ≤ P(τ > t).

En intervertissant les rôles de (Xt1 ) et (Xt2 ) on obtient

P(Xt1 = x) − P(Xt2 = x) ≤ P(τ > t).

En particulier, si on prend la loi initiale de X01 étant µ et celle de X02 étant π, on a

Pµ (Xt1 = x) − π(x) ≤ P(τ > t).

Or la chaîne (Yt ) est récurrente positive donc τ est fini p.s et donc P(τ > t) → 0 quand
t → ∞.

2.8 Réversibilité, algorithme de Metropolis-Hastings


Pour l’instant, on s’est donné une chaîne de Markov, et on s’est demandé si elle ad-
mettait une loi invariante, et, si oui, laquelle. On peut tourner le problème dans l’autre
sens : soit une loi π, est-il possible de construire une matrice de transition P telle que
πP = π ?
On définit d’abord une propriété utile pour la suite.

Définition 2.8.1. Soit P une matrice de transition et π une loi de probabilité. On dit
que P est π−réversible si, pour tout (i, j) ∈ E 2 , on a

π(i)P (i, j) = π(j)P (j, i).

Proposition 2.8.1. Cela implique que π est la loi invariante de P .

37
2 Chaînes de Markov

Démonstration. On montre que πP = π composante par composante. Pour tout j ∈ E,


X
πP (j) = π(i)P (i, j)
i∈E
X
= π(j)P (j, i) (réversibilité)
i∈E
X
= π(j) P (j, i)
i∈E
= π(j).

Remarque 2.8.1. Dans cette section, l’intérêt principal de la notion de réversibilité


est d’établir simplement qu’une chaîne est π−invariante. Mais cette notion a d’autres
applications. Par exemple, elle permet d’inverser le temps : si (Xt ) est réversible, et si
X0 ∼ π, alors le processus Yt = XT −t , défini pour 0 ≤ t ≤ T , est une chaîne de Markov
homogène.

L’algorithme dit de Metropolis-Hastings est basé sur l’idée suivante : soit Q une matrice
de transition sans lien évident avec π, mais qui est « facile à simuler » ; i.e., pour un
i ∈ E fixé, il est facile de simuler selon la loi Q(i, ·). (On donnera des exemples concrets
ci-dessous.) A chaque étape t, on va simuler selon Q, puis accepter la valeur simulée avec
une certaine probabilité (qui dépend de π) ; si la valeur n’est pas acceptée, on ne bouge
pas (donc Xt = Xt−1 ).

Définition 2.8.2 (Algorithme de Metropolis-Hastings). Soit E un espace d’états discret,


et Q une matrice de transition telle que, pour tout x ∈ E, on sait simuler une variable
aléatoire de loi Q(x, ·). Soit X0 fixé. Sachant Xt−1 = xt−1 , t ≥ 1,
1. on tire Zt ∼ Q(xt−1 , ·) (indépendamment de toutes les variables simulées jusqu’ici) ;
2. on tire Ut ∼ U([0, 1]) (idem) ;
3. on définit :  
Zt si Ut ≤ α(Xt−1 , Zt )
Xt =
Xt−1 sinon
où  
π(z)Q(z, x)
α(x, z) := min 1, .
π(x)Q(x, z)
Théorème 2.8.2. Le processus (Xt ) (défini par l’algorithme ci-dessus) est une chaîne
de Markov dont la transition P est π−réversible (et donc π−invariante).

Démonstration. On considère d’abord x, y ∈ E tels que x ̸= y. Alors


 
π(y)Q(y, x)
π(x)P (x, y) = π(x)Q(x, y) min 1,
π(x)Q(x, y)
= min (π(x)Q(x, y), π(y)Q(y, x))

38
2.8 Réversibilité, algorithme de Metropolis-Hastings

qui est clairement symétrique en x, y.


Par ailleurs, pour y = x, l’identité π(x)Q(x, y) = π(y)Q(y, x) est triviale. Mais, pour
la forme, on donne quand même l’expression correspondante :
 
  
 X π(z)Q(z, x) 
π(x)P (x, x) = π(x) Q(x, x) + Q(x, z) 1 − min 1, .
 π(x)Q(x, y) 
z̸=x

Cette expression recouvre deux cas : le fait de proposer Z = x et d’accepter cette


valeur (avec probababilité 1), et le fait de proposer une autre valeur pour Z, puis de la
rejeter.

Passons aux choses concrètes. Pour commencer, supposons E = Z, et supposons que


Q(x, x + 1) = Q(x, x − 1) = 1/2 pour tout x. En d’autres termes, lorsque Xt = x, on
va proposer comme valeur suivante soit x + 1, soit x − 1, avec probabilités égales. La
probabilité d’acceptation est alors min(1, π(z)/π(x)), où z est la valeur proposée. Cette
probabilité vaut 1 dès que π(z) ≥ π(x), et vaut π(z)/π(x) sinon.
Cette exemple illustre un cadre typique d’utilisation de l’algorithme HM : on définit
via Q un mécanisme d’exploration locale (similaire à ce qu’on trouve dans certains algo-
rithmes d’optimisation), et on garantit que la chaîne simulée laisse bien π invariante via
le mécanisme d’acceptation-rejet.
Metropolis-Hastings est un exemple important d’algorithme MCMC (Markov chain
Monte Carlo), c’est à dire, un algorithme permettant d’approcher numériquement une
espérance sous une loi π :
Z
EX∼π [f (X)] = f (x)π(dx)
E

via une moyenne empirique (qui converge par la loi des grands nombres)
n Z
1X p.s
f (Xt ) −−−→ f (x)π(dx)
n n→∞ E
t=1

calculée à partir d’une chaîne de Markov (Xt ) π−invariante.


Ce n’est sans doute pas la première fois que vous rencontrez la notion de Monte Carlo ;
elle est généralement présentée dans le cas simple où les variables Xt sont IID de loi π.
Cependant, il y a beaucoup de lois qui ne sont pas faciles à simuler indépendamment. En
revanche, toutes les lois peuvent être « simulées » via Metropolis-Hastings, du moment
que l’on est en mesure d’évaluer π(x) pour tout x ; ou plus généralement d’évaluer π(x)
à une constante près.

Exemple 2.8.1. Soit X une version discrète d’une variable aléatoire gaussienne : P(X =
i) = π(i) := c exp(−i2 ) où c est une constante multiplicative,
P que l’on n’a pas besoin de
connaître ici (mais qui est déterminée par la contrainte π(i) = 1). On souhaite calculer
E[cos(X)]. On propose d’utiliser l’algorithme de Metropolis avec la matrice de transition
Q proposée ci-dessus, i.e. Q(x, x + 1) = Q(x, x − 1) = 1/2 pour tout x ∈ Z.

39
2 Chaînes de Markov

Le fait de ne pas avoir besoin de connaître la constante de normalisation de la loi π


donne une autre raison de la popularité des algorithmes de type MCMC, notamment
en statistique bayésienne, où l’on a besoin de simuler la loi a posteriori, qui est propor-
tionnelle (avec une constante difficile à calculer) au produit de la loi a priori et de la
vraisemblance.

2.9 Un autre algorithme à base de chaîne de Markov : le


Gibbs sampler
On considère dans cette partie une loi discrète, définie sur E = Zd , de la forme :

1
π(x1 , . . . , xd ) = ψ(x1 , . . . , xd )
Z

avec ψ : ZdP → R+ . Noter que la constante Z est automatiquement fixée par normalisa-
tion : Z = x∈Zd ψ(x).
Il n’est pas a priori facile de simuler des vecteurs X suivant cette loi (exactement, ou
via l’algorithme de Metropolis). En revanche, dans certains cas, les lois conditionnelles de
chaque composante sont particulièrement simples. Peut-on utiliser cette propriété d’une
façon ou d’une autre ?
Donnons quelques exemples pour fixer les esprits.

Exemple 2.9.1. Le modèle d’Ising en physique statistique attribue une loi jointe à des
variables binaires X1 , . . . , Xd (spins ferromagnétiques) associés à des emplacements sur
une grille en k dimensions. Dans ce cas,
 
 X X 
ψ(x1 , . . . , xd ) = exp α xi + β 1{xi = xj }
 
i i∼j

où i ∼ j est une relation de voisinage (sur la grille) ; par exemple, on peut décider que
deux points sur la grille sont voisins s’ils sont à une distance de 1 (sur une grille en
dimension deux, chaque point à quatre voisins). Noter que Z est alors une somme de
2d termes, impossible à calculer dès que d est grand, et que Z = Z(α, β) dépend des
paramètres.
Dans le cas particulier β = 0 (pas intéressant), les composantes sont IID. En géné-
ral, on prend β > 0, pour modéliser une corrélation « spatiale » : les spins proches ont
tendance à être identiques. Il existe une valeur critique pour β, correspondant à une
« transition de phase » : en dessous de cette valeur critique, les Xi sont relativement
« libres » de prendre les valeurs 0 ou 1 ; au dessus, ils ont tendance à former des gros
amas de spins identiques, avec forte probabilité. Déterminer ce genre de valeur critique
est un problème important en physique.

40
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler

La loi conditionnelle de Xi sachant X−i (la collection des Xj pour j ̸= i) est automa-
tiquement une Bernoulli, de paramètre
n P o
exp α + β j:j∼i 1{xj = 1}
n P o n P o.
exp β j:j∼i 1{xj = 0} + exp α + β j:j∼i 1{xj = 1}

Exemple 2.9.2. On considère un graphe (non orienté) aléatoire, constitué d’un nombre
fixe de n individus (noeuds), et des liens (arrêtes) aléatoires actifs ou non, représentés par
un vecteur x à valeurs dans {0, 1}d , d = n(n − 1)/2. On attribue à x la loi de probabilité
∝ ψ(x), avec
ψ(x1 , . . . , xd ) = exp θT s(x)


où s est une statistique s : E → Rk résumant différentes propriétés du graphes (nombre


d’arrêtes, nombre d’étoiles de rang k, etc.), et θ ∈ Rk . Ce genre de loi paramétrique peut
être utilisée pour modéliser des graphes ; on parle d’ERGM (exponential random graph
model). On vérifie aisément que la loi conditionnelle d’une composante suit une Bernoulli
dont le paramètre est simple à calculer.
Appelons Pi la matrice de transition qui correspond à l’opération suivante : pour un
vecteur x, remplacer la composante i par une simulation selon la loi de Xi sachant X−i .
Proposition 2.9.1. Les matrices de transition suivantes sont π−invariantes : chaque
Pi , le produit P = Pd · · · P1 , et la moyenne Q = (P1 + . . . + Pd )/d.
Démonstration. Posons d = 2 pour simplifier les notations, et considérons une variable
X
P = (X1 , X2 ) de loi π. Cela implique notamment que la loi marginale de X1 est π1 (x1 ) =
x2 π(x1 , x2 ), et la loi conditionnelle de X2 |X1 = x1 est π2|1 (x2 |x1 ) = π(x1 , x2 )/π(x1 ).
Considérons une nouvelle variable aléatoire X2′ (indépendante de X2 ), de même loi condi-
tionnelle (sachant X1 = x1 ). Alors clairement le vecteur X ′ = (X1 , X2′ ) a pour loi π. On
vient de démontrer que si X ∼ π, et X ′ |X = x ∼ P2 , alors X ′ ∼ π, ou en d’autres termes
P2 π = π. Le raisonnement est le même bien entendu pour P1 , et plus généralement pour
tout Pi si d > 2. Pour le produit, par récurrence : πP2 P1 = πP1 = π (pour d = 2 encore
une fois). De même, pour la moyenne, πQ = (πP1 + . . . πPd )/d = π.

Les deux matrices (produit et moyenne) introduites dans la proposition ci-dessus cor-
respondent à deux algorithmes différents :
— Le produit correspond à un Gibbs sampler déterministe, où l’on met à jour la
composante 1, puis la composante 2, etc. à tour de rôle.
— La moyenne correspond à un Gibbs sampler dit « random scan », où à chaque étape
on choisit, avec une probabilité 1/d, quelle composante sera mise à jour.
Proposition 2.9.2. Supposons ψ(x) > 0 pour tout x ∈ E. Alors P et Q sont irréduc-
tibles.
Démonstration. Pour P , soient x, y ∈ E. On peut passer de x à y en une seule étape avec
probabilité non-nulle : d’abord en changeant la première composante de x pour qu’elle
soit égale à y1 , puis la deuxième, etc. Le raisonnement est sensiblement le même pour
Q.

41
2 Chaînes de Markov

Il est facile de construire des Gibbs samplers non irréductibles. Considérons par exemple
le cas d = 2, et supposons ψ(0, 1) = ψ(1, 0) = 0. Alors, partant de (0, 0), il est impossible
d’atteindre (1, 1). L’algorithme n’a alors aucun intérêt pratique.
Le Gibbs sampler nous donne un deuxième type d’algorithme MCMC (Markov chain
Monte Carlo) pour approcher des espérances selon une certaine loi π (via la simulation
d’une chaîne de Markov de loi invariante π). Il est particulièrement intéressant quand on
peut décomposer la loi d’intérêt en plusieurs « blocs » admettant des lois conditionnelles
faciles à simuler. Nous nous sommes limités au cas où l’espace E est discret, mais la
statistique bayésienne (où l’on cherche à approcher la loi des paramètres du modèle,
typiquement continus) offre beaucoup d’exemples intéressants de Gibbs sampler ; cf. le
cours de Monte Carlo et simulation que vous pouvez suivre au deuxième semestre (pub
éhontée).
En ce concerne le lien entre Gibbs et Metropolis-Hastings, faisons deux remarques :
— On constate que dans les deux cas il est possible de simuler une loi π que l’on ne
peut évaluer qu’à une constante Z près.
— En travaillant un peu (exercice), on peut montrer que Gibbs est un cas particulier
de Metropolis-Hastings.

2.10 Extension à un espace d’états continu


Le but de cette section est d’expliquer, à la main, comment construire une chaîne de
Markov sur un espace d’états E quelconque (par exemple E = R). On ne donnera pas de
preuve, elles sont un peu plus complexes dans ce cas. Le lecteur est invité à se reporter à
la bibliographie, en particulier Meyn and Tweedie (2009) mais c’est une lecture un peu
violente par moments ! Ceci dit, on peut se faire une bonne intuition des cas simples...
Dans le cas discret, on construisait une chaîne homogène à l’aide d’une matrice de
transition P ,
P (i, j) = P(Xt+1 = j|Xt = i).
Dans le cas continu, il faut définir de la même façon un objet qui permette de donner la
loi de Xt+1 sachant Xt . Par contre, pour une loi continue, P(Xt+1 = j) = 0 donc on va
devoir passer par une mesure...

Définition 2.10.1. Soit (E, E) un espace mesurable. On appelle noyau de transition P


une fonction
P : E × E → [0, 1]
telle que :
1. pour tout x ∈ E fixé, l’application A 7→ P (x, A) est une mesure de probabilités ;
2. pour tout A ∈ E fixé, l’application x 7→ P (x, A) est mesurable.

Etant donné une loi µ et un noyau de transition P sur (E, E), on pourra définir X0
comme une variable aléatoire de loi µ et les (Xt ) par récurrence :

P(Xt+1 ∈ A|Xt = x) = P (x, A).

42
2.10 Extension à un espace d’états continu

Remarquer qu’on peut étendre toutes les opérations que l’on a fait dans le cas discret
sur les matrices de transition au cas de noyaux de transition. Par exemple,
X
P 2 (i, j) = P (i, k)P (k, j)
k∈E

dans le cas discret devient, dans le cas continu


Z
2
P (x, A) = P (x, dy)P (y, A).
E

Pour une loi de probabilité µ,


Z
µP (A) = µ(dx)P (x, A).

En particulier, on dit qu’une loi π est invariante si πP = π.

Exemple 2.10.1. On considère un processus AR(1) : X0 ∼ µ puis

Xt+1 = α + βXt + εt+1

où les (εn ) sont i.i.d (et indép. de X0 ) de loi N (0, σ 2 ). Noter qu’on peut alors donner la
loi de Xt+1 |Xt directement, sans écrire εn+1 : Xt+1 |Xt ∼ N (α + βXt , σ 2 ). On peut alors
écrire le noyau de transition P sous une forme explicite :
( )
[y − (α + βx)]2
Z
1
P (x, A) = √ exp − dy.
A 2πσ 2 2σ 2

En général, résoudre l’équation πP = π peut être très compliqué. Dans ce cas, on peut
vérifier que si µ = N (m, s2 ) alors X1 , en tant que somme de deux gaussiennes indé-
pendantes, est aussi gaussienne, d’espérance α + βm et de variance β 2 s2 + σ 2 . Donc, si
α σ2
|β| < 1, on voit que π = N ( 1−β , 1−β 2 ) est une loi invariante.

Exemple 2.10.2. On peut généraliser l’algorithme de Metropolis-Hastings au cas continu,


i.e. E = Rd , en prenant pour Q(x, ·) un noyau de transition, qui correspond par exemple à
une loi normale N (x, Σ) (pour un Σ bien choisi). En d’autres termes, pour Xt−1 = xt−1 ,
on simule Zt ∼ N (xt−1 , Σ), et on « accepte » cette valeur, i.e. Xt = Zt , avec probabilité
α(Xt−1 , Zt ),  
π(z)q(z, x)
α(x, z) := min 1,
π(x)q(x, z)
où q(x, ·) est la densité de Q(x, ·) (dont la densité d’une loi normale N (x, Σ), que l’on
notera φ(·; x, Σ)). Avec probabilité 1 − α(Xt−1 , Zt ), on rejette Zt et on pose Xt = Xt−1 .
On vient de décrire un algorithme, très couramment utilisé, dit de Metropolis-Hastings
à marche aléatoire (random walk Metropolis). On peut écrire :

P (x, dy) = α(x, y)Q(x, dy) + {1 − α(x, y)} δx (y)

43
2 Chaînes de Markov

= α(x, y)φ(y; x, Σ)dy + {1 − α(x, y)} δx (y)

où le premier terme correspond à l’« acceptation » de la valeur proposée, et le second terme


son rejet. Pour mieux comprendre la notation « infinitésimale » P (x, dy) ci-dessus, on
peut aussi écrire :
Z
P (x, A) = α(x, y)Q(x, dy)
y∈A
Z 
+ {1 − α(x, y)} Q(x, dy) 1A (x)
y∈E
Z
= α(x, y)φ(x; y, Σ)dy
y∈A
Z 
+ {1 − α(x, y)} φ(x; y, Σ)dy 1A (x).
y∈E

Noter que le terme entre crochet est la probabilité de « ne pas bouger » lorsque la
position actuelle est x.

On va juste donner maintenant deux théorèmes ergodiques dans ce contexte (sans les
démontrer, là encore, on renvoie le lecteur à Meyn and Tweedie (2009)). L’intérêt est
qu’ils permettront d’analyser les versions de l’Algorithme de Metropolis-Hastings dans
le cas continu, cf. le cours de simulation et Monte-Carlo. Ces énoncés nécessitent de
généraliser les notions d’irréductiblité, récurrence, etc...
Pour l’irréductibilité, attention : P (x, {y}) = 0 pour une loi continue, donc, il faut là
encore procéder autrement.

Définition 2.10.2. Soit Φ une mesure σ-finie sur (E, E). On dit que (Xt ) est Φ-irréductible
si :
∀A ∈ E, ∀x ∈ E : [Φ(A) > 0 ⇒ ∃n ∈ N : P n (x, A) > 0] .

On peut vérifier que si E est dénombrable et si Φ est la mesure de comptage, on


retombe bien sur la définition précédente...
Il faudrait ensuite étendre la notion de récurrence, mais il n’y a pas une extension
unique : il y a plusieurs définitions de récurrence, qui permettent de démontrer des
propriétés différentes. Ceci dit, on se souvient que dans le cas discret, si une chaîne est
irréductible et admet une loi invariante, alors on avait directement le théorème ergodique.
C’est de ce résultat qu’on on va donner une forme dans le cas continu, sans avoir à définir
l’irréductibilité.

Théorème 2.10.1. Supposons que E = Rd pour un d ≥ 1 et que E est la σ-algèbre des


boréliens. Si (Xt ) est λ-irréductible, où λ est la mesure de Lebesgue, et si π est invariante
pour (Xt ), alors π est unique, et pour toute fonction h intégrable par rapport à π, on a
n Z
1X p.s
h(Xi ) −−−→ h(x)π(dx).
n n→∞
i=1

44
2.11 Chaînes de Markov cachées

Définition 2.10.3. On dit que (Xt ) est périodique si il existe une partition mesurable
X0 , . . . , Xk de E, avec k ≥ 1, telle que pour tout x ∈ Xi avec i < k, P (x, Xi+1 ) = 1,
et pour tout x ∈ Xk , P (x, X0 ) = 1. On dit que (Xt ) est apériodique si elle n’est pas
périodique.

Théorème 2.10.2. Sous les hypothèses du Théorème 2.10.1, si en plus (Xt ) est apério-
dique, alors pour tout borélien A on a

Pµ (Xt ) −−−→ π(A).


n→∞

2.11 Chaînes de Markov cachées


On revient au cas discret dans cette dernière section, et on présente succintement les
modèles à chaînes de Markov cachées (ou modèles de Markov cachés), qui sont constitués
de deux processus, définis aux temps 0, . . . , T :
1. Une chaîne de Markov, (Xt ), à valeurs dans un espace fini E = {1, . . . , K}, non
observée, de matrice de transition P et loi initiale µ ;
2. Un processus (Yt ), à valeurs dans un espace F (que l’on prendra discret pour
commencer), tel que les variables Yt , informellement, ne dépendent que de Xt ; plus
précisément, la loi de Yt , sachant toutes les autres variables (donc X0 , . . . , XT , et
les Ys pour s ̸= t) ne dépend que de Xt ; appelons R(x, y) la probabilité d’observer
Yt = y conditionnellement à Xt = x. (On fait l’hypothèse supplémentaire que cette
probabilité ne dépend pas de t).

Remarque 2.11.1. Le processus joint (Xt , Yt ) est une chaîne de Markov, telle que la
loi de (Xt , Yt ) sachant son passé ne dépend que de Xt−1 . En revanche, le processus (Yt )
pris tout seul n’est pas une chaîne de Markov.

Ce genre de modèle est apparu dans les années 60 en traitement du signal, notamment
en traitement de la parole, où les Xt représentaient les phonèmes prononcés par un
sujet, et les Yt leur enregistrements acoustiques. Ils sont devenus ensuite très populaires
dans plusieurs domaines, notamment en génétique et en biostatistique. (Dans ce cas, t
représente la position sur le génome.)
En traitement automatique des langues (natural language processing), ces modèles
peuvent être utilisés pour faire de l’étiquetage grammatical (part-of-speech tagging) :
Yt est le t−ième mot du texte étudié, et Xt sa fonction grammaticale (sujet, verbe,
article, etc.). Cet exemple montre bien ce que modélisent respectivement P (la loi de
Xt |Xt−1 ) et R (la loi de Yt |Xt ). Le premier objet modélise comment différentes fonctions
grammaticales s’articulent (un sujet est souvent suivi d’un verbe) ; le deuxième objet
modélise le fait que certains mots ont des fonctions plus courantes que d’autres (Le mot
« repas » n’est jamais un verbe, le mot « manger » est souvent un verbe, mais est parfois
un mot commun qui peut servir de sujet).
Dans ce genre d’application, on cherche à retrouver (estimer) les Xt , sachant les va-
riables observées (Y0 , . . . , Yt ). Pour ce faire, on peut calculer la loi conditionnelle de

45
2 Chaînes de Markov

(X0 , . . . , XT ) sachant Yt = yt pour t = 0, . . . , T . Pour alléger les notations, on pose


X0:T = (X0 , . . . , XT ), Y0:T = (Y0 , . . . , YT ), etc.
Proposition 2.11.1. On a :
P (X0:T = x0:T , Y0:T = y0:T )
P (X0:T = x0:T | Y0:T = y0:T ) =
P (Y0 = y0 , . . . , YT = yT )
où le numérateur vaut :
T
Y T
Y
P (X0:T = x0:T , Y0:T = y0:T ) = µ(x0 ) P (xt−1 , xt ) R(xt , yt )
t=1 t=0

et le dénominateur est égal à :


K K T T
( )
X X Y Y
P (Y0:T = y0:T ) = ··· µ(x0 ) P (xt−1 , xt ) R(xt , yt ) .
x0 =1 xT =1 t=1 t=0

Ces expressions s’obtiennent en appliquant la formule de Bayes. Elles mettent en évi-


dence le coût prohibitif à calculer directement ces probabilités : le dénominateur (la
vraisemblance des observations) est une somme de K T +1 termes. On peut cependant
calculer de telles probabilités (ou plus précisément, leurs marginales, voir plus loin) ré-
cursivement, grâce à la propriété de Markov.
Pour simplifier les écritures, on introduit les notations suivantes, pour t = 0, . . . , T :
µt (x) := P (Xt = x | Y0:t−1 = y0:t−1 )
νt (x) := P (Xt = x | Y0:t = y0:t )
νt|T (x) := P (Xt = x | Y0:T = y0:T )
Lt := P (Y0:t = y0:t ) .
De plus, on écrit µt , νt , et νt|T les vecteurs correspondants, i.e. µt est le vecteur des µt (x).
Ces trois types de vecteur correspondent respectivement aux lois dites de prédiction, de
filtrage, et de lissage. Noter que, au temps 0, on doit interpréter la première ligne comme
la loi initiale, P(X0 = x) = µ(x), i.e. µ0 = µ. Ces notations dépendent implicitement des
données y0 , y1 , . . . qui sont considérées désormais comme fixes.
Proposition 2.11.2. On a, pour x ∈ E = {1, . . . , K}, et t = 0, . . . , T (sauf la première
ligne, qui n’est valable que pour t ≥ 1) :
K
X

µt (x ) = νt−1 (x)P (x, x′ ) pour t ≥ 1 (2.6)
x=1
1
νt (x) = µt (x)R(x, yt ) (2.7)
ℓt
XK
où ℓt := µt (x)R(x, yt ) = P(Yt = yt |Y0:t−1 = y0:t−1 ) (2.8)
x=1
Lt = Lt−1 × ℓt pour t ≥ 1 (et L0 = ℓ0 ) (2.9)

46
2.11 Chaînes de Markov cachées

Démonstration. Pour obtenir (2.6) au temps t ≥ 1, écrire :


X
P(Xt = x′ | Y0:t−1 = y0:t−1 ) = P Xt−1 = x, Xt = x′ | Y0:t−1 = y0:t−1


x∈E
X
νt−1 (x)P Xt = x′ | Xt−1 = x .

=
x∈E

La simplification du conditionnement dans le deuxième facteur est une conséquence de


la remarque 2.11.1.
Pour montrer (2.7) au temps t ≥ 0, on applique la formule de Bayes :

P (Xt = x, Yt = yt | Y0:t−1 = y0:t−1 )


P (Xt = x | Y0:t = y0:t ) =
P (Yt = yt | Y0:t−1 = y0:t−1 )
P (Xt = x | Y0:t−1 = y0:t−1 ) P(Yt = yt |Xt = xt )
=
P (Yt = yt | Y0:t−1 = y0:t−1 )

et remarquer que le dénominateur est une constante de normalisation, qui vaut précisé-
ment ℓt défini en (2.8).

Ce premier résultat nous donne un algorithme pour calculer récursivement les lois de
prédiction, de filtrage, et la vraisemblance. Il faut l’initialiser avec µ0 = µ. Noter que la
première ligne revient à effectuer un produit matriciel (de νt−1 avec P ).
Pour calculer les lois de lissage, on a besoin d’un second algorithme, dit « backward »
(par opposition au premier algorithme, dit forward). Vous pouvez essayer de retrouver
cet algorithme à titre d’exercice.
Le point essentiel à noter est que ces deux algorithmes ont une complexité O(T K 2 ) :
chaque algorithme effectue T itérations, et chaque itération calcule des produits matriciels
sur des matrices K × K. Cela donne une complexité beaucoup plus raisonnable que celle
mentionnée ci-dessus. Le prix à payer est que l’on n’a calculé que des lois marginales, au
lieu de la loi jointe définie dans la Prop. 2.11.1. Pour beaucoup de problèmes pratiques, ces
probabilités sont suffisantes. Par exemple, pour l’étiquetage grammatical, on se contente
de connaître la probabilité qu’un mot soit un verbe, après observation d’une suite de
mots.
Le point peut-être un peu surprenant de cette partie est que l’on n’a utilisé que la
propriété de Markov pour obtenir les résultats ci-dessus. La théorie des chaînes de Markov
homogènes n’y joue aucun rôle. D’ailleurs, à titre d’exercice, vous pouvez essayer de
généraliser les calculs ci-dessus :
— au cas où (Xt ) n’est pas homogène (P devient Pt ), ou la loi de Yt |Xt n’est pas
constante (on remplace R par Rt ) ;
— un peu plus dur : au cas où Yt |Xt = xt suit une loi continue.
La généralisation au cas où la chaîne (Xt ) est à valeurs dans un espace continu est
largement hors programme, et sera traité dans un cours de troisième année. Mais les
lectrices et lecteurs plus curieux peuvent lire la page Wikipedia du filtre de Kalman, et
le rôle qu’il a joué dans le programme Appolo.

47
3 Martingales

3.1 Définitions
Définition 3.1.1. Soit (Xt )t∈N un processus, à valeurs dans R, adapté à une filtration
(Ft )t∈N . On dit que le processus est une martingale si, pour tout t ∈ N,
i) Xt est intégrable, soit E(|Xt |) < ∞,
ii) E(Xt+1 |Ft ) = Xt .
On dit que le processus est une martingale positive si, pour tout t ∈ N,
i) Xt ≥ 0 p.s,
ii) E(Xt+1 |Ft ) = Xt .
On définit de la même façon une sous-martingale (resp. une sous-martingale positive)
en remplaçant la condition (ii) dans la définition de martingale (resp. de martingale
positive) par E(Xt+1 |Ft ) ≥ Xt . On définit de la même façon une sur-martingale (une
sur-martingale positive) en remplaçant (ii) par E(Xt+1 |Ft ) ≤ Xt .

Quelques propriétés évidentes : (Xt ) est une martingale si et seulement si c’est une
sur-martingale et une sous-martingale. L’espérance d’une martingale est constante. En
effet,
E(Xt+1 |Ft ) = Xt

et en prenant l’espérance des deux côtés, on obtient

E[E(Xt+1 |Ft )] = E(Xt ),

soit
E(Xt+1 ) = E(Xt ).

De la même façon, pour une sur-martingale, les espérances sont décroissantes E(Xt+1 ) ≤
E(Xt ) et pour une sous-martingale, les espérances sont croissantes E(Xt+1 ) ≥ E(Xt ).

Proposition 3.1.1. Soit (Xt ) une martingale, soit k, t ≥ 0, alors

E(Xt+k |Ft ) = Xt .

Pour une sur et une sous-martingale, la propriété tient en remplaçant le symbole = par
≤ et ≥ respectivement.

49
3 Martingales

Démonstration. Par récurrence sur k : le cas k = 1 est vrai par définition. Supposons
que la propriété est vraie au rang k. Alors,
h i
E(Xt+k+1 |Ft ) = E E(Xt+k+1 |Ft+k ) Ft
= E(Xt+k |Ft ) par définition d’une martingale
= Xt par hypothèse de récurrence.

Proposition 3.1.2. Soit (Xt ) une martingale et f une fonction convexe telle que f (Xt )
soit intégrable pour tout t. Alors le processus [f (Xt )]t∈N est une sous-martingale.

Démonstration. Par Jensen, E[f (Xt+1 )|Ft ] ≥ f [E(Xt+1 |Ft )] = f (Xt ) par définition.

Donnons maintenant quelques exemples de martingales.

Exemple 3.1.1. Soit (Xt )t∈N une suite de variables centrées et indépendantes. Posons
t
X
Mt = Xi .
i=0

On pose Ft = σ(X0 , . . . , Xt ), on peut vérifier qu’on a également la relation Ft = σ(M0 , . . . , Mt ).


Alors (Mt )t∈N est une martingale pour la filtration (Ft ). En effet :

E(Mt+1 |Ft ) = E(Xt+1 + Mt |Ft )


= E(Xt+1 |X0 , . . . , Xt ) + E(Mt |M0 , . . . , Mt )
= 0 + Mt .

Un exemple : Xt ∼ N (0, σt2 ). Dans ce cas, notons que


t
!
X
Mt ∼ N 0, σi2 .
i=0

Si ∞ 2
P
i=0 σi = S < ∞ , on P se doute que Mt va converger vers une variable aléatoire de
loi N (0, S). A l’inverse, si ∞ 2
i=0 σi = ∞, la loi de la variable s’étale de plus en plus et
on a l’impression qu’il n’y aura pas de convergence. Une bonne partie de ce chapitre sera
consacré à étudier le comportement asymptotique des martingales.

Définition 3.1.2. Soit (εt ) un processus. On dit que c’est un incrément de martingale
si il existe une filtration (Ft ) et une martingale (Mt ) telles que εt = Mt − Mt−1 pour tout
t > 0.

Un des intérêts des incréments de martingales est qu’il existe énormément de propriétés
vraies pour les variables indépendantes centrées que l’on peut étendre aux incréments de
martingales. Par exemple, la loi faible des grands nombres.

50
3.1 Définitions

Proposition 3.1.3. Soit (εt ) un incrément de martingale avec E(ε2t ) = σ 2 < ∞. Alors
n
1 X proba.
εi −−−−→ 0.
n
i=1

Démonstration. On a
 
n
! 1 Pn 2
1 X E n i=1 εi
P εi > t ≤
n t2
i=1
Pn
ε2i + 2 1≤i<j≤n E(εi εj )
 P
i=1 E
=
P n2 t 2
σ2 2 1≤i<j≤n E(εi εj )
= + .
nt2 n2 t2
Dans le cas de variables indépendantes, on a E(εi εj ) = E(εi )E(εj ) = 0, ce qui prouve que
n
!
1X σ2
P εi > t ≤ 2 −−−→ 0.
n nt n→∞
i=1

Or, pour des incréments de martingales εt = Mt − Mt−1 , on a :

E(εi εj ) = E[(Mi − Mi−1 )(Mj − Mj−1 )]


= E[E[(Mi − Mi−1 )(Mj − Mj−1 )|Fj−1 ]]
= E[(Mi − Mi−1 )E[(Mj − Mj−1 )|Fj−1 ]]
=0

par définition d’une martingale.

Une question naturelle est alors : “est-ce qu’il existe des exemples de martingales autres
que les sommes de variables indépendantes” ou de façon équivalente, “est-ce qu’il existe
des exemples d’incréments de martingales qui ne sont pas indépendants”. L’exemple sui-
vant fournit une réponse positive.

Exemple 3.1.2 (Processus ARCH). Soit (ηk ) une suite de variables i.i.d gaussiennes
centrées réduites et, pour tout k, Fk = σ(η1 , . . . , ηk ). Soit (Zk ) un processus défini par
récurrence : z0 = 1 et q
Zk+1 = ηk+1 α0 + α1 Zk2

où α0 > 0 et α1 ≥ 0. Le processus (Zk ) est appelé processus ARCH(1) et est très souvent
utilisé en finance. On pose
X t
Mt = Zk .
k=1

51
3 Martingales

Figure 3.1 – Voici un exemple de réalisation de (Zt ) : ressemble à un bruit blanc, avec
des périodes de bruits extrêmes. Ici α0 = 0.5 et α1 = 0.7.

On vérifie bien que (Mt ) est une martingale, en montrant l’intégrabilité par récurrence
puis

E(Mt+1 |Ft ) = E(Zt+1 + Mt |Ft )


q
= E(ηt+1 α0 + α1 Zt2 |Z0 , . . . , Zt ) + Mt
p
= E(ηt+1 |Z0 , . . . , Zt ) α0 + α1 Zn2 + Mt
= Mt .

Les incréments de la martingale (Mt ) sont les Zt et ceux-ci ne sont bien entendu pas
indépendants, par exemple,

2 2
E(Zt+1 |Zt ) = E(ηt+1 (α0 + α1 Zt2 )|Zt ) = (α0 + α1 Zt2 )E(ηt+1
2
) = (α0 + α1 Zt2 ).

En général, en finance, les actifs financiers ne sont pas modélisés directement par des
processus ARCH, mais plutôt par la martingale associée (Mt ) ou par une transformation
de celle-ci comme Yt = exp(λ − γMt ) avec λ, γ > 0. La Proposition 3.1.2 montre que (Yt )
est une sur-martingale. Les Figures 3.1, 3.2 et 3.3 montrent des exemples de réalisation
de tels processus.

52
3.1 Définitions

Figure 3.2 – Le processus (Mt ) correspondant.

Figure 3.3 – Le prix (Yt ) correspondant. Ici λ = 1 et γ = 0.03.

53
3 Martingales

3.2 Temps d’arrêt


Idée : supposons que je possède un actif financier, soit Xt sa valeur à la date t. A un
instant t, je peux décider de vendre l’actif, ou pas. Notons τ l’instant auquel je me décide
à vendre l’actif (noter qu’il s’agit d’une variable aléatoire, puisque ma décision dépendra
des valeurs, aléatoires, de l’actif). Si ma modélisation est réaliste, il est important que le
fait de vendre à l’instant t (i.e. τ = t) ne dépende que de l’information disponible à la
date t. On rappelle qu’on représentait l’information disponible à la date t à l’aide d’une
filtration.

Définition 3.2.1. Soit τ une variable aléatoire à valeurs dans N = N ∪ {+∞} ou dans
R+ = R+ ∪ {+∞}. Soit (Ft )t∈N une filtration. La variable τ est dite “temps d’arrêt
pour la filtration (Ft )t∈N ” si et seulement si, pour tout t dans N, ou R+ respectivement,
{τ ≤ t} ∈ Ft .

Proposition 3.2.1. Dans le cas où τ une variable aléatoire à valeurs dans N, τ est un
temps d’arrêt ssi pour tout t dans N, {τ = t} ∈ Ft .

Démonstration. Si τ est un temps d’arrêt, alors {τ = t} = {τ ≤ t} \ {τ ≤ t − 1} = {τ ≤


t}∩({τ ≤ t−1}c ) et par définition, {τ ≤ t} ∈ Ft et {τ ≤ t−1} ∈ Ft−1 ⊂ Ft . Comme une
σ-algèbre est stable par passage au complémentaire et par intersection, {τ = t} ∈ Ft .
Réciproquement, si pour tout t dans N, {τ = t} ∈ Ft , alors, pour t fixé, {τ ≤ t} =
{τ = 0} ∪ · · · ∪ {τ = t} et chacun de ces ensembles sont dans Ft donc {τ ≤ t}. Donc τ
est un temps d’arrêt.

A partir de maintenant (et jusqu’à la fin du chapitre) on ne considèrera que des pro-
cessus à temps discret avec T = N et des temps d’arrêt à valeurs dans N.

Exemple 3.2.1. Exemples de temps d’arrêt : τ = 3 (ou n’importe quelle constante). Un


exemple plus intéressant est le temps d’entrée dans un ensemble A :

τA := inf{n ∈ N : Xn ∈ A}

avec la convention habituelle inf ∅ = ∞.

Définition 3.2.2. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N . On définit

!
[
F∞ = σ Ft
t=0

et
Fτ = {A ∈ F∞ : ∀n ∈ N, {τ ≤ n} ∩ A ∈ Fn } .

Proposition 3.2.2. Les ensembles F∞ et Fτ sont deux σ-algèbres.

54
3.2 Temps d’arrêt

Démonstration. C’est évident pour F∞ , on passe directement à Fτ . Il faut vérifier que


∅ ∈ Fτ , que Fτ est stable par passage au complémentaire et est stable par réunion
dénombrable.
Pour tout n, {τ ≤ n} ∩ ∅ = ∅ ∈ Fn et donc ∅ ∈ Fτ .
Soit A ∈ Fτ . Pour n ∈ N, {τ ≤ n} ∩ Ac = {τ ≤ n} ∩ (A ∩ {τ ≤ n})c ∈ Fn . Donc
c
A ∈ Fτ .
Enfin, supposons que A0 , A1 , · · · ∈ Fτ . Alors, pour n ∈ N,
∞ ∞
!
[ [
{τ ≤ n} ∩ Ak = ({τ ≤ n} ∩ Ak ) ∈ Fn
k=0 k=0

et donc ∪k Ak ∈ Fτ .

Proposition 3.2.3. Soient τ1 et τ2 deux temps d’arrêt. Alors


1. τ1 + τ2 , τ1 ∧ τ2 = min(τ1 , τ2 ) et τ1 ∨ τ2 = max(τ1 , τ2 ) sont aussi des t.a.
2. τ1 ≤ τ2 ⇒ Fτ1 ⊂ Fτ2 .
3. Fτ1 ∧τ2 = Fτ1 ∩ Fτ2 .
4. {τ1 < τ2 } ∈ Fτ1 ∧τ2 , {τ1 = τ2 } ∈ Fτ1 ∧τ2 .

Démonstration. On prouve 1., les autres propriétés sont laissées en exercice.


Pour τ1 + τ2 :
[n

{τ1 + τ2 = n} = {τ1 = k} ∪ {τ2 = n − k}
k=0

et {τ1 = k} ∈ Fk ⊂ Fn , {τ2 = n − k} ∈ Fn−k ⊂ Fn et donc {τ1 + τ2 = n} ∈ Fn . Donc


τ1 + τ2 est un t.a.
Pour τ1 ∧ τ2 : {τ1 ∧ τ2 ≤ n} = {τ1 ≤ n} ∪ {τ2 ≤ n} ∈ Fn . De même pour τ1 ∨ τ2 :
{τ1 ∨ τ2 ≤ n} = {τ1 ≤ n} ∩ {τ2 ≤ n} ∈ Fn .

Définition 3.2.3. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N , et (Xt )t∈N un pro-
cessus. Si τ < ∞ p.s, on pose
X
Xτ = Xt 1{τ =t} .
t∈N

Dans les cas où τ peut être infini, on peut parfois étendre la définition. Par exemple,
p.s
si Xn −−→ X il est naturel de poser
X
Xτ = Xt 1{τ =t} + X1{τ =∞} .
t∈N

On conclut cette section par une application de la notion de temps d’arrêt pour énon-
cer une version de l’idendité de Wald. L’idée est la suivante. Supposons que l’on a des

55
3 Martingales

variables aléatoires X1 , X2 , . . . indépendantes, intégrables (ou positives), avec la même


espérance E(X1 ) = E(X2 ) = . . . Pour un N ∈ N (déterministe), on a évidemment
N
!
X
E Xi = N E(X1 ).
i=1

La question est : si N est aléatoire, a-t’on


N
!
X
E Xi = E(N )E(X1 )?
i=1

Cette égalité n’est pas vraie en général. Quand elle est vraie, elle porte le nom d’in-
dentité de Wald. Il en existe plusieurs versions, avec des hypothèses différentes. On en
démontre ici une version où N est un temps d’arrêt.
Théorème 3.2.4 (Identité de Wald). Soit (Xi )i≥1 une suite de variables aléatoires in-
dépendantes, intégrables ou positives, de même espérance. Soit N un temps d’arrêt pour
la filtration (Ft )t∈N∗ définie par Ft = σ(X1 , . . . , Xt ). On suppose que E(N ) < ∞. Alors
N
!
X
E Xi = E(N )E(X1 ).
i=1

Démonstration. On commence par le cas positif. On a :


N ∞
! !
X X
E Xi = E Xi 1{N ≥i}
i=1 i=1
on utilise Fubini, tout est positif
X∞

= E Xi 1{N ≥i}
i=1
X∞

= E Xi 1{N ≤i−1}c
i=1
on utilise la définition de l’espérance conditionnelle
X∞

= E E(Xi |Fi−1 )1{N ≤i−1}c
i=1
or Xi indep. de σ(X1 , . . . , Xi−1 ) = Fi−1
X∞

= E E(Xi )1{N ≤i−1}c
i=1
or E(Xi ) = E(X1 ) non aléatoire

!
X
= E(X1 )E 1{N ≤i−1}c
i=1

56
3.3 Théorème d’arrêt : le cas borné


!
X
= E(X1 )E 1{N ≥i}
i=1
= E(X1 )E (N ) .

Dans le cas où les Xi ne sont plus forcément positifs mais intégrables, la preuve précédente
peut être réutilisée pour prouver que

!
X
E |Xi | 1{N ≥i} = E(N )E(|X1 |) < ∞. (3.1)
i=1

On réutilise ensuite la même preuve que dans le cas positif, l’unique différence étant
que l’utilisation de Fubini n’est plus justifiée par le fait que les Xi sont positifs, mais
par (3.1).

On conclut par un contre-exemple amusant. Supposons que l’on les Xi sont i.i.d avec
P(Xi = +1) = P(Xi = −1) = 1/2, et posons
n
( )
X
N = inf n ∈ N : Xi = 1 .
i=1

Avec la terminologie de l’Exemple 3.2.1, N est le temps d’entrée du processus ni=1 Xi


P
dans l’ensemble {1}. On garde bien entendu la convention que inf ∅ = +∞. Supposons
que E(N ) < ∞. Alors en particulier, N < ∞ p.s et
N
X
Xi = 1.
i=1

L’identité de Wald que l’on vient de démontrer dit alors que


N
!
X
1=E Xi = E(N )E(X1 ) = 0.
i=1

C’est donc que la supposition initiale, à savoir E(N ) < ∞, est fausse. On a donc établi
que E(N ) = ∞.

3.3 Théorème d’arrêt : le cas borné


Pour une martingale (Xt ) on a vu qu’on a toujours E(Xt ) = E(X0 ). Une question
naturelle est alors : est-ce que pour un temps aléatoire τ , on a E(Xτ ) = E(X0 ) ? Noter
que ceci est assez proche de la question qu’on se posait pour l’identité de Wald, et en fait,
il s’agit de la même question dans le cas particulier où Xt est une somme d’accroissements
indépendants. On appelle “théorème d’arrêt” un théorème qui assure que E(Xτ ) = E(X0 )
pour un temps d’arrêt τ - ceci ne peut s’obtenir qu’avec certaines hypothèses sur la
martingale (Xt ) et/ou sur τ . De façon directe, on peut alors étendre ces résultats aux

57
3 Martingales

cas de sur-martingales pour montrer que E(Xτ ) ≤ E(X0 ), et de sur-martingales pour


montrer que E(Xτ ) ≥ E(X0 ).
Dans cette section, on va démontrer un premier théorème d’arrêt, lorsque τ est borné.

Proposition 3.3.1. Soit (Xt ) une martingale pour (Ft ) et τ un temps d’arrêt. Soit le
processus (Yt ) donné par Yt = Xn∧τ . Alors (Yt ) est une martingale. On notera Xtτ := Yt ,
on appelle le processus (Xtτ ) une “martingale arrêtée”.

Démonstration. On a

E(Yt+1 |Ft ) = E(X(t+1)∧τ |Ft )


= E(Xτ 1{τ ≤t} + Xt+1 1{τ ≤t}c |Ft )
t
!
X
=E Xk 1{τ =k} + Xt+1 1{τ ≤t}c Ft
k=0
t
X
= Xk 1{τ =k} + 1{τ ≤t}c E(Xt+1 |Ft )
k=0
= Xτ 1{τ ≤t} + 1{τ ≤t}c Xt
= Xt∧τ = Yt

Comme pour toutes les propriétés précédentes, on adapte celle-ci de façon directe pour
les martingales positives et les sur et sous-martingales.

Théorème 3.3.2 (Théorème d’arrêt — cas borné). Soit (Xn ) une martingale pour (Fn )
et τ un temps d’arrêt. On suppose que τ est borné p.s, autrement dit, il existe T0 ∈ N tel
que P(τ ≤ T0 ) = 1. Alors :
E(Xτ ) = E(X0 ).

Démonstration. D’après la proposition précédente, (Xtτ ) est une martingale donc E(XTτ0 ) =
E(X0τ ). De plus, il est immédiat que XTτ0 = Xτ et d’autre part X0τ = X0 . On récapitule :

E(Xτ ) = E(XTτ0 ) = E(X0τ ) = E(X0 )

ce qui conclut.

Il existe en fait une formulation un peu plus générale.

Théorème 3.3.3 (Théorème d’arrêt — cas borné, deuxième version). Soit (Xn ) une
martingale pour (Fn ) et τ1 et τ2 deux temps d’arrêt avec 0 ≤ τ1 ≤ τ2 ≤ T0 p.s Alors :

E(Xτ2 |Fτ1 ) = Xτ1 .

Pour voir que ceci implique bien la première version, prendre τ1 = 0 pour obtenir
E(Xτ2 |F0 ) = X0 , et en prenant l’espérance des deux côtés, E(Xτ2 ) = E(X0 ).

58
3.4 Décomposition de Doob

Démonstration. Par définition de l’espérance conditionnelle, il s’agit de démontrer que


pour tout A ∈ Fτ1 on a
E(1A Xτ2 ) = E(1A Xτ1 ).
On commence donc le calcul :
E(1A Xτ2 ) = E(1A Xτ2 ∧T0 )
T0
!
X
=E 1A 1{τ1 =t} Xτ2 ∧T0
t=0
T0
X 
= E 1A∩{τ1 =t} Xτ2 ∧T0
t=0
XT0
 
= E E(1A∩{τ1 =t} Xτ2 ∧T0 |Ft ) , or A ∩ {τ1 = t} ∈ Ft
t=0
T0
X h i
= E 1A∩{τ1 =t} E(XTτ20 |Ft )
t=0
XT0
E 1A∩{τ1 =t} Xtτ2

=
t=0
T0
X 
= E 1A∩{τ1 =t} Xt∧τ2 , or t = τ1 ≤ τ2
t=0
T0
!
X
=E 1A 1{τ1 =t} Xt
t=0
= E(1A Xτ1 )
ce qui conclut.

3.4 Décomposition de Doob


Définition 3.4.1. On appelle processus croissant un processus (Yt )t∈N tel que pour tout
t, Yt ≤ Yt+1 p.s.
Définition 3.4.2. On appelle processus prévisible pour la filtration (Ft )t∈N un processus
(Yt )t∈N tel que pour tout t, Yt+1 est Ft mesurable.
Théorème 3.4.1 (Théorème de décomposition de Doob). Soit (Xt )t∈N une SOUS-
martingale pour la filtration (Ft )t∈N . Alors on a la décomposition :
Xt = Mt + Yt
où (Mt ) est une martingale, et Yt est un processus croissant prévisible. Si on rajoute la
condition Y0 = 0, cette décomposition est unique. Elle s’appelle “décomposition de Doob”
de (Xt ) et le processus (Yt ) s’appelle le “compensateur de (Xt )”.

59
3 Martingales

Démonstration. Poser Y0 = 0, Yt+1 = Yt + E(Xt+1 − Xt |Ft ) puis Mt = Xt − Yt . On a par


récurrence que Yt+1 est Ft -mesurable, et donc (Yt ) est prévisible. De plus

Yt+1 − Yt = E(Xt+1 − Xt |Ft ) = E(Xt+1 |Ft ) − Xt ≥ 0

car (Xt ) est une sous-martingale, donc (Yt ) est croissant. Il reste à vérifier que (Mt ) est
une martingale. Or :

E(Mt+1 |Ft ) = E(Xt+1 − Yt+1 |Ft ) = E(Xt+1 − (Yt + Xt+1 − Xt )|Ft ) = Mt

donc (Mt ) est bien une martingale.


Démontrons enfin l’unicité. Supposons Xt = Mt + Yt = Mt′ + Yt′ avec (Mt′ ) martingale,
Y0′ = 0 et (Yt′ ) croissant prévisible. Alors

Yt+1 − Yt′ = Xt+1 − Xt + Mt+1

− Mt′

et en prenant E(·|Ft ) on a

Yt+1 − Yt′ = E(Xt+1 − Xt |Ft ).

Comme Y0′ = 0 = Y0 , par récurrence, Yt′ = Yt pour tout n, et du coup Mt′ = Mt pour
tout n.

Exemple 3.4.1. Soit (Xt ) une martingale pour (Ft ) avec E(Xt2 ) < ∞ pour tout n. Alors
en utilisant la Proposition 3.1.2, ou en invoquant directement l’inégalité de Jensen, on a
immédiatement que (Xt2 ) est une sous-martingale. On en déduit que

Xt2 = Mt + Yt

où (Mt ) est une martingale et (Yt ) un processus croissant prévisible, avec Y0 = 0. On


appelle le processus (Yt ) la “variation quadratique de la martingale (Xt )” ou parfois le
“crochet de (Xt )”, et on note ⟨X⟩t = Yt , donc la décomposition se ré-écrit :

Xt2 = Mt + ⟨X⟩t .

Le terme “crochet” se justifie par la notation, le terme “variation quadratique” par le fait
qu’on peut démontrer que
n
X
E (Xi − Xi−1 )2 |Fi−1 .

⟨X⟩t = (3.2)
i=1

En effet, à partir de la preuve de la décomposition de Doob, on a ⟨X⟩0 = 0 et ⟨X⟩n+1 =


⟨X⟩t + E(Xn+12 − Xt2 |Ft ), et par récurrence on obtient :
n
X
⟨X⟩t = E(Xi2 − Xi−1
2
|Fi−1 ).
i=1

60
3.5 Inégalités maximales

Or :

E (Xi − Xi−1 )2 |Fi−1 = E Xi2 |Fi−1 − 2E (Xi−1 Xi |Fi−1 ) + Xi−1


2
 

= E Xi2 |Fi−1 − 2Xi−1 E (Xi |Fi−1 ) + Xi−1


2


or (Xt ) est une martingale donc


= E Xi2 |Fi−1 − 2Xi−12 2

+ Xi−1
= E Xi2 − Xi−12

|Fi−1

et donc (3.2) est prouvée.

3.5 Inégalités maximales


Il s’agit de borner le max de martingales.
Lorsqu’on souhaite borner la probabilité qu’une variable X ≥ 0 soit trop grande,
on utilise en général l’inégalité de Markov. On la rappelle ici avec sa preuve, car la
construction des inégalités maximales repose sur une sophistication de cette preuve.

Théorème 3.5.1 (Inégalité de Markov). Soit X une v.a. positive. Pour tout t > 0,

E(X)
P(X ≥ t) ≤ .
t
 
Démonstration. On a E(X) ≥ E X1{X≥t} ≥ E t1{X≥t} = tP(X ≥ t).

Si l’on souhaite borner le max de N variables aléatoires X1 , . . . , XN de même espérance,


de façon générale, on utilise un outil appelé borne d’union :
 
[
P( max Xi ≥ t) = P  {Xi ≥ t}
1≤i≤N
1≤i≤N
N
X
≤ P (Xi ≥ t)
i=1
N
X E(Xi )
=
t
i=1
N E(X1 )
= .
t
Le facteur N semble être le prix à payer pour passer au max. Cette borne est très
grossière, mais sans hypothèse supplémentaire sur les Xi , on ne peut pas vraiment l’amé-
liorer. On peut faire par exemple des hypothèses de moments, etc. ceci est énormément
utilisé dans les cours de statistique et machine learning théorique. Ici, on va voir que si
on suppose que les (Xi ) sont en fait une (sur ou sous) martingale, il n’y a pas de prix à
payer pour passer au max.

61
3 Martingales

Proposition 3.5.2. Soit a > 0. Soit (Xn ) une SUR-martingale positive. Alors
 
E(X0 )
P sup Xn > a ≤ .
n∈N a

Démonstration. On définit le temps d’arrêt

τa = inf {n ∈ N : Xn > a} ,

on remarque que  
{τa < ∞} = sup Xn > a
n∈N
et que
Xn∧τa ≥ a1{τa ≤n} . (3.3)
Puisque (Xnτa ) est une sur-martingale, E(X0τa ) ≥ E(Xnτa ), et donc :

E(X0 ) = E(X0τa ) ≥ E (Xn∧τa )



≥ E a1{τa ≤n} d’après (3.3)
= aP (τa ≤ n) −−−→ aP (τa < ∞)
n→∞

Proposition 3.5.3. Soit a > 0. Soit (Xn ) une SOUS-martingale positive. Alors
 
E(Xn )
P max Xk > a ≤ .
0≤k≤n a

Démonstration. On utilise le même temps d’arrêt τa , et cette fois-ci on veut contrôler


 
max Xk > a = {τa ≤ n}.
0≤k≤n

Or on a

aP (τa ≤ n) = E a1{τa ≤n}
n
!
X
=E a1{τa =k}
k=0
n
!
X
≤E Xk 1{τa =k}
k=0
n
X 
= E Xk 1{τa =k}
k=0
n
X 
≤ E E(Xn |Fk )1{τa =k}
k=0

62
3.6 Espaces Lp et inégalité de Doob

n
X 
= E E(Xn 1{τa =k} |Fk )
k=0
Xn

= E Xn 1{τa =k}
k=0
n
!
X
= E Xn 1{τa =k}
k=0
 
= E Xn 1{max0≤k≤n Xk >a} (3.4)
≤ E(Xn ).

3.6 Espaces Lp et inégalité de Doob


On rappelle que Lp est l’espace vectoriel des variables aléatoires réelles telles

∥X∥p := E{|X|p }1/p < ∞.

On peut définir cette quantité pour tout p > 0, mais nous ne considérerons que le cas
p ≥ 1, pour lequel c’est une norme (si l’on travaille sur les classes d’équivalence définies
par X = Y p.s.) ; notamment on a l’inégalité triangulaire (dite inégalité de Minkowski) :

∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p

encore une fois pour p ≥ 1. Une autre inégalité utile est l’inégalité d’Hölder :
1 1
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q pour p, q tels que + = 1.
p q
On peut aussi définir L∞ , l’ensemble des variables bornées p.s. Noter que les ensembles
Lp forment une suite décroissante (X ∈ Lp ⇒ X ∈ Lq si p > q).
On dira qu’un processus (Xt ) est borné dans Lp si les Xt sont bornés uniformément
dans Lp :

Définition 3.6.1. Un processus (Xt ) est dit borné dans Lp s’il existe C tel que ∥Xt ∥p ≤ C
pour tout t ≥ 0. (Cela implique notamment que Xt ∈ Lp pour tout t ≥ 0.)

Théorème 3.6.1 (Inégalité de Doob). Soit p ∈]1, ∞], (Xt ) une martingale (ou une
sous-martingale positive) bornée dans Lp . Alors supt∈N |Xt | est dans Lp , et on a

p
sup |Xt | ≤ sup ∥Xt ∥p .
t∈N p
p − 1 t∈N

Bien remarquer que la borne ne s’étend pas au cas p = 1, ceci aura des conséquences
importantes dans l’étude de la convergence des martingales dans la section suivante.

63
3 Martingales

Démonstration. Dans le cas p = ∞, l’inégalité est en fait une égalité trivialement vraie.
On va maintenant supposer p ∈]1, ∞[. Remarquer que si (Xn ) est une martingale, par Jen-
sen, (|Xn |) est une sous-martingale positive. Dans le cas où (Xn ) est une sous-martingale
positive, Xn = |Xn |. Donc, dans les deux cas, (|Xn |) est une sous-martingale positive.
On fixe a > 0, et pour faire court, on pose Yn = max0≤k≤n |Xk |. On peut utiliser la
Proposition 3.5.3, ou plutôt l’inégalité (3.4) dans la preuve de la Proposition 3.5.3, qui
donne :  
aE 1{Yn >a} ≤ E |Xn |1{Yn >a} .
On multiplie les deux membres par pap−2 :
pap−1 E 1{Yn >a} ≤ pap−2 E |Xn |1{Yn >a} .
 

On intégre pour a dans R+ et on obtient :


Z ∞ Z ∞
p−1
pap−2 E |Xn |1{Yn >a} da.
 
pa E 1{Yn >a} da ≤
0 0
Les quantités intégrées étant toutes positives, on peut utiliser Fubini :
Z ∞  Z ∞ 
p−1 p−2
E pa 1{Yn >a} da ≤ E pa |Xn |1{Yn >a} da
0 0
soit Z Yn   Z Yn 
p−1 p p−2
E pa da ≤ E |Xn | (p − 1)a da .
0 p−1 0
On fait le changement de variable b = ap à gauche et c = ap−1 à droite
Z Ynp ! Z Ynp−1 !
p
E db ≤ E |Xn | dc
0 p−1 0

et le calcul des deux intégrales devient trivial. On obtient :


p
E (Ynp ) ≤ E |Xn |Ynp−1 .

p−1
On remarque que le membre de gauche est ∥Yn ∥pp et on applique Hölder sur le membre
de droite :
p p
∥Yn ∥pp ≤ ∥Xn ∥p ∥Ynp−1 ∥ p = ∥Xn ∥p ∥Yn ∥pp−1 .
p−1 p−1 p−1
Une simplification des deux membres par ∥Yn ∥p−1 donne
p
∥Yn ∥p ≤ ∥Xn ∥p ,
p−1
soit, en revenant à la définition de Yn ,
p
max |Xn | ≤ ∥Xn ∥p .
0≤k≤n p p−1
En prenant le sup en n ∈ N des deux membres on obtient
p
sup |Xn | ≤ sup ∥Xn ∥p
n∈N p
p − 1 n∈N
ce qui est bien le résultat voulu.

64
3.7 Convergence dans L2 (et plus généralement Lp , p > 1)

3.7 Convergence dans L2 (et plus généralement Lp , p > 1)


Les deux espaces Lp les plus importants en pratique sont L2 (qui est un espace de
Hilbert), et L1 (l’espace des variables intégrables). Les résultats concernant L2 sont
souvent plus simples à établir, mais, par construction, les résultats concernant L1 sont
plus généraux. On s’intéresse donc pour commencer à des martingales bornées dans L2 .
Proposition 3.7.1. Soit (Xt ) une martingale bornée dans L2 . Alors (Xt ) converge p.s
et dans L2 .
Exemple 3.7.1. Avant de passer à la preuve, revenons à un exemple présenté au début
du chapitre : des variables indépendantes εt ∼ N (0, σt2 ) et
t
X
Xt = εi .
i=0

Dans ce cas, notons que


t t
!
X X
Xt ∼ N 0, σi2 ⇒ ∥Xt ∥2 = σi2 .
i=0 i=0
P∞
Si i=0 σi2 = S < ∞, la martingale (Xt ) est bornée dans L2 , et donc elle converge p.s et
dans L2 vers une variable aléatoire que l’on pourra noter X∞ . Par ailleurs, en passant
par exemple par la fonction caractéristique, on démontre que

!
X
X∞ ∼ N 0, σi2 .
i=0

Exemple 3.7.2. Un exemple plus amusant. On sait que la série harmonique diverge, en
fait
n
X 1
∼ log(n) −−−→ ∞.
k n→∞
k=1
Mais quid de la série
X 1
±
k
k∈N

où les signes sont tirés à pile-ou-face ? Soient donc des variables i.i.d (Xk ) avec P(Xk =
+1) = P(Xk = −1) = 1/2 et on définit M0 = 0 puis
n
X Xk
Mt = .
k
k=1

On vérifie que (Mt ) est une martingale, que


n ∞
X 1 X 1 π2
E(Mt2 ) = ≤ =
k2 k2 6
k=1 k=1

65
3 Martingales

et donc (Mt ) converge p.s (et dans L2 ). Autrement dit, presque sûrement par rapport au
tirage des signes ± à pile-ou-face, la série
X 1
±
k
k∈N

converge.

Démonstration. On commence par montrer la convergence dans L2 . Pour ceci, il suffit


de démontrer que (Xt ) est une suite de Cauchy dans L2 .
Par Jensen, (Xt2 ) est une sous-martingale, donc E(Xt2 ) est une suite croissante. De
plus c’est une suite bornée par hypothèse. Donc E(Xt2 ) converge vers une limite C > 0.
Donc :

∥Xt+p − Xt ∥22 = E (Xt+p − Xt )2


 

= E E (Xt+p − Xt )2 |Ft
 

2
|Ft − 2Xt E (Xt+p |Ft ) + Xt2
  
= E E Xt+p
2
|Ft − Xt2
  
= E E Xt+p
2
− E Xt2
 
= E Xt+p
≤ C − E Xt2 −−−→ 0.

n→∞

Donc (Xt ) est une suite de Cauchy dans L2 , donc elle converge dans L2 .
Reste à démontrer que (Xt ) converge également presque sûrement. Là encore, on va
démontrer que (Xt ) est p.s de Cauchy. Pour celà, on pose

Vt = sup |Xi − Xj |.
i,j≥t

On note que (Vt ) est p.s positive et décroissante, donc, elle converge presque sûrement
vers une limite V . De plus,
!
P(Vt > c) = P sup |Xi − Xj | > c
i,j≥t
!
c
≤ P sup |Xk+t − Xt | >
k≥0 2
 !2 
 2
2
≤ E  sup |Xk+t − Xt |  par Markov
c k≥0
 2
2 2
sup E |Xk+t − Xt |2 par Doob avec p = 2


c 2 − 1 k≥0
8
= 2 sup E |Xk+t − Xt |2 −−−→ 0

c k≥0 k→∞

66
3.8 Interlude : urnes de Polya

car (Xt ) est de Cauchy dans L2 . Ceci prouve que


proba.
Vt −−−−→ 0.
t→∞

Or on a déjà montré que


p.s
Vt −−−→ V.
t→∞

Par unicité de la limite (à un p.s. près), V = 0 p.s et donc


p.s
Vt −−−→ 0
n→∞

ce qui prouve que (Xt ) est p.s. une suite de Cauchy, donc elle converge p.s.

Remarque 3.7.1. La proposition 3.7.1 est vraie plus généralement pour tout p > 1 (mais
PAS pour p = 1) ; la démonstration correspondante est un peu plus technique et ne sera
pas faite en cours.

3.8 Interlude : urnes de Polya


Le problème de l’urne de Polya fournit une première illustration de la théorie des
martingales (et notamment des théorèmes de convergence de la section précédente).
On place dans une urne deux boules, une blanche, une noire. Puis on répète l’opération
suivante : tirage d’une boule au hasard, remise de cette boule, et ajout d’une boule
supplémentaire de même couleur que la boule tirée. Soit Nt le nombre de boules blanches
à l’itération t (parmi un total de t + 2 boules). On pose N0 = 1, et on voit que :
n
E(Nt − Nt−1 |Nt−1 = n) = (3.5)
t+1
donc  
t+2
E(Nt |Nt−1 ) = Nt−1 .
t+1
(Noter que le processus est aussi Markovien.)
On considère désormais la proportion de boules blanches : Mt = Nt /(t + 2). C’est une
martingale : E(Mt |Mt−1 ) = Mt−1 .
Cette martingale est à valeur dans [0, 1] (c’est une proportion), donc elle est bornée,
de façon déterministe et a fortiori dans Lp pour tout p ≥ 1. On sait donc que Mt → M∞
p.s. et dans Lp , p > 1 (Théorème 3.7.1). On veut maintenant déterminer la loi de M∞ .
Pour ce faire, on détermine d’abord la loi de Nt .

Proposition 3.8.1. La variable Nt suit une loi uniforme sur l’ensemble {1, . . . , t + 1}.

Démonstration. Par récurrence : on a bien P (N1 = 1) = P (N1 = 2) = 1/2 (ou même


N0 = 1, ce qui est bien une loi uniforme sur le singleton {1}). Si la propriété est vraie au
temps t − 1, on a, pour 1 ≤ n ≤ t + 1 :

67
3 Martingales

 
n−1 n
P(Nt = n) = P(Nt−1 = n − 1) + P (Nt−1 = n) 1 −
t+1 t+1
1
=
t+1

On en déduit aisément que Mt converge en loi vers une loi uniforme sur [0, 1] ; puis par
unicité de la limite, que M∞ ∼ U [0, 1].
Ce problème peut se généraliser comme suit : on place initialement ni boules de couleur
i dans l’urne, pour i = 1, . . . , k. Quelle est alors la loi limite ? La façon la plus élégante
de traiter cette généralisation est d’utiliser des propriétés des lois gamma et de Dirichlet.

Lemme 3.8.2. Une variable aléatoire positive de densité :


β α α−1
f (x) = x exp(−βx)
Γ(α)

où α, β > 0 est dite de loi Gamma(α, β). La sommePde variables indépendantes V1 , . . . , Vk


telles que Vi ∼ Gamma(αi , β) suit une loi Gamma( ki=1 αi , β). En particulier une somme
de k variables exponentielles (αi = 1) de paramètre β suit une loi Gamma(k, β).

Lemme 3.8.3. Soient V1 , . . . , Vk , k ≥ 2, des variables


Pk aléatoires indépendantes telles
que Vi ∼ Gamma(αi , 1), αi > 0. Soient Ui = Vi / j=1 Vj . Le vecteur (U1 , . . . , Uk−1 ) suit
une loi dite de Dirichlet(α1 , . . . , αk ), de densité :
k
Γ( ki=1 αi ) Y αi −1
P
f (u1 , . . . , uk−1 ) = Qk ui 1Sk (u1 , . . . , uk−1 )
i=1 Γ(αi ) i=1

où uk = 1 − u1 − . . . − uk−1 , et
k−1
X
Sk = {(u1 , . . . , uk−1 ) : ui > 0, ui ≤ 1}.
i=1

Pour α1 = . . . = αk = 1, on parlera de loi uniforme sur le simplexe.

On notera que cette loi est définie pour le vecteur (U1 , . . . , Uk−1 ), plutôt que (U1 , . . . , Uk ),
pour éviter les problèmes techniques liées aux lois définies sur des variétés (l’espace fermé
défini par la contrainte U1 + . . . Uk = 1.) Mais, par abus de langage, on dira aussi que le
vecteur (U1 , . . . , Uk ) suit aussi cette loi de Dirichlet.

Lemme 3.8.4. Si (U1 , . . . , Uk ) ∼ Dirichlet(α1 , . . . , αk ), alors pour des entiers j ≥ 2,


l1 , . . . , lj ≥ 1 tels que l1 + . . . + lj = k, le vecteur (W1 , . . . , Wj ) des sommes partielles
W1 = U1 + . . . + Ul1 , ..., Wj = Uk−lj +1 + . . . + Uk suit une loi de Dirichlet, de paramètres
β1 , . . . , βj , avec β1 = α1 + . . . + αl1 , ..., βj = αk−lk +1 + . . . + αk .

68
3.9 Convergence : résultats plus généraux

Les preuves sont laissées au lecteur. On peut maintenant généraliser assez aisément le
résultat précédent.
Proposition 3.8.5. Soit une urne de Polya contenant initialement ni boules de couleur
i, pour i = 1, . . . , k, et soit Mt le vecteur des proportions de chaque couleur au temps t.
Le processus Mt converge p.s. vers une variable M∞ de loi de Dirichlet(n1 , . . . , nk ).
Démonstration. On suppose pour commencer que n1 = . . . = nk = 1. Comme dans le cas
k = 2, on montre aisément que que Mt suit une certaine loi uniforme (sur des ensembles
d’entiers), qui doit converger (en loi) vers une loi uniforme sur le simplexe. Noter aussi
que chaque composante du vecteur Mt est bien une martingale (par rapport à quelle
filtration ?), et donc converge p.s.
Pour une configurationPde départ quelconque, on peut toujours numéroter les boules
k
de départ de 1 à m = i=1 ni pour distinguer les boules de même couleur. Puis on
effectue un tirage de Polya, en remplaçant les « couleurs » par les catégories définies par
ces nombres : i.e. au temps 1 on tire une boule au hasard, et on replace dans le sac deux
boules avec le même nombre. Le résultat précédent montre que le vecteur des proportions
tend vers une loi uniforme (c’est à dire, une Dirichlet(1, . . . , 1)). On réunit ensuite les
boules de même couleur, et on applique le Lemme 3.8.4, pour conclure.

3.9 Convergence : résultats plus généraux


Lorsqu’un processus est borné dans L1 , les choses deviennent nettement plus tech-
niques. En particulier, on peut avoir convergence presque sûre sans convergence dans L1 .
On commence par énoncer et démontrer deux résultats de convergence p.s.
Théorème 3.9.1. Soit (Xt ) une sous-martingale bornée dans L1 . Alors elle converge
presque sûrement.
La preuve nécessite un lemme qui est un résultat intéressant en soi.
p.s
Lemme 3.9.2. Soit (Xt ) une sur-martingale positive. Alors Xt −−−→ X∞ . De plus,
n→∞
E(X∞ |Ft ) ≤ Xt .
Noter que ces deux résultats sont assez intuitifs, par analogie avec les suites détermi-
nistes : une suite croissante (resp. décroissante) et bornée supérieurement (resp. inférieu-
rement) converge vers une limite finie.
Preuve du Lemme 3.9.2. Comme (Xt ) est une sur-martingale positive, (Yt ) défini par
Yt = exp(−Xt ) est une sous-martingale positive (Jensen) avec 0 ≤ Yt ≤ 1. On peut donc
écrire sa décomposition de Doob :
Yt = M t + At (3.6)
où (Mt ) est une martingale, (At ) un processus croissant prévisible et A0 = 0. Comme
(At ) est un processus croissant, il converge presque sûrement vers A∞ à valeurs dans
R+ ∪ {∞}. Par le TCM, E(At ) → E(A∞ ) et de plus,
E(At ) = E(Yt ) − E(Mt ) par (3.6)

69
3 Martingales

= E(Yt ) − E(M0 ) car (Mt ) martingale


= E(Yt ) − E(Y0 ) par (3.6) encore
≤ 1 car 0 ≤ Yt ≤ 1.

Ceci prouve que E(A∞ ) ≤ 1 et donc que A∞ < ∞ p.s.


Pour p ∈ N posons τp = inf{t ∈ N : At+1 > p}, comme (At ) est prévisible, τp est bien
un temps d’arrêt. De plus, At∧τp ≤ p. Donc :
τ
|Mt p | = |Mt∧τp | = |Yt∧τp − At∧τp | ≤ 1 + p
τ
donc la martingale arrêtée (Mt p ) est une martingale bornée, donc bornée dans L2 , et
donc d’après la Proposition 3.7.1 elle converge presque sûrement et dans L2 . Donc
τ
Yt∧τp = Mt p + At∧τp

converge p.s. Autrement dit :

{τp = ∞} ⊂ {(Yt ) converge}

soit (passage au complémentaire)

{(Yt ) diverge} ⊂ {τp < ∞} ⊂ {A∞ > p}

et donc
P ((Yt ) diverge) ≤ P (τp < ∞) ≤ P(A∞ > p) −−−→ 0
p→∞

car A∞ < ∞ p.s. Or P ((Yt ) diverge) ne dépend bien entendu pas de p donc on a
P ((Yt ) diverge) = 0, autrement dit, (Yt ) converge p.s. En revenant à Xt = − log(Yt ), on
a directement que (Xt ) converge également p.s, la limite étant à valeurs dans R+ ∪ {∞}.
Reste à prouver la relation sur l’espérance :
 
E (X∞ |Fk ) = E lim inf Xt Fk
n→∞
≤ lim inf E (Xt |Fk ) par Fatou conditionnel
t→∞
≤ Xk car (Xt ) sur-martingale.

On peut maintenant prouver le théorème.

Preuve du Théorème 3.9.1. Rappel : (Xt ) est cette fois une sous-martingale bornée dans
L1 . On pose Xt+ = Xt ∨0, en tant que fonction convexe de (Xt ), c’est une sous-martingale
(positive). On peut donc encore une fois écrire la décomposition de Doob :

Xt+ = Mt + At

70
3.10 Deuxième interlude : processus de branchement (Galton-Watson)

et, comme dans la preuve du Lemme 3.9.2, (At ) étant positif et croissant, il converge vers
une limite A∞ à valeurs dans R+ ∪ {∞}. Cette fois

E(A∞ ) = sup E(At )


n∈N
= sup E(Xt+ ) − E(Mt )
 
n∈N
≤ sup E(|Xt |) − E(M0 )
n∈N
< ∞ par hypothèse,

donc là encore E(A∞ ) < ∞ et A∞ < ∞ p.s. On définit un nouveau processus,

Yt = Mt + E (A∞ |Ft ) .

Le processus (Mt ) est une martingale, quand à (E (A∞ |Ft )), c’est une martingale régulière
(notion définie dans la prochaine section, mais la démonstration du fait que c’est bien
une martingale est immédiate). Donc (Yt ) est aussi une martingale. Comme (At ) est un
processus croissant, A∞ ≥ At ⇒ E(A∞ |Ft ) ≥ E(An |Ft ) = At . Donc,

Yt = Mt + E (A∞ |Ft ) ≥ Mt + At = Xt+ ≥ 0.


p.s
Donc (Yt ) est une (sur-)martingale positive, d’après le Lemme 3.9.2, Yt −−→ Y∞ . On pose
également
Zt = Yt − Xt ,
en tant que somme d’une martingale et d’une sur-martingale, c’est une sur-martingale
et comme Yt ≥ Xt+ ≥ Xt on a immédiatement Zt ≥ 0. On peut là-encore invoquer le
p.s
Lemme 3.9.2, Zt −−→ Z∞ . Comme Xt = Yt − Zt on a presque établi la convergence p.s.
de (Xt ), il faut juste vérifier qu’il n’y a pas de forme indéterminée. En fait,on va montrer
que Y∞ et Z∞ sont finies p.s.
Tout d’abord, E(Yt ) = E(Mt ) + E(A∞ ) < ∞, or le Lemme 3.9.2 dit également que
E(Y∞ |Ft ) ≤ Yt donc
E(Y∞ ) = E[E(Y∞ |Ft )] ≤ E(Yt ) < ∞
et donc Y∞ < ∞ p.s.
De la même façon,

E(Z∞ ) ≤ E(Zt ) = E(Yt ) − E(Xt ) < ∞

et donc Z∞ < ∞ p.s.

3.10 Deuxième interlude : processus de branchement


(Galton-Watson)
On considère une population évoluant dans le temps : chaque individu au temps t − 1
aura un nombre aléatoire de descendants au temps t. Ce nombre de descendants suit une

71
3 Martingales

loi fixe. Donc, au temps t ≥ 1, le nombre d’individu est :


Zt−1
X
Zt = Xt,i
i=1

où les Xt,i sont des copies IID de X. On prend classiquement Z0 = 1. On va supposer


que P (X = 0) > 0 et P (X > 1) > 0 pour rendre l’étude plus intéressante. (Pourquoi ?)
Bien entendu, le nombre de descendants X est à valeurs dans N.
Les processus de branchement sont très utiles pour modéliser différents phénomènes
en biologie notamment. Ils présentent aussi une belle application de la théorie des mar-
tingales.
Posons d’abord le décor. Soit µ := E(X) et G(x) := E(xX ), pour x ∈ [0, 1] ; G est la
fonction génératrice de la loi de X :
G(x) = P(X = 0) + P(X = 1)x + P(X = 2)x2 + . . .
On montre aisément les propriétés suivantes : G(0) = P (X = 0), G′ (1) = µ, G est
croissante, convexe. Par ailleurs, si Gt est la fonction génératrice de Zt , on a : Gt =
G ◦ Gt−1 (par récurrence).
Par ailleurs E[Zt |Zt−1 ] = µZt−1 , donc E[Zt ] = µt , et :
— si µ > 1 (cas sur-critique) : (Zt ) est une sous-martingale (positive).
— si µ = 1 (cas critique) : (Zt ) est une martingale (positive).
— si µ < 1 (cas sous-critique) : (Zt ) est une sur-martingale (positive).
(Dans les trois cas, la filtration associée est la filtration canonique.) On peut en déduire
que pour µ ≤ 1, Zt converge p.s. vers une limite Z∞ . Nous aimerions en savoir plus sur
Z∞ . (Et sur le comportement asymptotique de Zt quand µ > 1.)
Intéressons-nous tout d’abord à la probabilité d’extinction de la population ; soit l’évé-
nement E : Zt = 0 au bout d’un certain temps t. On note que

E = ∪∞
t=1 {Zt = 0}
et donc π := P(E) est la limite de la suite croissante P(Zt = 0) = Gt (0) (théorème de la
convergence monotone). Reste à savoir dans quels cas π = 1 ou π < 1. (On sait déjà que
π > 0.)
Puisque π = limt→+∞ Gt (0), c’est une solution de l’équation π = G(π). (Gt+1 (0) =
G(Gt (0)), et on passe à la limite ; G est continue.)
Le lemme suivant devient évident si l’on trace les graphes correspondants (se rappeler
que G est croissante, convexe, que G(0) = P (X = 0) > 0 et G′ (1) = µ).
Lemme 3.10.1. Si µ ≤ 1, l’unique solution dans [0, 1] de l’équation π = G(π) est π = 1.
Si µ > 1, cette équation admet une solution dans ]0, 1[ que l’on notera π par la suite
(reste à démontrer que c’est bien la probabilité d’extinction.)
En d’autres termes, pour µ ≤ 1, Zt s’annule en un temps fini. (Et donc la limite Z∞
est simplement un Dirac en 0). Pour µ < 1, on peut de plus montrer que la probabilité
de survie jusqu’à la date t décroît exponentiellement. Par l’inégalité de Markov :
P(Zt ≥ 1) ≤ E(Zt ) = µt .

72
3.11 Martingales régulières et théorème d’arrêt

Pour µ = 1, il est possible de montrer que la probabilité de survie décroît en 1/t :


montrer que (1 − G(x))−1 − (1 − x)−1 = c + O((1 − x)3 ) pour une certaine constante c, en
déduire un développement similaire pour (1 − Gn (x))−1 − (1 − x)−1 , le reste est laissé à
titre d’exercice. Noter que cela implique que le temps jusqu’à extinction a une espérance
infinie.
Pour étudier plus finement le cas µ > 1, on introduit la martingale suivante : Mt :=
Zt /µt . (Expliquer pourquoi c’est une martingale.)
Proposition 3.10.2. Si X ∈ L2 (et donc σ 2 := Var(X) < ∞), la martingale Mt est
bornée dans L2 . Donc elle converge p.s. et dans L2 vers une limite M∞ .
Démonstration. On peut écrire par exemple (en partant de Var(X) = E(X 2 ) − E(X)2 )
que
E(Zt2 |Zt−1 = z) = σ 2 z + µ2 z 2
et en déduire que
σ2
E(Mt2 − Mt−1
2
|Mt−1 ) = Mt−1
µt+1
et donc
t
X 1 σ2
E(Mt2 ) = 1 + σ 2 ≤1+ .
µs+1 µ(µ − 1)
s=1

La preuve ci-dessus nous donne d’ailleurs la variance de la loi limite M∞ . Puisque cette
variance est non-nulle, on a bien montré que la probabilité d’extinction est strictement
inférieure à 1. (Si cette probabilité valait 1, alors Zt et donc aussi Mt s’annulerait au
bout d’un certain t.)
Donc, pour conclure, quand µ > 1, le comportement asymptotique de la population
est le suivant :
— Avec probabilité π (l’unique solution dans ]0, 1[ de l’équation π = G(π)), la popu-
lation s’éteint en un temps fini.
— Avec probabilité (1-π), la taille de la population diverge exponentiellement, au
taux M∞ (ω)µt . (La constante devant le µt est aléatoire, et suit la loi de M∞
conditionnellement à M∞ > 0.)
Si la loi de X n’a pas de variance, on peut avoir des comportements un peu plus
compliqués.
Notons enfin que si la martingale Mt n’est pas très utile en soi dans le cas µ ≤ 1, c’est
un exemple simple de martingale qui converge p.s. (vers 0 comme on l’a déjà expliqué)
mais pas dans L1 , puisque E(Mt ) = 1. Intuitivement, la loi de Mt s’écrase vers zéro, mais
avec une probabilité non nulle de prendre de très grandes valeurs, qui « compensent ».

3.11 Martingales régulières et théorème d’arrêt


On a insisté dans les sections précédentes sur le fait qu’une martingale pouvait conver-
ger p.s. sans converger dans L1 . (Les processus de branchement nous ont donné un tel

73
3 Martingales

exemple). On va caractériser dans cette section les martingales qui convergent selon ces
deux modes.
On commence par définir les martingales régulières :
Définition 3.11.1. Un processus (Xt ) qui peut se mettre sous la forme

Xt = E(X|Ft )

pour une certaine filtration (Ft ) et une certaine variable intégrable X, est appelé martin-
gale régulière.
(Le fait qu’un tel processus soit effectivement une martingale associée à la filtration
(Ft ) est facile à démontrer.)
Théorème 3.11.1. Soit Xt = E(X|Ft ) (avec X variable intégrable) une martingale
régulière, alors Xt converge p.s. et dans L1 vers X∞ = E(X|F∞ ).
Réciproquement, si (Xt ) est une martingale qui converge vers une certaine limite X∞
dans L1 , alors c’est une martingale régulière, et elle converge p.s. vers X∞ .
1 L
Démonstration. Commençons par la réciproque. Noter que Si Xt −→ X∞ alors

|Xt | ≤ |X∞ | + |Xt − X∞ |


p.s
donc supt E(|Xt |) < ∞, et on peut invoquer le Théorème 3.9.1 qui montre que Xt −−→
X∞ (même limite, car convergence L1 et convergence p.s. impliquent convergence en
probabilité).
Par ailleurs, Xt = E(Xt+k |Ft ) pour tout k ≥ 0, et pour faire tendre k → ∞, prendre
A ∈ Ft , et noter que E(Xt 1A ) = E(Xt+k 1A ), et

|E (Xt+k − X∞ ) 1A | ≤ E (|Xt+k − X∞ | 1A ) ≤ ∥Xt+k − X∞ ∥1 → 0

et donc E(Xt 1A ) = E(X∞ 1A ), on a bien Xt = E(X∞ |Ft ), et (Xt ) est une martingale
régulière. (X∞ est bien intégrable, puisque c’est la limite dans L1 .)
Dans l’autre sens, supposons que Xt = E(X|Ft ) avec X intégrable. On a alors

E(|Xt |) = E (|E(X|Ft )|) ≤ E (E(|X| |Ft )) = E(|X|)

donc (Xt ) est bornée dans L1 et le Théorème 3.9.1 dit qu’elle converge p.s vers une v.a.
X∞ . Démontrons maintenant que la convergence a aussi lieu dans L1 (vers la même limite
X∞ , même argument que ci-dessus). Pour ceci on va démontrer que (Xt ) est de Cauchy
dans L1 . On a X = X + − X − avec X + = X ∨ 0 et X − = (−X) ∨ 0 ; on décompose
Xt = E(X|Ft ) = E(X + |Ft ) − E(X − |Ft ) et on va démontrer que E(X + |Ft ) et E(X − |Ft )
sont des suites de Cauchy. On traite le cas de E(X + |Ft ), le cas E(X − |Ft ) est identique.
On a :

∥E(X + |Fs ) − E(X + |Ft )∥1 = ∥E(X + |Fs ) − E(X + ∧ a|Fs )∥1
| {z }
−a→∞
−−→0 (TCD)

74
3.11 Martingales régulières et théorème d’arrêt

+ ∥E(X + ∧ a|Fs ) − E(X + ∧ a|Ft )∥1 + ∥E(X + ∧ a|Ft ) − E(X + |Ft )∥1 .
| {z }
−a→∞
−−→0 (TCD)

Pour le terme ∥E(X + ∧ a|Ft ) − E(X + ∧ a|Fs )∥1 , noter que (E(X + ∧ a|Fn )) est une
martingale bornée dans L1 , donc elle converge p.s, et de plus c’est une martingale bornée,
donc, la convergence p.s implique la convergence dans L1 . Donc cette suite est de Cauchy
dans L1 et donc le terme peut être rendu aussi petit que l’on veut quand s et t sont assez
grands.
La dernière étape est de démontrer que X∞ = E(X|F∞ ). On procède de la même façon
que ci-dessus (dans la réciproque). Pour A ∈ Ft , on a

∀k ≥ 0, E(Xt+k 1A ) = E(Xt 1A ) = E(X1A )

et puisque

|E (Xt+k − X∞ ) 1A | ≤ E (|Xt+k − X∞ | 1A ) ≤ ∥Xs − X∞ ∥1 → 0

on a bien :
E(X∞ 1A ) = E(X1A ). (3.7)
et cette relation est plus généralement vraie pour tout A ∈ ∪t∈N Ft . S 
Malheureusement, ceci ne montre pas que c’est vrai pour tout A ∈ F∞ = σ n∈N Fn .
On s’en sort avec le théorème de classe monotone (admis, hors programme) : tout d’abord,
l’ensemble des A qui satisfait (3.7) est S
une classe monotone (contient Ω, stable par union
croissante et par différence). De plus, n∈N Fn est un π-système (stable par intersection
finie)
S inclusdans cette classe monotone. Le théorème de classe monotone dit alors que
σ n∈N Fn est aussi inclus dans la classe monotone.

Théorème 3.11.2. Soit Xt = E(X|Ft ) une martingale régulière et τ un temps d’arrêt


quelconque (à valeurs dans N ∪ {∞}). Alors E(X|Fτ ) = Xτ .

En particulier, en prenant l’espérance, on obtient E(Xτ ) = E(X) = E(X0 ).

Démonstration.
X
Xτ = E(X|Fk )1{τ =k} + E(X|F∞ )1{τ =∞} .
k∈N

En particulier E(|Xτ |) ≤ E(|X|) < ∞ donc Xτ est intégrable.


Pour démontrer E(X|Fτ ) = Xτ , il suffit de démontrer que pour tout A ∈ Fτ , E(1A X) =
E(1A Xτ ). Or on a :
!
X
E(1A X) = E 1A X1{τ =k} + 1A X1{τ =∞}
k∈N
X
= E(X 1A∩{τ =k} ) + E(X 1A∩{τ =∞} )
k∈N
| {z } | {z }
∈Fk ∈F∞

75
3 Martingales
X
= E(Xk 1A∩{τ =k} ) + E(X∞ 1A∩{τ =∞} )
k∈N
= E(1A Xτ ).

76
4 Processus en temps continu
Le but de cette section est d’introduire les deux processus en temps continu les plus
courament utilisés :
— le processus de Wiener, dit mouvement brownien ;
— le processus de Poisson ;
sans trop rentrer dans la théorie.
Comme bien expliqué dans la préface du livre de Kingman (1993), il est plus intuitif
de présenter certaines propriétés de ces processus dans un cadre plus général que le cadre
temporel ; c’est à dire comme des fonctions aléatoires τ → R, sans se restreindre à τ = R+
(espace des temps). C’est l’approche que nous suivrons.

4.1 Processus ponctuels, processus de Poisson


4.1.1 Préliminaires : loi de Poisson
On commence par rappeller la définition d’une loi de Poisson.
Définition 4.1.1. La loi de Poisson de paramètre µ > 0 est la loi d’une variable
aléatoire X, à valeurs dans N, telle que :
e−µ µk
P(X = k) = , k = 0, 1, . . . .
k!
Il sera utile par la suite d’étendre cette définition :
— au cas µ = 0 : X = 0 p.s. ;
— au cas µ = +∞ : X = +∞ p.s.
La fonction génératrice d’une loi de Poisson se calcule aisément :
G(x) := E xX = exp {µ(x − 1)} , |x| ≤ 1,
 

et permet d’obtenir tous ces moments par dérivation : G′ (1) = E[X], G′′ (1) = E [X(X − 1)],
etc. Notamment :
E[X] = Var[X] = µ.
Une propriété fondamentale des lois de Poisson est leur additivité, ou plus généralement
leur sigma-additivité.
Proposition 4.1.1. Soient Xi ∼ Poisson(µi ) des variables indépendantes, avec µi ∈
[0, ∞]. Alors
∞ ∞
!
X X
Xi ∼ Poisson µi .
i=1 i=1

77
4 Processus en temps continu

1.0

0.8

0.6

0.4

0.2

0.0
0.0 0.2 0.4 0.6 0.8 1.0

Figure 4.1 – Réalisation d’un processus ponctuel sur [0, 1]2 ; pour un processus de Pois-
son, les nombres de points qui tombent dans chacun des deux rectangles
sont indépendants.

Démonstration. Dès qu’un des µi = +∞, le résultat devient évident. On suppose tous
les µi < +∞.
On montre aisément que cette propriété est vraie pour une somme finie :
n
X n
X
Xi ∼ Poisson( µi ).
i=1 i=1

(Preuve par récurence, et pour n = 2, simple calcul de probabilité discrète, laissé à votre
soin. Ou alors passer par la fonction génératrice.) Il suffit ensuite d’invoquer le théorème
de convergence monotone pour conclure. Ce raisonnement est valable que la série ∞
P
i=1 µi
converge ou pas. (Exercice : vérifier les détails du raisonnement dans ces deux cas !).

4.1.2 Les processus de Poisson comme processus ponctuels


On appelle processus ponctuel (point process) dans un espace E une variable aléa-
toire Π dont les réalisations sont des ensembles, au plus dénombrables, de points dans
E ; la figure 4.1 représente une telle réalisation pour E = [0, 1]2 .
Ces processus ponctuels sont utilisés par exemple en statistique spatiale, pour modéliser
la positions de tremblements de terre, d’arbres, d’étoiles, etc. Un exemple historique est
l’étude du caractère « aléatoire » des impacts de missiles V1 sur la ville de Londres à la
fin de la seconde guerre mondiale ; cf. Shaw and Shaw (2019).
Il est commode de représenter un tel processus via le processus de comptage (coun-
ting process) associé. Soit l’application (aléatoire) qui à un ensemble A ⊂ E associe le
nombre de points de Π qui tombe dans A :

N (A) = # {Π ∩ A} .

78
4.1 Processus ponctuels, processus de Poisson

Remarque 4.1.1. Techniquement, il faut donc imposer que pour des ensembles A « inté-
ressants », la variable aléatoire N (A) soit bien définie, i.e. l’application ω → # {Π(ω) ∩ A}
soit bien mesurable. Les ensembles « intéressants » seront généralement les éléments
d’une tribu associée à E, comme cela va apparaître clairement par la suite.

Les processus de Poisson sont des processus ponctuels vérifiant les propriétés suivantes.

Définition 4.1.2. Soit (E, E) un ensemble mesurable, et µ une mesure associée à cet
ensemble. On appelle processus de Poisson de mesure moyenne µ un processus
ponctuel Π tel que le processus de comptage associé, N (A) = # {Π ∩ A}, vérifie les deux
propriétés suivantes :
1. Pour A1 , . . . , Ak ∈ E disjoints, les variables N (Ai ) sont indépendantes.
2. Pour A ∈ E, N (A) ∼ Poisson (µ(A)).

La première propriété est la plus fondamentale : un processus de Poisson modélise une


notion d’« indépendance locale » : la position d’un point n’a pas d’influence sur la position
des autres ; voir à nouveau la figure 4.1. Cette propriété est vraisemblable dans beaucoup
d’applications. Il est aussi possible de construire des processus ponctuels répulsifs (les
points se repoussent), ou attractifs (les points s’agglutinent) mais ces processus sont
nettement plus compliqués et ne seront pas abordés dans le cours.
Dans la définition, la mesure µ sert bien de « moyenne » dans le sens où

E[N (A)] = µ(A).

Si µ(E) < +∞ (resp. = ∞), Π est p.s. un ensemble fini (resp. infini dénombrable).
Dans beaucoup d’applications, E ⊂ Rd , et µ est dominée par la mesure de Lebesgue :
µ(dx) = λ(x)dx, où la fonction λ est dite fonction d’intensité. Quand λ est constante,
on dit que le processus est homogène. Pour une mesure µ plus générale, il n’est pas
forcément possible de construire un processus de Poisson de mesure moyenne µ. En
particulier, si µ est atomique (i.e. µ({x}) > 0 pour un certain x ∈ E), l’existence d’un tel
processus entraînerait la contradiction suivante : N ({x}) ≤1 (par définition), et N ({x}) ∼
Poisson(c) pour un certaine constante c > 0. Le théorème suivant donne des conditions
suffisantes sur µ pour l’existence d’un processus de Poisson.

Théorème 4.1.2. (Existence) Soit µ une mesure sigma-finie non-atomique sur (E, E).
Alors il existe un processus de Poisson de mesure moyenne µ.

Démonstration. On commence par le cas où µ est une mesure finie, µ(E) < ∞. On pose
µp = µ/µ(E) ; c’est une mesure de probabilité.
On se donne un espace de probabilité (Ω, F, P) sur lequel on peut construire les va-
riables aléatoires suivantes : X1 , X2 , . . . une suite de variables IID de loi µp , et N une
variable indépendante des Xi , de loi Poisson(µ(E)). On pose alors :

Π = {X1 , . . . , XN } .

79
4 Processus en temps continu

Montrons que Π est bien un processus de Poisson. Pour A1 , . . . , Ak ∈ E, soit A0 le


complémentaire de ∪ki=1 Ai . Conditionnellement à N = n, le vecteur des N (Ai ) suit une
loi multinomiale :
k 
µ(Ai ) ni

n! Y
P (N (A0 ) = n0 , . . . , N (Ak ) = nk |N = n) = Qk
i=0 ni ! i=0
µ(E)

et donc
k 
n µ(Ai ) ni
  
−µ(E) µ(E) n! Y
P (N (A0 ) = n0 , . . . , N (Ak ) = nk ) = e Qk
n! i=0 ni !
µ(E)
i=0
k
Y e−µ(Ai ) µ(Ai )ni
= .
ni !
i=0

Les N (Ai ) sont bien indépendants


P et de loi Poisson (µ(Ai )).
Dans le cas sigma-fini, µ = ∞ i=1 µi , avec µi (E) < ∞. Soit

Π = ∪∞
i=1 Πi

où Πi est un processus de Poisson de mesure moyenne µi . On invoque le théorème (admis)


de superposition, qui dit que Π suit alors un processus de Poisson de mesure µ.
Noter que ce théorème de superposition est à première vue un corrolaire direct de la
sigma-additivité des lois de Poisson : si Ni (A) = # {Πi ∩ A} ∼ Poisson (µi (A)), alors

X ∞
X
Ni (A) ∼ Poisson( µi (A)).
i=1 i=1

Mais, pour que cette somme soit bien le cardinal de Π ∩ A, il faut s’assurer que les
ensembles Πi ∩ A sont bien disjoints p.s. C’est vrai pour A tel que µ(A) < ∞ mais non
trivial, voir les pages 14 à 17 du livre de Kingman (1993).

La construction explicite ci-dessus (dans le cas µ finie) donne une nouvelle inteprétation
d’un processus de Poisson : chaque réalisation est un « jeu de données » (une collection
de variables IID) dont la taille est aléatoire.

4.1.3 Cas E = R+
On s’intéresse désormais au cas E = R+ . Il est alors possible d’ordonner les points de Π ;
soit 0 < X1 < X2 < . . . . Ces variables sont interprétées comme des dates d’événements
(par exemple de tremblements de terre). On pose

X
Nt := N ([0, t]) = 1 {Xi ≤ t} .
i=1

C’est ce processus (Nt )t≥0 que l’on appelle communément processus de Poisson. Ses pro-
priétés principales se déduisent immédiatement de sa définition et de celle des processus
de Poisson généraux.

80
4.1 Processus ponctuels, processus de Poisson

Proposition 4.1.3. La trajectoire t → Nt est p.s. constante par morceaux, càdlàg (conti-
nue à droite, limitée à gauche) et croissante. Le processus (Nt ) est à accroissements
indépendants : i.e. les variables Ns et Nt − Ns sont indépendants pour 0 ≤ s ≤ t.

Le processus(Nt ) nous donne un premier exemple de processus Markovien en temps


continu : pour 0 ≤ s ≤ t, Nt = Ns + (Nt − Ns ), où l’accroissement est indépendant de la
trajectoire sur [0, s] ; donc Nt sachant cette même trajectoire ne dépend que de Ns . Nous
formaliserons la notion de processus Markovien en temps continu à la fin du chapitre.
De la même façon, on se doute que Mt = Nt − µ([0, t]) définit une martingale en temps
continu, puisque E[Mt |Ms ] = Ms .
On s’intéresse désormais au cas homogène : µ([0, t]) = λt, pour un certain λ > 0. Dans
ce cas, les lois des dates Xi des événements, et des durées d’attente entre ces événements,
Yi := Xi − Xi−1 (i ≥ 2, Y1 := X1 ) sont particulièrement simples.

Proposition 4.1.4. Les variables Yi sont IID (indépendantes et identitiquement distri-


buées) de loi Exp(λ). Les variables Xi sont de loi Gamma(i, λ).

Démonstration. Pour X1 = Y1 , on a :

P(X1 > t) = P (Nt = 0) = exp(−λt)


puisque Nt ∼ Poisson(λt). Ceci est bien la fonction de survie d’une loi exponentielle.
Plus généralement pour Xi :
i−1
X (λt)k
Si (t) := P(Xi > t) = P (Nt ≤ i − 1) = exp(−λt)
k!
k=0

et on obtient la densité de Xi en dérivant (par rapport à t) :


( i−1 i−1
)
X λk tk−1 X (λt) k
−Si′ (t) = − exp(−λt) −λ
(k − 1)! k!
k=1 k=0
λi
= ti−1 exp(−λt)
(i − 1)!

qui est bien la densité d’une loi Gamma(i, λ).


Pour montrer que Y1 et Y2 sont IID, de loi exponentielle, on peut partir de (pour
0 ≤ s ≤ t) :

P(X1 > s, X2 > t) = P(Ns = 0, Nt ≤ 1)


= P(Ns = 0)P(Nt − Ns ≤ 1)

puis dériver (en s et en t) pour obtenir la densité jointe de (X1 , X2 ), et en déduire la


densité jointe de (Y1 , Y2 ). Mais c’est rapidement laborieux pour (Y1, Y2, . . . , Yk ).

Le résultat devient évident si l’on admet que le processus Nt = Nt−X1 − 1 (qui compte
le nombre d’événements à partir du temps X1 ) est indépendant de X1 , et de même

81
4 Processus en temps continu

loi que (Nt ); alors Y2 = X2 − X1 a forcément la même loi que X1 . Cette propriété
admise est essentiellement la propriété de Markov forte en temps continu ; pour un preuve
relativement simple (mais spécifique au processus de Poisson), voir par exemple les pages
39 et 40 de Kingman (1993).

Remarque 4.1.2. Indirectement, on vient de redémontrer que la somme de variables


IID de loi exponentielle suit une loi Gamma. A titre d’exercice, démontrer la réciproque
de la Proposition 4.1.4 : un processus ponctuel défini à partir de durées inter-événements
IID, de loi exponentielle est un processus de Poisson.

Remarque 4.1.3. L’apparition de lois exponentielles n’est pas très surprenante. On


rappelle qu’une loi exponentielle est dite sans mémoire, car sa fonction de hasard (la
densité de Y ∼ Exp(λ) conditionnellement à Y ≥ y) est constante. En d’autre termes :
la probabilité instantannée d’occurence d’un événement est constante, ce qui est bien le
comportement attendu pour un processus de Poisson.

La proposition ci-dessus est lié au « paradoxe » dit du temps d’attente : Pour une
ligne de bus « poissonienne », le temps de passage entre deux bus suit une loi Exp(λ),
d’espérance 1/λ. En revanche, si j’arrive à à une date arbitraire t > 0 à l’arrêt de bus, la
durée entre le passage du bus précédent et le bus suivant est la somme de deux variables
exponentielles, soit une loi Gamma(2, λ) d’espérance 2/λ. En d’autres termes, si un bus
passe toutes les dix minutes (en moyenne), mon temps d’attente moyen est aussi de 10
minutes.

4.1.4 Généralisation aux processus Markovien en temps discret


Pour un processus de Poisson homogène d’intensité λ > 0, on a :

P(Nt+h = n + 1|Nt = n) = λh + o(h),


P(Nt+h = n|Nt = n) = 1 − λh + o(h),

et les autres valeurs n + 2, . . . ont une probabilité en o(h). En d’autres termes, d’un point
de vue « infinitésimal », (Nt ) ressemble à une chaîne de Markov dont les seules transitions
possibles sont n → n, et n → n + 1. Une généralisation naturelle est de considérer un
processus (Xt ), à valeurs dans X ⊂ Z, permettant d’autres transitions : pour i, j ∈ X :

P(Xt+h = j|Xt = i) = A(i, j)h + o(h), i ̸= j,


 
X 
P(Xt+h = i|Xt = i) = 1 − A(i, j) h + o(h).
 
j̸=i
P
On pose A(i, i) = − j̸=i A(i, j) : chaque ligne de la matrice A somme à 0. (Comme
pour P dans les chaînes de Markov, A est bien une matrice si l’espace d’état X est fini ;
sinon c’est juste une application X × X → R.)
Dans le cas particulier où A(i, j) > 0 si et seulement si |i−j| ≤ 1, on parle de processus
de vie et de mort. Le processus de Poisson est un cas particulier (processus de vie pur).

82
4.2 Mouvement brownien

On admettra les propriétés suivantes, qui semblent intuitives, par analogie avec les
propriétés correspondantes du processus de Poisson :
1. de tels processus existent.
P 
2. Le temps passé dans un état i suit une loi exponentielle Exp j̸=i A(i, j) . Une
P
fois ce temps écoulé, on choisit un nouvel état j ̸= i, avec probabilité A(i, j)/ k̸=i A(i, k).
3. Si (Xt ) admet une loi invariante, alors πA = 0.
4. La loi marginale de (Xt ) est donnée par le vecteur p(t) = p(0) exp (At) .
Pour justifier (informellement) la propriété 4, on peut écrire :
X
P(Xt+h = j) = P(Xt = i)P(Xt+h = j|Xt = i),
i
X
= P(Xt = j) {1 + A(i, i)h} + P(Xt = i)A(i, j)h + o(h),
i̸=j

donc
P(Xt+h = j) − P(Xt = j) X
= P(Xt = i)A(i, j)
h
i

et passer à la limite h → 0 :
p′ (t) = p(t)A

où p(t) est le vecteur des P(Xt = i). Cette équation justifie aussi indirectement la pro-
priété 3 : dans le régime stationnaire, p(t) = π, p′ (t) = 0, donc πA = 0.

4.2 Mouvement brownien


4.2.1 Processus gaussiens
On appelle processus gaussien une variable aléatoire f à valeurs dans un espace de
fonctions X → R (typiquement X = Rd ) telle que, pour tout x1 , . . . , xd ∈ X , d ≥ 1, le
vecteur  
f (x1 )
 .. 
 . 
f (xd )
suit une loi normale (multivariée de dimension d).
La théorie des processus gaussiens (notamment leur existence, la nature de leur sup-
port, etc) dépasse très largement le cadre de ce cours. On admettra donc que de tels
processus existent, et qu’ils sont caractérisés entièrement par leurs « moments d’ordre
deux » définis comme suit :
— La fonction moyenne m : X → R : m(x) := E (f (x)).
— La fonction de covariance, C : X 2 → R, qui définit C(x1 , x2 ) := Cov(f (x1 ), f (x2 )).

83
4 Processus en temps continu

La fonction de covariance C est souvent appelé « noyau » (un terme polysémique en sta-
tistiques...). Cette fonction doit être choisie de manière à ce que, pour tous x1 , . . . , xd , la
matrice de covariance (C(xi , xj ))i,j=1,...,d soit bien définie positive. Un notau couramment
utilisé est le noyau dit Gaussien (ou squared exponential ) :
∥x1 − x2 ∥2
 
C(x1 , x2 ) = c exp − .
2ℓ2
Les réalisations d’un processus avec un tel noyau sont très régulières (infiniment déri-
vables). Ces processus sont beaucoup utilisés dans différents domaine du machine lear-
ning, notamment en optimisation bayésienne et en apprentissage par renforcement.

4.2.2 Mouvement brownien


Le mouvement brownien (ou processus de Wiener) est un processus en temps
continu, noté classiquement (Wt )t≥0 ou simplement (Wt ). Vu comme une fonction t →
Wt , c’est un processus gaussien tel que :
— W0 = 0 p.s.
— la fonction moyenne est nulle : E[Wt ] = 0.
— la fonction de covariance est : C(s, t) := Cov(Ws , Wt ) = σ 2 s ∧ t, pour s, t ≥ 0 et
un certain σ 2 > 0.
On déduit de la dernière propriété que ce processus est à accroissements indépendants.
En effet, pour 0 ≤ s ≤ t :

Cov(Ws , Wt − Ws ) = C(s, t) − C(s, s) = 0.


donc Ws et Wt − Ws sont non corrélés et donc indépendants (en tant que composantes
d’un vecteur gaussien).
Comme pour le processus de Poisson, on peut utiliser cette propriété d’accroissements
indépendants pour en déduire (informellement) que
— (Wt ) est Markovien : Wt = Ws + (Wt − Ws ), donc Wt ne dépend de (Wu )u∈[0,s] que
via Ws .
— (Wt ) est une martingale en temps continu : E(Wt |Ws ) = Ws pour s ≤ t.
On admet par ailleurs la propriété suivante.
Proposition 4.2.1. La trajectoire d’un mouvement brownien est p.s. une fonction conti-
nue, non-dérivable.
La quantité suivante :
Wt+h − Wt ∼ N (0, σ 2 h)
tend bien vers 0 quand h → 0 (continuité), mais à un taux O(h1/2 ) trop lent pour en
faire une fonction dérivable. On peut montrer plus précisément que la trajectoire est
α−Hölder pour tout α < 1/2 :
Wt+h − Wt
∼ N (0, σ 2 h1−2α )

(Une fonction α−Hölder f est telle que |f (x) − f (y)| ≤ C|x − y|α ; pour α = 1, f est
Lipschitz et donc dérivable.)

84
4.2 Mouvement brownien

4.2.3 Processus markovien en temps continu


On conclut ce chapitre par un aperçu de la théorie des processus Markoviens (homo-
gènes) en temps continu.
En temps discret, une chaîne de Markov homogène est définie via un noyau P (x, dy),
qui donne la loi de Xt+1 sachant Xt . La loi de Xt+k sachant Xt est alors donnée par le
noyau P k (x, dy). On a notamment :
Z
P k+l (x, dz) = P k (x, dy)P l (y, dz)
y

En temps continu, on est obligé de se donner une collection de noyaux de transition,


(Ph )h≥0 , qui définit la loi de Xt+h sachant Xt . Par analogie avec le temps discret, on doit
imposer la contrainte suivante :
Z
Pt+h (x, dz) = Pt (x, dy)Ph (y, dz).

Une collection de noyau de transition est appelé semi-groupe Markovien.


On peut remarquer notamment que le semi-groupe markovien :
1. d’un processus de Weiner (de volatilité σ 2 > 0) est tel que Ph (x, dy) est la loi
N (x, σ 2 h) ;
2. d’un processus de Poisson (d’intensité constante λ > 0) est tel que Ph (x, dy) est la
loi Poisson(λh) translatée de x vers la droite.
Cependant, pour les processus à valeurs dans Z (comme le processus de Poisson), il est
plus commode de caractériser leur comportement via la notion de générateur infinitésimal,
comme expliqué en Section 4.1.4.

85
Bibliographie
Baldi, P., Mazliak, L., and Priouret, P. (2002). Martingales and Markov chains. Chapman
& Hall/CRC, Boca Raton, FL. Solved exercises and elements of theory, Translated
from the 1998 French original.

Brémaud, P. (1999). Markov chains, volume 31 of Texts in Applied Mathematics.


Springer-Verlag, New York. Gibbs fields, Monte Carlo simulation, and queues.

Kingman, J. F. C. (1993). Poisson processes, volume 3 of Oxford Studies in Probability.


The Clarendon Press, Oxford University Press, New York. Oxford Science Publications.

Lawler, G. F. (2006). Introduction to stochastic processes. Chapman & Hall/CRC, Boca


Raton, FL, second edition.

Meyn, S. and Tweedie, R. L. (2009). Markov chains and stochastic stability. Cambridge
University Press, Cambridge, second edition. With a prologue by Peter W. Glynn.

Shaw, L. P. and Shaw, L. F. (2019). The flying bomb and the actuary. Significance,
16(5) :12–17.

87

Vous aimerez peut-être aussi