Poly Processus
Poly Processus
Notes de cours
Nicolas Chopin
Table des matières
1 Introduction 7
1.1 Processus stochastiques : définition . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Rappels sur l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . 9
2 Chaînes de Markov 13
2.1 Construction et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Classes d’états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Opérateur potentiel et nature des classes d’états . . . . . . . . . . . . . . . 22
2.6 Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Périodicité, convergence des lois marginales . . . . . . . . . . . . . . . . . 34
2.8 Réversibilité, algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . 37
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler . . . . 39
2.10 Extension à un espace d’états continu . . . . . . . . . . . . . . . . . . . . 42
2.11 Chaînes de Markov cachées . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3 Martingales 49
3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Théorème d’arrêt : le cas borné . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Convergence dans L2 (et plus généralement Lp , p > 1) . . . . . . . . . . . 65
3.7 Interlude : urnes de Polya . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.8 Convergence : résultats plus généraux . . . . . . . . . . . . . . . . . . . . 69
3.9 Deuxième interlude : processus de branchement (Galton-Watson) . . . . . 72
3.10 Martingales régulières et théorème d’arrêt . . . . . . . . . . . . . . . . . . 74
3
Table des matières
4
Table des matières
5
1 Introduction
1.1 Processus stochastiques : définition
Dans tout le cours, on considèrera un espace probabilisé (Ω, F, P), un espace mesurable
(E, E) et un ensemble T .
Définition 1.1.1. On appelle processus stochastique, ou processus aléatoire, une famille
(Xt )t∈T de variables aléatoires à valeurs dans E. Autrement dit, pour tout t ∈ T , l’ap-
plication ω 7→ Xt (ω) est une application mesurable de (Ω, F) dans (E, E). On appelle E
l’espace d’états du processus.
En pratique, on utilise souvent les processus pour de la modélisation dynamique : Xt
est la valeur d’une variable d’intérêt à la date t. L’ensemble T représente alors l’ensemble
des dates possibles.
Définition 1.1.2. Lorsque T = N ou T = Z on dit que (Xt )t∈T est un processus à temps
discret. Lorsque T = R, ou un intervalle de R, on parle de processus à temps continu.
Exemple 1.1.1. Un exemple à temps discret : soit Xt le PIB de la France à l’année t
(donc E = R+ ). En revanche, en finance, les prix des actifs, devises, etc. sont mises à
jour avec une fréquence tellement élevée qu’on préfère utiliser une modélisation à temps
continu : soit Xt le cours EURO/DOLLAR à la date t, t mesurée en heures avec t = 0
correspondant au 1er janvier 1999 à 0h.
Ω×T →E
(ω, t) 7→ Xt (ω)
qui doit vérifier la condition que, pour t fixé, ω 7→ Xt (ω) est mesurable (autrement dit, Xt
vérifie bien la définition de variable aléatoire). A ω fixé, la fonction t 7→ Xt (ω) s’appelle
une trajectoire du processus.
Définition 1.1.3. On appelle filtration une suite (Ft )t∈T de σ-algèbres vérifiant
s ≤ t ⇒ Fs ⊂ Ft ⊂ F.
7
1 Introduction
8
1.2 Rappels sur l’espérance conditionnelle
En effet :
9
1 Introduction
X∞
= E X1{Y =y} g(y)
y=0
= E [Xg(Y )]
= E(XZ).
Le théorème suivant dit justement que la propriété 1.3 peut s’étendre au cas général.
Théorème 1.2.1. Soit A ⊂ F une σ-algèbre et X une variable aléatoire réelle, positive
ou intégrable. Alors il existe une variable aléatoire A-mesurable, positive ou intégrable,
unique à un p.s près, notée E(X|A), telle que pour toute variable aléaoire Z, A-mesurable,
positive ou bornée, on a
E E(X|A)Z = E(XZ). (1.4)
Dans le cas où A = σ(Y ) pour une variable aléatoire Z, on note simplement E(X|Y ) au
lieu de E(X|σ(Y )).
soit
E(XZ) = E[Π(X)Z].
On voit donc qu’en posant E(X|A) := Π(X) la relation (1.4) est immédiatement
satisfaite.
Il reste ensuite à travailler un peu pour étendre cette définition au cas où X est
simplement intrégrable (X ∈ L1 ) ou positive. □
On rappelle quelques propriétés qu’on utilisera en permanence tout a long de ce cours.
Soient X et Y deux variables aléatoires réelles, λ et µ deux nombres réels, A et B deux
σ-algèbre, (Xn )n∈N une suite de variables aléatoires, et f une fonction R → R.
1. E(λ|A) = λ.
2. E(λX + µY |A) = λE(X|A) + µE(Y |A).
10
1.2 Rappels sur l’espérance conditionnelle
11
2 Chaînes de Markov
2.1 Construction et définitions
Dans tout ce chapitre, (Xt )t∈N un processus à valeurs dans un espace (E, E), et (Ft )
sa filtration canonique Ft = σ(X0 , . . . , Xt ).
Définition 2.1.1. Le processus (Xt )t∈N est markovien si et seulement si
Donc, on peut décrire la loi de la chaîne (Xt ) par la loi de X0 et la loi de Xt+1 |Xt pour
tout t ∈ N.
Définition 2.1.2. On dit qu’une chaîne de Markov (Xt ) est homogène si, pour tout
(x, y) ∈ E2 , P(Xt+1 = y|Xt = x) ne dépend que de (x, y), et pas de t.
A partir de maintenant, on ne considérera que des chaînes de Markov homogènes.
Un abus (très) fréquent consiste à appeler “chaîne de Markov” uniquement les chaînes
de Markov homogènes, et “chaîne de Markov non homogène” une chaîne de Markov
quelconque. A partir de maintenant, on suivra cette convention.
Définition 2.1.3. Soit (Xt ) une chaîne de Markov (donc, homogène). Notons
13
2 Chaînes de Markov
On a alors
Même si c’est évident, n’importe quelle matrice ne peut pas être une matrice de tran-
sition !
Proposition 2.1.1. Soit une matrice de transition P d’une chaîne de Markov (Xt ).
Alors, pour tout (x, y), P (x, y) ∈ [0, 1] et
X
P (x, y) = 1.
y∈E
Démonstration. Pour la première propriété, P (x, y) = P(X1 = y|X0 = x) ∈ [0, 1]. Pour
la deuxième :
X X
P (x, y) = P(X1 = y|X0 = x) = P(X1 ∈ E|X0 = x) = 1
y∈E y∈E
On mentionne ensuite une méthode simple pour construire une chaîne de Markov.
Proposition 2.1.2. Pour toute loi initiale µ, et matrice de transition P , sur un espace
dénombrable E, il existe des fonctions f0 et f , et une suite de variables aléatoires IID
(indépendantes et identiquement distribuées) U0 , U1 , . . . telles que la suite de variables
aléatoires X0 = f0 (U0 ), Xt = f (Xt−1 , Ut ) est une chaîne de Markov de loi initiale µ et
de matrice de transition P .
Démonstration. On va prendre pour les Ut des variables de loi uniforme sur [0, 1]. L’espace
E est dénombrable, on peut sans perte de généralité appeler ses éléments 1, 2, . . . . On
définit f0 (u) comme suit : f0 (u) = 1 si u ∈ [0, µ(1)[, f0 (u) = 2 si u ∈ [µ(1), µ1 + µ(2)[,
etc. On montre facilement que X0 = f0 (U0 ) est telle que P(X0 ) ∼ µ0 . On procède de la
même
Pk−1 manière pour P f : pour x ∈ E fixé, f (x, u) est la fonction qui renvoie l’entier k si
k
i=1 P (x, i) ≤ u < i=1 P (x, i).
14
2.2 Propriétés élémentaires
dans un sens à préciser, et où π est une loi à préciser ! Sous des hypothèses un peu plus
fortes, on pourra établir la convergence en loi de (Xt ) vers π. Ceci sera traité dans les
Sections 2.6 et 2.7 respectivement. Enfin, la Section 2.8 discutera d’une application en
simulation, et la Section 2.10 discutera (à la main, sans rentrer dans les détails) quels
sont les résultats parmi ceux qui précèdent qui peuvent s’étendre au cas où E est un
espace continu.
Démonstration. Par récurrence. C’est vrai pour m = 1 par définition. Supposons que
m > 1 et que ce soit vrai pour 1, 2, . . . , m − 1. Alors :
P(Xn+m = y|Xn = x)
X
= P(Xn+m = y, Xn+m−1 = z|Xn = x)
z∈E
X
= P(Xn+m = y|Xn+m−1 = z, Xn = x)P(Xn+m−1 = z|Xn = x)
z∈E
15
2 Chaînes de Markov
X
= P(Xn+m = y|Xn+m−1 = z)P(Xn+m−1 = z|Xn = x) (Markov)
z∈E
X
= P (z, y)P m−1 (x, z) (hypothèse de récurrence)
z∈E
m
= P (x, y). □
Définition 2.2.2. Soit une loi initiale µ et une matrice de transition P . On note
X
µP (x) = µ(z)P (z, x).
z∈E
Autrement dit, dans nos notations matricielles, on considère une loi initiale comme un
vecteur ligne.
P(Xt = x) = µP t (x).
Démonstration. On a
X
P(Xt = x) = P(Xt = x|X0 = z)P(X0 = z)
z∈E
X
= P t (z, x)µ(z) d’après la Proposition 2.2.1
z∈E
X
= µ(z)P t (z, x)
z∈E
t
= µP (x)
Autrement dit, dans nos notations matricielles, on considère une loi fonction comme
un vecteur colonne.
Proposition 2.2.3. Soit (Xt ) une chaîne de Markov de matrice de transition P et une
fonction f : E → R, positive ou bornée. Pour tout x ∈ E et t ∈ N,
16
2.2 Propriétés élémentaires
Démonstration. On a
X
E[f (Xt )|X0 = x] = f (z)P(Xt = z|X0 = x)
z∈E
X
= f (z)P t (x, z) d’après la Proposition 2.2.1
z∈E
X
= P t (x, z)f (z)
z∈E
n
= P f (x)
et remarquer que
µP t f = E[f (Xt )].
On peut représenter une matrice de transition P par un graphe orienté : on représente
les états par les sommets du graphes, et si P (x, y) > 0, on trace une flèche de x à y sur
laquelle on écrit la valeur de P (x, y). Le graphe est orienté, il peut y avoir une flèche de
x vers y et/ou une flèche de y versP x. D’autre part, si P (x, x) > 0, il y a une flèche de x à
lui-même. Noter que la condition y P (x, y) = 1 devient : “la somme des flèches partant
du sommet x doit être égale à 1”.
Exemple 2.2.1. Lorsque E est un espace à deux éléments, E = {1, 2}, toute matrice de
transition P peut se mettre sous la forme
p 1−p
P =
1−q q
17
2 Chaînes de Markov
Définition 2.2.4. On appelle π loi invariante pour une chaîne (Xt ) de transition P une
loi vérifiant
πP = π.
Proposition 2.2.4. Si (Xt ) est une chaîne de transition P et de loi initiale π invariante
par P alors, pour tout t ∈ N, Xt ∼ π.
Par la suite, on justifiera proprement que si (Xt ) converge en loi, c’est vers une loi
invariante. En revanche, il se peut très bien que (Xt ) ne converge pas en loi. De même,
l’existence d’une loi invariante ne garantit pas que (Xt ) converge en loi vers cette loi
invariante (car il peut y avoir plusieurs lois invariantes).
Exemple 2.2.2. Revenons à l’Exemple 2.2.1, cherchons toutes les lois invariantes de P
avec
p 1−p
P =
1−q q
où (p, q) ∈ [0, 1]2 . On écrit le système πP = π, si π = (π1 π2 ) ça donne :
p 1−p
(π1 π2 ) = (π1 π2 )
1−q q
soit :
pπ1 + (1 − q)π2 = π1
(1 − p)π2 + qπ2 = π2 .
On remarque tout de suite que les deux équations de ce système sont liées : elles sont
équivalentes à
(1 − p)π1 = (1 − q)π2 .
C’est TOUJOURS le cas qu’il y a au moins une équation redondante dans le système
πP = π. Mais il ne faut pas oublier qu’on a une équation supplémentaire : π est une
probabilité, donc π1 + π2 = 1. On cherche donc à résoudre :
(1 − p)π1 = (1 − q)π2
π1 + π2 = 1.
Noter que si (p, q) ̸= (1, 1) alors il y a toujours une solution unique. En effet, le système
peut se réécrire
1−q
π1 = 1−p π2
π1 + π2 = 1.
et donc en injectant la première équation dans la deuxième,
1−q
+ 1 π2 = 1
1−p
18
2.3 Propriété de Markov forte
soit
(2 − p − q)π2 = 1 − p
1−p 1−q
soit π2 = 2−p−q et la première équation du système donne π1 = 2−p−q donc la solution
unique est
1−q 1−p
π= , .
2−p−q 2−p−q
En revanche, dans le cas p = q = 1, la première équation donne 0 = 0... et on vérifie que
l’ensemble des solutions est donné par
On a donc deux cas différents : dans un cas, il y a une loi invariante unique ; dans l’autre
cas, il y a une infinité de lois invariantes.
et donc la loi du bloc (Xt+1 , Xt+2 ) ne dépend pas du passé Xt−1 , . . . , X0 conditionnelle-
ment au présent Xt . C’est vrai aussi bien sûr pour un bloc plus grand (Xt+1 , . . . , Xt+k ),
et pour les marginales correspondantes : Xt+k est indépendante de Xt−l sachant Xt , pour
k, l ≥ 1. Par ailleurs, la loi de Xt+k sachant Xt = x est la même que celle que de (Xk )
sachant X0 = x.
Ce que nous venons d’énoncer est la version la plus basique de la propriété de Markov.
Elle ne peut s’appliquer à des événements concernant la trajectoire complète de la chaîne :
par exemple la probabilité de revisiter un état x dans le futur, sachant Xt = x. On
admettra les propriétés suivantes, dites de Markov forte.
Proposition 2.3.1. Soit (Xt ) une chaîne de Markov (de loi initiale µ) et φ : E ∞ → R,
mesurable, positive ou bornée, alors :
où Eµ est l’espérance sous la loi de (Xt ), et Ex := Eδx est l’espérance sous la même loi,
mais avec loi initiale δx .
En appliquant ce résultat à une fonction indicatrice, on obtient :
19
2 Chaînes de Markov
La vraie propriété de Markov forte est encore un peu plus générale, et permet de
conditionner à un temps aléatoire, à condition que ce temps aléatoire soit un certain type
de variable aléatoire dit temps d’arrêt.
Définition 2.3.1. On appelle temps d’arrêt par rapport à une filtration (Ft ) (rappel :
Ft = σ(X0 , . . . , Xt ) dans ce chapitre) une variable aléatoire à valeurs dans N ∪ +∞, telle
que {τ ≤ t} ∈ Ft pour tout t ≥ 0.
La notion de temps d’arrêt est assez technique, et sera vue plus en détail dans la
partie sur les martingales. Pour l’instant, je vous propose l’interprétation semi-formelle
suivante :
— un temps d’arrêt est une fonction déterministe de la trajectoire du processus (Xt ) ;
— telle que l’indicatrice 1{τ ≤ t} ne dépend que de (X0 , . . . , Xt ). En d’autres termes,
observer le processus jusqu’au temps t suffit à déterminer si τ ≤ t ou pas.
Et pour simplifier encore un peu plus les choses, gardez à l’esprit l’exemple suivant,
du temps d’atteinte :
τy = inf{t ≥ 0 : Xt = y} (2.1)
C’est bien un temps d’arrêt. Si la trajectoire du processus ne passe jamais par y, on a :
τy = +∞.
On peut énoncer la propriété de Markov forte.
Proposition 2.3.2. Sous les mêmes conditions que la proposition précédente, et pour τ
un temps d’arrêt (par rapport à Ft = σ(X0 , . . . , Xt )), on a :
Eµ [φ((Xτ +n )n≥0 )|Xτ ]1{τ <+∞} = EXτ [φ ((Xt )t≥0 )] 1{τ <∞} (2.2)
Noter que si τ = +∞, la variable Xτ n’est pas clairement définie. C’est pour cela que
l’on a besoin d’indicatrices dans (2.2).
En fait, dans ce chapitre, on va souvent appliquer cette propriété au temps de retour
en x :
σx = inf{t ≥ 1 : Xt = x}
ce qui est presque la même chose qu’un temps d’atteinte (mais σx ≥ 1). Dans ce cas, la
propriété de Markov forte s’écrit comme suit :
20
2.4 Classes d’états
Définition 2.4.3. Les classes d’équivalences pour la relation ↭ sont appelées “classes
de communication” de P , et par extension, on les appelle également classes de communi-
cation de toutes chaîne de Markov (Xn ) ayant P pour matrice de transition.
On omet souvent le terme communication, on parle alors des classes d’états ou sim-
plement des classes de (Xn ) et de P .
Exemple 2.4.1. On revient à l’exemple à deux états.
21
2 Chaînes de Markov
Définition 2.4.4. Si un état i vérifie P (i, i) = 1 on dit que c’est un “état absorbant”.
A l’inverse, dans l’exemple ci-dessus, si p < 1 et q < 1 alors on a vu qu’il n’y a qu’une
seule classe d’états : {1, 2}. Les chaînes de Markov avec une seule classe sont plus simples
à étudier asymptotiquement.
Définition 2.4.5. Soit (Xn ) une chaîne de Markov avec une seule classe d’états. On dit
que la chaîne (Xn ) est irréductible.
U (x, y) = Ex (Ny ).
Démonstration. Fixons x et y,
∞ ∞ ∞
!
X X X
Ex (Ny ) = Ex 1{Xn =y} = Px (Xn = y) = P n (x, y) = U (x, y)
n=0 n=0 n=0
22
2.5 Opérateur potentiel et nature des classes d’états
23
2 Chaînes de Markov
Théorème 2.5.3. Si x ↭ y alors x et y sont de même nature (soit tous les deux
récurrents, soit tous les deux transients).
Avant de prouver le théorème, bien noter que son énoncé implique que la récurrence
et la transience sont en fait des propriétés de classe : une classe contient soit unique-
ment des états récurrents, soit uniquement des états transients. Du coup, on introduit la
terminologie naturelle suivante.
Définition 2.5.4. Si les états d’une classe sont récurrents, on dit que la classe est ré-
currente. Si les états d’une classe sont transients, on dit que la classe est transiente.
Si une chaîne est irréductible et que son unique classe d’états est récurrente, on dit
que la chaîne est récurrente. Si l’unique classe est transiente, on dit que la chaîne est
transiente.
Preuve du Lemme 2.5.4. Pour cette preuve, on utilise le temps d’arrêt sy = inf{n ≥ 0 :
Xn = y} :
U (x, y) = Ex (Ny )
= Ex 1{sy < ∞}Ny ((Xt+sy )t≥0 )
= Ex 1{sy < ∞}Ex Ny ((Xt+sy )t≥0 ) Fsy dble espérance, {sy < ∞} ∈ Fsy
= Ex [1{sy < ∞}Ey (Ny )] Markov forte
= Px (σy < ∞)U (y, y)
≤ U (y, y).
On finit par quelques exemples qui vont permettre de mieux comprendre ces notions.
Proposition 2.5.5. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente.
Démonstration. Si elle était transiente, p.s, chaque état ne serait visité qu’un nombre
fini de fois. Or, il existe au moins un état visité une infinité de fois.
24
2.5 Opérateur potentiel et nature des classes d’états
Proposition 2.5.6. Sur un espace E dénombrable, non fini, il existe des chaînes irré-
ductibles récurrentes, et des chaînes irréductibles transientes.
P (i, i − 1) = 1 − p et P (i, i + 1) = p
On vérifie que les εi sont indépendants. En effet, soit i < j, on a (pour f et g mesurables,
positives),
25
2 Chaînes de Markov
et donc que (Xn ) ne passera presque sûrement qu’un nombre fini de fois par 0 : la chaîne
est donc transiente.
Théorème 2.5.7 (Théorème de Polya). Soit (Xn ) la marche aléatoire symétrique dans
Zd , c’est-à-dire une chaîne de Markov de matrice de transition donnée par
26
2.6 Théorèmes ergodiques
Démonstration. On a
x −1
σX
!
X X
µx (E) = µx (y) = Ex 1y (Xk )
y∈E y∈E k=0
x −1 X
σX x −1
σX
!
= Ex 1y (Xk ) = Ex 1 = Ex (σx ).
k=0 y∈E k=0
On donne quelques exemples : on va voir que toute chaîne irréductible sur E fini est
récurrente positive (on l’énonce comme une proposition), et on donne un exemple de
chaîne irréductible récurrente nulle.
Proposition 2.6.3. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente
positive.
Démonstration. On a X
µx (E) = µx (y) < ∞. □
| {z }
y∈E <∞
27
2 Chaînes de Markov
Proposition 2.6.4. Supposons que (Xn ) soit une chaîne irréductible admettant une
probabilité invariante. Alors elle est récurrente positive.
Donc pour tout x, π(x) = 0, ce qui est en contradiction avec le fait que π est une mesure
de probabilité. Donc la chaîne ne peut pas être transiente, elle est donc récurrente.
x −1
σX
!
∀y ∈ E, µx (y) = Ex 1y (Xk )
k=0
µx P f = µx (P f )
X
= µx (y)P f (y)
y∈E
x −1
σX
!
X
= Ex 1y (Xk ) P f (y)
y∈E k=0
x −1 X
σX
= Ex 1y (Xk )P f (y)
k=0 y∈E
28
2.6 Théorèmes ergodiques
x −1
σX
!
= Ex P f (Xk )
k=0
∞
!
X
= Ex 1{k<σx } E[f (Xk+1 )|Xk )] par définition de P f
k=0
∞
X
= Ex 1{k<σx } f (Xk+1 ) Fubini, double espérance, {k < σx } est Fk mesurable
k=0
σx
!
X
= Ex f (Xk )
k=1
x −1
σX
!
= Ex f (Xk ) car Xk = X0 = x sachant σx = k
k=0
Etape 2. On fixe y ∈ E. Dans un premier temps, montrons que µx (y) < ∞. En effet, la
chaîne étant irréductible, il existe n tel que P n (y, x) > 0 et alors
X
1 = µx (x) = µx P n (x) = µx (z)P n (z, x) ≥ µx (y)P n (y, x)
z∈E
µx (z)
P ′ (y, z) = P (z, y).
µx (y)
Soit (Yn ) une chaîne de Markov de transition P ′ . Montrons que, comme (Xn ), (Yn ) est
irréductible récurrente. En effet :
X X µx (t) µx (z)
P ′2 (y, z) = P ′ (y, t)P ′ (t, z) = P (t, y) P (z, t)
t t
µx (y) µx (t)
µx (z) X µx (z) 2
= P (z, t)P (t, y) = P (z, y).
µx (y) t µx (y)
29
2 Chaînes de Markov
µx (z) n
P ′n (y, z) = P (z, y).
µx (y)
Donc :
X µx (z) X n µx (z)
U ′ (y, z) = P ′n (y, z) = P (z, y) = U (z, y).
n
µx (y) n µx (y)
En particulier, U ′ (y, z) > 0 ⇔ U (z, y) > 0, ce qui montre que si (Xn ) étant irréductible,
alors (Yn ) l’est aussi. De plus, U ′ (y, z) = ∞ ⇔ U (z, y) = ∞, ce qui prouve que (Xn )
étant récurrente, (Yn ) aussi.
Cette partie de la preuve repose sur la théorie des martingales, vue dans la prochaine
section. Vous pouvez l’ignorer pour l’instant ; voir aussi la remarque 2.6.1 pour une dé-
monstration directe dans le cas récurent positif.
On va montrer que pour toute fonction f ≥ 0, si P ′ f (z) = f (z) pour tout z, alors f
est constante. Posons Zn = f (Yn ) et Gn = σ(Y0 , . . . , Yn ). Alors
On a donc montré que (Zn ) est une martingale pour (Gn ). Comme f est positive,
(Zn ) est une martingale positive, donc en particulier une sur-martingale positive. Donc,
d’après le Lemme 3.8.2 du chapitre sur les martingales, (Zn ) converge p.s vers une variable
p.s
aléatoire Z∞ . Donc : f (Yn ) −−→ Z∞ . Soient y ̸= y ′ . Comme (Yn ) est récurrente, il existe
une infinités de n tels que Yn = y et une infinités de m tels que Ym = y ′ . Ceci prouve
p.s p.s
que f (y) −−→ Z∞ et f (y ′ ) −−→ Z∞ , or comme f (y) et f (y ′ ) ne dépendent pas de n, ceci
montre forcément que f est une fonction constante (et que Z∞ est une variable aléatoire
constante).
On est maintenant en position de démontrer l’unicité. Soit λ une mesure invariante de
(Xn ), le but est de montrer que λ et µx sont proportionnelles. Posons f (y) = λ(y)/µx (y),
on a
X λ(z)
P ′ f (y) = P ′ (y, z)
z
µx (z)
X µx (z) λ(z)
= P (z, y) par def. de P ′
z
µx (y) µx (z)
1 X
= λ(z)P (z, y)
µx (y) z
1
= λP (y)
µx (y)
30
2.6 Théorèmes ergodiques
λ(y)
= par hypothèse sur λ
µx (y)
= f (y).
Donc f vérifie P ′ f (y) = f (y) pour tout y, donc f est constante, ce qui signifie bien que
λ et µx sont proportionnelles. □
On énonce maintenant trois théorèmes, souvent appelés théorèmes ergodiques, qui sont
l’analogue de la loi forte des grands nombres et du théorème central limite pour les chaînes
de Markov. On démontrera les lois des grands nombres, mais le TCL sera admis...
Théorème 2.6.5. Soit (Xn ) une chaîne de Markov irréductible récurrente positive de loi
invariante
R π, de transition P et de loi initiale µ. Alors, pour toute fonction f telle que
|f |dπ < ∞ on a
n Z
1X Pµ −p.s
f (Xi ) −−−−→ f dπ.
n n→∞
i=1
On a en particulier :
n
1X p.s
1{x} (Xi ) −−−→ π(x),
n n→∞
i=1
Théorème 2.6.6. Soit (Xn ) une chaîne de MarkovR irréductible récurrence positive de
loi invariante π. Soit f une fonction telle que |f |dπ < ∞ et
(σ 2 )
Xx Z
∃x, s2 (x) := Ex f (Xi ) − f dπ < ∞.
i=1
Théorème 2.6.7. Soit (Xn ) une chaîne de Markov irréductible récurrente nulle. Alors,
pour tout x ∈ E,
n
1X p.s
1{x} (Xi ) −−−→ 0,
n n→∞
i=1
31
2 Chaînes de Markov
Ceci donne une autre interprétation des différences entre chaînes (irréductibles) tran-
sientes, récurrentes nulles et récurrentes positives : dans une chaîne transiente, chaque
état est visité un nombre fini de fois. Dans une chaîne récurrente nulle, chaque état est
visité un nombre infini de fois, mais la proportion de temps passé dans l’état est asymp-
totiquement nul. Dans une chaîne récurrente positive, la proportion de temps passé dans
l’état x est asymptotiquement égale à π(x).
Preuve simultanée des Théorèmes 2.6.5 et 2.6.7. Soit une fonction g ≥ 0. Fixons x ∈ E.
On définit les sommes de blocs :
σx1 −1
X σxk+1
X−1
Z0 = g(Xh ), . . . , Zk = g(Xh ), . . .
h=0 h=σxk
soit :
σxn n Z
1X Z0 1X g(x) p.s
g(Xi ) = + Zi + −−−→ gdµx .
n n n n n→∞
i=0 i=1
Noter que
m
X
ν(m) ≤ 1{x} (Xk ) = ν(m) + 1{x} (X0 ) ≤ ν(m) + 1
k=0
et donc ν(m) → ∞ quand m → ∞. Mais alors
Pσxν(m) P xν(m)+1
ν(m) + 1 σk=0
Pm
ν(m) k=0 g(Xk ) k=0 g(Xk ) g(Xk )
≤ Pm ≤
ν(m) + 1 ν(m) k=0 1{x} (Xk ) ν(m) ν(m) + 1
| {z } | {z } | {z } | {z }
→1 →1
R R
→ f dµx → f dµx
32
2.6 Théorèmes ergodiques
33
2 Chaînes de Markov
πj = α + βj,
πj = α
(constante). Cette mesure ne peut pas être normalisée en probabilité. Donc la chaîne n’est
PAS récurrente positive.
Exemple 2.7.1. Soit une chaîne définie sur E = {1, ..., N }, N ≥ 2, telle que P (i, i+1) =
p, P (i, i − 1) = q, avec p + q = 1. De plus, P (N, 1) = p, et P (1, N ) = q. En d’autres
termes, on place les N états sur un ‘’cadran”, avec probabilité p de se déplacer d’un pas
dans le sens trigonométrique, q dans l’autre sens.
Il est facile de vérifier que cette chaîne de Markov admet pour loi invariante la loi
uniforme sur E (le faire à titre d’exercice). Donc la proportion de visites d’un état donné
tend vers 1/N (loi des grands nombres). Ce résultat reste vrai si on prend p = 0 ou
p = 1. En revanche, dans ces cas limites, la chaîne devient périodique (de période N ) :
si on prend par exemple X0 = 1 comme loi initiale, la loi de chaque variable Xt sera
tout simplement un Dirac dépendant du reste de la division euclidienne de t par N , i.e.
XkN +l = l + 1 pour 0 ≤ l ≤ N − 1.
On va voir dans cette section que si on élimine ces phénomènes de périodicité, alors
on peut prouver la convergence en loi.
Définition 2.7.1. On appelle la période d’un élément x ∈ E le nombre entier d(x) défini
par :
d(x) = PGCD(J(x))
où
J(x) = {n ∈ N : P n (x, x) > 0}.
34
2.7 Périodicité, convergence des lois marginales
Autrement dit, la période est une propriété de classe, et si la chaîne est irréductible,
tous les éléments ont même période.
Définition 2.7.2. Soit (Xn ) une chaîne irréductible. Elle est dite apériodique si d(x) = 1
pour un x ∈ E (et donc automatiquement pour tout x).
Théorème 2.7.2. Supposons que (Xn ) soit une chaîne irréductible récurrente positive
de loi invariante π. Si, de plus, (Xn ) est apériodique alors, quelle que soit la loi initiale
µ,
∀x ∈ E, Pµ (Xn = x) −−−→ π(x).
n→∞
Définition 2.7.3. Lorsqu’une chaîne vérifie les conditions du Théorème 2.7.2 on dit
qu’elle est ergodique.
La preuve du théorème nécessite deux lemmes.
Lemme 2.7.3. Si (Xn ) est ergodique, ∀x ∈ E, ∃n(x), ∀n ≥ n(x), P n (x, x) > 0.
Démonstration. Soient n1 , . . . , nk tels que P ni (x, x) > 0 et
PGCD({n1 , . . . , nk }) = 1.
En posant X X
a(x) = qi ni et b(x) = − qi n i
qi >0 qi ≤0
35
2 Chaînes de Markov
= (d − r)b(x) + ra(x)
X X
= (d − r) (−qi )ni + r qi n i
qi ≤0 qi >0
k
X
= αi ni
i=1
Lemme 2.7.4. Soient (Xn1 ) et (Xn2 ) deux chaînes de Markov indépendantes, de même
matrice de transition P , irréductibles et apériodiques. Alors la chaîne produit (Yn ), définie
sur E 2 par Yn = (Xn1 , Xn2 ) l’est aussi. Si de plus (Xn1 ) et (Xn2 ) sont récurrentes positives
alors (Yn ) l’est aussi.
Or il existe m1 et m2 tels que P m1 (x1 , x′1 ) > 0 et P m2 (x2 , x′2 ) > 0 (irréductibilité des
deux chaînes). On utilise le Lemme 2.7.3 et on prend n ≥ n(x′1 ) + n(x′2 ) + m1 + m2 .
Alors :
On peut maintenant prouver le théorème. La preuve utilise une technique dite de “cou-
plage” de deux chaînes, qui est une technique récurrente pour démontrer des propriétés
des chaînes de Markov.
Preuve du Théorème 2.7.2. Soient (Xn1 ) et (Xn2 ) deux chaînes de Markov indé-
pendantes, de même matrice de transition (P ) que (Xn ), et donc irréductibles et apé-
riodiques, récurrentes, positives. Alors d’après le Lemme 2.7.4 la chaîne produit (Yn ),
définie sur E 2 par Yn = (Xn1 , Xn2 ) l’est aussi. On pose
T = inf .
n≥0:Xn1 =Xn2
36
2.8 Réversibilité, algorithme de Metropolis-Hastings
et donc
P(Xn1 = x) − P(Xn2 = x) ≤ P(T > n).
En intervertissant les rôles de (Xn1 ) et (Xn2 ) on obtient
Or la chaîne (Yn ) est récurrente positive donc T est fini p.s et donc P(T > n) → 0 quand
n → ∞. □
37
2 Chaînes de Markov
L’algorithme dit de Metropolis-Hastings est basé sur l’idée suivante : soit Q une matrice
de transition sans lien évident avec π, mais qui est « facile à simuler » ; i.e., pour un
i ∈ E fixé, il est facile de simuler selon la loi Q(i, ·). (On donnera des exemples concrets
ci-dessous.) A chaque étape t, on va simuler selon Q, puis accepter la valeur simulée avec
une certaine probabilité (qui dépend de π) ; si la valeur n’est pas acceptée, on ne bouge
pas (donc Xt = Xt−1 ).
38
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler
39
2 Chaînes de Markov
avec ψ : ZdP → R+ . Noter que la constante Z est automatiquement fixée par normalisa-
tion : Z = x∈Zd ψ(x).
Il n’est pas a priori facile de simuler des vecteurs X suivant cette loi (exactement, ou
via l’algorithme de Metropolis). En revanche, dans certains cas, les lois conditionnelles de
chaque composante sont particulièrement simples. Peut-on utiliser cette propriété d’une
façon ou d’une autre ?
Donnons quelques exemples pour fixer les esprits.
Exemple 2.9.1. Le modèle d’Ising en physique statistique attribue une loi jointe à des
variables binaires X1 , . . . , Xd (spins ferromagnétiques) associés à des emplacements sur
une grille en k dimensions. Dans ce cas,
X X
ψ(x1 , . . . , xd ) = exp α xi + β 1{xi = xj }
i i∼j
où i ∼ j est une relation de voisinage (sur la grille) ; par exemple, on peut décider que
deux points sur la grille sont voisins s’ils sont à une distance de 1 (sur une grille en
dimension deux, chaque point à quatre voisins). Noter que Z est alors une somme de
2d termes, impossible à calculer dès que d est grand, et que Z = Z(α, β) dépend des
paramètres.
Dans le cas particulier β = 0 (pas intéressant), les composantes sont IID. En géné-
ral, on prend β > 0, pour modéliser une corrélation « spatiale » : les spins proches ont
tendance à être identiques. Il existe une valeur critique pour β, correspondant à une
« transition de phase » : en dessous de cette valeur critique, les Xi sont relativement
« libres » de prendre les valeurs 0 ou 1 ; au dessus, ils ont tendance à former des gros
amas de spins identiques, avec forte probabilité. Déterminer ce genre de valeur critique
est un problème important en physique.
La loi conditionnelle de Xi sachant X−i (la collection des Xj pour j ̸= i) est automa-
tiquement une Bernoulli, de paramètre
n P o
exp α + β j:j∼i 1{xj = 1}
n P o n P o.
exp β j:j∼i 1{xj = 0} + exp α + β j:j∼i 1{xj = 1}
Exemple 2.9.2. On considère un graphe (non orienté) aléatoire, constitué d’un nombre
fixe de n individus (noeuds), et des liens (arrêtes) aléatoires actifs ou non, représentés par
un vecteur x à valeurs dans {0, 1}d , d = n(n − 1)/2. On attribue à x la loi de probabilité
∝ ψ(x), avec
ψ(x1 , . . . , xd ) = exp θT s(x)
40
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler
Les deux matrices (produit et moyenne) introduites dans la proposition ci-dessus cor-
respondent à deux algorithmes différents :
— Le produit correspond à un Gibbs sampler déterministe, où l’on met à jour la
composante 1, puis la composante 2, etc. à tour de rôle.
— La moyenne correspond à un Gibbs sampler dit « random scan », où à chaque étape
on choisit, avec une probabilité 1/d, quelle composante sera mise à jour.
Proposition 2.9.2. Supposons ψ(x) > 0 pour tout x ∈ E. Alors P et Q sont irréduc-
tibles.
Il est facile de construire des Gibbs samplers non irréductibles. Considérons par exemple
le cas d = 2, et supposons ψ(0, 1) = ψ(1, 0) = 0. Alors, partant de (0, 0), il est impossible
d’atteindre (1, 1). L’algorithme n’a alors aucun intérêt pratique.
Le Gibbs sampler nous donne un deuxième type d’algorithme MCMC (Markov chain
Monte Carlo) pour approcher des espérances selon une certaine loi π (via la simulation
d’une chaîne de Markov de loi invariante π). Il est particulièrement intéressant quand on
peut décomposer la loi d’intérêt en plusieurs « blocs » admettant des lois conditionnelles
faciles à simuler. Nous nous sommes limités au cas où l’espace E est discret, mais la
statistique bayésienne (où l’on cherche à approcher la loi des paramètres du modèle,
typiquement continus) offre beaucoup d’exemples intéressants de Gibbs sampler ; cf. le
cours de Monte Carlo et simulation que vous pouvez suivre au deuxième semestre (pub
éhontée).
En ce concerne le lien entre Gibbs et Metropolis-Hastings, faisons deux remarques :
— On constate que dans les deux cas il est possible de simuler une loi π que l’on ne
peut évaluer qu’à une constante Z près.
41
2 Chaînes de Markov
— En travaillant un peu (exercice), on peut montrer que Gibbs est un cas particulier
de Metropolis-Hastings.
Remarquer qu’on peut étendre toutes les opérations que l’on a fait dans le cas discret
sur les matrices de transition au cas de noyaux de transition. Par exemple,
X
P 2 (i, j) = P (i, k)P (k, j)
k∈E
42
2.10 Extension à un espace d’états continu
où les (εn ) sont i.i.d (et indép. de X0 ) de loi N (0, σ 2 ). Noter qu’on peut alors donner la
loi de Xt+1 |Xt directement, sans écrire εn+1 : Xt+1 |Xt ∼ N (α + βXt , σ 2 ). On peut alors
écrire le noyau de transition P sous une forme explicite :
( )
[y − (α + βx)]2
Z
1
P (x, A) = √ exp − dy.
A 2πσ 2 2σ 2
En général, résoudre l’équation πP = π peut être très compliqué. Dans ce cas, on peut
vérifier que si µ = N (m, s2 ) alors X1 , en tant que somme de deux gaussiennes indé-
pendantes, est aussi gaussienne, d’espérance α + βm et de variance β 2 s2 + σ 2 . Donc, si
α σ2
|β| < 1, on voit que π = N ( 1−β , 1−β 2 ) est une loi invariante.
Noter que le terme entre crochet est la probabilité de « ne pas bouger » lorsque la
position actuelle est x.
43
2 Chaînes de Markov
On va juste donner maintenant deux théorèmes ergodiques dans ce contexte (sans les
démontrer, là encore, on renvoie le lecteur à Meyn and Tweedie (2009)). L’intérêt est
qu’ils permettront d’analyser les versions de l’Algorithme de Metropolis-Hastings dans
le cas continu, cf. le cours de simulation et Monte-Carlo. Ces énoncés nécessitent de
généraliser les notions d’irréductiblité, récurrence, etc...
Pour l’irréductibilité, attention : P (x, {y}) = 0 pour une loi continue, donc, il faut là
encore procéder autrement.
Définition 2.10.2. Soit Φ une mesure σ-finie sur (E, E). On dit que (Xt ) est Φ-irréductible
si :
∀A ∈ E, ∀x ∈ E : [Φ(A) > 0 ⇒ ∃n ∈ N : P n (x, A) > 0] .
Définition 2.10.3. On dit que (Xt ) est périodique si il existe une partition mesurable
X0 , . . . , Xk de E, avec k ≥ 1, telle que pour tout x ∈ Xi avec i < k, P (x, Xi+1 ) = 1,
et pour tout x ∈ Xk , P (x, X0 ) = 1. On dit que (Xt ) est apériodique si elle n’est pas
périodique.
Théorème 2.10.2. Sous les hypothèses du Théorème 2.10.1, si en plus (Xt ) est apério-
dique, alors pour tout borélien A on a
44
2.11 Chaînes de Markov cachées
2. Un processus (Yt ), à valeurs dans un espace F (que l’on prendra discret pour
commencer), tel que les variables Yt , informellement, ne dépendent que de Xt ; plus
précisément, la loi de Yt , sachant toutes les autres variables (donc X0 , . . . , XT , et
les Ys pour s ̸= t) ne dépend que de Xt ; appelons R(x, y) la probabilité d’observer
Yt = y conditionnellement à Xt = x. (On fait l’hypothèse supplémentaire que cette
probabilité ne dépend pas de t).
Remarque 2.11.1. Le processus joint (Xt , Yt ) est une chaîne de Markov, telle que la
loi de (Xt , Yt ) sachant son passé ne dépend que de Xt−1 . En revanche, le processus (Yt )
pris tout seul n’est pas une chaîne de Markov.
Ce genre de modèle est apparu dans les années 60 en traitement du signal, notamment
en traitement de la parole, où les Xt représentaient les phonèmes prononcés par un
sujet, et les Yt leur enregistrements acoustiques. Ils sont devenus ensuite très populaires
dans plusieurs domaines, notamment en génétique et en biostatistique. (Dans ce cas, t
représente la position sur le génome.)
En traitement automatique des langues (natural language processing), ces modèles
peuvent être utilisés pour faire de l’étiquetage grammatical (part-of-speech tagging) :
Yt est le t−ième mot du texte étudié, et Xt sa fonction grammaticale (sujet, verbe,
article, etc.). Cet exemple montre bien ce que modélisent respectivement P (la loi de
Xt |Xt−1 ) et R (la loi de Yt |Xt ). Le premier objet modélise comment différentes fonctions
grammaticales s’articulent (un sujet est souvent suivi d’un verbe) ; le deuxième objet
modélise le fait que certains mots ont des fonctions plus courantes que d’autres (Le mot
« repas » n’est jamais un verbe, le mot « manger » est souvent un verbe, mais est parfois
un mot commun qui peut servir de sujet).
Dans ce genre d’application, on cherche à retrouver (estimer) les Xt , sachant les va-
riables observées (Y0 , . . . , Yt ). Pour ce faire, on peut calculer la loi conditionnelle de
(X0 , . . . , XT ) sachant Yt = yt pour t = 0, . . . , T . Pour alléger les notations, on pose
X0:T = (X0 , . . . , XT ), Y0:T = (Y0 , . . . , YT ), etc.
Proposition 2.11.1. On a :
où le numérateur vaut :
T
Y T
Y
P (X0:T = x0:T , Y0:T = y0:T ) = µ(x0 ) P (xt−1 , xt ) R(xt , yt )
t=1 t=0
K K T T
( )
X X Y Y
P (Y0:T = y0:T ) = ··· µ(x0 ) P (xt−1 , xt ) R(xt , yt ) .
x0 =1 xT =1 t=1 t=0
45
2 Chaînes de Markov
De plus, on écrit µt , νt , et νt|T les vecteurs correspondants, i.e. µt est le vecteur des µt (x).
Ces trois types de vecteur correspondent respectivement aux lois dites de prédiction, de
filtrage, et de lissage. Noter que, au temps 0, on doit interpréter la première ligne comme
la loi initiale, P(X0 = x) = µ(x), i.e. µ0 = µ. Ces notations dépendent implicitement des
données y0 , y1 , . . . qui sont considérées désormais comme fixes.
Proposition 2.11.2. On a, pour x ∈ E = {1, . . . , K}, et t = 0, . . . , T (sauf la première
ligne, qui n’est valable que pour t ≥ 1) :
K
X
µt (x′ ) = νt−1 (x)P (x, x′ ) pour t ≥ 1 (2.8)
x=1
1
νt (x) = µt (x)R(x, yt ) (2.9)
ℓt
XK
où ℓt := µt (x)R(x, yt ) = P(Yt = yt |Y0:t−1 = y0:t−1 ) (2.10)
x=1
Lt = Lt−1 × ℓt pour t ≥ 1 (et L0 = ℓ0 ) (2.11)
x∈E
X
νt−1 (x)P Xt = x′ | Xt−1 = x .
=
x∈E
46
2.11 Chaînes de Markov cachées
et remarquer que le dénominateur est une constante de normalisation, qui vaut précisé-
ment ℓt défini en (2.10).
Ce premier résultat nous donne un algorithme pour calculer récursivement les lois de
prédiction, de filtrage, et la vraisemblance. Il faut l’initialiser avec µ0 = µ. Noter que la
première ligne revient à effectuer un produit matriciel (de νt−1 avec P ).
Pour calculer les lois de lissage, on a besoin d’un second algorithme, dit « backward »
(par opposition au premier algorithme, dit forward). Vous pouvez essayer de retrouver
cet algorithme à titre d’exercice.
Le point essentiel à noter est que ces deux algorithmes ont une complexité O(T K 2 ) :
chaque algorithme effectue T itérations, et chaque itération calcule des produits matriciels
sur des matrices K × K. Cela donne une complexité beaucoup plus raisonnable que celle
mentionnée ci-dessus. Le prix à payer est que l’on n’a calculé que des lois marginales, au
lieu de la loi jointe définie dans la Prop. 2.11.1. Pour beaucoup de problèmes pratiques, ces
probabilités sont suffisantes. Par exemple, pour l’étiquetage grammatical, on se contente
de connaître la probabilité qu’un mot soit un verbe, après observation d’une suite de
mots.
Le point peut-être un peu surprenant de cette partie est que l’on n’a utilisé que la
propriété de Markov pour obtenir les résultats ci-dessus. La théorie des chaînes de Markov
homogènes n’y joue aucun rôle. D’ailleurs, à titre d’exercice, vous pouvez essayer de
généraliser les calculs ci-dessus :
— au cas où (Xt ) n’est pas homogène (P devient Pt ), ou la loi de Yt |Xt n’est pas
constante (on remplace R par Rt ) ;
— un peu plus dur : au cas où Yt |Xt = xt suit une loi continue.
La généralisation au cas où la chaîne (Xt ) est à valeurs dans un espace continu est
largement hors programme, et sera traité dans un cours de troisième année. Mais les
lectrices et lecteurs plus curieux peuvent lire la page Wikipedia du filtre de Kalman, et
le rôle qu’il a joué dans le programme Appolo.
47
3 Martingales
3.1 Définitions
Définition 3.1.1. Soit (Xt )t∈N un processus, à valeurs dans R, adapté à une filtration
(Ft )t∈N . On dit que le processus est une martingale si, pour tout t ∈ N,
i) Xt est intégrable, soit E(|Xt |) < ∞,
ii) E(Xt+1 |Ft ) = Xt .
On dit que le processus est une martingale positive si, pour tout t ∈ N,
i) Xt ≥ 0 p.s,
ii) E(Xt+1 |Ft ) = Xt .
On définit de la même façon une sous-martingale (resp. une sous-martingale positive)
en remplaçant la condition (ii) dans la définition de martingale (resp. de martingale
positive) par E(Xt+1 |Ft ) ≥ Xt . On définit de la même façon une sur-martingale (une
sur-martingale positive) en remplaçant (ii) par E(Xt+1 |Ft ) ≤ Xt .
Quelques propriétés évidentes : (Xt ) est une martingale si et seulement si c’est une
sur-martingale et une sous-martingale. L’espérance d’une martingale est constante. En
effet,
E(Xt+1 |Ft ) = Xt
soit
E(Xt+1 ) = E(Xt ).
De la même façon, pour une sur-martingale, les espérances sont décroissantes E(Xt+1 ) ≤
E(Xt ) et pour une sous-martingale, les espérances sont croissantes E(Xt+1 ) ≥ E(Xt ).
E(Xt+k |Ft ) = Xt .
Pour une sur et une sous-martingale, la propriété tient en remplaçant le symbole = par
≤ et ≥ respectivement.
49
3 Martingales
Démonstration. Par récurrence sur k : le cas k = 1 est vrai par définition. Supposons
que la propriété est vraie au rang k. Alors,
h i
E(Xt+k+1 |Ft ) = E E(Xt+k+1 |Ft+k ) Ft
= E(Xt+k |Ft ) par définition d’une martingale
= Xt par hypothèse de récurrence.
Proposition 3.1.2. Soit (Xt ) une martingale et f une fonction convexe telle que f (Xt )
soit intégrable pour tout t. Alors le processus [f (Xt )]t∈N est une sous-martingale.
Démonstration. Par Jensen, E[f (Xt+1 )|Ft ] ≥ f [E(Xt+1 |Ft )] = f (Xt ) par définition.
Exemple 3.1.1. Soit (Xt )t∈N une suite de variables centrées et indépendantes. Posons
t
X
Mt = Xi .
i=0
Si ∞ 2
P
i=0 σi = S < ∞ , on a la vague impression que Mt va converger vers une variable
aléatoire de loi N (0, S). A l’inverse, si ∞ 2 = ∞, la loi de la variable s’étale de plus
P
σ
i=0 i
en plus et on a l’impression qu’il n’y aura pas de convergence. Une bonne partie de ce
chapitre sera consacré à étudier le comportement asymptotique des martingales.
Définition 3.1.2. Soit (εt ) un processus. On dit que c’est un incrément de martingale
si il existe une filtration (Ft ) et une martingale (Mt ) telles que εt = Mt − Mt−1 pour tout
t > 0.
Un des intérêts des incréments de martingales est qu’il existe énormément de propriétés
vraies pour les variables indépendantes centrées que l’on peut étendre aux incréments de
martingales. Par exemple, la loi faible des grands nombres.
50
3.1 Définitions
Proposition 3.1.3. Soit (εt ) un incrément de martingale avec E(ε2t ) = σ 2 < ∞. Alors
n
1 X proba.
εi −−−−→ 0.
n
i=1
Démonstration. On a
1 Pn 2
n
!
1 X E n i=1 εi
P εi > t ≤
n t2
i=1
Pn
ε2i + 2 1≤i<j≤n E(εi εj )
P
i=1 E
=
P n2 t 2
σ2 2 1≤i<j≤n E(εi εj )
= + .
nt2 n2 t2
Dans le cas de variables indépendantes, on a E(εi εj ) = E(εi )E(εj ) = 0, ce qui prouve que
n
!
1X σ2
P εi > t ≤ 2 −−−→ 0.
n nt n→∞
i=1
Une question naturelle est alors : “est-ce qu’il existe des exemples de martingales autres
que les sommes de variables indépendantes” ou de façon équivalente, “est-ce qu’il existe
des exemples d’incréments de martingales qui ne sont pas indépendants”. L’exemple sui-
vant fournit une réponse positive.
Exemple 3.1.2 (Processus ARCH). Soit (ηk ) une suite de variables i.i.d gaussiennes
centrées réduites et, pour tout k, Fk = σ(η1 , . . . , ηk ). Soit (Zk ) un processus défini par
récurrence : z0 = 1 et q
Zk+1 = ηk+1 α0 + α1 Zk2
où α0 > 0 et α1 ≥ 0. Le processus (Zk ) est appelé processus ARCH(1) et est très souvent
utilisé en finance. On pose
Xn
Mn = Zk .
k=1
51
3 Martingales
Figure 3.1 – Voici un exemple de réalisation de (Zn ) : ressemble à un bruit blanc, avec
des périodes de bruits extrêmes. Ici α0 = 0.5 et α1 = 0.7.
On vérifie bien que (Mn ) est une martingale, en montrant l’intégrabilité par récurrence
puis
Les incréments de la martingale (Mn ) sont les Zn et ceux-ci ne sont bien entendu pas
indépendants, par exemple,
2 2
E(Zn+1 |Zn ) = E(ηn+1 (α0 + α1 Zn2 )|Zn ) = (α0 + α1 Zn2 )E(ηn+1
2
) = (α0 + α1 Zn2 ).
En général, en finance, les actifs financiers ne sont pas modélisés directement par des
processus ARCH, mais plutôt par la martingale associée (Mn ) ou par une transformation
de celle-ci comme Yn = exp(λ−γMn ) avec λ, γ > 0. La Proposition 3.1.2 montre que (Yn )
est une sur-martingale. Les Figures 3.1, 3.2 et 3.3 montrent des exemples de réalisation
de tels processus.
52
3.1 Définitions
53
3 Martingales
Définition 3.2.1. Soit τ une variable aléatoire à valeurs dans N = N ∪ {+∞} ou dans
R+ = R+ ∪ {+∞}. Soit (Ft )t∈N une filtration. La variable τ est dite “temps d’arrêt
pour la filtration (Ft )t∈N ” si et seulement si, pour tout t dans N, ou R+ respectivement,
{τ ≤ t} ∈ Ft .
Proposition 3.2.1. Dans le cas où τ une variable aléatoire à valeurs dans N, τ est un
temps d’arrêt ssi pour tout t dans N, {τ = t} ∈ Ft
τA := inf{n ∈ N : Xn ∈ A}
Définition 3.2.2. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N . On définit
∞
!
[
F∞ = σ Ft
t=0
et
Fτ = {A ∈ F∞ : ∀n ∈ N, {τ ≤ n} ∩ A ∈ Fn } .
54
3.2 Temps d’arrêt
et donc ∪k Ak ∈ Fτ .
Définition 3.2.3. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N , et (Xt )t∈N un pro-
cessus. Si τ < ∞ p.s, on pose
X
Xτ = Xt 1{τ =t} .
t∈N
Dans les cas où τ peut être infini, on peut parfois étendre la définition. Par exemple,
p.s
si Xn −−→ X il est naturel de poser
X
Xτ = Xt 1{τ =t} + X1{τ =∞} .
t∈N
On conclut cette section par une application de la notion de temps d’arrêt pour énon-
cer une version de l’idendité de Wald. L’idée est la suivante. Supposons que l’on a des
55
3 Martingales
Cette égalité n’est pas vraie en général. Quand elle est vraie, porte le d’indentité de Wald.
Il en existe plusieurs versions, avec des hypothèses différentes. On en démontre ici une
version où N est un temps d’arrêt.
Théorème 3.2.4 (Identité de Wald). Soit (Xi )i≥1 une suite de variables aléatoires in-
dépendantes, intégrables ou positives, de même espérance. Soit N un temps d’arrêt pour
la filtration (Ft )t∈N∗ définie par Ft = σ(X1 , . . . , Xt ). On suppose que E(N ) < ∞. Alors
N
!
X
E Xi = E(N )E(X1 ).
i=1
56
3.3 Théorème d’arrêt : le cas borné
∞
!
X
= E(X1 )E 1{N ≥i}
i=1
= E(X1 )E (N ) .
Dans le cas où les Xi ne sont plus forcément positifs mais intégrables, la preuve précédente
peut être réutilisée pour prouver que
∞
!
X
E |Xi | 1{N ≥i} = E(N )E(|X1 |) < ∞. (3.1)
i=1
On réutilise ensuite la même preuve que dans le cas positif, l’unique différence étant
que l’utilisation de Fubini n’est plus justifiée par le fait que les Xi sont positifs, mais
par (3.1).
On conclut par un contre-exemple amusant. Supposons que l’on les Xi sont i.i.d avec
P(Xi = +1) = P(Xi = −1) = 1/2, et posons
n
( )
X
N = inf n ∈ N : Xi = 1 .
i=1
C’est donc que la supposition initiale, à savoir E(N ) < ∞, est fausse. On a donc établi
que E(N ) = ∞.
57
3 Martingales
Proposition 3.3.1. Soit (Xn ) une martingale pour (Fn ) et τ un temps d’arrêt. Soit le
processus (Yn ) donné par Yn = Xn∧τ . Alors (Yn ) est une martingale. On notera Xnτ := Yn ,
on appelle le processus (Xnτ ) une “martingale arrêtée”.
Démonstration. On a
Comme pour toutes les propriétés précédentes, on adapte celle-ci de façon directe pour
les martingales positives et les sur et sous-martingales.
Théorème 3.3.2 (Théorème d’arrêt — cas borné). Soit (Xn ) une martingale pour (Fn )
et τ un temps d’arrêt. On suppose que τ est borné p.s, autrement dit, il existe T0 ∈ N tel
que P(τ ≤ T0 ) = 1. Alors :
E(Xτ ) = E(X0 ).
Démonstration. D’après la proposition précédente, (Xtτ ) est une martingale donc E(XTτ0 ) =
E(X0τ ). De plus, il est immédiat que XTτ0 = Xτ et d’autre part X0τ = X0 . On récapitule :
ce qui conclut.
Théorème 3.3.3 (Théorème d’arrêt — cas borné, deuxième version). Soit (Xn ) une
martingale pour (Fn ) et τ1 et τ2 deux temps d’arrêt avec 0 ≤ τ1 ≤ τ2 ≤ T0 p.s Alors :
Pour voir que ceci implique bien la première version, prendre τ1 = 0 pour obtenir
E(Xτ2 |F0 ) = X0 , et en prenant l’espérance des deux côtés, E(Xτ2 ) = E(X0 ).
58
3.4 Décomposition de Doob
59
3 Martingales
car (Xt ) est une sous-martingale, donc (Yt ) est croissant. Il reste à vérifier que (Mt ) est
une martingale. Or :
et en prenant E(·|Ft ) on a
′
Yt+1 − Yt′ = E(Xt+1 − Xt |Ft ).
Comme Y0′ = 0 = Y0 , par récurrence, Yt′ = Yt pour tout n, et du coup Mt′ = Mt pour
tout n.
Exemple 3.4.1. Soit (Xn ) une martingale pour (Fn ) avec E(Xn2 ) < ∞ pour tout n.
Alors en utilisant la Proposition 3.1.2, ou en invoquant directement l’inégalité de Jensen,
on a immédiatement que (Xn2 ) est une sous-martingale. On en déduit que
Xn2 = Mn + Yn
Xn2 = Mn + ⟨X⟩n .
Le terme “crochet” se justifie par la notation, le terme “variation quadratique” par le fait
qu’on peut démontrer que
n
X
E (Xi − Xi−1 )2 |Fi−1 .
⟨X⟩n = (3.2)
i=1
60
3.5 Inégalités maximales
Or :
Théorème 3.5.1 (Inégalité de Markov). Soit X une v.a. positive. Pour tout t > 0,
E(X)
P(X ≥ t) ≤ .
t
Démonstration. On a E(X) ≥ E X1{X≥t} ≥ E t1{X≥t} = tP(X ≥ t).
61
3 Martingales
Proposition 3.5.2. Soit a > 0. Soit (Xn ) une SUR-martingale positive. Alors
E(X0 )
P sup Xn > a ≤ .
n∈N a
τa = inf {n ∈ N : Xn > a} ,
on remarque que
{τa < ∞} = sup Xn > a
n∈N
et que
Xn∧τa ≥ a1{τa ≤n} . (3.3)
Puisque (Xnτa ) est une sur-martingale, E(X0τa ) ≥ E(Xnτa ), et donc :
Proposition 3.5.3. Soit a > 0. Soit (Xn ) une SOUS-martingale positive. Alors
E(Xn )
P max Xk > a ≤ .
0≤k≤n a
Or on a
aP (τa ≤ n) = E a1{τa ≤n}
n
!
X
=E a1{τa =k}
k=0
n
!
X
≤E Xk 1{τa =k}
k=0
n
X
= E Xk 1{τa =k}
k=0
n
X
≤ E E(Xn |Fk )1{τa =k}
k=0
62
3.5 Inégalités maximales
n
X
= E E(Xn 1{τa =k} |Fk )
k=0
Xn
= E Xn 1{τa =k}
k=0
n
!
X
= E Xn 1{τa =k}
k=0
= E Xn 1{max0≤k≤n Xk >a} (3.4)
≤ E(Xn )
On rappelle que pour 1 ≤ p < ∞ on définit l’espace Lp comme l’ensemble des variables
aléatoires X telles que E(|X|p ) < ∞. On munit cet espace de la norme
1
∥X∥p = [E(|X|p )] p .
Dans le cas p = ∞ l’espace Lp est l’espace des variables aléatoires bornées presque
sûrement, et on pose
Définition 3.5.1. Soit un processus (Xn )n∈N . On dit que le processus est borné dans Lp
pour p ∈ [1, ∞] si et seulement si chaque Xn ∈ Lp et
Théorème 3.5.4 (Inégalité de Doob). Soit p ∈]1, ∞], (Xn ) une martingale ou une sous-
martingale positive, et on suppose que (Xn ) est bornée dans Lp . Alors supn∈N |Xn | est
dans Lp , et on a
p
sup |Xn | ≤ sup ∥Xn ∥p .
n∈N p
p − 1 n∈N
Bien remarquer que la borne ne s’étend pas au cas p = 1, ceci aura des conséquences
importantes dans l’étude de la convergence des martingales dans la section suivante.
Démonstration. Dans le cas p = ∞, l’inégalité est en fait une égalité trivialement vraie.
On va maintenant supposer p ∈]1, ∞[. Remarquer que si (Xn ) est une martingale, par Jen-
sen, (|Xn |) est une sous-martingale positive. Dans le cas où (Xn ) est une sous-martingale
positive, Xn = |Xn |. Donc, dans les deux cas, (|Xn |) est une sous-martingale positive.
On fixe a > 0, et pour faire court, on pose Yn = max0≤k≤n |Xk |. On peut utiliser la
Proposition 3.5.3, ou plutôt l’inégalité (3.4) dans la preuve de la Proposition 3.5.3, qui
donne :
aE 1{Yn >a} ≤ E |Xn |1{Yn >a} .
63
3 Martingales
soit Z Yn Z Yn
p−1 p p−2
E pa da ≤ E |Xn | (p − 1)a da .
0 p−1 0
On fait le changement de variable b = ap à gauche et c = ap−1 à droite
Z Ynp ! Z Ynp−1 !
p
E db ≤ E |Xn | dc
0 p−1 0
On remarque que le membre de gauche est ∥Yn ∥pp et on applique Hölder sur le membre
de droite :
p p
∥Yn ∥pp ≤ ∥Xn ∥p ∥Ynp−1 ∥ p = ∥Xn ∥p ∥Yn ∥pp−1 .
p−1 p−1 p−1
Une simplification des deux membres par ∥Yn ∥p−1 donne
p
∥Yn ∥p ≤ ∥Xn ∥p ,
p−1
p
max |Xn | ≤ ∥Xn ∥p .
0≤k≤n p p−1
p
sup |Xn | ≤ sup ∥Xn ∥p
n∈N p
p − 1 n∈N
64
3.6 Convergence dans L2 (et plus généralement Lp , p > 1)
On peut définir cette quantité pour tout p > 0, mais nous ne considérerons que le cas
p ≥ 1, pour lequel c’est une norme (si l’on travaille sur les classes d’équivalence définies
par X = Y p.s.) ; notamment on a l’inégalité triangulaire (dite inégalité de Minkowski) :
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p
Définition 3.6.1. Un processus (Xt ) est dit borné dans Lp s’il existe C tel que ∥Xt ∥p ≤ C
pour tout t ≥ 0. (Cela implique notamment que Xt ∈ Lp pour tout t ≥ 0.)
Les deux espaces Lp les plus importants en pratique sont L2 (qui est un espace de
Hilbert), et L1 (l’espace des variables intégrables). Les résultats concernant L2 sont
souvent plus simples à établir, mais, par construction, les résultats concernant L1 sont
plus généraux. On s’intéresse donc pour commencer à des martingales bornées dans L2 .
Proposition 3.6.1. Soit (Xn ) une martingale bornée dans L2 . Alors (Xn ) converge p.s
et dans L2 .
Si ∞ 2
P
i=0 σi = S < ∞, la martingale (Xn ) est bornée dans L2 , et donc elle converge p.s
et dans L2 vers une variable aléatoire que l’on pourra noter X∞ . Par ailleurs, en passant
par exemple par la fonction caractéristique, on démontre que
∞
!
X
X∞ ∼ N 0, σi2 .
i=0
65
3 Martingales
Exemple 3.6.2. Un exemple plus amusant. On sait que la série harmonique diverge, en
fait
n
X 1
∼ log(n) −−−→ ∞.
k n→∞
k=1
Mais quid de la série
X 1
±
k
k∈N
où les signes sont tirés à pile-ou-face ? Soient donc des variables i.i.d (Xk ) avec P(Xk =
+1) = P(Xk = −1) = 1/2 et on définit M0 = 0 puis
n
X Xk
Mn = .
k
k=1
et donc (Mn ) converge p.s (et dans L2 ). Autrement dit, presque sûrement par rapport au
tirage des signes ± à pile-ou-face, la série
X 1
±
k
k∈N
converge.
Démonstration. On commence par montrer la convergence dans L2 . Pour ceci, il suffit
de démontrer que (Xn ) est une suite de Cauchy dans L2 .
Par Jensen, (Xn2 ) est une sous-martingale, donc E(Xn2 ) est une suite croissante. De
plus c’est une suite bornée par hypothèse. Donc E(Xn2 ) converge vers une limite C > 0.
Donc :
= E E (Xn+p − Xn )2 |Fn
2
|Fn − 2Xn E (Xn+p |Fn ) + Xn2
= E E Xn+p
2
|Fn − Xn2
= E E Xn+p
2
− E Xn2
= E Xn+p
≤ C − E Xn2 −−−→ 0.
n→∞
Donc (Xn ) est une suite de Cauchy dans L2 , donc elle converge dans L2 .
Reste à démontrer que (Xn ) converge également presque sûrement. Là encore, on va
démontrer que (Xn ) est p.s de Cauchy. Pour celà, on pose
Vn = sup |Xi − Xj |.
i,j≥n
66
3.7 Interlude : urnes de Polya
On note que (Vn ) est p.s positive et décroissante, donc, elle converge presque sûrement
vers une limite V . De plus,
!
P(Vn > t) = P sup |Xi − Xj | > t
i,j≥n
!
t
≤ P sup |Xk+n − Xn | >
k≥0 2
!2
2
2
≤ E sup |Xk+n − Xn | par Markov
t k≥0
2
2 2
sup E |Xk+n − Xn |2 par Doob avec p = 2
≤
t 2 − 1 k≥0
8
= 2 sup E |Xk+n − Xn |2 −−−→ 0
t k≥0 k→∞
ce qui prouve que (Xn ) est p.s une suite de Cauchy, donc elle converge p.s.
67
3 Martingales
n−1 n
P(Nt = n) = P(Nt−1 = n − 1) + P (Nt−1 = n) 1 −
t+1 t+1
1
=
t+1
On en déduit aisément que Mt converge en loi vers une loi uniforme sur [0, 1] ; puis par
unicité de la limite, que M∞ ∼ U [0, 1].
Ce problème peut se généraliser comme suit : on place initialement ni boules de couleur
i dans l’urne, pour i = 1, . . . , k. Quelle est alors la loi limite ? La façon la plus élégante
de traiter cette généralisation est d’utiliser des propriétés des lois gamma et de Dirichlet.
Lemme 3.7.2. Une variable aléatoire positive de densité :
β α α−1
f (x) = x exp(−βx)
Γ(α)
où α, β > 0 est dite de loi Gamma(α, β). La sommePde variables indépendantes V1 , . . . , Vk
telles que Vi ∼ Gamma(αi , β) suit une loi Gamma( ki=1 αi , β). En particulier une somme
de k variables exponentielles (αi = 1) de paramètre β suit une loi Gamma(k, β).
Lemme 3.7.3. Soient V1 , . . . , Vk , k ≥ 2, des variables aléatoires indépendantes telles
que Vi ∼ Gamma(αi , 1), αi > 0. Soient Ui = Vi / kj=1 Vj . Le vecteur (U1 , . . . , Uk−1 ) suit
P
une loi dite de Dirichlet(α1 , . . . , αk ), de densité :
k
Γ( ki=1 αi ) Y αi −1
P
f (u1 , . . . , uk−1 ) = Qk ui 1Sk (u1 , . . . , uk−1 )
i=1 Γ(αi ) i=1
où uk = 1 − u1 − . . . − uk−1 , et
k−1
X
Sk = {(u1 , . . . , uk−1 ) : ui > 0, ui ≤ 1}.
i=1
68
3.8 Convergence : résultats plus généraux
On notera que cette loi est définie pour le vecteur (U1 , . . . , Uk−1 ), plutôt que (U1 , . . . , Uk ),
pour éviter les problèmes techniques liées aux lois définies sur des variétés (l’espace fermé
défini par la contrainte U1 + . . . Uk = 1.) Mais, par abus de langage, on dira aussi que le
vecteur (U1 , . . . , Uk ) suit aussi cette loi de Dirichlet.
Lemme 3.7.4. Si (U1 , . . . , Uk ) ∼ Dirichlet(α1 , . . . , αk ), alors pour des entiers j ≥ 2,
l1 , . . . , lj ≥ 1 tels que l1 + . . . + lj = k, le vecteur (W1 , . . . , Wj ) des sommes partielles
W1 = U1 + . . . + Ul1 , ..., Wj = Uk−lj +1 + . . . + Uk suit une loi de Dirichlet, de paramètres
β1 , . . . , βj , avec β1 = α1 + . . . + αl1 , ..., βj = αk−lk +1 + . . . + αk .
Les preuves sont laissées au lecteur. On peut maintenant généraliser assez aisément le
résultat précédent.
Proposition 3.7.5. Soit une urne de Polya contenant initialement ni boules de couleur
i, pour i = 1, . . . , k, et soit Mt le vecteur des proportions de chaque couleur au temps t.
Le processus Mt converge p.s. vers une variable M∞ de loi de Dirichlet(n1 , . . . , nk ).
Démonstration. On suppose pour commencer que n1 = . . . = nk = 1. Comme dans le cas
k = 2, on montre aisément que que Mt suit une certaine loi uniforme (sur des ensembles
d’entiers), qui doit converger (en loi) vers une loi uniforme sur le simplexe. Noter aussi
que chaque composante du vecteur Mt est bien une martingale (par rapport à quelle
filtration ?), et donc converge p.s.
Pour une configurationPde départ quelconque, on peut toujours numéroter les boules
k
de départ de 1 à m = i=1 ni pour distinguer les boules de même couleur. Puis on
effectue un tirage de Polya, en remplaçant les « couleurs » par les catégories définies par
ces nombres : i.e. au temps 1 on tire une boule au hasard, et on replace dans le sac deux
boules avec le même nombre. Le résultat précédent montre que le vecteur des proportions
tend vers une loi uniforme (c’est à dire, une Dirichlet(1, . . . , 1)). On réunit ensuite les
boules de même couleur, et on applique le Lemme 3.7.4, pour conclure.
69
3 Martingales
Preuve du Lemme 3.8.2. Comme (Xn ) est une sur-martingale positive, (Yn ) défini par
Yn = exp(−Xn ) est une sous-martingale positive (Jensen) avec 0 ≤ Yn ≤ 1. On peut
donc écrire sa décomposition de Doob :
Yn = Mn + An (3.6)
Ceci prouve que E(A∞ ) ≤ 1 et donc que A∞ < ∞ p.s. Pour p ∈ N posons τp = inf{n ∈ N :
An+1 > p}, comme (An ) est prévisible, τp est bien un temps d’arrêt. De plus, An∧τp ≤ p.
Donc :
τ
|Mnp | = |Mn∧τp | = |Yn∧τp − An∧τp | ≤ 1 + p
τ
donc la martingale arrêtée (Mnp ) est une martingale bornée, donc bornée dans L2 , et
donc d’après la Proposition 3.6.1 elle converge presque sûrement et dans L2 . Donc
τ
Yn∧τp = Mnp + An∧τp
et donc
P ((Yn ) diverge) ≤ P (τp < ∞) ≤ P(A∞ > p) −−−→ 0
p→∞
car A∞ < ∞ p.s. Or P ((Yn ) diverge) ne dépend bien entendu pas de p donc on a
P ((Yn ) diverge) = 0, autrement dit, (Yn ) converge p.s. En revenant à Xn = − log(Yn ), on
a directement que (Xn ) converge également p.s, la limite étant à valeurs dans R+ ∪ {∞}.
Reste à prouver la relation sur l’espérance :
E (X∞ |Fk ) = E lim inf Xn |Fk
n→∞
≤ lim inf E (Xn |Fk ) par Fatou conditionnel
n→∞
≤ Xk car (Xn ) sur-martingale.
70
3.8 Convergence : résultats plus généraux
Preuve du Théorème 3.8.1. Rappel : (Xn ) est cette fois une sous-martingale bornée dans
L1 . On pose Xn+ = Xn ∨0, en tant que fonction convexe de (Xn ), c’est une sous-martingale
(positive). On peut donc encore une fois écrire la décomposition de Doob :
Xn+ = Mn + An
et, comme dans la preuve du Lemme 3.8.2, (An ) étant positif et croissant, il converge
vers une limite A∞ à valeurs dans R+ ∪ {∞}. Cette fois
Yn = Mn + E (A∞ |Fn ) .
Le processus (Mn ) est une martingale, quand à (E (A∞ |Fn )), c’est une martingale régu-
lière (notion définie dans la prochaine section, mais la démonstration du fait que c’est
bien une martingale est immédiate). Donc (Yn ) est aussi une martingale. Comme (An )
est un processus croissant, A∞ ≥ An ⇒ E(A∞ |Fn ) ≥ E(An |Fn ) = An . Donc,
71
3 Martingales
Zt−1
X
Zt = Xt,i
i=1
E = ∪∞
t=1 {Zt = 0}
72
3.9 Deuxième interlude : processus de branchement (Galton-Watson)
P(Zt ≥ 1) ≤ E(Zt ) = µt .
Démonstration. On peut écrire par exemple (en partant de Var(X) = E(X 2 ) − E(X)2 )
que
E(Zt2 |Zt−1 = z) = σ 2 z + µ2 z 2
et en déduire que
σ2
E(Mt2 − Mt−1
2
|Mt−1 ) = Mt−1
µt+1
et donc
t
X 1 σ2
E(Mt2 ) = 1 + σ 2 ≤1+ .
µs+1 µ(µ − 1)
s=1
La preuve ci-dessus nous donne d’ailleurs la variance de la loi limite M∞ . Puisque cette
variance est non-nulle, on a bien montré que la probabilité d’extinction est strictement
inférieure à 1. (Si cette probabilité valait 1, alors Zt et donc aussi Mt s’annulerait au
bout d’un certain t.)
Donc, pour conclure, quand µ > 1, le comportement asymptotique de la population
est le suivant :
— Avec probabilité π (l’unique solution dans ]0, 1[ de l’équation π = G(π)), la popu-
lation s’éteint en un temps fini.
— Avec probabilité (1-π), la taille de la population diverge exponentiellement, au
taux M∞ (ω)µt . (La constante devant le µt est aléatoire, et suit la loi de M∞
conditionnellement à M∞ > 0.)
73
3 Martingales
Si la loi de X n’a pas de variance, on peut avoir des comportements un peu plus
compliqués.
Notons enfin que si la martingale Mt n’est pas très utile en soi dans le cas µ ≤ 1, c’est
un exemple simple de martingale qui converge p.s. (vers 0 comme on l’a déjà expliqué)
mais pas dans L1 , puisque E(Mt ) = 1. Intuitivement, la loi de Mt s’écrase vers zéro, mais
avec une probabilité non nulle de prendre de très grandes valeurs, qui « compensent ».
Xt = E(X|Ft )
pour une certaine filtration (Ft ) et une certaine variable intégrable X, est appelé martin-
gale régulière.
(Le fait qu’un tel processus soit effectivement une martingale associée à la filtration
(Ft ) est facile à démontrer.)
Théorème 3.10.1. Soit Xt = E(X|Ft ) (avec X variable intégrable) une martingale
régulière, alors Xt converge p.s. et dans L1 vers X∞ = E(X|F∞ ).
Réciproquement, si (Xt ) est une martingale qui converge vers une certaine limite X∞
dans L1 , alors c’est une martingale régulière, et elle converge p.s. vers X∞ .
1 L
Démonstration. Commençons par la réciproque. Noter que Si Xt −→ X∞ alors
et donc E(Xt 1A ) = E(X∞ 1A ), on a bien Xt = E(X∞ |Ft ), et (Xt ) est une martingale
régulière. (X∞ est bien intégrable, puisque c’est la limite dans L1 .)
Dans l’autre sens, supposons que Xt = E(X|Ft ) avec X intégrable. On a alors
74
3.10 Martingales régulières et théorème d’arrêt
donc (Xt ) est bornée dans L1 et le Théorème 3.8.1 dit qu’elle converge p.s vers une v.a.
X∞ . Démontrons maintenant que la convergence a aussi lieu dans L1 (vers la même limite
X∞ , même argument que ci-dessus). Pour ceci on va démontrer que (Xt ) est de Cauchy
dans L1 . On a X = X + − X − avec X + = X ∨ 0 et X − = (−X) ∨ 0 ; on décompose
Xt = E(X|Ft ) = E(X + |Ft ) − E(X − |Ft ) et on va démontrer que E(X + |Ft ) et E(X − |Ft )
sont des suites de Cauchy. On traite le cas de E(X + |Ft ), le cas E(X − |Ft ) est identique.
On a :
∥E(X + |Fs ) − E(X + |Ft )∥1 = ∥E(X + |Fs ) − E(X + ∧ a|Fs )∥1
| {z }
−a→∞
−−→0 (TCD)
+ ∥E(X + ∧ a|Fs ) − E(X + ∧ a|Ft )∥1 + ∥E(X + ∧ a|Ft ) − E(X + |Ft )∥1 .
| {z }
−a→∞
−−→0 (TCD)
Pour le terme ∥E(X + ∧ a|Ft ) − E(X + ∧ a|Fs )∥1 , noter que (E(X + ∧ a|Fn )) est une
martingale bornée dans L1 , donc elle converge p.s, et de plus c’est une martingale bornée,
donc, la convergence p.s implique la convergence dans L1 . Donc cette suite est de Cauchy
dans L1 et donc le terme peut être rendu aussi petit que l’on veut quand s et t sont assez
grands.
La dernière étape est de démontrer que X∞ = E(X|F∞ ). On procède de la même façon
que ci-dessus (dans la réciproque). Pour A ∈ Ft , on a
et puisque
on a bien :
E(X∞ 1A ) = E(X1A ). (3.7)
et cette relation est plus généralement vraie pour tout A ∈ ∪t∈N Ft . S
Malheureusement, ceci ne montre pas que c’est vrai pour tout A ∈ F∞ = σ n∈N Fn .
On s’en sort avec le théorème de classe monotone (admis, hors programme) : tout d’abord,
l’ensemble des A qui satisfait (3.7) est S
une classe monotone (contient Ω, stable par union
croissante et par différence). De plus, n∈N Fn est un π-système (stable par intersection
finie)
S inclusdans cette classe monotone. Le théorème de classe monotone dit alors que
σ n∈N Fn est aussi inclus dans la classe monotone.
Démonstration. X
Xτ = E(X|Fk )1{τ =k} + E(X|F∞ )1{τ =∞} .
k∈N
75
3 Martingales
76
4 Processus en temps continu
Le but de cette section est d’introduire les deux processus en temps continu les plus
courament utilisés :
— le processus de Wiener, dit mouvement brownien ;
— le processus de Poisson ;
sans trop rentrer dans la théorie.
Comme bien expliqué dans la préface du livre de Kingman (1993), il est plus intuitif
de présenter certaines propriétés de ces processus dans un cadre plus général que le cadre
temporel ; c’est à dire comme des fonctions aléatoires τ → R, sans se restreindre à τ = R+
(espace des temps). C’est l’approche que nous suivrons.
et permet d’obtenir tous ces moments par dérivation : G′ (1) = E[X], G′′ (1) = E [X(X − 1)],
etc. Notamment :
E[X] = Var[X] = µ.
Une propriété fondamentale des lois de Poisson est leur additivité, ou plus généralement
leur sigma-additivité.
Proposition 4.1.1. Soient Xi ∼ Poisson(µi ) des variables indépendantes, avec µi ∈
[0, ∞]. Alors
∞ ∞
!
X X
Xi ∼ Poisson µi .
i=1 i=1
77
4 Processus en temps continu
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figure 4.1 – Réalisation d’un processus ponctuel sur [0, 1]2 ; pour un processus de Pois-
son, les nombres de points qui tombent dans chacun des deux rectangles
sont indépendants.
Démonstration. Dès qu’un des µi = +∞, le résultat devient évident. On suppose tous
les µi < +∞.
On montre aisément que cette propriété est vraie pour une somme finie :
n
X n
X
Xi ∼ Poisson( µi ).
i=1 i=1
(Preuve par récurence, et pour n = 2, simple calcul de probabilité discrète, laissé à votre
soin. Ou alors passer par la fonction génératrice.) Il suffit ensuite d’invoquer le théorème
de convergence monotone pour conclure. Ce raisonnement est valable que la série ∞
P
i=1 µi
converge ou pas. (Exercice : vérifier les détails du raisonnement dans ces deux cas !).
N (A) = # {Π ∩ A} .
78
4.1 Processus ponctuels, processus de Poisson
Remarque 4.1.1. Techniquement, il faut donc imposer que pour des ensembles A “inté-
ressants”, la variable aléatoire N (A) soit bien définie, i.e. l’application ω → # {Π(ω) ∩ A}
soit bien mesurable. Les ensembles “intéressants” seront généralement les éléments d’une
tribu associée à E, comme cela va apparaître clairement par la suite.
Les processus de Poisson sont des processus ponctuels vérifiant les propriétés suivantes.
Définition 4.1.2. Soit (E, E) un ensemble mesurable, et µ une mesure associée à cet
ensemble. On appelle processus de Poisson de mesure moyenne µ un processus
ponctuel Π tel que le processus de comptage associé, N (A) = # {Π ∩ A}, vérifie les deux
propriétés suivantes :
1. Pour A1 , . . . , Ak ∈ E disjoints, les variables N (Ai ) sont indépendantes.
2. Pour A ∈ E, N (A) ∼ Poisson (µ(A)).
Si µ(E) < +∞ (resp. = ∞), Π est p.s. un ensemble fini (resp. infini dénombrable).
Dans beaucoup d’applications, E ⊂ Rd , et µ est dominée par la mesure de Lebesgue :
µ(dx) = λ(x)dx, où la fonction λ est dite fonction d’intensité. Quand λ est constante,
on dit que le processus est homogène. Pour une mesure µ plus générale, il n’est pas
forcément possible de construire un processus de Poisson de mesure moyenne µ. En
particulier, si µ est atomique (i.e. µ({x}) > 0 pour un certain x ∈ E), l’existence d’un tel
processus entraînerait la contradiction suivante : N ({x}) ≤1 (par définition), et N ({x}) ∼
Poisson(c) pour un certaine constante c > 0. Le théorème suivant donne des conditions
suffisantes sur µ pour l’existence d’un processus de Poisson.
Théorème 4.1.2. (Existence) Soit µ une mesure sigma-finie non-atomique sur (E, E).
Alors il existe un processus de Poisson de mesure moyenne µ.
Démonstration. On commence par le cas où µ est une mesure finie, µ(E) < ∞. On pose
µp = µ/µ(E) ; c’est une mesure de probabilité.
On se donne un espace de probabilité (Ω, F, P) sur lequel on peut construire les va-
riables aléatoires suivantes : X1 , X2 , . . . une suite de variables IID de loi µp , et N une
variable indépendante des Xi , de loi Poisson(µ(E)). On pose alors :
Π = {X1 , . . . , XN } .
79
4 Processus en temps continu
et donc
k
n µ(Ai ) ni
−µ(E) µ(E) n! Y
P (N (A0 ) = n0 , . . . , N (Ak ) = nk ) = e Qk
n! i=0 ni !
µ(E)
i=0
k
Y e−µ(Ai ) µ(Ai )ni
= .
ni !
i=0
Π = ∪∞
i=1 Πi
Mais, pour que cette somme soit bien le cardinal de Π ∩ A, il faut s’assurer que les
ensembles Πi ∩ A sont bien disjoints p.s. C’est vrai pour A tel que µ(A) < ∞ mais non
trivial, voir les pages 14 à 17 de Kingman (1993).
La construction explicite ci-dessus (dans le cas µ finie) donne une nouvelle inteprétation
d’un processus de Poisson : chaque réalisation est un « jeu de données » (une collection
de variables IID) dont la taille est aléatoire.
4.1.3 Cas E = R+
On s’intéresse désormais au cas E = R+ . Il est alors possible d’ordonner les points de Π ;
soit 0 < X1 < X2 < . . . . Ces variables sont interprétées comme des dates d’événements
(par exemple de tremblements de terre). On pose
∞
X
Nt := N ([0, t]) = 1 {Xi ≤ t} .
i=1
C’est ce processus (Nt )t≥0 que l’on appelle communément processus de Poisson. Ses pro-
priétés principales se déduisent immédiatement de sa définition et de celle des processus
de Poisson généraux.
80
4.1 Processus ponctuels, processus de Poisson
Proposition 4.1.3. La trajectoire t → Nt est p.s. constante par morceaux, càdlàg (conti-
nue à droite, limitée à gauche) et croissante. Le processus (Nt ) est à accroissements
indépendants : i.e. les variables Ns et Nt − Ns sont indépendants pour 0 ≤ s ≤ t.
Démonstration. Pour X1 = Y1 , on a :
81
4 Processus en temps continu
loi que (Nt ); alors Y2 = X2 − X1 a forcément la même loi que X1 . Cette propriété
admise est essentiellement la propriété de Markov forte en temps continu ; pour un preuve
relativement simple (mais spécifique au processus de Poisson), voir par exemple les pages
39 et 40 de Kingman (1993).
La proposition ci-dessus est lié au « paradoxe » dit du temps d’attente : Pour une
ligne de bus « poissonienne », le temps de passage entre deux bus suit une loi Exp(λ),
d’espérance 1/λ. En revanche, si j’arrive à à une date arbitraire t > 0 à l’arrêt de bus, la
durée entre le passage du bus précédent et le bus suivant est la somme de deux variables
exponentielles, soit une loi Gamma(2, λ) d’espérance 2/λ. En d’autres termes, si un bus
passe toutes les dix minutes (en moyenne), mon temps d’attente moyen est aussi de 10
minutes.
et les autres valeurs n + 2, . . . ont une probabilité en o(h). En d’autres termes, d’un point
de vue « infinitésimal », (Nt ) ressemble à une chaîne de Markov dont les seules transitions
possibles sont n → n, et n → n + 1. Une généralisation naturelle est de considérer un
processus (Xt ), à valeurs dans X ⊂ Z, permettant d’autres transitions : pour i, j ∈ X :
82
4.2 Mouvement brownien
On admettra les propriétés suivantes, qui semblent intuitives, par analogie avec les
propriétés correspondantes du processus de Poisson :
1. de tels processus existent.
P
2. Le temps passé dans un état i suit une loi exponentielle Exp j̸=i A(i, j) . Une
P
fois ce temps écoulé, on choisit un nouvel état j ̸= i, avec probabilité A(i, j)/ k̸=i A(i, k).
3. Si (Xt ) admet une loi invariante, alors πA = 0.
4. La loi marginale de (Xt ) est donnée par le vecteur p(t) = p(0) exp (At) .
Pour justifier (informellement) la propriété 4, on peut écrire :
X
P(Xt+h = j) = P(Xt = i)P(Xt+h = j|Xt = i),
i
X
= P(Xt = j) {1 + A(i, i)h} + P(Xt = i)A(i, j)h + o(h),
i̸=j
donc
P(Xt+h = j) − P(Xt = j) X
= P(Xt = i)A(i, j)
h
i
et passer à la limite h → 0 :
p′ (t) = p(t)A
où p(t) est le vecteur des P(Xt = i). Cette équation justifie aussi indirectement la pro-
priété 3 : dans le régime stationnaire, p(t) = π, p′ (t) = 0, donc πA = 0.
83
4 Processus en temps continu
La fonction de covariance C est souvent appelé « noyau » (un terme polysémique en sta-
tistiques...). Cette fonction doit être choisie de manière à ce que, pour tous x1 , . . . , xd , la
matrice de covariance (C(xi , xj ))i,j=1,...,d soit bien définie positive. Un notau couramment
utilisé est le noyau dit Gaussien (ou squared exponential ) :
∥x1 − x2 ∥2
C(x1 , x2 ) = c exp − .
2ℓ2
Les réalisations d’un processus avec un tel noyau sont très régulières (infiniment déri-
vables). Ces processus sont beaucoup utilisés dans différents domaine du machine lear-
ning, notamment en optimisation bayésienne et en apprentissage par renforcement.
84
4.2 Mouvement brownien
85
Bibliographie
Baldi, P., Mazliak, L., and Priouret, P. (2002). Martingales and Markov chains. Chapman
& Hall/CRC, Boca Raton, FL. Solved exercises and elements of theory, Translated
from the 1998 French original.
Meyn, S. and Tweedie, R. L. (2009). Markov chains and stochastic stability. Cambridge
University Press, Cambridge, second edition. With a prologue by Peter W. Glynn.
Shaw, L. P. and Shaw, L. F. (2019). The flying bomb and the actuary. Significance,
16(5) :12–17.
87