Poly Processus
Poly Processus
Notes de cours
Nicolas Chopin
Table des matières
1 Introduction 7
1.1 Processus stochastiques : définition . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Rappels sur l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . 9
2 Chaînes de Markov 13
2.1 Construction et définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Propriétés élémentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3 Propriété de Markov forte . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.4 Classes d’états . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.5 Opérateur potentiel et nature des classes d’états . . . . . . . . . . . . . . . 22
2.6 Théorèmes ergodiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.7 Périodicité, convergence des lois marginales . . . . . . . . . . . . . . . . . 34
2.8 Réversibilité, algorithme de Metropolis-Hastings . . . . . . . . . . . . . . . 37
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler . . . . 40
2.10 Extension à un espace d’états continu . . . . . . . . . . . . . . . . . . . . 42
2.11 Chaînes de Markov cachées . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3 Martingales 49
3.1 Définitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.2 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.3 Théorème d’arrêt : le cas borné . . . . . . . . . . . . . . . . . . . . . . . . 57
3.4 Décomposition de Doob . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.5 Inégalités maximales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.6 Espaces Lp et inégalité de Doob . . . . . . . . . . . . . . . . . . . . . . . . 63
3.7 Convergence dans L2 (et plus généralement Lp , p > 1) . . . . . . . . . . . 65
3.8 Interlude : urnes de Polya . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
3.9 Convergence : résultats plus généraux . . . . . . . . . . . . . . . . . . . . 69
3.10 Deuxième interlude : processus de branchement (Galton-Watson) . . . . . 71
3.11 Martingales régulières et théorème d’arrêt . . . . . . . . . . . . . . . . . . 73
3
Table des matières
4
Table des matières
5
1 Introduction
1.1 Processus stochastiques : définition
Dans tout le cours, on considèrera un espace probabilisé (Ω, F, P), un espace mesurable
(E, E) et un ensemble T .
Définition 1.1.1. On appelle processus stochastique, ou processus aléatoire, une famille
(Xt )t∈T de variables aléatoires à valeurs dans E. Autrement dit, pour tout t ∈ T , l’ap-
plication ω 7→ Xt (ω) est une application mesurable de (Ω, F) dans (E, E). On appelle E
l’espace d’états du processus.
En pratique, on utilise souvent les processus pour de la modélisation dynamique : Xt
est la valeur d’une variable d’intérêt à la date t. L’ensemble T représente alors l’ensemble
des dates possibles.
Définition 1.1.2. Lorsque T = N ou T = Z on dit que (Xt )t∈T est un processus à temps
discret. Lorsque T = R, ou un intervalle de R, on parle de processus à temps continu.
Exemple 1.1.1. Un exemple à temps discret : soit Xt le PIB de la France à l’année t
(donc E = R+ ). En revanche, en finance, les prix des actifs, devises, etc. sont mises à
jour avec une fréquence tellement élevée qu’on préfère utiliser une modélisation à temps
continu : soit Xt le cours EURO/DOLLAR à la date t, t mesurée en heures avec t = 0
correspondant au 1er janvier 1999 à 0h.
Ω×T →E
(ω, t) 7→ Xt (ω)
qui doit vérifier la condition que, pour t fixé, ω 7→ Xt (ω) est mesurable (autrement dit, Xt
vérifie bien la définition de variable aléatoire). A ω fixé, la fonction t 7→ Xt (ω) s’appelle
une trajectoire du processus.
Définition 1.1.3. On appelle filtration une suite (Ft )t∈T de σ-algèbres vérifiant
s ≤ t ⇒ Fs ⊂ Ft ⊂ F.
7
1 Introduction
8
1.2 Rappels sur l’espérance conditionnelle
En effet :
9
1 Introduction
X∞
= E X1{Y =y} g(y)
y=0
= E [Xg(Y )]
= E(XZ).
Le théorème suivant dit justement que la propriété 1.3 peut s’étendre au cas général.
Théorème 1.2.1. Soit A ⊂ F une σ-algèbre et X une variable aléatoire réelle, positive
ou intégrable. Alors il existe une variable aléatoire A-mesurable, positive ou intégrable,
unique à un p.s près, notée E(X|A), telle que pour toute variable aléaoire Z, A-mesurable,
positive ou bornée, on a
E E(X|A)Z = E(XZ). (1.4)
Dans le cas où A = σ(Y ) pour une variable aléatoire Z, on note simplement E(X|Y ) au
lieu de E(X|σ(Y )).
soit
E(XZ) = E[Π(X)Z].
On voit donc qu’en posant E(X|A) := Π(X) la relation (1.4) est immédiatement
satisfaite.
Il reste ensuite à travailler un peu pour étendre cette définition au cas où X est
simplement intrégrable (X ∈ L1 ) ou positive.
10
1.2 Rappels sur l’espérance conditionnelle
11
2 Chaînes de Markov
2.1 Construction et définitions
Dans tout ce chapitre, (Xt )t∈N un processus à valeurs dans un espace (E, E), et (Ft )
sa filtration canonique Ft = σ(X0 , . . . , Xt ).
Définition 2.1.1. Le processus (Xt )t∈N est markovien si et seulement si
Donc, on peut décrire la loi de la chaîne (Xt ) par la loi de X0 et la loi de Xt+1 |Xt pour
tout t ∈ N.
Définition 2.1.2. On dit qu’une chaîne de Markov (Xt ) est homogène si, pour tout
(x, y) ∈ E2 , P(Xt+1 = y|Xt = x) ne dépend que de (x, y), et pas de t.
A partir de maintenant, on ne considérera que des chaînes de Markov homogènes.
Un abus (très) fréquent consiste à appeler “chaîne de Markov” uniquement les chaînes
de Markov homogènes, et “chaîne de Markov non homogène” une chaîne de Markov
quelconque. A partir de maintenant, on suivra cette convention.
Définition 2.1.3. Soit (Xt ) une chaîne de Markov (donc, homogène). Notons
13
2 Chaînes de Markov
On a alors
Même si c’est évident, n’importe quelle matrice ne peut pas être une matrice de tran-
sition !
Proposition 2.1.1. Soit une matrice de transition P d’une chaîne de Markov (Xt ).
Alors, pour tout (x, y), P (x, y) ∈ [0, 1] et
X
P (x, y) = 1.
y∈E
Démonstration. Pour la première propriété, P (x, y) = P(X1 = y|X0 = x) ∈ [0, 1]. Pour
la deuxième :
X X
P (x, y) = P(X1 = y|X0 = x) = P(X1 ∈ E|X0 = x) = 1
y∈E y∈E
On mentionne ensuite une méthode simple pour construire une chaîne de Markov.
Proposition 2.1.2. Pour toute loi initiale µ, et matrice de transition P , sur un espace
dénombrable E, il existe des fonctions f0 et f , et une suite de variables aléatoires IID
(indépendantes et identiquement distribuées) U0 , U1 , . . . telles que la suite de variables
aléatoires X0 = f0 (U0 ), Xt = f (Xt−1 , Ut ) est une chaîne de Markov de loi initiale µ et
de matrice de transition P .
Démonstration. On va prendre pour les Ut des variables de loi uniforme sur [0, 1]. L’espace
E est dénombrable, on peut sans perte de généralité appeler ses éléments 1, 2, . . . . On
définit f0 (u) comme suit : f0 (u) = 1 si u ∈ [0, µ(1)[, f0 (u) = 2 si u ∈ [µ(1), µ1 + µ(2)[,
etc. On montre facilement que X0 = f0 (U0 ) est telle que P(X0 ) ∼ µ0 . On procède de la
même
Pk−1 manière pour P f : pour x ∈ E fixé, f (x, u) est la fonction qui renvoie l’entier k si
k
i=1 P (x, i) ≤ u < i=1 P (x, i).
14
2.2 Propriétés élémentaires
dans un sens à préciser, et où π est une loi à préciser ! Sous des hypothèses un peu plus
fortes, on pourra établir la convergence en loi de (Xt ) vers π. Ceci sera traité dans les
Sections 2.6 et 2.7 respectivement. Enfin, la Section 2.8 discutera d’une application en
simulation, et la Section 2.10 discutera (à la main, sans rentrer dans les détails) quels
sont les résultats parmi ceux qui précèdent qui peuvent s’étendre au cas où E est un
espace continu.
Démonstration. Par récurrence. C’est vrai pour m = 1 par définition. Supposons que
m > 1 et que ce soit vrai pour 1, 2, . . . , m − 1. Alors :
P(Xn+m = y|Xn = x)
X
= P(Xn+m = y, Xn+m−1 = z|Xn = x)
z∈E
X
= P(Xn+m = y|Xn+m−1 = z, Xn = x)P(Xn+m−1 = z|Xn = x)
z∈E
15
2 Chaînes de Markov
X
= P(Xn+m = y|Xn+m−1 = z)P(Xn+m−1 = z|Xn = x) (Markov)
z∈E
X
= P (z, y)P m−1 (x, z) (hypothèse de récurrence)
z∈E
m
= P (x, y). □
Définition 2.2.2. Soit une loi initiale µ et une matrice de transition P . On note
X
µP (x) = µ(z)P (z, x).
z∈E
Autrement dit, dans nos notations matricielles, on considère une loi initiale comme un
vecteur ligne.
P(Xt = x) = µP t (x).
Démonstration. On a
X
P(Xt = x) = P(Xt = x|X0 = z)P(X0 = z)
z∈E
X
= P t (z, x)µ(z) d’après la Proposition 2.2.1
z∈E
X
= µ(z)P t (z, x)
z∈E
t
= µP (x)
Autrement dit, dans nos notations matricielles, on considère une loi fonction comme
un vecteur colonne.
Proposition 2.2.3. Soit (Xt ) une chaîne de Markov de matrice de transition P et une
fonction f : E → R, positive ou bornée. Pour tout x ∈ E et t ∈ N,
16
2.2 Propriétés élémentaires
Démonstration. On a
X
E[f (Xt )|X0 = x] = f (z)P(Xt = z|X0 = x)
z∈E
X
= f (z)P t (x, z) d’après la Proposition 2.2.1
z∈E
X
= P t (x, z)f (z)
z∈E
n
= P f (x)
et remarquer que
µP t f = E[f (Xt )].
On peut représenter une matrice de transition P par un graphe orienté : on représente
les états par les sommets du graphes, et si P (x, y) > 0, on trace une flèche de x à y sur
laquelle on écrit la valeur de P (x, y). Le graphe est orienté, il peut y avoir une flèche de
x vers y et/ou une flèche de y versP x. D’autre part, si P (x, x) > 0, il y a une flèche de x à
lui-même. Noter que la condition y P (x, y) = 1 devient : “la somme des flèches partant
du sommet x doit être égale à 1”.
Exemple 2.2.1. Lorsque E est un espace à deux éléments, E = {1, 2}, toute matrice de
transition P peut se mettre sous la forme
p 1−p
P =
1−q q
17
2 Chaînes de Markov
Définition 2.2.4. On appelle π loi invariante pour une chaîne (Xt ) de transition P une
loi vérifiant
πP = π.
Proposition 2.2.4. Si (Xt ) est une chaîne de transition P et de loi initiale π invariante
par P alors, pour tout t ∈ N, Xt ∼ π.
Par la suite, on justifiera proprement que si (Xt ) converge en loi, c’est vers une loi
invariante. En revanche, il se peut très bien que (Xt ) ne converge pas en loi. De même,
l’existence d’une loi invariante ne garantit pas que (Xt ) converge en loi vers cette loi
invariante (car il peut y avoir plusieurs lois invariantes).
Exemple 2.2.2. Revenons à l’Exemple 2.2.1, cherchons toutes les lois invariantes de P
avec
p 1−p
P =
1−q q
où (p, q) ∈ [0, 1]2 . On écrit le système πP = π, si π = (π1 π2 ) ça donne :
p 1−p
(π1 π2 ) = (π1 π2 )
1−q q
soit :
pπ1 + (1 − q)π2 = π1
(1 − p)π2 + qπ2 = π2 .
On remarque tout de suite que les deux équations de ce système sont liées : elles sont
équivalentes à
(1 − p)π1 = (1 − q)π2 .
C’est TOUJOURS le cas qu’il y a au moins une équation redondante dans le système
πP = π. Mais il ne faut pas oublier qu’on a une équation supplémentaire : π est une
probabilité, donc π1 + π2 = 1. On cherche donc à résoudre :
(1 − p)π1 = (1 − q)π2
π1 + π2 = 1.
Noter que si (p, q) ̸= (1, 1) alors il y a toujours une solution unique. En effet, le système
peut se réécrire
1−q
π1 = 1−p π2
π1 + π2 = 1.
et donc en injectant la première équation dans la deuxième,
1−q
+ 1 π2 = 1
1−p
18
2.3 Propriété de Markov forte
soit
(2 − p − q)π2 = 1 − p
1−p 1−q
soit π2 = 2−p−q et la première équation du système donne π1 = 2−p−q donc la solution
unique est
1−q 1−p
π= , .
2−p−q 2−p−q
En revanche, dans le cas p = q = 1, la première équation donne 0 = 0... et on vérifie que
l’ensemble des solutions est donné par
On a donc deux cas différents : dans un cas, il y a une loi invariante unique ; dans l’autre
cas, il y a une infinité de lois invariantes.
et donc la loi du bloc (Xt+1 , Xt+2 ) ne dépend pas du passé Xt−1 , . . . , X0 conditionnelle-
ment au présent Xt . C’est vrai aussi bien sûr pour un bloc plus grand (Xt+1 , . . . , Xt+k ),
et pour les marginales correspondantes : Xt+k est indépendante de Xt−l sachant Xt , pour
k, l ≥ 1. Par ailleurs, la loi de Xt+k sachant Xt = x est la même que celle que de (Xk )
sachant X0 = x.
Ce que nous venons d’énoncer est la version la plus basique de la propriété de Markov.
Elle ne peut s’appliquer à des événements concernant la trajectoire complète de la chaîne :
par exemple la probabilité de revisiter un état x dans le futur, sachant Xt = x. On
admettra les propriétés suivantes, dites de Markov forte.
Proposition 2.3.1. Soit (Xt ) une chaîne de Markov (de loi initiale µ) et φ : E ∞ → R,
mesurable, positive ou bornée, alors :
où Eµ est l’espérance sous la loi de (Xt ), et Ex := Eδx est l’espérance sous la même loi,
mais avec loi initiale δx .
En appliquant ce résultat à une fonction indicatrice, on obtient :
19
2 Chaînes de Markov
La vraie propriété de Markov forte est encore un peu plus générale, et permet de
conditionner à un temps aléatoire, à condition que ce temps aléatoire soit un certain type
de variable aléatoire dit temps d’arrêt.
Définition 2.3.1. On appelle temps d’arrêt par rapport à une filtration (Ft ) (rappel :
Ft = σ(X0 , . . . , Xt ) dans ce chapitre) une variable aléatoire τ à valeurs dans N ∪ +∞,
telle que {τ ≤ t} ∈ Ft pour tout t ≥ 0.
La notion de temps d’arrêt est assez technique, et sera vue plus en détail dans la
partie sur les martingales. Pour l’instant, je vous propose l’interprétation semi-formelle
suivante :
— un temps d’arrêt est une fonction déterministe de la trajectoire du processus (Xt ) ;
— telle que l’indicatrice 1{τ ≤ t} ne dépend que de (X0 , . . . , Xt ). En d’autres termes,
observer le processus jusqu’au temps t suffit à déterminer si τ ≤ t ou pas.
Et pour simplifier encore un peu plus les choses, gardez à l’esprit l’exemple suivant,
du temps d’atteinte :
τy = inf{t ≥ 0 : Xt = y} (2.1)
Proposition 2.3.2. Sous les mêmes conditions que la proposition précédente, et pour τ
un temps d’arrêt (par rapport à Ft = σ(X0 , . . . , Xt )), on a :
Eµ [φ((Xτ +n )n≥0 )|Fτ ] 1{τ <+∞} = EXτ [φ ((Xt )t≥0 )] 1{τ <∞} .
Noter que si τ = +∞, la variable Xτ n’est pas clairement définie. C’est pour cela que
l’on a besoin des indicatrices (que l’on pourraient mettre à l’intérieur des espérances).
En fait, dans ce chapitre, on va souvent appliquer cette propriété au temps de retour
en x :
σx = inf{t ≥ 1 : Xt = x}
ce qui est presque la même chose qu’un temps d’atteinte (mais σx ≥ 1). Dans ce cas, la
propriété de Markov forte s’écrit comme suit :
si σx < ∞ p.s. (ou alors rajouter une indicatrice des deux côtés). Noter que le terme de
droite n’est pas aléatoire.
20
2.4 Classes d’états
Définition 2.4.3. Les classes d’équivalences pour la relation ↭ sont appelées “classes
de communication” de P , et par extension, on les appelle également classes de communi-
cation de toutes chaîne de Markov (Xn ) ayant P pour matrice de transition.
On omet souvent le terme communication, on parle alors des classes d’états ou sim-
plement des classes de (Xn ) et de P .
Exemple 2.4.1. On revient à l’exemple à deux états.
21
2 Chaînes de Markov
Définition 2.4.4. Si un état i vérifie P (i, i) = 1 on dit que c’est un “état absorbant”.
A l’inverse, dans l’exemple ci-dessus, si p < 1 et q < 1 alors on a vu qu’il n’y a qu’une
seule classe d’états : {1, 2}. Les chaînes de Markov avec une seule classe sont plus simples
à étudier asymptotiquement.
Définition 2.4.5. Soit (Xn ) une chaîne de Markov avec une seule classe d’états. On dit
que la chaîne (Xn ) est irréductible.
U (x, y) = Ex (Ny ).
Démonstration. Fixons x et y,
∞ ∞ ∞
!
X X X
Ex (Ny ) = Ex 1{Xn =y} = Px (Xn = y) = P n (x, y) = U (x, y)
n=0 n=0 n=0
22
2.5 Opérateur potentiel et nature des classes d’états
23
2 Chaînes de Markov
Théorème 2.5.3. Si x ↭ y alors x et y sont de même nature (soit tous les deux
récurrents, soit tous les deux transients).
Avant de prouver le théorème, bien noter que son énoncé implique que la récurrence
et la transience sont en fait des propriétés de classe : une classe contient soit unique-
ment des états récurrents, soit uniquement des états transients. Du coup, on introduit la
terminologie naturelle suivante.
Définition 2.5.4. Si les états d’une classe sont récurrents, on dit que la classe est ré-
currente. Si les états d’une classe sont transients, on dit que la classe est transiente.
Si une chaîne est irréductible et que son unique classe d’états est récurrente, on dit
que la chaîne est récurrente. Si l’unique classe est transiente, on dit que la chaîne est
transiente.
Preuve du Lemme 2.5.4. Pour cette preuve, on utilise le temps d’arrêt sy = inf{n ≥ 0 :
Xn = y} :
U (x, y) = Ex (Ny )
= Ex 1{sy < ∞}Ny ((Xt+sy )t≥0 )
= Ex 1{sy < ∞}Ex Ny ((Xt+sy )t≥0 ) Fsy dble espérance, {sy < ∞} ∈ Fsy
= Ex [1{sy < ∞}Ey (Ny )] Markov forte
= Px (σy < ∞)U (y, y)
≤ U (y, y).
On finit par quelques exemples qui vont permettre de mieux comprendre ces notions.
Proposition 2.5.5. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente.
Démonstration. Si elle était transiente, p.s, chaque état ne serait visité qu’un nombre
fini de fois. Or, il existe au moins un état visité une infinité de fois.
24
2.5 Opérateur potentiel et nature des classes d’états
Proposition 2.5.6. Sur un espace E dénombrable, non fini, il existe des chaînes irré-
ductibles récurrentes, et des chaînes irréductibles transientes.
P (i, i − 1) = 1 − p et P (i, i + 1) = p
On vérifie que les εi sont indépendants. En effet, soit i < j, on a (pour f et g mesurables,
positives),
25
2 Chaînes de Markov
et donc que (Xn ) ne passera presque sûrement qu’un nombre fini de fois par 0 : la chaîne
est donc transiente.
Théorème 2.5.7 (Théorème de Polya). Soit (Xn ) la marche aléatoire symétrique dans
Zd , c’est-à-dire une chaîne de Markov de matrice de transition donnée par
26
2.6 Théorèmes ergodiques
Démonstration. On a
x −1
σX
!
X X
µx (E) = µx (y) = Ex 1y (Xk )
y∈E y∈E k=0
x −1 X
σX x −1
σX
!
= Ex 1y (Xk ) = Ex 1 = Ex (σx ).
k=0 y∈E k=0
On donne quelques exemples : on va voir que toute chaîne irréductible sur E fini est
récurrente positive (on l’énonce comme une proposition), et on donne un exemple de
chaîne irréductible récurrente nulle.
Proposition 2.6.3. Toute chaîne irréductible (Xn ) définie sur E fini est récurrente
positive.
Démonstration. On a X
µx (E) = µx (y) < ∞. □
| {z }
y∈E <∞
27
2 Chaînes de Markov
Proposition 2.6.4. Supposons que (Xn ) soit une chaîne irréductible admettant une
probabilité invariante. Alors elle est récurrente positive.
Donc pour tout x, π(x) = 0, ce qui est en contradiction avec le fait que π est une mesure
de probabilité. Donc la chaîne ne peut pas être transiente, elle est donc récurrente.
x −1
σX
!
∀y ∈ E, µx (y) = Ex 1y (Xk )
k=0
µx P f = µx (P f )
X
= µx (y)P f (y)
y∈E
x −1
σX
!
X
= Ex 1y (Xk ) P f (y)
y∈E k=0
x −1 X
σX
= Ex 1y (Xk )P f (y)
k=0 y∈E
28
2.6 Théorèmes ergodiques
x −1
σX
!
= Ex P f (Xk )
k=0
∞
!
X
= Ex 1{k<σx } E[f (Xk+1 )|Xk )] par définition de P f
k=0
∞
X
= Ex 1{k<σx } f (Xk+1 ) Fubini, double espérance, {k < σx } est Fk mesurable
k=0
σx
!
X
= Ex f (Xk )
k=1
x −1
σX
!
= Ex f (Xk ) car Xk = X0 = x sachant σx = k
k=0
Etape 2. On fixe y ∈ E. Dans un premier temps, montrons que µx (y) < ∞. En effet, la
chaîne étant irréductible, il existe n tel que P n (y, x) > 0 et alors
X
1 = µx (x) = µx P n (x) = µx (z)P n (z, x) ≥ µx (y)P n (y, x)
z∈E
µx (z)
P ′ (y, z) = P (z, y).
µx (y)
Soit (Yn ) une chaîne de Markov de transition P ′ . Montrons que, comme (Xn ), (Yn ) est
irréductible récurrente. En effet :
X X µx (t) µx (z)
P ′2 (y, z) = P ′ (y, t)P ′ (t, z) = P (t, y) P (z, t)
t t
µx (y) µx (t)
µx (z) X µx (z) 2
= P (z, t)P (t, y) = P (z, y).
µx (y) t µx (y)
29
2 Chaînes de Markov
µx (z) n
P ′n (y, z) = P (z, y).
µx (y)
Donc :
X µx (z) X n µx (z)
U ′ (y, z) = P ′n (y, z) = P (z, y) = U (z, y).
n
µx (y) n µx (y)
En particulier, U ′ (y, z) > 0 ⇔ U (z, y) > 0, ce qui montre que si (Xn ) étant irréductible,
alors (Yn ) l’est aussi. De plus, U ′ (y, z) = ∞ ⇔ U (z, y) = ∞, ce qui prouve que (Xn )
étant récurrente, (Yn ) aussi.
Cette partie de la preuve repose sur la théorie des martingales, vue dans la prochaine
section. Vous pouvez l’ignorer pour l’instant ; voir aussi la remarque 2.6.1 pour une dé-
monstration directe dans le cas récurent positif.
On va montrer que pour toute fonction f ≥ 0, si P ′ f (z) = f (z) pour tout z, alors f
est constante. Posons Zn = f (Yn ) et Gn = σ(Y0 , . . . , Yn ). Alors
On a donc montré que (Zn ) est une martingale pour (Gn ). Comme f est positive,
(Zn ) est une martingale positive, donc en particulier une sur-martingale positive. Donc,
d’après le Lemme 3.9.2 du chapitre sur les martingales, (Zn ) converge p.s vers une variable
p.s
aléatoire Z∞ . Donc : f (Yn ) −−→ Z∞ . Soient y ̸= y ′ . Comme (Yn ) est récurrente, il existe
une infinités de n tels que Yn = y et une infinités de m tels que Ym = y ′ . Ceci prouve
p.s p.s
que f (y) −−→ Z∞ et f (y ′ ) −−→ Z∞ , or comme f (y) et f (y ′ ) ne dépendent pas de n, ceci
montre forcément que f est une fonction constante (et que Z∞ est une variable aléatoire
constante).
On est maintenant en position de démontrer l’unicité. Soit λ une mesure invariante de
(Xn ), le but est de montrer que λ et µx sont proportionnelles. Posons f (y) = λ(y)/µx (y),
on a
X λ(z)
P ′ f (y) = P ′ (y, z)
z
µx (z)
X µx (z) λ(z)
= P (z, y) par def. de P ′
z
µx (y) µx (z)
1 X
= λ(z)P (z, y)
µx (y) z
1
= λP (y)
µx (y)
30
2.6 Théorèmes ergodiques
λ(y)
= par hypothèse sur λ
µx (y)
= f (y).
Donc f vérifie P ′ f (y) = f (y) pour tout y, donc f est constante, ce qui signifie bien que
λ et µx sont proportionnelles. □
On énonce maintenant trois théorèmes, souvent appelés théorèmes ergodiques, qui sont
l’analogue de la loi forte des grands nombres et du théorème central limite pour les chaînes
de Markov. On démontrera les lois des grands nombres, mais le TCL sera admis...
Théorème 2.6.5. Soit (Xn ) une chaîne de Markov irréductible récurrente positive de loi
invariante
R π, de transition P et de loi initiale µ. Alors, pour toute fonction f telle que
|f |dπ < ∞ on a
n Z
1X Pµ −p.s
f (Xi ) −−−−→ f dπ.
n n→∞
i=1
On a en particulier :
n
1X p.s
1{x} (Xi ) −−−→ π(x),
n n→∞
i=1
Théorème 2.6.6. Soit (Xn ) une chaîne de MarkovR irréductible récurrence positive de
loi invariante π. Soit f une fonction telle que |f |dπ < ∞ et
(σ 2 )
Xx Z
∃x, s2 (x) := Ex f (Xi ) − f dπ < ∞.
i=1
Théorème 2.6.7. Soit (Xn ) une chaîne de Markov irréductible récurrente nulle. Alors,
pour tout x ∈ E,
n
1X p.s
1{x} (Xi ) −−−→ 0,
n n→∞
i=1
31
2 Chaînes de Markov
Ceci donne une autre interprétation des différences entre chaînes (irréductibles) tran-
sientes, récurrentes nulles et récurrentes positives : dans une chaîne transiente, chaque
état est visité un nombre fini de fois. Dans une chaîne récurrente nulle, chaque état est
visité un nombre infini de fois, mais la proportion de temps passé dans l’état est asymp-
totiquement nul. Dans une chaîne récurrente positive, la proportion de temps passé dans
l’état x est asymptotiquement égale à π(x).
Preuve simultanée des Théorèmes 2.6.5 et 2.6.7. Soit une fonction g ≥ 0. Fixons x ∈ E.
On définit les sommes de blocs :
σx1 −1
X σxk+1
X−1
Z0 = g(Xh ), . . . , Zk = g(Xh ), . . .
h=0 h=σxk
soit :
σxn n Z
1X Z0 1X g(x) p.s
g(Xi ) = + Zi + −−−→ gdµx .
n n n n n→∞
i=0 i=1
Noter que
m
X
ν(m) ≤ 1{x} (Xk ) = ν(m) + 1{x} (X0 ) ≤ ν(m) + 1
k=0
et donc ν(m) → ∞ quand m → ∞. Mais alors
Pσxν(m) P xν(m)+1
ν(m) + 1 σk=0
Pm
ν(m) k=0 g(Xk ) k=0 g(Xk ) g(Xk )
≤ Pm ≤
ν(m) + 1 ν(m) k=0 1{x} (Xk ) ν(m) ν(m) + 1
| {z } | {z } | {z } | {z }
→1 →1
R R
→ f dµx → f dµx
32
2.6 Théorèmes ergodiques
33
2 Chaînes de Markov
πj = α + βj,
πj = α
(constante). Cette mesure ne peut pas être normalisée en probabilité. Donc la chaîne n’est
PAS récurrente positive.
Exemple 2.7.1. Soit une chaîne définie sur E = {1, ..., N }, N ≥ 2, telle que P (i, i+1) =
p, P (i, i − 1) = q, avec p + q = 1. De plus, P (N, 1) = p, et P (1, N ) = q. En d’autres
termes, on place les N états sur un ‘’cadran”, avec probabilité p de se déplacer d’un pas
dans le sens trigonométrique, q dans l’autre sens.
Il est facile de vérifier que cette chaîne de Markov admet pour loi invariante la loi
uniforme sur E (le faire à titre d’exercice). Donc la proportion de visites d’un état donné
tend vers 1/N (loi des grands nombres). Ce résultat reste vrai si on prend p = 0 ou
p = 1. En revanche, dans ces cas limites, la chaîne devient périodique (de période N ) :
si on prend par exemple X0 = 1 comme loi initiale, la loi de chaque variable Xt sera
tout simplement un Dirac dépendant du reste de la division euclidienne de t par N , i.e.
XkN +l = l + 1 pour 0 ≤ l ≤ N − 1.
On va voir dans cette section que si on élimine ces phénomènes de périodicité, alors
on peut prouver la convergence en loi.
Définition 2.7.1. On appelle la période d’un élément x ∈ E le nombre entier d(x) défini
par :
d(x) = PGCD(J(x))
où
J(x) = {n ∈ N : P n (x, x) > 0}.
34
2.7 Périodicité, convergence des lois marginales
Autrement dit, la période est une propriété de classe, et si la chaîne est irréductible,
tous les éléments ont même période.
Définition 2.7.2. Soit (Xt ) une chaîne irréductible. Elle est dite apériodique si d(x) = 1
pour un x ∈ E (et donc automatiquement pour tout x).
Théorème 2.7.2. Supposons que (Xt ) soit une chaîne irréductible récurrente positive de
loi invariante π. Si, de plus, (Xt ) est apériodique alors, quelle que soit la loi initiale µ,
Définition 2.7.3. Lorsqu’une chaîne vérifie les conditions du Théorème 2.7.2 on dit
qu’elle est ergodique.
PGCD({n1 , . . . , nk }) = 1.
En posant X X
a(x) = qi ni et b(x) = − qi n i
qi >0 qi ≤0
35
2 Chaînes de Markov
Lemme 2.7.4. Soient (Xt1 ) et (Xt2 ) deux chaînes de Markov indépendantes, de même
matrice de transition P , irréductibles et apériodiques. Alors la chaîne produit (Yt ), définie
sur E 2 par Yt = (Xt1 , Xt2 ) l’est aussi. Si de plus (Xt1 ) et (Xt2 ) sont récurrentes positives
alors (Yt ) l’est aussi.
Or il existe m1 et m2 tels que P m1 (x1 , x′1 ) > 0 et P m2 (x2 , x′2 ) > 0 (irréductibilité des
deux chaînes). On utilise le Lemme 2.7.3 et on prend n ≥ n(x′1 ) + n(x′2 ) + m1 + m2 .
Alors :
36
2.8 Réversibilité, algorithme de Metropolis-Hastings
Démonstration du Théorème 2.7.2. Soient (Xt1 ) et (Xt2 ) deux chaînes de Markov indé-
pendantes, de même matrice de transition P que (Xt ), et donc irréductibles et apério-
diques, récurrentes, positives. Alors d’après le Lemme 2.7.4 la chaîne produit (Yt ), définie
sur E 2 par Yt = (Xt1 , Xt2 ) l’est aussi. On pose
et donc
P(Xt1 = x) − P(Xt2 = x) ≤ P(τ > t).
Or la chaîne (Yt ) est récurrente positive donc τ est fini p.s et donc P(τ > t) → 0 quand
t → ∞.
Définition 2.8.1. Soit P une matrice de transition et π une loi de probabilité. On dit
que P est π−réversible si, pour tout (i, j) ∈ E 2 , on a
37
2 Chaînes de Markov
L’algorithme dit de Metropolis-Hastings est basé sur l’idée suivante : soit Q une matrice
de transition sans lien évident avec π, mais qui est « facile à simuler » ; i.e., pour un
i ∈ E fixé, il est facile de simuler selon la loi Q(i, ·). (On donnera des exemples concrets
ci-dessous.) A chaque étape t, on va simuler selon Q, puis accepter la valeur simulée avec
une certaine probabilité (qui dépend de π) ; si la valeur n’est pas acceptée, on ne bouge
pas (donc Xt = Xt−1 ).
38
2.8 Réversibilité, algorithme de Metropolis-Hastings
via une moyenne empirique (qui converge par la loi des grands nombres)
n Z
1X p.s
f (Xt ) −−−→ f (x)π(dx)
n n→∞ E
t=1
Exemple 2.8.1. Soit X une version discrète d’une variable aléatoire gaussienne : P(X =
i) = π(i) := c exp(−i2 ) où c est une constante multiplicative,
P que l’on n’a pas besoin de
connaître ici (mais qui est déterminée par la contrainte π(i) = 1). On souhaite calculer
E[cos(X)]. On propose d’utiliser l’algorithme de Metropolis avec la matrice de transition
Q proposée ci-dessus, i.e. Q(x, x + 1) = Q(x, x − 1) = 1/2 pour tout x ∈ Z.
39
2 Chaînes de Markov
1
π(x1 , . . . , xd ) = ψ(x1 , . . . , xd )
Z
avec ψ : ZdP → R+ . Noter que la constante Z est automatiquement fixée par normalisa-
tion : Z = x∈Zd ψ(x).
Il n’est pas a priori facile de simuler des vecteurs X suivant cette loi (exactement, ou
via l’algorithme de Metropolis). En revanche, dans certains cas, les lois conditionnelles de
chaque composante sont particulièrement simples. Peut-on utiliser cette propriété d’une
façon ou d’une autre ?
Donnons quelques exemples pour fixer les esprits.
Exemple 2.9.1. Le modèle d’Ising en physique statistique attribue une loi jointe à des
variables binaires X1 , . . . , Xd (spins ferromagnétiques) associés à des emplacements sur
une grille en k dimensions. Dans ce cas,
X X
ψ(x1 , . . . , xd ) = exp α xi + β 1{xi = xj }
i i∼j
où i ∼ j est une relation de voisinage (sur la grille) ; par exemple, on peut décider que
deux points sur la grille sont voisins s’ils sont à une distance de 1 (sur une grille en
dimension deux, chaque point à quatre voisins). Noter que Z est alors une somme de
2d termes, impossible à calculer dès que d est grand, et que Z = Z(α, β) dépend des
paramètres.
Dans le cas particulier β = 0 (pas intéressant), les composantes sont IID. En géné-
ral, on prend β > 0, pour modéliser une corrélation « spatiale » : les spins proches ont
tendance à être identiques. Il existe une valeur critique pour β, correspondant à une
« transition de phase » : en dessous de cette valeur critique, les Xi sont relativement
« libres » de prendre les valeurs 0 ou 1 ; au dessus, ils ont tendance à former des gros
amas de spins identiques, avec forte probabilité. Déterminer ce genre de valeur critique
est un problème important en physique.
40
2.9 Un autre algorithme à base de chaîne de Markov : le Gibbs sampler
La loi conditionnelle de Xi sachant X−i (la collection des Xj pour j ̸= i) est automa-
tiquement une Bernoulli, de paramètre
n P o
exp α + β j:j∼i 1{xj = 1}
n P o n P o.
exp β j:j∼i 1{xj = 0} + exp α + β j:j∼i 1{xj = 1}
Exemple 2.9.2. On considère un graphe (non orienté) aléatoire, constitué d’un nombre
fixe de n individus (noeuds), et des liens (arrêtes) aléatoires actifs ou non, représentés par
un vecteur x à valeurs dans {0, 1}d , d = n(n − 1)/2. On attribue à x la loi de probabilité
∝ ψ(x), avec
ψ(x1 , . . . , xd ) = exp θT s(x)
Les deux matrices (produit et moyenne) introduites dans la proposition ci-dessus cor-
respondent à deux algorithmes différents :
— Le produit correspond à un Gibbs sampler déterministe, où l’on met à jour la
composante 1, puis la composante 2, etc. à tour de rôle.
— La moyenne correspond à un Gibbs sampler dit « random scan », où à chaque étape
on choisit, avec une probabilité 1/d, quelle composante sera mise à jour.
Proposition 2.9.2. Supposons ψ(x) > 0 pour tout x ∈ E. Alors P et Q sont irréduc-
tibles.
Démonstration. Pour P , soient x, y ∈ E. On peut passer de x à y en une seule étape avec
probabilité non-nulle : d’abord en changeant la première composante de x pour qu’elle
soit égale à y1 , puis la deuxième, etc. Le raisonnement est sensiblement le même pour
Q.
41
2 Chaînes de Markov
Il est facile de construire des Gibbs samplers non irréductibles. Considérons par exemple
le cas d = 2, et supposons ψ(0, 1) = ψ(1, 0) = 0. Alors, partant de (0, 0), il est impossible
d’atteindre (1, 1). L’algorithme n’a alors aucun intérêt pratique.
Le Gibbs sampler nous donne un deuxième type d’algorithme MCMC (Markov chain
Monte Carlo) pour approcher des espérances selon une certaine loi π (via la simulation
d’une chaîne de Markov de loi invariante π). Il est particulièrement intéressant quand on
peut décomposer la loi d’intérêt en plusieurs « blocs » admettant des lois conditionnelles
faciles à simuler. Nous nous sommes limités au cas où l’espace E est discret, mais la
statistique bayésienne (où l’on cherche à approcher la loi des paramètres du modèle,
typiquement continus) offre beaucoup d’exemples intéressants de Gibbs sampler ; cf. le
cours de Monte Carlo et simulation que vous pouvez suivre au deuxième semestre (pub
éhontée).
En ce concerne le lien entre Gibbs et Metropolis-Hastings, faisons deux remarques :
— On constate que dans les deux cas il est possible de simuler une loi π que l’on ne
peut évaluer qu’à une constante Z près.
— En travaillant un peu (exercice), on peut montrer que Gibbs est un cas particulier
de Metropolis-Hastings.
Etant donné une loi µ et un noyau de transition P sur (E, E), on pourra définir X0
comme une variable aléatoire de loi µ et les (Xt ) par récurrence :
42
2.10 Extension à un espace d’états continu
Remarquer qu’on peut étendre toutes les opérations que l’on a fait dans le cas discret
sur les matrices de transition au cas de noyaux de transition. Par exemple,
X
P 2 (i, j) = P (i, k)P (k, j)
k∈E
où les (εn ) sont i.i.d (et indép. de X0 ) de loi N (0, σ 2 ). Noter qu’on peut alors donner la
loi de Xt+1 |Xt directement, sans écrire εn+1 : Xt+1 |Xt ∼ N (α + βXt , σ 2 ). On peut alors
écrire le noyau de transition P sous une forme explicite :
( )
[y − (α + βx)]2
Z
1
P (x, A) = √ exp − dy.
A 2πσ 2 2σ 2
En général, résoudre l’équation πP = π peut être très compliqué. Dans ce cas, on peut
vérifier que si µ = N (m, s2 ) alors X1 , en tant que somme de deux gaussiennes indé-
pendantes, est aussi gaussienne, d’espérance α + βm et de variance β 2 s2 + σ 2 . Donc, si
α σ2
|β| < 1, on voit que π = N ( 1−β , 1−β 2 ) est une loi invariante.
43
2 Chaînes de Markov
Noter que le terme entre crochet est la probabilité de « ne pas bouger » lorsque la
position actuelle est x.
On va juste donner maintenant deux théorèmes ergodiques dans ce contexte (sans les
démontrer, là encore, on renvoie le lecteur à Meyn and Tweedie (2009)). L’intérêt est
qu’ils permettront d’analyser les versions de l’Algorithme de Metropolis-Hastings dans
le cas continu, cf. le cours de simulation et Monte-Carlo. Ces énoncés nécessitent de
généraliser les notions d’irréductiblité, récurrence, etc...
Pour l’irréductibilité, attention : P (x, {y}) = 0 pour une loi continue, donc, il faut là
encore procéder autrement.
Définition 2.10.2. Soit Φ une mesure σ-finie sur (E, E). On dit que (Xt ) est Φ-irréductible
si :
∀A ∈ E, ∀x ∈ E : [Φ(A) > 0 ⇒ ∃n ∈ N : P n (x, A) > 0] .
44
2.11 Chaînes de Markov cachées
Définition 2.10.3. On dit que (Xt ) est périodique si il existe une partition mesurable
X0 , . . . , Xk de E, avec k ≥ 1, telle que pour tout x ∈ Xi avec i < k, P (x, Xi+1 ) = 1,
et pour tout x ∈ Xk , P (x, X0 ) = 1. On dit que (Xt ) est apériodique si elle n’est pas
périodique.
Théorème 2.10.2. Sous les hypothèses du Théorème 2.10.1, si en plus (Xt ) est apério-
dique, alors pour tout borélien A on a
Remarque 2.11.1. Le processus joint (Xt , Yt ) est une chaîne de Markov, telle que la
loi de (Xt , Yt ) sachant son passé ne dépend que de Xt−1 . En revanche, le processus (Yt )
pris tout seul n’est pas une chaîne de Markov.
Ce genre de modèle est apparu dans les années 60 en traitement du signal, notamment
en traitement de la parole, où les Xt représentaient les phonèmes prononcés par un
sujet, et les Yt leur enregistrements acoustiques. Ils sont devenus ensuite très populaires
dans plusieurs domaines, notamment en génétique et en biostatistique. (Dans ce cas, t
représente la position sur le génome.)
En traitement automatique des langues (natural language processing), ces modèles
peuvent être utilisés pour faire de l’étiquetage grammatical (part-of-speech tagging) :
Yt est le t−ième mot du texte étudié, et Xt sa fonction grammaticale (sujet, verbe,
article, etc.). Cet exemple montre bien ce que modélisent respectivement P (la loi de
Xt |Xt−1 ) et R (la loi de Yt |Xt ). Le premier objet modélise comment différentes fonctions
grammaticales s’articulent (un sujet est souvent suivi d’un verbe) ; le deuxième objet
modélise le fait que certains mots ont des fonctions plus courantes que d’autres (Le mot
« repas » n’est jamais un verbe, le mot « manger » est souvent un verbe, mais est parfois
un mot commun qui peut servir de sujet).
Dans ce genre d’application, on cherche à retrouver (estimer) les Xt , sachant les va-
riables observées (Y0 , . . . , Yt ). Pour ce faire, on peut calculer la loi conditionnelle de
45
2 Chaînes de Markov
46
2.11 Chaînes de Markov cachées
x∈E
X
νt−1 (x)P Xt = x′ | Xt−1 = x .
=
x∈E
et remarquer que le dénominateur est une constante de normalisation, qui vaut précisé-
ment ℓt défini en (2.8).
Ce premier résultat nous donne un algorithme pour calculer récursivement les lois de
prédiction, de filtrage, et la vraisemblance. Il faut l’initialiser avec µ0 = µ. Noter que la
première ligne revient à effectuer un produit matriciel (de νt−1 avec P ).
Pour calculer les lois de lissage, on a besoin d’un second algorithme, dit « backward »
(par opposition au premier algorithme, dit forward). Vous pouvez essayer de retrouver
cet algorithme à titre d’exercice.
Le point essentiel à noter est que ces deux algorithmes ont une complexité O(T K 2 ) :
chaque algorithme effectue T itérations, et chaque itération calcule des produits matriciels
sur des matrices K × K. Cela donne une complexité beaucoup plus raisonnable que celle
mentionnée ci-dessus. Le prix à payer est que l’on n’a calculé que des lois marginales, au
lieu de la loi jointe définie dans la Prop. 2.11.1. Pour beaucoup de problèmes pratiques, ces
probabilités sont suffisantes. Par exemple, pour l’étiquetage grammatical, on se contente
de connaître la probabilité qu’un mot soit un verbe, après observation d’une suite de
mots.
Le point peut-être un peu surprenant de cette partie est que l’on n’a utilisé que la
propriété de Markov pour obtenir les résultats ci-dessus. La théorie des chaînes de Markov
homogènes n’y joue aucun rôle. D’ailleurs, à titre d’exercice, vous pouvez essayer de
généraliser les calculs ci-dessus :
— au cas où (Xt ) n’est pas homogène (P devient Pt ), ou la loi de Yt |Xt n’est pas
constante (on remplace R par Rt ) ;
— un peu plus dur : au cas où Yt |Xt = xt suit une loi continue.
La généralisation au cas où la chaîne (Xt ) est à valeurs dans un espace continu est
largement hors programme, et sera traité dans un cours de troisième année. Mais les
lectrices et lecteurs plus curieux peuvent lire la page Wikipedia du filtre de Kalman, et
le rôle qu’il a joué dans le programme Appolo.
47
3 Martingales
3.1 Définitions
Définition 3.1.1. Soit (Xt )t∈N un processus, à valeurs dans R, adapté à une filtration
(Ft )t∈N . On dit que le processus est une martingale si, pour tout t ∈ N,
i) Xt est intégrable, soit E(|Xt |) < ∞,
ii) E(Xt+1 |Ft ) = Xt .
On dit que le processus est une martingale positive si, pour tout t ∈ N,
i) Xt ≥ 0 p.s,
ii) E(Xt+1 |Ft ) = Xt .
On définit de la même façon une sous-martingale (resp. une sous-martingale positive)
en remplaçant la condition (ii) dans la définition de martingale (resp. de martingale
positive) par E(Xt+1 |Ft ) ≥ Xt . On définit de la même façon une sur-martingale (une
sur-martingale positive) en remplaçant (ii) par E(Xt+1 |Ft ) ≤ Xt .
Quelques propriétés évidentes : (Xt ) est une martingale si et seulement si c’est une
sur-martingale et une sous-martingale. L’espérance d’une martingale est constante. En
effet,
E(Xt+1 |Ft ) = Xt
soit
E(Xt+1 ) = E(Xt ).
De la même façon, pour une sur-martingale, les espérances sont décroissantes E(Xt+1 ) ≤
E(Xt ) et pour une sous-martingale, les espérances sont croissantes E(Xt+1 ) ≥ E(Xt ).
E(Xt+k |Ft ) = Xt .
Pour une sur et une sous-martingale, la propriété tient en remplaçant le symbole = par
≤ et ≥ respectivement.
49
3 Martingales
Démonstration. Par récurrence sur k : le cas k = 1 est vrai par définition. Supposons
que la propriété est vraie au rang k. Alors,
h i
E(Xt+k+1 |Ft ) = E E(Xt+k+1 |Ft+k ) Ft
= E(Xt+k |Ft ) par définition d’une martingale
= Xt par hypothèse de récurrence.
Proposition 3.1.2. Soit (Xt ) une martingale et f une fonction convexe telle que f (Xt )
soit intégrable pour tout t. Alors le processus [f (Xt )]t∈N est une sous-martingale.
Démonstration. Par Jensen, E[f (Xt+1 )|Ft ] ≥ f [E(Xt+1 |Ft )] = f (Xt ) par définition.
Exemple 3.1.1. Soit (Xt )t∈N une suite de variables centrées et indépendantes. Posons
t
X
Mt = Xi .
i=0
Si ∞ 2
P
i=0 σi = S < ∞ , on P se doute que Mt va converger vers une variable aléatoire de
loi N (0, S). A l’inverse, si ∞ 2
i=0 σi = ∞, la loi de la variable s’étale de plus en plus et
on a l’impression qu’il n’y aura pas de convergence. Une bonne partie de ce chapitre sera
consacré à étudier le comportement asymptotique des martingales.
Définition 3.1.2. Soit (εt ) un processus. On dit que c’est un incrément de martingale
si il existe une filtration (Ft ) et une martingale (Mt ) telles que εt = Mt − Mt−1 pour tout
t > 0.
Un des intérêts des incréments de martingales est qu’il existe énormément de propriétés
vraies pour les variables indépendantes centrées que l’on peut étendre aux incréments de
martingales. Par exemple, la loi faible des grands nombres.
50
3.1 Définitions
Proposition 3.1.3. Soit (εt ) un incrément de martingale avec E(ε2t ) = σ 2 < ∞. Alors
n
1 X proba.
εi −−−−→ 0.
n
i=1
Démonstration. On a
n
! 1 Pn 2
1 X E n i=1 εi
P εi > t ≤
n t2
i=1
Pn
ε2i + 2 1≤i<j≤n E(εi εj )
P
i=1 E
=
P n2 t 2
σ2 2 1≤i<j≤n E(εi εj )
= + .
nt2 n2 t2
Dans le cas de variables indépendantes, on a E(εi εj ) = E(εi )E(εj ) = 0, ce qui prouve que
n
!
1X σ2
P εi > t ≤ 2 −−−→ 0.
n nt n→∞
i=1
Une question naturelle est alors : “est-ce qu’il existe des exemples de martingales autres
que les sommes de variables indépendantes” ou de façon équivalente, “est-ce qu’il existe
des exemples d’incréments de martingales qui ne sont pas indépendants”. L’exemple sui-
vant fournit une réponse positive.
Exemple 3.1.2 (Processus ARCH). Soit (ηk ) une suite de variables i.i.d gaussiennes
centrées réduites et, pour tout k, Fk = σ(η1 , . . . , ηk ). Soit (Zk ) un processus défini par
récurrence : z0 = 1 et q
Zk+1 = ηk+1 α0 + α1 Zk2
où α0 > 0 et α1 ≥ 0. Le processus (Zk ) est appelé processus ARCH(1) et est très souvent
utilisé en finance. On pose
X t
Mt = Zk .
k=1
51
3 Martingales
Figure 3.1 – Voici un exemple de réalisation de (Zt ) : ressemble à un bruit blanc, avec
des périodes de bruits extrêmes. Ici α0 = 0.5 et α1 = 0.7.
On vérifie bien que (Mt ) est une martingale, en montrant l’intégrabilité par récurrence
puis
Les incréments de la martingale (Mt ) sont les Zt et ceux-ci ne sont bien entendu pas
indépendants, par exemple,
2 2
E(Zt+1 |Zt ) = E(ηt+1 (α0 + α1 Zt2 )|Zt ) = (α0 + α1 Zt2 )E(ηt+1
2
) = (α0 + α1 Zt2 ).
En général, en finance, les actifs financiers ne sont pas modélisés directement par des
processus ARCH, mais plutôt par la martingale associée (Mt ) ou par une transformation
de celle-ci comme Yt = exp(λ − γMt ) avec λ, γ > 0. La Proposition 3.1.2 montre que (Yt )
est une sur-martingale. Les Figures 3.1, 3.2 et 3.3 montrent des exemples de réalisation
de tels processus.
52
3.1 Définitions
53
3 Martingales
Définition 3.2.1. Soit τ une variable aléatoire à valeurs dans N = N ∪ {+∞} ou dans
R+ = R+ ∪ {+∞}. Soit (Ft )t∈N une filtration. La variable τ est dite “temps d’arrêt
pour la filtration (Ft )t∈N ” si et seulement si, pour tout t dans N, ou R+ respectivement,
{τ ≤ t} ∈ Ft .
Proposition 3.2.1. Dans le cas où τ une variable aléatoire à valeurs dans N, τ est un
temps d’arrêt ssi pour tout t dans N, {τ = t} ∈ Ft .
A partir de maintenant (et jusqu’à la fin du chapitre) on ne considèrera que des pro-
cessus à temps discret avec T = N et des temps d’arrêt à valeurs dans N.
τA := inf{n ∈ N : Xn ∈ A}
Définition 3.2.2. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N . On définit
∞
!
[
F∞ = σ Ft
t=0
et
Fτ = {A ∈ F∞ : ∀n ∈ N, {τ ≤ n} ∩ A ∈ Fn } .
54
3.2 Temps d’arrêt
et donc ∪k Ak ∈ Fτ .
Définition 3.2.3. Soit τ un temps d’arrêt pour la filtration (Ft )t∈N , et (Xt )t∈N un pro-
cessus. Si τ < ∞ p.s, on pose
X
Xτ = Xt 1{τ =t} .
t∈N
Dans les cas où τ peut être infini, on peut parfois étendre la définition. Par exemple,
p.s
si Xn −−→ X il est naturel de poser
X
Xτ = Xt 1{τ =t} + X1{τ =∞} .
t∈N
On conclut cette section par une application de la notion de temps d’arrêt pour énon-
cer une version de l’idendité de Wald. L’idée est la suivante. Supposons que l’on a des
55
3 Martingales
Cette égalité n’est pas vraie en général. Quand elle est vraie, elle porte le nom d’in-
dentité de Wald. Il en existe plusieurs versions, avec des hypothèses différentes. On en
démontre ici une version où N est un temps d’arrêt.
Théorème 3.2.4 (Identité de Wald). Soit (Xi )i≥1 une suite de variables aléatoires in-
dépendantes, intégrables ou positives, de même espérance. Soit N un temps d’arrêt pour
la filtration (Ft )t∈N∗ définie par Ft = σ(X1 , . . . , Xt ). On suppose que E(N ) < ∞. Alors
N
!
X
E Xi = E(N )E(X1 ).
i=1
56
3.3 Théorème d’arrêt : le cas borné
∞
!
X
= E(X1 )E 1{N ≥i}
i=1
= E(X1 )E (N ) .
Dans le cas où les Xi ne sont plus forcément positifs mais intégrables, la preuve précédente
peut être réutilisée pour prouver que
∞
!
X
E |Xi | 1{N ≥i} = E(N )E(|X1 |) < ∞. (3.1)
i=1
On réutilise ensuite la même preuve que dans le cas positif, l’unique différence étant
que l’utilisation de Fubini n’est plus justifiée par le fait que les Xi sont positifs, mais
par (3.1).
On conclut par un contre-exemple amusant. Supposons que l’on les Xi sont i.i.d avec
P(Xi = +1) = P(Xi = −1) = 1/2, et posons
n
( )
X
N = inf n ∈ N : Xi = 1 .
i=1
C’est donc que la supposition initiale, à savoir E(N ) < ∞, est fausse. On a donc établi
que E(N ) = ∞.
57
3 Martingales
Proposition 3.3.1. Soit (Xt ) une martingale pour (Ft ) et τ un temps d’arrêt. Soit le
processus (Yt ) donné par Yt = Xn∧τ . Alors (Yt ) est une martingale. On notera Xtτ := Yt ,
on appelle le processus (Xtτ ) une “martingale arrêtée”.
Démonstration. On a
Comme pour toutes les propriétés précédentes, on adapte celle-ci de façon directe pour
les martingales positives et les sur et sous-martingales.
Théorème 3.3.2 (Théorème d’arrêt — cas borné). Soit (Xn ) une martingale pour (Fn )
et τ un temps d’arrêt. On suppose que τ est borné p.s, autrement dit, il existe T0 ∈ N tel
que P(τ ≤ T0 ) = 1. Alors :
E(Xτ ) = E(X0 ).
Démonstration. D’après la proposition précédente, (Xtτ ) est une martingale donc E(XTτ0 ) =
E(X0τ ). De plus, il est immédiat que XTτ0 = Xτ et d’autre part X0τ = X0 . On récapitule :
ce qui conclut.
Théorème 3.3.3 (Théorème d’arrêt — cas borné, deuxième version). Soit (Xn ) une
martingale pour (Fn ) et τ1 et τ2 deux temps d’arrêt avec 0 ≤ τ1 ≤ τ2 ≤ T0 p.s Alors :
Pour voir que ceci implique bien la première version, prendre τ1 = 0 pour obtenir
E(Xτ2 |F0 ) = X0 , et en prenant l’espérance des deux côtés, E(Xτ2 ) = E(X0 ).
58
3.4 Décomposition de Doob
59
3 Martingales
car (Xt ) est une sous-martingale, donc (Yt ) est croissant. Il reste à vérifier que (Mt ) est
une martingale. Or :
et en prenant E(·|Ft ) on a
′
Yt+1 − Yt′ = E(Xt+1 − Xt |Ft ).
Comme Y0′ = 0 = Y0 , par récurrence, Yt′ = Yt pour tout n, et du coup Mt′ = Mt pour
tout n.
Exemple 3.4.1. Soit (Xt ) une martingale pour (Ft ) avec E(Xt2 ) < ∞ pour tout n. Alors
en utilisant la Proposition 3.1.2, ou en invoquant directement l’inégalité de Jensen, on a
immédiatement que (Xt2 ) est une sous-martingale. On en déduit que
Xt2 = Mt + Yt
Xt2 = Mt + ⟨X⟩t .
Le terme “crochet” se justifie par la notation, le terme “variation quadratique” par le fait
qu’on peut démontrer que
n
X
E (Xi − Xi−1 )2 |Fi−1 .
⟨X⟩t = (3.2)
i=1
60
3.5 Inégalités maximales
Or :
Théorème 3.5.1 (Inégalité de Markov). Soit X une v.a. positive. Pour tout t > 0,
E(X)
P(X ≥ t) ≤ .
t
Démonstration. On a E(X) ≥ E X1{X≥t} ≥ E t1{X≥t} = tP(X ≥ t).
61
3 Martingales
Proposition 3.5.2. Soit a > 0. Soit (Xn ) une SUR-martingale positive. Alors
E(X0 )
P sup Xn > a ≤ .
n∈N a
τa = inf {n ∈ N : Xn > a} ,
on remarque que
{τa < ∞} = sup Xn > a
n∈N
et que
Xn∧τa ≥ a1{τa ≤n} . (3.3)
Puisque (Xnτa ) est une sur-martingale, E(X0τa ) ≥ E(Xnτa ), et donc :
Proposition 3.5.3. Soit a > 0. Soit (Xn ) une SOUS-martingale positive. Alors
E(Xn )
P max Xk > a ≤ .
0≤k≤n a
Or on a
aP (τa ≤ n) = E a1{τa ≤n}
n
!
X
=E a1{τa =k}
k=0
n
!
X
≤E Xk 1{τa =k}
k=0
n
X
= E Xk 1{τa =k}
k=0
n
X
≤ E E(Xn |Fk )1{τa =k}
k=0
62
3.6 Espaces Lp et inégalité de Doob
n
X
= E E(Xn 1{τa =k} |Fk )
k=0
Xn
= E Xn 1{τa =k}
k=0
n
!
X
= E Xn 1{τa =k}
k=0
= E Xn 1{max0≤k≤n Xk >a} (3.4)
≤ E(Xn ).
On peut définir cette quantité pour tout p > 0, mais nous ne considérerons que le cas
p ≥ 1, pour lequel c’est une norme (si l’on travaille sur les classes d’équivalence définies
par X = Y p.s.) ; notamment on a l’inégalité triangulaire (dite inégalité de Minkowski) :
∥X + Y ∥p ≤ ∥X∥p + ∥Y ∥p
encore une fois pour p ≥ 1. Une autre inégalité utile est l’inégalité d’Hölder :
1 1
∥XY ∥1 ≤ ∥X∥p ∥Y ∥q pour p, q tels que + = 1.
p q
On peut aussi définir L∞ , l’ensemble des variables bornées p.s. Noter que les ensembles
Lp forment une suite décroissante (X ∈ Lp ⇒ X ∈ Lq si p > q).
On dira qu’un processus (Xt ) est borné dans Lp si les Xt sont bornés uniformément
dans Lp :
Définition 3.6.1. Un processus (Xt ) est dit borné dans Lp s’il existe C tel que ∥Xt ∥p ≤ C
pour tout t ≥ 0. (Cela implique notamment que Xt ∈ Lp pour tout t ≥ 0.)
Théorème 3.6.1 (Inégalité de Doob). Soit p ∈]1, ∞], (Xt ) une martingale (ou une
sous-martingale positive) bornée dans Lp . Alors supt∈N |Xt | est dans Lp , et on a
p
sup |Xt | ≤ sup ∥Xt ∥p .
t∈N p
p − 1 t∈N
Bien remarquer que la borne ne s’étend pas au cas p = 1, ceci aura des conséquences
importantes dans l’étude de la convergence des martingales dans la section suivante.
63
3 Martingales
Démonstration. Dans le cas p = ∞, l’inégalité est en fait une égalité trivialement vraie.
On va maintenant supposer p ∈]1, ∞[. Remarquer que si (Xn ) est une martingale, par Jen-
sen, (|Xn |) est une sous-martingale positive. Dans le cas où (Xn ) est une sous-martingale
positive, Xn = |Xn |. Donc, dans les deux cas, (|Xn |) est une sous-martingale positive.
On fixe a > 0, et pour faire court, on pose Yn = max0≤k≤n |Xk |. On peut utiliser la
Proposition 3.5.3, ou plutôt l’inégalité (3.4) dans la preuve de la Proposition 3.5.3, qui
donne :
aE 1{Yn >a} ≤ E |Xn |1{Yn >a} .
On multiplie les deux membres par pap−2 :
pap−1 E 1{Yn >a} ≤ pap−2 E |Xn |1{Yn >a} .
64
3.7 Convergence dans L2 (et plus généralement Lp , p > 1)
Exemple 3.7.2. Un exemple plus amusant. On sait que la série harmonique diverge, en
fait
n
X 1
∼ log(n) −−−→ ∞.
k n→∞
k=1
Mais quid de la série
X 1
±
k
k∈N
où les signes sont tirés à pile-ou-face ? Soient donc des variables i.i.d (Xk ) avec P(Xk =
+1) = P(Xk = −1) = 1/2 et on définit M0 = 0 puis
n
X Xk
Mt = .
k
k=1
65
3 Martingales
et donc (Mt ) converge p.s (et dans L2 ). Autrement dit, presque sûrement par rapport au
tirage des signes ± à pile-ou-face, la série
X 1
±
k
k∈N
converge.
= E E (Xt+p − Xt )2 |Ft
2
|Ft − 2Xt E (Xt+p |Ft ) + Xt2
= E E Xt+p
2
|Ft − Xt2
= E E Xt+p
2
− E Xt2
= E Xt+p
≤ C − E Xt2 −−−→ 0.
n→∞
Donc (Xt ) est une suite de Cauchy dans L2 , donc elle converge dans L2 .
Reste à démontrer que (Xt ) converge également presque sûrement. Là encore, on va
démontrer que (Xt ) est p.s de Cauchy. Pour celà, on pose
Vt = sup |Xi − Xj |.
i,j≥t
On note que (Vt ) est p.s positive et décroissante, donc, elle converge presque sûrement
vers une limite V . De plus,
!
P(Vt > c) = P sup |Xi − Xj | > c
i,j≥t
!
c
≤ P sup |Xk+t − Xt | >
k≥0 2
!2
2
2
≤ E sup |Xk+t − Xt | par Markov
c k≥0
2
2 2
sup E |Xk+t − Xt |2 par Doob avec p = 2
≤
c 2 − 1 k≥0
8
= 2 sup E |Xk+t − Xt |2 −−−→ 0
c k≥0 k→∞
66
3.8 Interlude : urnes de Polya
ce qui prouve que (Xt ) est p.s. une suite de Cauchy, donc elle converge p.s.
Remarque 3.7.1. La proposition 3.7.1 est vraie plus généralement pour tout p > 1 (mais
PAS pour p = 1) ; la démonstration correspondante est un peu plus technique et ne sera
pas faite en cours.
Proposition 3.8.1. La variable Nt suit une loi uniforme sur l’ensemble {1, . . . , t + 1}.
67
3 Martingales
n−1 n
P(Nt = n) = P(Nt−1 = n − 1) + P (Nt−1 = n) 1 −
t+1 t+1
1
=
t+1
On en déduit aisément que Mt converge en loi vers une loi uniforme sur [0, 1] ; puis par
unicité de la limite, que M∞ ∼ U [0, 1].
Ce problème peut se généraliser comme suit : on place initialement ni boules de couleur
i dans l’urne, pour i = 1, . . . , k. Quelle est alors la loi limite ? La façon la plus élégante
de traiter cette généralisation est d’utiliser des propriétés des lois gamma et de Dirichlet.
où uk = 1 − u1 − . . . − uk−1 , et
k−1
X
Sk = {(u1 , . . . , uk−1 ) : ui > 0, ui ≤ 1}.
i=1
On notera que cette loi est définie pour le vecteur (U1 , . . . , Uk−1 ), plutôt que (U1 , . . . , Uk ),
pour éviter les problèmes techniques liées aux lois définies sur des variétés (l’espace fermé
défini par la contrainte U1 + . . . Uk = 1.) Mais, par abus de langage, on dira aussi que le
vecteur (U1 , . . . , Uk ) suit aussi cette loi de Dirichlet.
68
3.9 Convergence : résultats plus généraux
Les preuves sont laissées au lecteur. On peut maintenant généraliser assez aisément le
résultat précédent.
Proposition 3.8.5. Soit une urne de Polya contenant initialement ni boules de couleur
i, pour i = 1, . . . , k, et soit Mt le vecteur des proportions de chaque couleur au temps t.
Le processus Mt converge p.s. vers une variable M∞ de loi de Dirichlet(n1 , . . . , nk ).
Démonstration. On suppose pour commencer que n1 = . . . = nk = 1. Comme dans le cas
k = 2, on montre aisément que que Mt suit une certaine loi uniforme (sur des ensembles
d’entiers), qui doit converger (en loi) vers une loi uniforme sur le simplexe. Noter aussi
que chaque composante du vecteur Mt est bien une martingale (par rapport à quelle
filtration ?), et donc converge p.s.
Pour une configurationPde départ quelconque, on peut toujours numéroter les boules
k
de départ de 1 à m = i=1 ni pour distinguer les boules de même couleur. Puis on
effectue un tirage de Polya, en remplaçant les « couleurs » par les catégories définies par
ces nombres : i.e. au temps 1 on tire une boule au hasard, et on replace dans le sac deux
boules avec le même nombre. Le résultat précédent montre que le vecteur des proportions
tend vers une loi uniforme (c’est à dire, une Dirichlet(1, . . . , 1)). On réunit ensuite les
boules de même couleur, et on applique le Lemme 3.8.4, pour conclure.
69
3 Martingales
et donc
P ((Yt ) diverge) ≤ P (τp < ∞) ≤ P(A∞ > p) −−−→ 0
p→∞
car A∞ < ∞ p.s. Or P ((Yt ) diverge) ne dépend bien entendu pas de p donc on a
P ((Yt ) diverge) = 0, autrement dit, (Yt ) converge p.s. En revenant à Xt = − log(Yt ), on
a directement que (Xt ) converge également p.s, la limite étant à valeurs dans R+ ∪ {∞}.
Reste à prouver la relation sur l’espérance :
E (X∞ |Fk ) = E lim inf Xt Fk
n→∞
≤ lim inf E (Xt |Fk ) par Fatou conditionnel
t→∞
≤ Xk car (Xt ) sur-martingale.
Preuve du Théorème 3.9.1. Rappel : (Xt ) est cette fois une sous-martingale bornée dans
L1 . On pose Xt+ = Xt ∨0, en tant que fonction convexe de (Xt ), c’est une sous-martingale
(positive). On peut donc encore une fois écrire la décomposition de Doob :
Xt+ = Mt + At
70
3.10 Deuxième interlude : processus de branchement (Galton-Watson)
et, comme dans la preuve du Lemme 3.9.2, (At ) étant positif et croissant, il converge vers
une limite A∞ à valeurs dans R+ ∪ {∞}. Cette fois
Yt = Mt + E (A∞ |Ft ) .
Le processus (Mt ) est une martingale, quand à (E (A∞ |Ft )), c’est une martingale régulière
(notion définie dans la prochaine section, mais la démonstration du fait que c’est bien
une martingale est immédiate). Donc (Yt ) est aussi une martingale. Comme (At ) est un
processus croissant, A∞ ≥ At ⇒ E(A∞ |Ft ) ≥ E(An |Ft ) = At . Donc,
71
3 Martingales
E = ∪∞
t=1 {Zt = 0}
et donc π := P(E) est la limite de la suite croissante P(Zt = 0) = Gt (0) (théorème de la
convergence monotone). Reste à savoir dans quels cas π = 1 ou π < 1. (On sait déjà que
π > 0.)
Puisque π = limt→+∞ Gt (0), c’est une solution de l’équation π = G(π). (Gt+1 (0) =
G(Gt (0)), et on passe à la limite ; G est continue.)
Le lemme suivant devient évident si l’on trace les graphes correspondants (se rappeler
que G est croissante, convexe, que G(0) = P (X = 0) > 0 et G′ (1) = µ).
Lemme 3.10.1. Si µ ≤ 1, l’unique solution dans [0, 1] de l’équation π = G(π) est π = 1.
Si µ > 1, cette équation admet une solution dans ]0, 1[ que l’on notera π par la suite
(reste à démontrer que c’est bien la probabilité d’extinction.)
En d’autres termes, pour µ ≤ 1, Zt s’annule en un temps fini. (Et donc la limite Z∞
est simplement un Dirac en 0). Pour µ < 1, on peut de plus montrer que la probabilité
de survie jusqu’à la date t décroît exponentiellement. Par l’inégalité de Markov :
P(Zt ≥ 1) ≤ E(Zt ) = µt .
72
3.11 Martingales régulières et théorème d’arrêt
La preuve ci-dessus nous donne d’ailleurs la variance de la loi limite M∞ . Puisque cette
variance est non-nulle, on a bien montré que la probabilité d’extinction est strictement
inférieure à 1. (Si cette probabilité valait 1, alors Zt et donc aussi Mt s’annulerait au
bout d’un certain t.)
Donc, pour conclure, quand µ > 1, le comportement asymptotique de la population
est le suivant :
— Avec probabilité π (l’unique solution dans ]0, 1[ de l’équation π = G(π)), la popu-
lation s’éteint en un temps fini.
— Avec probabilité (1-π), la taille de la population diverge exponentiellement, au
taux M∞ (ω)µt . (La constante devant le µt est aléatoire, et suit la loi de M∞
conditionnellement à M∞ > 0.)
Si la loi de X n’a pas de variance, on peut avoir des comportements un peu plus
compliqués.
Notons enfin que si la martingale Mt n’est pas très utile en soi dans le cas µ ≤ 1, c’est
un exemple simple de martingale qui converge p.s. (vers 0 comme on l’a déjà expliqué)
mais pas dans L1 , puisque E(Mt ) = 1. Intuitivement, la loi de Mt s’écrase vers zéro, mais
avec une probabilité non nulle de prendre de très grandes valeurs, qui « compensent ».
73
3 Martingales
exemple). On va caractériser dans cette section les martingales qui convergent selon ces
deux modes.
On commence par définir les martingales régulières :
Définition 3.11.1. Un processus (Xt ) qui peut se mettre sous la forme
Xt = E(X|Ft )
pour une certaine filtration (Ft ) et une certaine variable intégrable X, est appelé martin-
gale régulière.
(Le fait qu’un tel processus soit effectivement une martingale associée à la filtration
(Ft ) est facile à démontrer.)
Théorème 3.11.1. Soit Xt = E(X|Ft ) (avec X variable intégrable) une martingale
régulière, alors Xt converge p.s. et dans L1 vers X∞ = E(X|F∞ ).
Réciproquement, si (Xt ) est une martingale qui converge vers une certaine limite X∞
dans L1 , alors c’est une martingale régulière, et elle converge p.s. vers X∞ .
1 L
Démonstration. Commençons par la réciproque. Noter que Si Xt −→ X∞ alors
et donc E(Xt 1A ) = E(X∞ 1A ), on a bien Xt = E(X∞ |Ft ), et (Xt ) est une martingale
régulière. (X∞ est bien intégrable, puisque c’est la limite dans L1 .)
Dans l’autre sens, supposons que Xt = E(X|Ft ) avec X intégrable. On a alors
donc (Xt ) est bornée dans L1 et le Théorème 3.9.1 dit qu’elle converge p.s vers une v.a.
X∞ . Démontrons maintenant que la convergence a aussi lieu dans L1 (vers la même limite
X∞ , même argument que ci-dessus). Pour ceci on va démontrer que (Xt ) est de Cauchy
dans L1 . On a X = X + − X − avec X + = X ∨ 0 et X − = (−X) ∨ 0 ; on décompose
Xt = E(X|Ft ) = E(X + |Ft ) − E(X − |Ft ) et on va démontrer que E(X + |Ft ) et E(X − |Ft )
sont des suites de Cauchy. On traite le cas de E(X + |Ft ), le cas E(X − |Ft ) est identique.
On a :
∥E(X + |Fs ) − E(X + |Ft )∥1 = ∥E(X + |Fs ) − E(X + ∧ a|Fs )∥1
| {z }
−a→∞
−−→0 (TCD)
74
3.11 Martingales régulières et théorème d’arrêt
+ ∥E(X + ∧ a|Fs ) − E(X + ∧ a|Ft )∥1 + ∥E(X + ∧ a|Ft ) − E(X + |Ft )∥1 .
| {z }
−a→∞
−−→0 (TCD)
Pour le terme ∥E(X + ∧ a|Ft ) − E(X + ∧ a|Fs )∥1 , noter que (E(X + ∧ a|Fn )) est une
martingale bornée dans L1 , donc elle converge p.s, et de plus c’est une martingale bornée,
donc, la convergence p.s implique la convergence dans L1 . Donc cette suite est de Cauchy
dans L1 et donc le terme peut être rendu aussi petit que l’on veut quand s et t sont assez
grands.
La dernière étape est de démontrer que X∞ = E(X|F∞ ). On procède de la même façon
que ci-dessus (dans la réciproque). Pour A ∈ Ft , on a
et puisque
on a bien :
E(X∞ 1A ) = E(X1A ). (3.7)
et cette relation est plus généralement vraie pour tout A ∈ ∪t∈N Ft . S
Malheureusement, ceci ne montre pas que c’est vrai pour tout A ∈ F∞ = σ n∈N Fn .
On s’en sort avec le théorème de classe monotone (admis, hors programme) : tout d’abord,
l’ensemble des A qui satisfait (3.7) est S
une classe monotone (contient Ω, stable par union
croissante et par différence). De plus, n∈N Fn est un π-système (stable par intersection
finie)
S inclusdans cette classe monotone. Le théorème de classe monotone dit alors que
σ n∈N Fn est aussi inclus dans la classe monotone.
Démonstration.
X
Xτ = E(X|Fk )1{τ =k} + E(X|F∞ )1{τ =∞} .
k∈N
75
3 Martingales
X
= E(Xk 1A∩{τ =k} ) + E(X∞ 1A∩{τ =∞} )
k∈N
= E(1A Xτ ).
76
4 Processus en temps continu
Le but de cette section est d’introduire les deux processus en temps continu les plus
courament utilisés :
— le processus de Wiener, dit mouvement brownien ;
— le processus de Poisson ;
sans trop rentrer dans la théorie.
Comme bien expliqué dans la préface du livre de Kingman (1993), il est plus intuitif
de présenter certaines propriétés de ces processus dans un cadre plus général que le cadre
temporel ; c’est à dire comme des fonctions aléatoires τ → R, sans se restreindre à τ = R+
(espace des temps). C’est l’approche que nous suivrons.
et permet d’obtenir tous ces moments par dérivation : G′ (1) = E[X], G′′ (1) = E [X(X − 1)],
etc. Notamment :
E[X] = Var[X] = µ.
Une propriété fondamentale des lois de Poisson est leur additivité, ou plus généralement
leur sigma-additivité.
Proposition 4.1.1. Soient Xi ∼ Poisson(µi ) des variables indépendantes, avec µi ∈
[0, ∞]. Alors
∞ ∞
!
X X
Xi ∼ Poisson µi .
i=1 i=1
77
4 Processus en temps continu
1.0
0.8
0.6
0.4
0.2
0.0
0.0 0.2 0.4 0.6 0.8 1.0
Figure 4.1 – Réalisation d’un processus ponctuel sur [0, 1]2 ; pour un processus de Pois-
son, les nombres de points qui tombent dans chacun des deux rectangles
sont indépendants.
Démonstration. Dès qu’un des µi = +∞, le résultat devient évident. On suppose tous
les µi < +∞.
On montre aisément que cette propriété est vraie pour une somme finie :
n
X n
X
Xi ∼ Poisson( µi ).
i=1 i=1
(Preuve par récurence, et pour n = 2, simple calcul de probabilité discrète, laissé à votre
soin. Ou alors passer par la fonction génératrice.) Il suffit ensuite d’invoquer le théorème
de convergence monotone pour conclure. Ce raisonnement est valable que la série ∞
P
i=1 µi
converge ou pas. (Exercice : vérifier les détails du raisonnement dans ces deux cas !).
N (A) = # {Π ∩ A} .
78
4.1 Processus ponctuels, processus de Poisson
Remarque 4.1.1. Techniquement, il faut donc imposer que pour des ensembles A « inté-
ressants », la variable aléatoire N (A) soit bien définie, i.e. l’application ω → # {Π(ω) ∩ A}
soit bien mesurable. Les ensembles « intéressants » seront généralement les éléments
d’une tribu associée à E, comme cela va apparaître clairement par la suite.
Les processus de Poisson sont des processus ponctuels vérifiant les propriétés suivantes.
Définition 4.1.2. Soit (E, E) un ensemble mesurable, et µ une mesure associée à cet
ensemble. On appelle processus de Poisson de mesure moyenne µ un processus
ponctuel Π tel que le processus de comptage associé, N (A) = # {Π ∩ A}, vérifie les deux
propriétés suivantes :
1. Pour A1 , . . . , Ak ∈ E disjoints, les variables N (Ai ) sont indépendantes.
2. Pour A ∈ E, N (A) ∼ Poisson (µ(A)).
Si µ(E) < +∞ (resp. = ∞), Π est p.s. un ensemble fini (resp. infini dénombrable).
Dans beaucoup d’applications, E ⊂ Rd , et µ est dominée par la mesure de Lebesgue :
µ(dx) = λ(x)dx, où la fonction λ est dite fonction d’intensité. Quand λ est constante,
on dit que le processus est homogène. Pour une mesure µ plus générale, il n’est pas
forcément possible de construire un processus de Poisson de mesure moyenne µ. En
particulier, si µ est atomique (i.e. µ({x}) > 0 pour un certain x ∈ E), l’existence d’un tel
processus entraînerait la contradiction suivante : N ({x}) ≤1 (par définition), et N ({x}) ∼
Poisson(c) pour un certaine constante c > 0. Le théorème suivant donne des conditions
suffisantes sur µ pour l’existence d’un processus de Poisson.
Théorème 4.1.2. (Existence) Soit µ une mesure sigma-finie non-atomique sur (E, E).
Alors il existe un processus de Poisson de mesure moyenne µ.
Démonstration. On commence par le cas où µ est une mesure finie, µ(E) < ∞. On pose
µp = µ/µ(E) ; c’est une mesure de probabilité.
On se donne un espace de probabilité (Ω, F, P) sur lequel on peut construire les va-
riables aléatoires suivantes : X1 , X2 , . . . une suite de variables IID de loi µp , et N une
variable indépendante des Xi , de loi Poisson(µ(E)). On pose alors :
Π = {X1 , . . . , XN } .
79
4 Processus en temps continu
et donc
k
n µ(Ai ) ni
−µ(E) µ(E) n! Y
P (N (A0 ) = n0 , . . . , N (Ak ) = nk ) = e Qk
n! i=0 ni !
µ(E)
i=0
k
Y e−µ(Ai ) µ(Ai )ni
= .
ni !
i=0
Π = ∪∞
i=1 Πi
Mais, pour que cette somme soit bien le cardinal de Π ∩ A, il faut s’assurer que les
ensembles Πi ∩ A sont bien disjoints p.s. C’est vrai pour A tel que µ(A) < ∞ mais non
trivial, voir les pages 14 à 17 du livre de Kingman (1993).
La construction explicite ci-dessus (dans le cas µ finie) donne une nouvelle inteprétation
d’un processus de Poisson : chaque réalisation est un « jeu de données » (une collection
de variables IID) dont la taille est aléatoire.
4.1.3 Cas E = R+
On s’intéresse désormais au cas E = R+ . Il est alors possible d’ordonner les points de Π ;
soit 0 < X1 < X2 < . . . . Ces variables sont interprétées comme des dates d’événements
(par exemple de tremblements de terre). On pose
∞
X
Nt := N ([0, t]) = 1 {Xi ≤ t} .
i=1
C’est ce processus (Nt )t≥0 que l’on appelle communément processus de Poisson. Ses pro-
priétés principales se déduisent immédiatement de sa définition et de celle des processus
de Poisson généraux.
80
4.1 Processus ponctuels, processus de Poisson
Proposition 4.1.3. La trajectoire t → Nt est p.s. constante par morceaux, càdlàg (conti-
nue à droite, limitée à gauche) et croissante. Le processus (Nt ) est à accroissements
indépendants : i.e. les variables Ns et Nt − Ns sont indépendants pour 0 ≤ s ≤ t.
Démonstration. Pour X1 = Y1 , on a :
81
4 Processus en temps continu
loi que (Nt ); alors Y2 = X2 − X1 a forcément la même loi que X1 . Cette propriété
admise est essentiellement la propriété de Markov forte en temps continu ; pour un preuve
relativement simple (mais spécifique au processus de Poisson), voir par exemple les pages
39 et 40 de Kingman (1993).
La proposition ci-dessus est lié au « paradoxe » dit du temps d’attente : Pour une
ligne de bus « poissonienne », le temps de passage entre deux bus suit une loi Exp(λ),
d’espérance 1/λ. En revanche, si j’arrive à à une date arbitraire t > 0 à l’arrêt de bus, la
durée entre le passage du bus précédent et le bus suivant est la somme de deux variables
exponentielles, soit une loi Gamma(2, λ) d’espérance 2/λ. En d’autres termes, si un bus
passe toutes les dix minutes (en moyenne), mon temps d’attente moyen est aussi de 10
minutes.
et les autres valeurs n + 2, . . . ont une probabilité en o(h). En d’autres termes, d’un point
de vue « infinitésimal », (Nt ) ressemble à une chaîne de Markov dont les seules transitions
possibles sont n → n, et n → n + 1. Une généralisation naturelle est de considérer un
processus (Xt ), à valeurs dans X ⊂ Z, permettant d’autres transitions : pour i, j ∈ X :
82
4.2 Mouvement brownien
On admettra les propriétés suivantes, qui semblent intuitives, par analogie avec les
propriétés correspondantes du processus de Poisson :
1. de tels processus existent.
P
2. Le temps passé dans un état i suit une loi exponentielle Exp j̸=i A(i, j) . Une
P
fois ce temps écoulé, on choisit un nouvel état j ̸= i, avec probabilité A(i, j)/ k̸=i A(i, k).
3. Si (Xt ) admet une loi invariante, alors πA = 0.
4. La loi marginale de (Xt ) est donnée par le vecteur p(t) = p(0) exp (At) .
Pour justifier (informellement) la propriété 4, on peut écrire :
X
P(Xt+h = j) = P(Xt = i)P(Xt+h = j|Xt = i),
i
X
= P(Xt = j) {1 + A(i, i)h} + P(Xt = i)A(i, j)h + o(h),
i̸=j
donc
P(Xt+h = j) − P(Xt = j) X
= P(Xt = i)A(i, j)
h
i
et passer à la limite h → 0 :
p′ (t) = p(t)A
où p(t) est le vecteur des P(Xt = i). Cette équation justifie aussi indirectement la pro-
priété 3 : dans le régime stationnaire, p(t) = π, p′ (t) = 0, donc πA = 0.
83
4 Processus en temps continu
La fonction de covariance C est souvent appelé « noyau » (un terme polysémique en sta-
tistiques...). Cette fonction doit être choisie de manière à ce que, pour tous x1 , . . . , xd , la
matrice de covariance (C(xi , xj ))i,j=1,...,d soit bien définie positive. Un notau couramment
utilisé est le noyau dit Gaussien (ou squared exponential ) :
∥x1 − x2 ∥2
C(x1 , x2 ) = c exp − .
2ℓ2
Les réalisations d’un processus avec un tel noyau sont très régulières (infiniment déri-
vables). Ces processus sont beaucoup utilisés dans différents domaine du machine lear-
ning, notamment en optimisation bayésienne et en apprentissage par renforcement.
84
4.2 Mouvement brownien
85
Bibliographie
Baldi, P., Mazliak, L., and Priouret, P. (2002). Martingales and Markov chains. Chapman
& Hall/CRC, Boca Raton, FL. Solved exercises and elements of theory, Translated
from the 1998 French original.
Meyn, S. and Tweedie, R. L. (2009). Markov chains and stochastic stability. Cambridge
University Press, Cambridge, second edition. With a prologue by Peter W. Glynn.
Shaw, L. P. and Shaw, L. F. (2019). The flying bomb and the actuary. Significance,
16(5) :12–17.
87