Polycop CCM
Polycop CCM
Béatrice de Tilière
Basé sur les notes de
M. Gubinelli, B. Haas, F. Siemenhaus
1 Espérance conditionnelle 3
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Construction de l’espérance conditionnelle dans le cas L2 . . . . . . . . . . . . . . 4
1.2.1 Projection orthogonale dans L2 . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Construction de l’espérance conditionnelle dans le cas L2 . . . . . . . . . . 7
1.3 Construction de l’espérance conditionnelle dans le cas L1 . . . . . . . . . . . . . . 8
1.4 Quelques cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Espérance conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Espérance conditionnelle par rapport à une variable aléatoire . . . . . . . 8
1.5 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 9
i
3.3 Application de la convergence des martingales : la LFGN . . . . . . . . . . . . . . 30
1
2
Chapitre 1
Espérance conditionnelle
Le but de ce chapitre est de construire l’espérance conditionnelle et d’en donner les propriétés
principales.
Notations
◦ (Ω, F, P) est un espace de probabilité.
◦ X : (Ω, F) → (R, B(R)) est une variable aléatoire réelle.
◦ Soit p ≥ 1,
1.1 Définition
Définition 1.1 (Théorème). Soit X ∈ L1 (F) et G une sous-tribu de F. Alors, il existe une
unique variable aléatoire Y ∈ L1 (G), telle que :
3
Chapitre 1. Espérance conditionnelle
Remarque 1.1. La condition (1.2) implique (1.1) en prenant Z = IB . Pour la réciproque, on utilise
l’approximation usuelle des fonctions G-mesurables par des fonctions étagées G-mesurables.
La v.a. (Y 0 − Y )I{Y 0 −Y >0} étant positive p.s., on déduit que (Y 0 − Y )I{Y 0 −Y >0} = 0 p.s., d’où
Y 0 ≤ Y p.s. De manière analogue Y 0 ≥ Y p.s. et par suite Y 0 = Y p.s.
Le but de cette section est de montrer que dans le cas où la variable aléatoire X est dans L2 (F),
l’espérance conditionnelle de X sachant G est la projection orthogonale de X sur le sous-espace
L2 (G). Cette construction servira aussi pour montrer l’existence de l’espérance conditionnelle
dans le cas L1 .
Remarquons que cette application est bien définie par l’inégalité de Cauchy-Schwarz.
Lemme 1.1. L’application < ·, · > est un produit scalaire sur L2 (F).
Démonstration. Forme bilinéaire symétrique : clair. Définie positive : soit X ∈ L2 (F) telle que
E[X 2 ] = 0, alors X = 0 p.s.
Le théorème suivant est un cas particulier (p = 2) du théorème de Riesz-Fisher qui dit que, pour
tout p ∈ [1, ∞], l’espace Lp (F) est un espace de Banach, i.e. un espace vectoriel normé complet.
Théorème 1.1. L’espace (L2 (F), < ·, · >) est un espace de Hilbert.
4
Chapitre 1. Espérance conditionnelle
Démonstration. Dans toute la démonstration, nous omettons d’écrire F dans L2 (F). Par défini-
tion il faut montrer que L2 est complet pour la norme k · k2 découlant du produite scalaire, i.e.
il faut montrer que toute suite de Cauchy dans L2 converge dans L2 .
• (Xn )n≥1 est de Cauchy dans L2 : pour tout ε > 0, ∃ N ≥ 1, tel que ∀ n, m ≥ N ,
kXn − Xm k2 ≤ ε.
• On veut montrer qu’il existe une v.a. X dans L2 , telle que pour tout ε > 0, il existe N ≥ 1 tel
que pour tout n ≥ N , kXn − Xk2 ≤ ε.
• Étape 1 : il existe une sous-suite (X̂m )m≥1 qui converge vers une v.a. X p.s.
D’après la propriété d’être de Cauchy, il existe une suite strictement croissante (nk )k≥1 telle que
1
∀ k ≥ 1, ∀ n, m ≥ nk , kXn − Xm k2 ≤ k ,
2
alors, ∀ k ≥ 1, kXnk+1 − Xnk k2 ≤ 21k . Posons X̂k = Xnk , ainsi ∀ k ≥ 1, kX̂k+1 − X̂k k2 ≤ 21k .
Posons Ym = m
P
k=1 |X̂k+1 − X̂k |. Alors, (Ym )m≥1 est une suite croissante de v.a. positives, donc
elle est simplement convergente vers une limite Y ≥ 0 p.s. Montrons que Y < ∞ p.s.
E[Y 2 ] = lim E[Ym2 ], d’après le théorème de convergence monotone
m→∞
m
X 2
= lim kYm k22 = lim |X̂k+1 − X̂k |
m→∞ m→∞ 2
k=1
m
X 2
≤ lim kX̂k+1 − X̂k k2 , d’après l’inégalité de Minkowski (kf + gkp ≤ kf kp + kgkp )
m→∞
k=1
∞
X 1 2
≤ < ∞.
2k
k=1
P∞
On a donc bien Y =
Pm−1 k=1 |X̂k+1 − X̂k | < ∞ p.s. Ainsi, pour presque tout ω ∈ Ω, la série
k=1 (X̂k+1 (ω) − X̂k (ω)) est absolument convergente, donc convergente. En conséquence, pour
presque tout ω ∈ Ω, la série
m−1
X
X̂1 (ω) + (X̂k+1 (ω) − X̂k (ω)) = X̂m (ω)
k=1
est convergente. Notons X(ω) la limite et posons X(ω) = 0 là où la convergence n’a pas lieu.
Ainsi, on a montré l’étape 1 : la sous-suite (X̂m )m≥1 converge vers X p.s.
• Étape 2 : la sous-suite (X̂m )n≥1 converge vers X dans L2 . Rappelons qu’en général la conver-
gence p.s. n’implique pas la convergence dans L2 . Cependant, d’après le théorème de convergence
dominée, s’il existe Z ∈ L2 tel que, pour tout m ≥ 1, |X̂m | ≤ Z, alors c’est vrai. On a, pour
presque tout ω ∈ Ω,
m−1
X
|X̂m (ω)| = |X̂1 (ω) + (X̂k+1 (ω) − X̂k (ω))|
k=1
m−1
X
≤ |X̂1 (ω)| + |X̂k+1 (ω) − X̂k (ω)|
k=1
≤ |X̂1 (ω)| + Ym−1 (ω) ≤ |X̂1 (ω)| + Y (ω),
5
Chapitre 1. Espérance conditionnelle
où X̂1 ∈ L2 par hypothèse et Y ∈ L2 a été démontré ci-dessus, ce qui conclut cette étape.
• Étape 3 : conclusion (une suite de Cauchy avec une sous-suite convergente est convergente).
Soit ε > 0. D’une part, comme (X̂m )m≥1 converge vers X dans L2 ,
ε
∃ M0 tel que ∀ m ≥ M0 , kXnm − Xk2 ≤ .
2
D’autre part, comme (Xn )n≥1 est de Cauchy,
ε
∃ N0 tel que ∀ n, m ≥ N0 , kXn − Xm k2 ≤ .
2
Posons m0 = max{M0 , N0 }. Alors, nm0 ≥ m0 (car (nk )k≥1 est strictement croissante), d’où pour
tout n ≥ m0 ,
kXn − Xk2 ≤ kXn − Xnm0 k2 + kXnm0 − Xk2 ≤ ε.
D’après l’étape précédente nous savons que X ∈ L2 , ainsi nous avons bien démontré que (Xn )n≥1
converge vers X dans L2 .
Théorème 1.2 (Projection orthogonale dans L2 ). Soit G ⊂ F une sous-tribu et L2 (G) ⊂ L2 (F).
Pour tout X ∈ L2 (F), il existe une unique (p.s.) v.a. Y ∈ L2 (G) qui satisfait une des propriétés
équivalentes suivantes.
1. E[(X − Y )2 ] = inf E[(X − Z)2 ].
Z∈L2 (G)
Démonstration.
• Étape 1 : montrons l’existence d’une v.a. Y ∈ L2 (G) satisfaisant la propriété 1. Notons que
l’infimum, inf Z∈L2 (G) E[(X − Z)2 ] existe car l’ensemble en question est non-vide et minoré par
0. Soit donc (Yn )n≥1 une suite minimisante dans L2 (G), i.e.,
Montrons que cette suite est de Cauchy dans L2 (G). Pour cela utilisons l’identité (a + b)2 =
2(a2 + b2 ) − (a − b)2 avec a = Yn − X, b = X − Ym . On obtient, pour tout n, m ≥ 1,
h Yn + Ym 2 i
E[(Yn − Ym )2 ] = 2 E[(Yn − X)2 ] + E[(X − Ym )2 ] − 4E X −
2
2 2
≤ 2 E[(Yn − X) ] + E[(X − Ym ) ] − 4∆,
m 2
car E X − Yn +Y ≥ ∆ étant donné que la fonction Yn +Y ∈ L2 (G). Soit ε > 0, alors il
m
2 2
2 ε
existe N ≥ 1 tel que pour tout n ≥ N , |E[(Yn − X) ] − ∆| ≤ 4 . Ainsi, en utilisant l’inégalité
triangulaire on déduit que, pour tout n, m ≥ N ,
ε ε
E[(Yn − Ym )2 ] ≤ 2 + + 2∆ − 4∆ = ε,
4 4
d’où la suite (Yn )n≥1 est de Cauchy dans L2 (G). D’après le Théorème 1.1, elle converge dans
L2 (G) vers une v.a. que l’on note Y (on rappelle qu’en particulier Y ∈ L2 (G)).
6
Chapitre 1. Espérance conditionnelle
√
Il nous reste à montrer que E[(X − Y )2 ] = ∆, autrement dit que kX − Y k2 = ∆. Utilisant le
fait que Y ∈ L2 (G) à gauche et l’inégalité de Minkowski à droite, on obtient
√
∆ ≤ kX − Y k2 ≤ kX − Yn k2 + kYn − Y k2 .
√
Le premier terme de droite tend vers ∆ par définition de (Yn )n≥1 et le deuxième tend vers 0
L2
car nous avons montré que Yn → Y . On conclut la preuve par encadrement en prenant la limite.
• Étape 2 : montrons l’équivalence entre les propriétés 1. et 2. Soit Y ∈ L2 (G) satisfaisant la
propriété 1. et Z ∈ L2 (G), alors pour tout t ∈ R, Y + tZ ∈ L2 (G), d’où en utilisant le point 1.
dans la première inégalité, on a :
Comme Y ∈ L2 (G), E[(X − Y )2 ] ≥ inf Z∈L2 (G) E[(X − Z)2 ], d’où Y satisfait à la propriété 1.
• Étape 3 : unicité. Supposons qu’il existe Y, Y 0 ∈ L2 (G) satisfaisant la propriété 2. On a
d’où Y − Y 0 = 0 p.s.
Ainsi dans ce cas, l’espérance conditionnelle E[X|G] est la projection orthogonale de X sur L2 (G).
7
Chapitre 1. Espérance conditionnelle
En prenant B = Ω dans l’identité ci-dessus, on obtient que E(Y ) = E(X), d’où Y ∈ L1 (G)
(X ≥ 0, X ∈ L1 (F)). On conclut que Y = E[X|G].
Si on n’a pas X ≥ 0, on écrit X = X + − X − , alors Y + = E[X + |G], Y − = E[X − |G] existent et
Y = Y + − Y − vérifie la définition de l’espérance conditionnelle (utilise la linéarité de l’espérance
conditionnelle - voir après).
Dans cette section nous explicitons quelques cas particuliers utiles d’espérance conditionnelle.
Si (Ai )i≥1 forme une partition de Ω, si G = σ((Ai )i≥1 ) et si, pour tout i ≥ 1, P(Ai ) > 0, alors
R
Ω X(ω)IAi (ω)P(dω)
X E[XIA ] X
i
E[X|G] = IAi = IAi .
P(Ai ) P(Ai )
i≥1 i≥1
Rappels.
— Un événement A ∈ σ(Y ) ssi il existe B ∈ B(R) tel que A = {Y ∈ B}.
8
Chapitre 1. Espérance conditionnelle
— Une fonction borélienne g : R → R est σ(Y )-mesurable ssi il existe une fonction borélienne
f telle que g = f (Y ).
• Cas des variables aléatoires discrètes. Supposons que Y est à valeurs dans un espace
dénombrable E. Alors,
X E[XI{Y =y} ]
E[X|Y ] = I .
P(Y = y) {Y =y}
y∈E
• Cas des variables aléatoires à densité. Supposons que le couple (X, Y ) a pour densité
p(x, y), i.e., pour toute fonction borélienne f : R2 → R,
Z
E[f (X, Y )] = f (x, y)p(x, y)dxdy.
R2
Notons q la densité de Y : Z
∀ y ∈ R, q(y) = p(x, y)dx.
R
où (
1
q(y) p(x, y)dx si q(y) > 0
ν(y, dx) =
δ0 (dx) si q(y) = 0.
Dans cette section, nous énumérons les propriétés de l’espérance conditionnelle. Nous les par-
tageons en deux groupes : celles similaires aux propriétés de l’espérance et celles qui lui sont
spécifiques. Certaines seront démontrées en exercices.
Proposition 1.1. Dans la suite G est une sous-tribu de F, les v.a. X, (Xn )n≥1 sont dans L1 (F)
et les propriétés sont vraies p.s.
4. Convergence monotone conditionnelle. Soit (Xn )n≥1 une suite croissante de v.a. positives
qui converge vers une v.a. X p.s., alors
5. Lemme de Fatou conditionnel. Soit (Xn )n≥1 une suite de v.a. positives, alors
9
Chapitre 1. Espérance conditionnelle
6. Convergence dominée conditionnelle. Soit (Xn )n≥1 une suite de v.a. qui converge vers une
v.a. X p.s. Supposons qu’il existe une v.a. positive Z telle que, pour tout n ≥ 1, |Xn | ≤ Z
et que E[Z] < ∞. Alors,
E[X|G] = lim E[Xn |G].
n→∞
7. Inégalité de Jensen conditionnelle. Soit f : R → R une fonction convexe telle que f (X) ∈
L1 (F), alors
f (E[X|G]) ≤ E[f (X)|G].
En particulier, |E[X|G]| ≤ E[ |X| |G].
Proposition 1.2. Dans toute la suite X ∈ L1 (F), G, G1 , G2 sont des sous-tribus de F et les
propriétés sont vraies p.s.
1. E[E[X|G]] = E[X].
2. Si G2 ⊂ G1 ,
E[E[X|G1 ]|G2 ] = E[E[X|G2 ]|G1 ] = E[X|G2 ].
E[X|G] = E[X].
10
Chapitre 2
Soit (Ω, F, P) un espace de probabilité. Un processus aléatoire discret réel est une suite (Xn )n≥0
de v.a. définies sur (Ω, F, P) à valeurs dans (R, B(R)). Dans la suite nous ne considérons que des
processus de ce type.
Définition 2.1. Une filtration de (Ω, F, P) est une suite croissante (Fn )n≥0 de sous-tribus de F.
L’espace (Ω, F, (Fn )n≥0 , P) est un espace de probabilité filtré.
Exemple 2.1. Soit (Xn )n≥0 un processus et, pour tout n ≥ 0, soit
Fn = σ(X0 , . . . , Xn ),
Définition 2.2. Un processus (Xn )n≥0 est dit adapté à la filtration (Fn )n≥0 si, pour tout n ≥ 0,
Xn est Fn -mesurable.
Remarque 2.1. Par définition, la filtration canonique est la plus petite filtration qui rende le
processus adapté.
Dans la suite, nous fixons un espace de probabilité filtré (Ω, F, (Fn )n≥0 , P) et toutes les notions
sont relatives à cet espace.
Définition 2.3. Une v.a. T : Ω → N ∪ {∞} est appelée un temps d’arrêt (par rapport à la
filtration (Fn )n≥0 ) si, pour tout n ≥ 0,
{T = n} ∈ Fn ,
Remarque 2.2. Si T est un temps d’arrêt alors, pour tout n ≥ 1, {T ≥ n} = {T ≤ n−1}c ∈ Fn−1 .
11
Chapitre 2. Arrêt optimal en horizon fini
Interprétation : les temps d’arrêt sont des instants aléatoires où la décision de “s’arrêter” est
prise en fonction de ce qui s’est passé dans le passé et au présent.
Exemple 2.2.
1. Soit k ≥ 0, alors la variable aléatoire T ≡ k est un temps d’arrêt.
2. Soient (Xn )n≥0 un processus adapté et A un borélien de R, alors
(
inf{n ≥ 0 : Xn ∈ A} s’il existe n ≥ 0 t.q. Xn ∈ A
TA =
∞ sinon
est un temps d’arrêt. En effet, pour tout n ≥ 0,
{TA = n} = {X0 ∈ / A, Xn ∈ A} ∈ Fn .
/ A, . . . , Xn−1 ∈
3. Soit (Xn )n≥0 un processus discret où Xn représente le prix d’une action au temps n.
Posons (Fn )n≥0 = (σ(X0 , . . . , Xn ))n≥0 et supposons que cette action a une durée de vie
N . Soit T l’instant où le prix de l’action est maximal, alors T n’est pas un temps d’arrêt.
En effet pour tout n ≥ 0,
\
{T = n} = {Xk ≤ Xn } ∈/ Fn .
0≤k≤N
Ceci s’interprète par le fait qu’on ne peut pas décider de vendre une action au moment
où elle est à son maximum en ne connaissant que l’information du passé et du présent.
Proposition 2.1.
1. Soient S et T deux temps d’arrêt, alors S ∧ T , S ∨ T sont des temps d’arrêt.
2. Si (Tk )k≥0 est une suite de temps d’arrêt, alors inf k (Tk ), supk (Tk ), lim inf k (Tk ), lim supk (Tk )
sont des temps d’arrêt.
En particulier, pour tout n ≥ 0, si T est un temps d’arrêt, alors n ∧ T et n ∨ T en sont aussi.
Définition 2.4. Soit T un temps d’arrêt. La tribu du passé jusqu’à l’instant T est
FT = {A ∈ F : ∀ n ≥ 0, A ∩ {T = n} ∈ Fn }.
Cette tribu représente l’information connue jusqu’au temps (aléatoire) T . Dans la définition, on
peut remplacer {T = n} par {T ≤ n} ; on a alors l’interprétation suivante, A est observable à
l’instant n si T a eu lieu avant n.
Propriété 2.1. Soit T un temps d’arrêt.
1. FT est une tribu.
2. Soit k ≥ 0 et supposons que T ≡ k, alors FT = Fk .
3. T est FT -mesurable.
4. Supposons que T < ∞ p.s. et soit (Xn )n≥0 un processus adapté, alors XT est FT -
mesurable.
5. Soient S, T des temps d’arrêt tels que S ≤ T p.s., alors FS ⊂ FT .
12
Chapitre 2. Arrêt optimal en horizon fini
Définition 2.5. Soit (Xn )n≥0 un processus adapté tel que, pour tout n ≥ 0, Xn est intégrable.
On dit que le processus (Xn )n≥0 est une martingale, resp. sur-martingale, sous-martingale, si
Interprétation : une martingale représente un jeu équitable. Imaginons que Xn représente l’avoir
du joueur au temps n, alors le gain moyen qu’il peut espérer au temps n + 1 connaissant toute
l’information jusqu’au temps n est son gain à l’instant n ; en résumé le joueur ne gagne ni ne
perd.
Propriété 2.2. Si (Xn )n≥0 est une martingale, resp. sur-martingale, alors
1. Pour tout 0 ≤ n ≤ m, E[Xm |Fn ] = Xn , resp. E[Xm |Fn ] ≤ Xn .
2. Pour tout n ≥ 0, E[Xn ] = E[X0 ], resp. E[Xn ] ≤ E[X0 ].
Démonstration. Nous ne démontrons que le cas martingale, le cas sur-martingale étant analogue.
La propriété 1. se montre par récurrence. Si m = n, c’est une propriété de l’espérance condi-
tionnelle. L’étape d’induction utilise le fait suivant : soit m ≥ n + 1, alors Fn ⊂ Fm−1 et d’après
une propriété de l’espérance conditionnelle,
Exemple 2.3.
1. Soit X une v.a. dans L1 (F) ; posons
∀ n ≥ 0, Xn = E[X|Fn ],
alors (Xn )n≥0 est une martingale. En effet, pour tout n ≥ 0, Xn est Fn -mesurable, dans
L1 et
E[Xn+1 |Fn ] = E[E[X|Fn+1 ]|Fn ] = E[X|Fn ] = Xn ,
en utilisant une propriété de l’espérance conditionnelle.
2. Marche aléatoire. Soit (Yk )k≥0 une suite de v.a. indépendantes, intégrables, telles que,
pour tout k ≥ 0, E[Yk ] = 0. Pour tout n ≥ 0, on pose
n
X
Xn = Yk .
k=0
Alors (Xn )n≥0 est une martingale pour la filtration (Fn = σ(Y0 , . . . , Yn ))n≥0 . En effet,
pour tout n ≥ 0, Xn est Fn -mesurable, dans L1 et
" n+1 #
X
E[Xn+1 |Fn ] = E Yk |Fn = E[Yn+1 + Xn |Fn ] = E[Yn+1 ] + Xn = Xn ,
k=0
d’après les propriétés de l’espérance conditionnelle, et en utilisant que les v.a. (Yk )k≥0
sont indépendantes et centrées.
13
Chapitre 2. Arrêt optimal en horizon fini
Théorème 2.1 (Théorème d’arrêt). Soit (Xn )n≥0 une martingale, resp. sur-martingale, et soit
T un temps d’arrêt ; alors (Xn∧T )n≥0 est aussi une martingale, resp. sur-martingale. De plus,
si le temps d’arrêt T est borné p.s., on a XT ∈ L1 (FT ) et
Démonstration. Montrons d’abord que (Xn∧T )n≥0 est une martingale. D’après la remarque 2.3,
ce processus est adapté. Une preuve alternative s’obtient en écrivant, pour tout n ≥ 0,
n−1
X
Xn∧T = Xi I{T =i} + Xn I{T ≥n} . (2.1)
i=0
De cette expression on déduit que, pour tout n ≥ 0, la v.a. Xn∧T est Fn -mesurable et aussi
qu’elle est intégrable. En effet,
n
X
|Xn∧T | ≤ |Xi |,
i=1
qui est intégrable comme somme finie de v.a. intégrables. Pour la dernière propriété d’une mar-
tingale, calculons
(2.1)
X(n+1)∧T − Xn∧T = Xn+1 I{T ≥n+1} − Xn I{T ≥n} + Xn I{T =n}
= (Xn+1 − Xn )I{T ≥n+1} .
La v.a. I{T ≥n+1} étant Fn -mesurable, et (Xn )n≥0 étant une martingale, on déduit immédiatement
que
E[X(n+1)∧T − Xn∧T |Fn ] = I{T ≥n+1} E[Xn+1 − Xn |Fn ] = 0.
Supposons maintenant que T est borné p.s., c’est-à-dire qu’il existe N > 0 tel que T ≤ N p.s.
Le fait que XT est FT -mesurable est montré dans la propriété 2.1. Montrons que XT ∈ L1 . On a
N
X N
X
E[|XT |] = E[|Xn |I{T =n} ] ≤ E[|Xn |],
n=0 n=0
Théorème 2.2. Soient S, T deux temps d’arrêt bornés p.s. tels que S ≤ T p.s., et soit (Xn )n≥0
une martingale, alors
E[XT |FS ] = XS .
Démonstration. Par hypothèse, il existe N > 0 tel que S ≤ T ≤ N p.s. Montrons d’abord que
E[XN |FT ] = XT .
14
Chapitre 2. Arrêt optimal en horizon fini
15
Chapitre 2. Arrêt optimal en horizon fini
◦ Vous souhaitez déterminer le bon moment pour vendre ou acheter une action.
Formalisons maintenant la question. Notons TN l’ensemble des temps d’arrêt bornés par N .
Définition 2.6.
◦ Le gain moyen optimal, noté JN , est
JN = sup E[YT ].
T ∈TN
◦ Un temps d’arrêt optimal, noté T ?, est un temps d’arrêt dans TN tel que
E[YT ? ] = JN .
Remarquons, qu’a priori, on ne sait pas si un tel temps d’arrêt existe, ou même s’il est
unique.
La solution du problème d’arrêt optimal (comme la plupart des problèmes d’optimisation) passe
par la détermination d’une fonction valeur (Zn )0≤n≤N associée aux différents choix possibles au
temps n. La fonction valeur représente le gain que je peux espérer au temps n en fonction de
l’information accumulée jusqu’au temps n.
A chaque étape j’ai deux choix : m’arrêter ou continuer sauf au temps final N où je suis obligé
de m’arrêter. Au temps final, je gagne YN . Au temps n < N , si je m’arrête je gagne Yn ; si je
continue, connaissant l’information jusqu’au temps n, je peux espérer gagner E[Zn+1 |Fn ]. On
souhaite choisir la meilleure des deux solutions. La fonction valeur (Zn )0≤n≤N est donc définie
par récurrence descendante de la manière suivante :
◦ Z N = YN ,
◦ ∀ 0 ≤ n ≤ N − 1, Zn = max(Yn , E[Zn+1 |Fn ]).
Montrons une propriété importante de (Zn ).
Proposition 2.2. La fonction valeur (Zn )0≤n≤N est une sur-martingale, et c’est la plus petite
sur-martingale supérieure ou égale à (Yn )0≤n≤N .
Définition 2.7. On dit que (Zn ) est l’enveloppe de Snell du processus adapté (Yn ).
Démonstration.
• Le processus (Zn )0≤n≤N est une sur-martingale.
◦ (Zn ) est adapté : clair.
◦ ∀ n ≥ 0, Zn ∈ L1 . Par récurrence descendante. C’est vrai pour ZN = YN . Puis,
|Zn | ≤ |Yn | + |E[Zn+1 |Fn ]|,
et les deux termes du membre de droite sont dans L1 .
◦ Zn ≥ E[Zn+1 |Fn ] : clair.
• (Zn ) est supérieure ou égale à (Yn ) : clair.
• (Zn ) est la plus petite ... Soit (Vn ) une sur-martingale supérieure ou égale à (Yn ). Montrons
par récurrence descendante que (Vn ) est supérieure ou égale à (Zn ). On a VN ≥ YN = ZN .
Supposons vrai pour n + 1 ; alors,
sur-mart. hyp.
Vn ≥ Yn et Vn ≥ E[Vn+1 |Fn ] ≥ E[Zn+1 |Fn ],
donc Vn ≥ max(Yn , E[Zn+1 |Fn ]) = Zn .
16
Chapitre 2. Arrêt optimal en horizon fini
Comme mentionné plus haut, pour tout 0 ≤ n ≤ N , Zn représente le gain que l’on peut espérer
au temps n connaissant l’information accumulée jusqu’au temps n. Ainsi il semble qu’un moment
opportun pour s’arrêter est lorsque Yn = Zn . Ceci motive la définition suivante :
(
? inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Zk+1 |Fk ]} si non vide
T = min{0 ≤ k ≤ N : Yk = Zk } =
N sinon.
Avant de démontrer ce théorème, remarquons que pour calculer le gain optimal il suffit de calculer
E[Z0 ].
Démonstration.
1. Le processus (Zn − Yn )0≤n≤N est adapté, et {0} est un borélien de R. Ainsi, d’après
l’exemple 2.2, T ? = min{0 ≤ k ≤ N : Zk − Yk = 0} est un temps d’arrêt.
2. D’après le théorème d’arrêt, nous savons que (Zn∧T ? )0≤n≤N est une sur-martingale. Il
nous reste donc à considérer E[Z(n+1)∧T ? |Fn ]. Procédons comme dans la preuve du théo-
rème d’arrêt ; écrivons
n
X
Z(n+1)∧T ? = Zi I{T ? =i} + Zn+1 I{T ? ≥n+1} = ZT ? I{T ? ≤n} + Zn+1 I{T ? ≥n+1} .
i=1
Comme le premier terme du membre de droite est Fn -mesurable et I{T ? ≥n+1} l’est égale-
ment, on déduit que
De plus E[ZT ? ] = E[YT ? ] par définition de T ? . Il nous reste à montrer l’optimalité, c’est-
à-dire, que pour tout temps d’arrêt S ∈ TN , E[YS ] ≤ E[YT ? ]. Par définition de (Zn ), on a
17
Chapitre 2. Arrêt optimal en horizon fini
ZS ≥ YS p.s. De plus, vu que (Zn ) est une sur-martingale et que le temps d’arrêt S est
borné, on a par le théorème d’arrêt
E[ZS ] ≤ E[Z0 ].
On se place dans le même cadre que celui de la section précédente, mais on suppose de plus que
le processus (Yn )0≤n≤N peut se construire à l’aide d’une chaîne de Markov.
Définition 2.9.
◦ Soit (Xn )n≥0 un processus à valeurs dans E et soit, pour tout n ≥ 0, une matrice sto-
chastique Qn . On dit que (Xn )n≥0 est une chaîne de Markov si, pour tout n ≥ 0, pour
tout (x0 , . . . , xn−1 , x, y) ∈ E n+2 tel que P(X0 = x0 , . . . , Xn = x) > 0, on a :
Autrement dit, la loi du futur connaissant le passé et le présent ne dépend que du présent.
◦ Les matrices (Qn )n≥0 sont appelées les matrices de transition de la chaîne.
◦ Si pour tout n ≥ 0, Qn ≡ Q, la chaîne de Markov est dite homogène ; c’est-à-dire que le
mécanisme de transition entre l’instant n et l’instant n + 1 ne dépend pas de n. Sinon
elle est dite inhomogène.
Notation. Soit f : E → R une fonction mesurable telle que f (Xn+1 ) est dans L1 . On note
X
Qn f (x) := E[f (Xn+1 )|Xn = x] = Qn (x, y)f (y).
y∈E
18
Chapitre 2. Arrêt optimal en horizon fini
Exemple 2.4. Dans les exemples suivants, on considère (x0 , . . . , xn−1 , x, y) ∈ E n+2 et on
suppose que les événements par rapport auxquels on conditionne ont probabilité strictement
positive.
1. Si (Xn )n≥0 est une suite de v.a. indépendantes à valeurs dans E, alors c’est une chaîne
de Markov. En effet,
P(X0 = x0 , . . . , Xn = x, Xn+1 = y)
P(Xn+1 = y|X0 = x0 , . . . , Xn−1 = xn−1 , Xn = x) =
P(X0 = x0 , . . . , Xn = x)
= P(Xn+1 = y) = P(Xn+1 = y|Xn = x).
Le noyau de transition est Qn (x, y) = P(Xn+1 = y). Si les v.a. sont identiquement
distribuées alors la chaîne de Markov est homogène.
Pkn)k≥0 une suite de v.a. i.i.d. à valeurs dans E = Z. Pour tout n ≥ 0, on définit
2. Soit (X
Sn = k=0 Xk . Alors (Sn )n≥0 s’appelle la marche aléatoire à valeurs dans Z ; c’est une
chaîne de Markov homogène. En effet, on a que Xn+1 est indépendante de (Sk )0≤k≤n ,
puis
P(S0 = x0 , . . . , Sn = x, Sn+1 = y)
P(Sn+1 = y|S0 = x0 , . . . , Sn = x) =
P(S0 = x0 , . . . , Sn = x)
P(Xn+1 = y − x, S0 = x0 , . . . , Sn = x)
=
P(S0 = x0 , . . . , Sn = x)
= P(Xn+1 = y − x) = P(Sn+1 = y|Sn = x).
Alors (Zn )n≥0 est une chaîne de Markov homogène. En effet, on a que les v.a. (Xn+1,j )j∈N∗
sont indépendantes de (Zk )0≤k≤n , puis si x 6= 0,
P(Z0 = x0 , . . . , Zn = x, Zn+1 = y)
P(Zn+1 = y|Z0 = x0 , . . . , Zn = x) =
P(Z0 = x0 , . . . , Zn = x)
P(Z0 = x0 , . . . , Zn = x, xj=1 Xn+1,j = y)
P
=
P(Z0 = x0 , . . . , Zn = x)
x
X
=P Xn+1,j = y , par indépendance
j=1
19
Chapitre 2. Arrêt optimal en horizon fini
En plus des hypothèses (H1 ), dans la suite de cette section, on suppose que :
◦ (Xn )n≥0 est une chaîne de Markov à valeurs dans E dénombrable. On note (Qn )n≥0 les
matrices de transition de la chaîne de Markov.
(H2 )
◦ (Fn )n≥0 est la filtration canonique.
◦ Pour tout 0 ≤ n ≤ N , Y = ϕ (X ), où ϕ : E → R est une fonction mesurable.
n n n n
Démonstration.
1. Il suffit de construire les (Vn )0≤n≤N par récurrence descendante et d’appliquer les résultats
vus dans le cadre général. On a
ZN = YN = ϕN (XN ),
Ainsi Vn (Xn ) = max(ϕn (Xn ), Qn Vn+1 (Xn )) convient et est bien σ(Xn )-mesurable.
2. En appliquant ceci aux résultats généraux, on obtient
(
inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Zk+1 |Fk ]} si non vide
T ? = min{0 ≤ k ≤ N : Yk = Zk } =
N sinon
(
inf{0 ≤ k ≤ N − 1 : ϕk (Xk ) ≥ Qk Vk+1 (Xk )} si non vide
= min{0 ≤ k ≤ N : ϕk (Xk ) = Vk (Xk )} =
N sinon.
Ce théorème donne une description plus explicite du temps d’arrêt optimal T ? : il s’agit du
temps d’entrée de la chaîne de Markov (Xn )0≤n≤N dans un borélien de E (où le borélien dépend
de n).
20
Chapitre 2. Arrêt optimal en horizon fini
Corollaire 2.5. Dans le contexte du théorème précédent, si les (Xn )n≥0 sont de plus indépen-
dantes (pas forcément identiquement distribuées), alors :
(
? inf{0 ≤ k ≤ N − 1 : ϕk (Xk ) ≥ E[Vk+1 (Xk+1 )]} si non vide
T =
N sinon.
On se place dans le cadre général de l’arrêt optimal, c’est-à-dire sous les hypothèses (H1 ).
Définition 2.10. On dit que le problème d’arrêt est monotone si, pour tout 0 ≤ n ≤ N − 1, les
événements
An = {Yn ≥ E[Yn+1 |Fn ]}
sont emboîtés : A0 ⊂ A1 ⊂ · · · ⊂ AN −1 . Cela signifie que si le gain à un temps n est supérieur
à l’espérance du gain obtenu en s’arrêtant au temps suivant n + 1, ce sera le cas pour tous les
temps suivants.
Définition 2.11. On appelle règle d’anticipation à une étape (1-step lookahead rule) le temps
d’arrêt (
inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Yk+1 |Fk ]} si non vide
T1-sla =
N sinon.
Autrement dit, cette règle consiste à s’arrêter au premier instant où le gain est supérieur au gain
moyen obtenu en s’arrêtant à l’étape suivante ; il n’est pas nécessaire de regarder plus loin.
Le théorème suivant montre que cette règle est optimale. L’avantage du temps d’arrêt T1-sla est
que l’on n’a pas besoin de la fonction valeur (Zn )0≤n≤N ; l’inconvénient est qu’il faut montrer la
monotonie du problème.
Théorème 2.6. Si le problème d’arrêt est monotone, le temps d’arrêt T1-sla est optimal.
Démonstration.
• Étape 1 : même sans l’hypothèse de monotonie, on a T1-sla ≤ T ? . Pour tout 0 ≤ n ≤ N − 1,
Yn+1 ≤ Zn+1 p.s. donc E[Yn+1 |Fn ] ≤ E[Zn+1 |Fn ] p.s., d’où
Dans le cas où le premier sous-ensemble est vide, T ? = N ≥ T1-sla , et dans le cas où le second
est vide, alors T ? = N = T1-sla .
• Étape 2 : T1-sla ≥ T ? . Si T1-sla = N , il n’y a rien à prouver. Supposons donc T1-sla < N .
On a, pour tout 0 ≤ n ≤ N − 1,
déf. monotonie \
{T1-sla = n} ⊂ {Yn ≥ E[Yn+1 |Fn ]} ⊂ {Yk ≥ E[Yk+1 |Fk ]}.
n≤k≤N −1
21
Chapitre 2. Arrêt optimal en horizon fini
Montrons que ∩n≤k≤N −1 {Yk ≥ E[Yk+1 |Fk ]} ⊂ ∩n≤k≤N {Zk = Yk }. Supposons que, pour tout
n ≤ k ≤ N − 1, l’événement {Yk ≥ E[Yk+1 |Fk ]} est réalisé. Par définition, ZN = YN , ainsi on a
De manière analogue,
et donc par récurrence descendante, on montre que pour tout n ≤ k ≤ N , l’événement {Zk = Yk }
est réalisé, ce qui prouve l’inclusion cherchée.
On remarque de plus que, par définition du temps d’arrêt optimal T ? ,
\
{Zk = Yk } ⊂ {T ? ≤ n}.
n≤k≤N
Nous avons donc montré que, pour tout 0 ≤ n ≤ N − 1, {T1-sla = n} ⊂ {T ? ≤ n}, d’où l’on
conclut que T1-sla ≥ T ? .
22
Chapitre 3
E[|Xi |IA ] = E[|Xi |IA I{|Xi |>a} ] + E[|Xi |IA I{|Xi |≤a} ]
ε ε
≤ E[|Xi |I{|Xi |>a} ] + aP(A) < + = ε,
2 2
23
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
Comme les (Xi )i∈I sont dans L1 on a, d’après l’inégalité de Markov, pour tout a > 0,
E[|Xi |] M
∀ i ∈ I, P(|Xi | > a) ≤ ≤ , (3.1)
a a
en utilisant le point 1. et en notant M la borne supérieure des (E[|Xi |])i∈I .
Soit ε > 0 et soit δ > 0 tel que le point 2. est vérifié. Alors d’après l’équation (3.1), pour tout
a > a0 := Mδ , P(|Xi | > a) < δ, ainsi d’après le point 2.
Remarque 3.1. On a vu que si (Xi )i∈I est u.i. alors la famille est borné dans L1 . La réciproque
est fausse. Par exemple, on pose I = N∗ , et on définit pour tout n > 0,
(
n avec probabilité n1
Xn =
0 sinon.
Alors, E[|Xn |] = E[Xn ] = 1 et la suite est bien bornée dans L1 . Par contre, pour tout a > 0,
1
E[ |Xn |I{|Xn |>a} ] = E[Xn I{Xn >a} ] = nI{n>a} P(Xn = n) + 0 = nI{n>a} = I{n>a} .
n
Ainsi,
sup E[ |Xn |I{|Xn |>a} ] = 1, et lim sup E[ |Xn |I{|Xn |>a} ] = 1 6= 0.
n≥1 a→∞ n≥1
Exemple 3.1.
1. Une famille finie (Xi )1≤i≤n de v.a. dans L1 (F) est u.i. En effet, pour tout a > 0,
n
hX i
0 ≤ sup E[ |Xi |I{|Xi |>a} ] ≤ E |Xi |I{|Xi |>a} .
1≤i≤n i=1
Pn Pn Pn
De plus, lima→∞ i=1 |Xi |I{|Xi |>a} = 0 p.s., ∀ a > 0, i=1 |Xi |I{|Xi |>a} ≤ i=1 |Xi | ∈
L1 (F), donc d’après le théorème de convergence dominée,
n
hX i h n
X i
lim E |Xi |I{|Xi |>a} = E lim |Xi |I{|Xi |>a} = 0.
a→∞ a→∞
i=1 i=1
24
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
2. Soit (Xn )n≥1 tel que, pour tout n ≥ 1, |Xn | ≤ Z, où Z ≥ 0 et E[Z] < ∞ ; alors (Xn )n≥1
est u.i. En effet, pour tout a > 0, pour tout n ≥ 1,
|Xi |p−1
|Xi |p−1 > ap−1 I{|Xi |p−1 >ap−1 } ⇔ I{|Xi |p−1 >ap−1 } ≤ .
ap−1
Ainsi, pour tout i ∈ I,
E[|Xi |p ] M
E[ |Xi |I{|Xi |>a} ] = E[ |Xi |I{|Xi |p−1 >ap−1 } ] ≤ p−1
≤ p−1 ,
a a
d’où
M
sup E[ |Xi |I{|Xi |>a} ] ≤ , et lim sup E[ |Xi |I{|X |>a} ] = 0.
i∈I ap−1 a→∞ i∈I i
Notons que d’après la remarque 3.1, on ne peut pas espérer descendre jusque p = 1.
4. Soit X ∈ L1 (F). Alors (E[X|G])G ss-tribu de F est u.i. On va montrer que la définition 3.1
est satisfaite. Tout d’abord, vu que X est dans L1 , d’après l’exemple 1., le singleton (X)
est u.i. donc, d’après la définition 3.2, pour tout ε > 0, il existe δ t.q. pour tout A ∈ F
t.q. P(A) < δ,
E[|X|IA ] < ε.
De plus, pour tout G sous-tribu de F, E[X|G] ∈ L1 (G), donc d’après l’inégalité de Markov,
pour tout a > 0,
E[|E[X|G]|] E[E[ |X| |G]] E[|X|]
P(|E[X|G]| > a) ≤ ≤ = ,
a a a
E[|X|]
ainsi, pour tout a > a0 := δ , P(|E[X|G]| > a) < δ et donc
E[|X|I{|E[X|G]|>a} ] < ε.
On conclut que la définition 3.1 est satisfaite en prenant le sup sur toutes les sous-tribus
G de F.
Le théorème suivant motive l’introduction des familles de v.a. u.i. En effet, il donne un critère
nécessaire et suffisant pour avoir équivalence entre convergence en probabilité et convergence
dans L1 . Le théorème de convergence dominée, quant à lui, ne donne qu’un critère suffisant : si
(Xn )n≥1 converge vers X p.s. (donc aussi en probabilité) et si, pour tout n ≥ 1 |Xn | ≤ Z, où
Z ≥ 0 et E[Z] < ∞, alors (Xn )n≥1 converge vers X dans L1 . Notons que comme attendu, cette
hypothèse de domination est plus forte que l’u.i., voir point 2. de l’exemple 3.1.
25
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
Théorème 3.1. Soit (Xn )n≥0 une suite de v.a. dans L1 (F). Alors, il y a équivalence entre :
1. (Xn )n≥0 converge dans L1 vers X∞ ∈ L1 .
2. (Xn )n≥0 converge en probabilité vers X∞ et la famille (Xn )n≥0 est u.i.
Démonstration.
• 1. ⇒ 2. La convergence dans L1 implique la convergence en probabilité (inégalité de Markov).
Pour montrer que (Xn )n≥0 est u.i. utilisons la définition 3.2. On a que (Xn )n≥0 est bornée dans
L1
L1 . En effet, comme Xn → X∞ , il existe C tel que, pour tout n ≥ 0, E[|Xn − X∞ |] ≤ C ; ainsi
kXn − Xm k1 = E[|Xn − Xm |]
= E[|Xn − Xm |I{|Xn −Xm |>a} ] + E[|Xn − Xm |I{a≥|Xn −Xm |>ε} ] + E[|Xn − Xm |I{|Xn −Xm |≤ε} ]
≤ ε + aP(|Xn − Xm | > ε) + ε, d’après (3.2)
ε
≤ ε + a + ε = 3ε, d’après (3.3).
a
On a bien montré que la suite (Xn )n≥0 est de Cauchy dans L1 ce qui clôt cette partie de
preuve.
26
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
3.2.1 Rappels
Vous avez vu les deux théorèmes suivants sur la convergence des martingales.
Théorème 3.2 (Convergence presque sûre). Soit (Xn )n≥0 une martingale bornée dans L1 , i.e.
sup E[|Xn |] < ∞, alors il existe une v.a. X∞ ∈ L1 telle que
n≥0
p.s.
Xn −→ X∞ .
Théorème 3.3 (Convergence dans Lp , p > 1). Soit (Xn )n≥0 une martingale bornée dans Lp
pour p > 1, i.e., supn≥0 E[|Xn |p ] < ∞. Alors, il existe une v.a. X∞ ∈ Lp telle que
Lp
Xn −→ X∞ ,
p.s.
Remarque 3.2. Ce théorème est faux si p = 1. Voici un contre-exemple. Soit (Yk )k≥0 une suite
de v.a. i.i.d. telle que P(Y0 = 2) = P(Y0 = 0) = 21 . Posons, pour tout n ≥ 0,
n
Y
Xn = Yk .
k=0
On considère la filtration naturelle (Fn = σ(Y0 , . . . , Yn ))n≥0 . Alors, pour tout n ≥ 0, Xn est
Fn -mesurable. La famille (Xn )n≥0 est bornée dans L1 car pour tout n ≥ 0,
ainsi,
1 N +1
P(lim sup{|Xn | > ε}) = P(∩N ≥0 ∪n≥N {|Xn | > ε}) ≤ P(∩N ≥0 {Y0 = 2, . . . , YN = 2}) = lim = 0,
n≥0 N →∞ 2
où dans la dernière inégalité on a utilisé qu’il s’agit d’une intersection d’événements décroissants.
L1
Pourtant Xn 9 0, car limn→∞ E[|Xn |] = 1.
27
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
La question qui se pose est donc “ Quand a-t-on convergence dans L1 d’une martingale ? ” La
réponse est donnée par le théorème suivant qui donne des critères nécessaires et suffisants et
utilise l’uniforme intégrabilité.
Théorème 3.4 (Convergence L1 ). Soit (Xn )n≥0 une martingale. Alors les 3 conditions suivantes
sont équivalentes :
1. La suite (Xn )n≥0 converge p.s. et dans L1 vers une v.a. X∞ ∈ L1 ,
2. La suite (Xn )n≥0 est u.i.
3. La martingale (Xn )n≥0 est fermée, c’est-à-dire qu’il existe une v.a. Z ∈ L1 telle que, pour
tout n ≥ 0, Xn = E[Z|Fn ] p.s.
Si la condition 1. est satisfaite, on peut prendre Z = X∞ dans 3.
Démonstration.
• 1. ⇒ 2. D’après le théorème 3.1, on a que si (Xn )n≥0 converge dans L1 alors (Xn )n≥0 est u.i.
• 2. ⇒ 1. Si (Xn )n≥0 est u.i. alors, d’après la définition 3.2, la famille (Xn )n≥0 est bornée dans
L1 ce qui, d’après le théorème 3.2, implique qu’elle converge p.s. donc en probabilité. Avec l’u.i.
et le théorème 3.1 ceci implique la convergence en L1 .
L1
• 1. ⇒ 3. Supposons que Xn −→ X∞ . Pour montrer que, pour tout n ≥ 0, Xn = E[X∞ |Fn ]
p.s.
p.s. nous allons prouver que E[|Xn − E[X∞ |Fn ]|] = 0. Comme (Xn )n≥0 est une martingale, nous
savons que pour tout k ≥ 0,
E[Xn+k |Fn ] = Xn .
p.s.,L1
De plus, nous avons aussi que, pour tout n ≥ 0, Xn+k −→ X∞ . Ainsi,
k→∞
• 3. ⇒ 2. D’après le point 4. de l’exemple 3.1, si Z ∈ L1 , alors la famille (E[Z|Fn ])n≥0 est u.i.,
ce qui est exactement le point 2.
Définition 3.3. Soit (Xn )n≥0 un processus adapté qui converge p.s. vers X∞ . Pour tout temps
d’arrêt T , fini ou non, on définit :
∞
X
XT = Xn I{T =n} + X∞ I{T =∞} .
n=0
28
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
Théorème 3.5. Soit (Xn )n≥0 une martingale u.i. (elle converge donc p.s. et dans L1 vers une
v.a. X∞ ∈ L1 ). Alors pour tout temps d’arrêt T (fini ou non), on a
XT = E[X∞ |FT ].
E[XT |FS ] = XS .
Remarque 3.3.
• Comme conséquence du point 4. de l’exemple 3.1, on a que la famille (XT = E[X∞ |FT ])T temps d’arrêt
est u.i.
• Par rapport au théorème d’arrêt, on demande en plus la convergence p.s. et dans L1 de la
martingale. On gagne le fait que le processus arrêté soit fermé, et on peut enlever l’hypothèse
de temps d’arrêt borné p.s.
E[XT IB ] = E[X∞ IB ].
On a,
∞
X
E[XT IB ] = E[Xn IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], Fubini XT ∈ L1
n=0
X∞
= E[E[X∞ |Fn ]IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], point 3. du théorème 3.4
n=0
X∞
= E[X∞ IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], définition e.c. et B ∩ {T = n} ∈ Fn
n=0
= E[X∞ IB ].
29
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
En prenant l’espérance dans XT = E[X∞ |FT ], on obtient que E[XT ] = E[X∞ ]. En prenant
l’espérance dans Xn = E[X∞ |Fn ], on obtient que E[Xn ] = E[X∞ ], pour tout n ≥ 0.
La fin de la preuve est analogue à celle dans le cas où T, S sont bornés p.s. On a
FS ⊂FT
E[XT |FS ] = E[E[X∞ |FT ]|FS ] = E[X∞ |FS ] = XS .
Cette section n’utilise pas l’uniforme intégrabilité. On se donne une filtration (Fn )n≥0 . Le but
est de démontrer la loi forte des grands nombres en utilisant le théorème de convergence dans
L2 des martingales. Nous démontrons d’abord la proposition suivante.
Proposition 3.1. Soit (Xn )n≥0 une martingale telle que X0 = 0 et
X 1
E[(Xn − Xn−1 )2 ] < ∞.
n2
n≥1
Xn p.s.
Alors, −→ 0.
n
Démonstration. Posons M0 = 0 et pour tout n ≥ 1,
n
X 1
Mn = (Xk − Xk−1 ).
k
k=1
Si k 6= k 0 , supposons sans perte de généralité que k 0 > k. Alors, d’après les propriétés de
l’espérance conditionnelle, on a
30
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
Théorème 3.6 (Loi forte des grands nombres). Soit (Yn )n≥1 une suite de v.a. i.i.d. telle que
E[|Y1 |] < ∞. Alors,
n
1X p.s.
Yk −→ E[Y1 ].
n
k=1
Démonstration. Quitte à poser Ỹn = Yn − E[Yn ], on peut supposer E[Y1 ] = 0, ce que l’on va faire
dans la suite.
Posons X0 = 0 et pour tout n ≥ 1,
n
X
Xn = Yk I{|Yk |≤k} − E[Yk I{|Yk |≤k} ] .
k=1
• Montrons que (Xn )n≥0 est une martingale pour la filtration F0 = {∅, Ω}, (Fn = σ(Y1 , . . . , Yn ))n≥1 .
◦ Pour tout n ≥ 0, Xn est Fn -mesurable et dans L1 comme somme finie de v.a. dans L1 ,
en utilisant l’hypothèse Y1 ∈ L1 .
31
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
où dans la deuxième égalité on utilise le fait que les (Yn )n≥1 sont indépendantes et que
l’espérance est constante.
•PMontrons que (Xn )n≥0 satisfait à l’hypothèse de la proposition précédente, c’est-à-dire que
1 2
k≥1 k2 E[(Xk − Xk−1 ) ] < ∞. On a
1 1 1
Par ailleurs, pour tout k ≥ 1, puisque k2
≤2 k − k+1 , on a
1 2 2 2
Y I ≤ Y 2I − Y 2I
k 2 1 {|Y1 |≤k} k 1 {|Y1 |≤k} k + 1 1 {|Y1 |≤k}
2 2 2
= Y12 I{|Y1 |≤k} − Y12 I{|Y1 |≤k+1} + I .
k k+1 k + 1 {k<|Y1 |≤k+1}
Ainsi, en prenant la somme sur k ∈ {1, . . . , n} et en remarquant le télescopage, nous obtenons
n m
X 1 2
h
2 2 2
i X h 1
2
i
E[(Xk − Xk−1 ) ] ≤ E 2Y1 I{|Y |≤1} − Y I {|Y |≤n+1} + 2 E Y I {k<|Y |≤k+1}
k2 1
n+1 1 1
k+1 1 1
k=1 k=1
1 1
Ensuite, nous bornons Y12 par 1 dans le premier terme, le deuxième terme par 0, et k+1 par |Y1 |
dans la dernière somme, ce qui nous donne
n m
X 1 2
X
E[(Xk − Xk−1 ) ] ≤ 2 + 2 E[|Y1 |I{k<|Y1 |≤k+1} ] = 2 + 2E[|Y1 |I{1<|Y1 |≤n+1} ].
k2
k=1 k=1
32
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
1 Pn n→∞
En conséquence d’après le théorème de Cesarò, n k=1 E[Yk I{|Yk |≤k} ] −→ 0, et donc
n
1X p.s.
Yk I{|Yk |≤k} −→ 0. (3.4)
n
k=1
Vu que Y1 < ∞ p.s., le premier terme tend vers 0 p.s. lorsque n tend vers l’infini. Pour le
deuxième, on a p.s.
n n
1 X 1 X
Yk = Yk I{|Yk |≤k} , d’après notre utilisation du lemme de Borel-Cantelli
n n
k=N k=N
n N −1
1 X 1 X
= Yk I{|Yk |≤k} − Yk I{|Yk |≤k} ;
n n
k=1 k=1
le premier tend vers 0 p.s. d’après l’identité (3.4), le deuxième tend vers 0 p.s. car Y1 < ∞ p.s.
En conclusion, on a montré la loi des grands nombres :
n
1X p.s.
Yk −→ 0.
n
k=1
33
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications
34
Chapitre 4
La théorie des systèmes dynamiques contrôlés existe à la fois en temps discret et en temps
continu, dans un cadre déterministe ou stochastique (aléatoire). Ce cours est consacré au cas
stochastique discret. Le cas déterministe est plus simple (il s’agit d’un cas particulier), par contre
le cas stochastique continu est plus complexe et fait appel aux EDS rétrogrades.
◦ Le temps discret, N.
◦ L’espace des états, S : ensemble dénombrable, muni de la tribu P(S) des parties de S.
On note Proba (S) l’ensemble des mesures de probabilité sur (S, P(S)).
◦ L’espace des actions, A : ensemble quelconque.
Définition 4.1. Un système dynamique contrôlé, stochastique et en temps discret, avec espace
des états S et espace des actions A, est la donnée d’une application
P : N × S × A −→ Proba (S).
où Y ∼ P (n, x, a), à condition que la somme dans le membre de droite soit bien définie.
Souvent P sera homogène en temps et pourra être vu comme une fonction P : S×A → Proba (S).
Dans ce cas, pour toute fonction F : S → R,
X
P F (x, a) = P (x, a)(y)F (y).
y∈S
35
Chapitre 4. Contrôle des chaînes de Markov
Définition 4.2. Un contrôle est une politique de choix des actions. Formellement, soit k ∈ N,
on appelle contrôle partant de k, une application
u : Sk∗ −→ A,
En mots cette définition se reformule de la manière suivante : sachant qu’à l’instant k on est
dans l’état x, et qu’entre les instants k et n on a visité les états (xk = x, . . . , xn ), à l’instant n
on choisit le contrôle un (xk , . . . , xn ) pour déterminer la distribution de l’état suivant Xn+1 .
Remarque 4.1. Cette définition détermine la loi du processus (Xn )n≥k ; en effet, pour tout n ≥ k,
pour tout (xk , . . . , xn ) ∈ S n−k+1 , on a
P(Xk = xk , . . . , Xn = xn )δx,xk P (k, xk , uk (xk ))(xk+1 ) . . . P (n − 1, xn−1 , un−1 (xk , . . . , xn−1 ))(xn ).
La paire (G, (Zn )n≥0 ) s’appelle une réalisation d’un système dynamique contrôlé.
Étant donné un instant et un état initial (k, x) ∈ N × S, un contrôle u ∈ Ck , on peut réaliser le
processus contrôlé (Xn )n≥k associé en le définissant par
◦ Xk = x,
◦ pour tout n ≥ k, Xn+1 = G(n, Xn , Un , Zn+1 ) avec Un = un (Xk , . . . , Xn ).
Remarque 4.2. Tout système dynamique contrôlé peut être réaliser de cette manière ; parfois
cela est naturel parfois ça ne l’est pas.
36
Chapitre 4. Contrôle des chaînes de Markov
Dans ce cas, le processus contrôlé (Xn )n≥k est markovien, de matrice de transition
( P (n, x, un (x))(y) )(x,y)∈S 2 .
On parle de processus ou chaîne de Markov contrôlée.
Si le contrôle markovien u est de plus homogène, on peut le voir comme une fonction de S → A
et on note u(xn ) = un (xn ). Si de plus, le système dynamique contrôlé est homogène en temps,
la chaîne contrôlée markovienne est alors homogène, de matrice de transition
( P (x, u(x))(y) )(x,y)∈S 2 .
On parle de processus ou chaîne de Markov contrôlée homogène.
4.2.1 Le problème
Notre objectif est de déterminer le “meilleur” contrôle pour un système dynamique aléatoire
contrôlé donné. Pour cela nous introduisons une fonction de coût. Notons que dans la suite,
l’application G (ou P ) est fixée.
Définition 4.4.
◦ La fonction de coût est une application c : N × S × A → R.
◦ Pour tout temps et état initial (k, x) ∈ N × S, pour tout contrôle u ∈ Ck , on définit le
coût moyen du processus (Xn )n≥k contrôlé par u d’état initial (k, x), par
∞
hX i
u
V (k, x) = E c(n, Xn , Un ) ,
n=k
avec Un = un (Xk , . . . , Xn ) ; sous réserve que cette expression ait un sens, ce qui est bien
le cas lorsque c est une fonction positive ou négative, ou lorsque sup(x,a)∈S×A |c(n, x, a)|
est sommable sur N. Dans la suite on supposera être dans un de ces trois cas.
Pour tout n ≥ k, c(n, Xn , Un ) représente le coût de faire le contrôle Un à l’instant n
lorsqu’on se trouve en Xn .
Nous cherchons à minimiser ce coût sur tous les contrôles, ce qui amène naturellement aux
définitions suivantes.
Définition 4.5.
◦ On définit la fonction valeur du système, V : N × S → R, par
∀ (k, x) ∈ N × S, V (k, x) = inf V u (k, x).
u∈Ck
Précisément, nos objectifs sont de déterminer la fonction valeur V et d’identifier le(s) contrôle(s)
optimal(aux) lorsqu’il(s) existe(nt).
En pratique, on ne peut pas faire de recherche sur tous les contrôles car il y a trop de cas. La
solution est donnée par le théorème fondamental de la section suivante qui introduit aussi les
équations de Bellman.
37
Chapitre 4. Contrôle des chaînes de Markov
Démonstration.
• Préliminaire. Montrons que
X
V u (k, x) = c(k, x, uk (x)) + P (k, x, uk (x))(y)V ũ (k + 1, y) = (c + P V ũ )(k, x, uk (x)), (4.1)
y∈S
Pour le temps et l’état initial (k + 1, y), en utilisant la réalisation (G, (Zn )n≥0 ) du système
dynamique contrôlé et le contrôle ũ ∈ Ck+1 , on définit le processus contrôlé (X̃n )n≥k+1 par
◦ X̃k+1 = y ;
◦ ∀ n ≥ k + 1, X̃n+1 = G(n, X̃n , Ũn , Zn+1 ).
Alors, si l’événement {Xk+1 = y} est réalisé on a, pour tout n ≥ k + 1, X̃n = Xn et Ũn = Un .
En effet, par récurrence sur n,
◦ n = k + 1 : X̃k+1 = y = Xk+1 et
def. Ũ def. ũ def. U
Ũk+1 = ũk+1 (X̃k+1 ) = uk+1 (x, X̃k+1 ) = uk+1 (Xk , Xk+1 ) = Uk+1 .
38
Chapitre 4. Contrôle des chaînes de Markov
et
Remarquons de plus que, X̃k+1 est constante donc indépendante de Xk+1 , et que pour tout
n ≥ k + 2, X̃n est σ(Zk+2 , . . . , Zn )-mesurable, donc indépendante de Xk+1 qui est σ(Zk+1 )-
mesurable (par indépendance des (Zn )n≥0 ). De la première identité ci-dessus, on déduit aussi
que pour tout n ≥ k + 1, Ũn est indépendante de Xk+1 .
Ainsi, on a que
∞
h X i ∞
h X i
E c(n, Xn , Un )I{Xk+1 =y} = E c(n, X̃n , Ũn )I{Xk+1 =y}
n=k+1 n=k+1
∞
h X i
=E c(n, X̃n , Ũn ) P(Xk+1 = y)
n=k+1
ũ
= V (k + 1, y)P(Xk+1 = y),
où dans la première égalité on utilise l’égalité presque sûre des variables aléatoires, dans la
deuxième l’indépendance et dans la troisième le fait que la réalisation (G, (Zn )n≥1 ) du système
dynamique est la même pour (X̃n )n≥k+1 et (Xn )n≥k ; seuls le contrôle et la condition initiale
sont différents.
La preuve de l’identité (4.1) est conclue en remarquant que
• Montrons que V (k, x) ≥ inf a∈A (c + P V )(k, x, a). D’après (4.1), on a pour tout contrôle u ∈ Ck ,
X
V u (k, x) = c(k, x, uk (x)) + P (k, x, uk (x))(y)V ũ (k + 1, y)
y∈S
X
≥ c(k, x, uk (x)) + P (k, x, uk (x))(y)V (k + 1, y), par définition de V (k + 1, y)
y∈S
X
≥ inf c(k, x, a) + P (k, x, a)(y)V (k + 1, y)
a∈A
y∈S
39
Chapitre 4. Contrôle des chaînes de Markov
Ceci étant vrai pour tout choix de uk (x), on peut prendre l’infimum sur les a ∈ A à droite, ce
qui nous donne,
X
V (k, x) ≤ inf c(k, x, a) + P (k, x, a)(y)V (k + 1, y) + ε.
a∈A
y∈S
Remarque 4.4.
1. On peut définir une fonction de gain r : N × S × A → R au lieu d’une fonction de coût.
On cherche alors,
V (k, x) = sup V u (k, x).
u∈Ck
Notons que la politique de contrôle u n’a pas besoin d’être homogène en temps (ceci se
voit à travers l’équation de Bellman où l’homogénéité en temps des contrôles n’est plus
nécessaire vu que l’on prend l’infimum sur tous les a ∈ A).
40
Chapitre 4. Contrôle des chaînes de Markov
On se donne :
◦ un système dynamique contrôlé P : N × S × A → Proba(S)
◦ un horizon de temps N ∈ N et une fonction de coût c : N × S × A → R tels que
(
0 si n ≥ N + 1
c(n, x, a) =
C(x) si n = N , pour une fonction C : S → R donnée.
Notons que pour tout contrôle u, V (N, x) = V u (N, x) = C(x) car le membre de droite est
indépendant de u. Ainsi, en utilisant l’équation de Bellman
X
V (k, x) = inf c(k, x, a) + V (k + 1, y)P (k, x, a)(y) (4.3)
a∈A
y∈S
on peut construire par une récurrence rétrograde, V (N − 1, x), . . . , V (0, x). La solution est donc
unique.
Il reste encore à déterminer un contrôle optimal. Dans le cadre markovien, ceci est donné par la
proposition suivante.
Proposition 4.1. Soit 0 ≤ k0 ≤ N . Supposons que u ∈ Ck0 est un contrôle markovien tel que,
pour tout k0 ≤ k ≤ N − 1, pour tout x ∈ S,
Démonstration. Soit u ∈ Ck0 un tel contrôle markovien et soit (Xn )n≥k0 le processus contrôlé
associé de temps et état initial (k0 , x). Définissons,
(
V (k0 , x) si k = k0
Mk = Pk−1
j=k0 c(j, Xj , Uj ) + V (k, Xk ) si k0 + 1 ≤ k ≤ N .
E[Mk+1 − Mk |Xk = y] = P V (k, y, uk (y)) − V (k, y) + c(k, y, uk (y)), car u est markovien
= 0, par hypothèse,
41
Chapitre 4. Contrôle des chaînes de Markov
P
où on a utilisé que E[V (k+1, Xk+1 )|Xk = y] = z∈S V (k+1, z)P (k, y, uk (y))(z) = P V (k, y, uk (y)).
Ceci étant vrai pour tout y ∈ S, on déduit que pour tout k0 ≤ k ≤ N − 1, E[Mk ] = E[Mk+1 ].
Ainsi,
−1
hNX i
V (k0 , x) = E[Mk0 ] = E[MN ] = E c(j, Xj , Uj ) + V (N, XN ) = V u (k0 , x).
j=k0
En conclusion : dans le cas horizon fini, il suffit de trouver à chaque étape l’action qui mini-
mise (4.3), si elle existe, pour construire une politique de contrôle optimal.
Lien avec l’arrêt optimal dans le cadre markovien. On se donne une chaîne de Markov
(Xn )n≥0 à valeurs dans un espace E. Alors, pour tout n ≥ 0,
Xn+1 = G(n, Xn , εn+1 ),
où (εn )n≥0 est une suite de v.a. i.i.d. Soit (Yn )0≤n≤N = (ϕn (Xn ))0≤n≤N le processus de grain
associé. Alors la fonction valeur satisfait :
◦ ZN = YN = ϕN (XN )
◦ ∀, 0 ≤ k ≤ N − 1, Zk = max(Yk , E[Zk+1 |Fk ]).
Dans le cadre markovien, on peut écrire, Zk = Vk (Xk ) (voir cours) et
◦ ZN = VN (XN ) = ϕN (XN )
◦ ∀ 0 ≤ k ≤ N − 1, Vk (Xk ) = max(ϕk (Xk ), E[Vk+1 (G(k, Xk , εk+1 ))|Xk ]). Ainsi,
∀ x ∈ E, Vk (x) = max(ϕk (x), E[Vk+1 (G(k, x, εk+1 ))])
Traduisons maintenant ceci en contrôle optimal. On se donne
◦ Espace des états S = E ∪ {∆} (l’espace de la chaîne de Markov avec un cimetière).
◦ Espace des action A = {0, 1}, où 0 signifie “on continue” et 1 “on arrête”.
◦ Une réalisation du système dynamique contrôlé
(
G(n, x, εn+1 ) si x ∈ E et a = 0 (on continue)
G̃(n, x, a, εn+1 ) =
∆ sinon (càd x ∈ E et a = 1, ou x = ∆ et a ∈ {0, 1}).
42
Chapitre 4. Contrôle des chaînes de Markov
43