0% ont trouvé ce document utile (0 vote)
28 vues46 pages

Polycop CCM

Le document présente un cours sur le contrôle des chaînes de Markov, destiné aux étudiants de Master 1 en Mathématiques approfondies à l'Université Paris-Dauphine. Il aborde des concepts clés tels que l'espérance conditionnelle, les martingales, et les problèmes d'arrêt optimal, tout en fournissant des définitions, des théorèmes et des applications pratiques. Le contenu est basé sur les notes de plusieurs auteurs et inclut des sections détaillées sur les constructions mathématiques et les équations de programmation dynamique.

Transféré par

none
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
28 vues46 pages

Polycop CCM

Le document présente un cours sur le contrôle des chaînes de Markov, destiné aux étudiants de Master 1 en Mathématiques approfondies à l'Université Paris-Dauphine. Il aborde des concepts clés tels que l'espérance conditionnelle, les martingales, et les problèmes d'arrêt optimal, tout en fournissant des définitions, des théorèmes et des applications pratiques. Le contenu est basé sur les notes de plusieurs auteurs et inclut des sections détaillées sur les constructions mathématiques et les équations de programmation dynamique.

Transféré par

none
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Université Paris-Dauphine

Contrôle des chaînes de Markov

Master 1, Mathématiques approfondies

Béatrice de Tilière
Basé sur les notes de
M. Gubinelli, B. Haas, F. Siemenhaus

et certaines parties inspirées du polycopié


Intégration, Probabilités et Processus Aléatoires de J.-F. Le Gall
TABLE DES MATIÈRES

1 Espérance conditionnelle 3
1.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2 Construction de l’espérance conditionnelle dans le cas L2 . . . . . . . . . . . . . . 4
1.2.1 Projection orthogonale dans L2 . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2.2 Construction de l’espérance conditionnelle dans le cas L2 . . . . . . . . . . 7
1.3 Construction de l’espérance conditionnelle dans le cas L1 . . . . . . . . . . . . . . 8
1.4 Quelques cas particuliers . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.1 Espérance conditionnelle discrète . . . . . . . . . . . . . . . . . . . . . . . 8
1.4.2 Espérance conditionnelle par rapport à une variable aléatoire . . . . . . . 8
1.5 Propriétés de l’espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . 9

2 Arrêt optimal en horizon fini 11


2.1 Temps d’arrêt et martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.1 Temps d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.1.2 Martingales et théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2 Arrêt optimal en horizon fini : résultats généraux . . . . . . . . . . . . . . . . . . 15
2.3 Arrêt optimal : problèmes avec structure markovienne . . . . . . . . . . . . . . . 18
2.3.1 Rappels sur les chaînes de Markov . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2 Arrêt optimal avec structure markovienne . . . . . . . . . . . . . . . . . . 20
2.4 Arrêt optimal : problèmes monotones . . . . . . . . . . . . . . . . . . . . . . . . . 21

3 Compléments sur les martingales : uniforme intégrabilité et ap-


plications 23
3.1 Uniforme intégrabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.2 Martingales, convergence L1 , théorème d’arrêt . . . . . . . . . . . . . . . . . . . . 27
3.2.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.2.2 Convergence dans L1 des martingales . . . . . . . . . . . . . . . . . . . . . 28
3.2.3 Théorème d’arrêt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

i
3.3 Application de la convergence des martingales : la LFGN . . . . . . . . . . . . . . 30

4 Contrôle des chaînes de Markov 35


4.1 Processus et chaînes de Markov contrôlés . . . . . . . . . . . . . . . . . . . . . . . 35
4.2 Équations de la programmation dynamique . . . . . . . . . . . . . . . . . . . . . 37
4.2.1 Le problème . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
4.2.2 La fonction valeur : équations de Bellman . . . . . . . . . . . . . . . . . . 38
4.3 Contrôle stochastique à horizon fini . . . . . . . . . . . . . . . . . . . . . . . . . . 41

1
2
Chapitre 1

Espérance conditionnelle

Le but de ce chapitre est de construire l’espérance conditionnelle et d’en donner les propriétés
principales.
Notations
◦ (Ω, F, P) est un espace de probabilité.
◦ X : (Ω, F) → (R, B(R)) est une variable aléatoire réelle.
◦ Soit p ≥ 1,

Lp (Ω, F, P) = {X : Ω → R : X est une v.a., E[|X|p ] < ∞}.

Soit la relation d’équivalence X ∼ Y , ssi X = Y p.s ; alors

Lp (Ω, F, P) = Lp (Ω, F, P)/ ∼

On note Lp (F) := Lp (Ω, F, P).


On considère une variable aléatoire X ∈ L1 (F). Soit G une sous-tribu de F, il faut penser à G
comme représentant une certaine quantité d’information. La question que l’on aborde dans ce
chapitre est la suivante : étant donné la sous-tribu G de F, on cherche à estimer la variable aléa-
toire X sachant l’information (partielle) contenue dans G. Pour cela on va considérer l’espérance
conditionnelle de X sachant G qui, intuitivement, est la variable aléatoire G-mesurable la plus
proche de X.

1.1 Définition

Définition 1.1 (Théorème). Soit X ∈ L1 (F) et G une sous-tribu de F. Alors, il existe une
unique variable aléatoire Y ∈ L1 (G), telle que :

∀ B ∈ G, E[XIB ] = E[Y IB ]. (1.1)

On la note Y = E(X|G) et on l’appelle l’espérance conditionnelle de X sachant G. La condi-


tion (1.1) est équivalente à la condition

∀ Z v.a. G-mesurable bornée, E[XZ] = E[Y Z]. (1.2)

3
Chapitre 1. Espérance conditionnelle

Remarque 1.1. La condition (1.2) implique (1.1) en prenant Z = IB . Pour la réciproque, on utilise
l’approximation usuelle des fonctions G-mesurables par des fonctions étagées G-mesurables.

Preuve de l’unicité. Soient Y, Y 0 deux v.a. dans L1 (G) telles que

∀ B ∈ G, E[XIB ] = E[Y IB ] = E[Y 0 IB ].

Posons B = {Y 0 > Y }, alors B ∈ G car les v.a. Y, Y 0 sont G-mesurables. Ainsi,

E[(Y 0 − Y )I{Y 0 −Y >0} ] = 0.

La v.a. (Y 0 − Y )I{Y 0 −Y >0} étant positive p.s., on déduit que (Y 0 − Y )I{Y 0 −Y >0} = 0 p.s., d’où
Y 0 ≤ Y p.s. De manière analogue Y 0 ≥ Y p.s. et par suite Y 0 = Y p.s.

La preuve de l’existence est plus complexe. Il existe deux approches :


— Utiliser le théorème de Radon-Nikodym que l’on verra en exercice.
— Passer par les variables aléatoires dans L2 et utiliser les projections orthogonales. On
utilise cette approche car elle est plus intuitive.

1.2 Construction de l’espérance conditionnelle dans le cas L2

Le but de cette section est de montrer que dans le cas où la variable aléatoire X est dans L2 (F),
l’espérance conditionnelle de X sachant G est la projection orthogonale de X sur le sous-espace
L2 (G). Cette construction servira aussi pour montrer l’existence de l’espérance conditionnelle
dans le cas L1 .

1.2.1 Projection orthogonale dans L2

L’espace L2 (F) est un espace vectoriel. On introduit

< ·, · > : L2 (F) × L2 (F) → R


(X, Y ) 7→ E(XY ).

Remarquons que cette application est bien définie par l’inégalité de Cauchy-Schwarz.

Lemme 1.1. L’application < ·, · > est un produit scalaire sur L2 (F).

Démonstration. Forme bilinéaire symétrique : clair. Définie positive : soit X ∈ L2 (F) telle que
E[X 2 ] = 0, alors X = 0 p.s.

Le théorème suivant est un cas particulier (p = 2) du théorème de Riesz-Fisher qui dit que, pour
tout p ∈ [1, ∞], l’espace Lp (F) est un espace de Banach, i.e. un espace vectoriel normé complet.

Théorème 1.1. L’espace (L2 (F), < ·, · >) est un espace de Hilbert.

4
Chapitre 1. Espérance conditionnelle

Démonstration. Dans toute la démonstration, nous omettons d’écrire F dans L2 (F). Par défini-
tion il faut montrer que L2 est complet pour la norme k · k2 découlant du produite scalaire, i.e.
il faut montrer que toute suite de Cauchy dans L2 converge dans L2 .
• (Xn )n≥1 est de Cauchy dans L2 : pour tout ε > 0, ∃ N ≥ 1, tel que ∀ n, m ≥ N ,
kXn − Xm k2 ≤ ε.

• On veut montrer qu’il existe une v.a. X dans L2 , telle que pour tout ε > 0, il existe N ≥ 1 tel
que pour tout n ≥ N , kXn − Xk2 ≤ ε.
• Étape 1 : il existe une sous-suite (X̂m )m≥1 qui converge vers une v.a. X p.s.
D’après la propriété d’être de Cauchy, il existe une suite strictement croissante (nk )k≥1 telle que
1
∀ k ≥ 1, ∀ n, m ≥ nk , kXn − Xm k2 ≤ k ,
2
alors, ∀ k ≥ 1, kXnk+1 − Xnk k2 ≤ 21k . Posons X̂k = Xnk , ainsi ∀ k ≥ 1, kX̂k+1 − X̂k k2 ≤ 21k .
Posons Ym = m
P
k=1 |X̂k+1 − X̂k |. Alors, (Ym )m≥1 est une suite croissante de v.a. positives, donc
elle est simplement convergente vers une limite Y ≥ 0 p.s. Montrons que Y < ∞ p.s.
E[Y 2 ] = lim E[Ym2 ], d’après le théorème de convergence monotone
m→∞
m
 X 2
= lim kYm k22 = lim |X̂k+1 − X̂k |
m→∞ m→∞ 2
k=1
m
X 2
≤ lim kX̂k+1 − X̂k k2 , d’après l’inégalité de Minkowski (kf + gkp ≤ kf kp + kgkp )
m→∞
k=1

X 1 2
≤ < ∞.
2k
k=1
P∞
On a donc bien Y =
Pm−1 k=1 |X̂k+1 − X̂k | < ∞ p.s. Ainsi, pour presque tout ω ∈ Ω, la série
k=1 (X̂k+1 (ω) − X̂k (ω)) est absolument convergente, donc convergente. En conséquence, pour
presque tout ω ∈ Ω, la série
m−1
X
X̂1 (ω) + (X̂k+1 (ω) − X̂k (ω)) = X̂m (ω)
k=1
est convergente. Notons X(ω) la limite et posons X(ω) = 0 là où la convergence n’a pas lieu.
Ainsi, on a montré l’étape 1 : la sous-suite (X̂m )m≥1 converge vers X p.s.
• Étape 2 : la sous-suite (X̂m )n≥1 converge vers X dans L2 . Rappelons qu’en général la conver-
gence p.s. n’implique pas la convergence dans L2 . Cependant, d’après le théorème de convergence
dominée, s’il existe Z ∈ L2 tel que, pour tout m ≥ 1, |X̂m | ≤ Z, alors c’est vrai. On a, pour
presque tout ω ∈ Ω,
m−1
X
|X̂m (ω)| = |X̂1 (ω) + (X̂k+1 (ω) − X̂k (ω))|
k=1
m−1
X
≤ |X̂1 (ω)| + |X̂k+1 (ω) − X̂k (ω)|
k=1
≤ |X̂1 (ω)| + Ym−1 (ω) ≤ |X̂1 (ω)| + Y (ω),

5
Chapitre 1. Espérance conditionnelle

où X̂1 ∈ L2 par hypothèse et Y ∈ L2 a été démontré ci-dessus, ce qui conclut cette étape.
• Étape 3 : conclusion (une suite de Cauchy avec une sous-suite convergente est convergente).
Soit ε > 0. D’une part, comme (X̂m )m≥1 converge vers X dans L2 ,
ε
∃ M0 tel que ∀ m ≥ M0 , kXnm − Xk2 ≤ .
2
D’autre part, comme (Xn )n≥1 est de Cauchy,
ε
∃ N0 tel que ∀ n, m ≥ N0 , kXn − Xm k2 ≤ .
2
Posons m0 = max{M0 , N0 }. Alors, nm0 ≥ m0 (car (nk )k≥1 est strictement croissante), d’où pour
tout n ≥ m0 ,
kXn − Xk2 ≤ kXn − Xnm0 k2 + kXnm0 − Xk2 ≤ ε.
D’après l’étape précédente nous savons que X ∈ L2 , ainsi nous avons bien démontré que (Xn )n≥1
converge vers X dans L2 .

Théorème 1.2 (Projection orthogonale dans L2 ). Soit G ⊂ F une sous-tribu et L2 (G) ⊂ L2 (F).
Pour tout X ∈ L2 (F), il existe une unique (p.s.) v.a. Y ∈ L2 (G) qui satisfait une des propriétés
équivalentes suivantes.
1. E[(X − Y )2 ] = inf E[(X − Z)2 ].
Z∈L2 (G)

2. X − Y ⊥ L2 (G), c’est-à-dire que pour tout Z ∈ L2 (G), E[(X − Y )Z] = 0.


On appelle Y la projection orthogonale de X sur L2 (G).

Démonstration.
• Étape 1 : montrons l’existence d’une v.a. Y ∈ L2 (G) satisfaisant la propriété 1. Notons que
l’infimum, inf Z∈L2 (G) E[(X − Z)2 ] existe car l’ensemble en question est non-vide et minoré par
0. Soit donc (Yn )n≥1 une suite minimisante dans L2 (G), i.e.,

lim E[(X − Yn )2 ] = inf E[(X − Z)2 ] := ∆.


n→∞ Z∈L2 (G)

Montrons que cette suite est de Cauchy dans L2 (G). Pour cela utilisons l’identité (a + b)2 =
2(a2 + b2 ) − (a − b)2 avec a = Yn − X, b = X − Ym . On obtient, pour tout n, m ≥ 1,
  h Yn + Ym 2 i
E[(Yn − Ym )2 ] = 2 E[(Yn − X)2 ] + E[(X − Ym )2 ] − 4E X −
  2
2 2
≤ 2 E[(Yn − X) ] + E[(X − Ym ) ] − 4∆,

m 2
car E X − Yn +Y ≥ ∆ étant donné que la fonction Yn +Y ∈ L2 (G). Soit ε > 0, alors il
  
m
2 2
2 ε
existe N ≥ 1 tel que pour tout n ≥ N , |E[(Yn − X) ] − ∆| ≤ 4 . Ainsi, en utilisant l’inégalité
triangulaire on déduit que, pour tout n, m ≥ N ,
ε ε 
E[(Yn − Ym )2 ] ≤ 2 + + 2∆ − 4∆ = ε,
4 4
d’où la suite (Yn )n≥1 est de Cauchy dans L2 (G). D’après le Théorème 1.1, elle converge dans
L2 (G) vers une v.a. que l’on note Y (on rappelle qu’en particulier Y ∈ L2 (G)).

6
Chapitre 1. Espérance conditionnelle


Il nous reste à montrer que E[(X − Y )2 ] = ∆, autrement dit que kX − Y k2 = ∆. Utilisant le
fait que Y ∈ L2 (G) à gauche et l’inégalité de Minkowski à droite, on obtient

∆ ≤ kX − Y k2 ≤ kX − Yn k2 + kYn − Y k2 .

Le premier terme de droite tend vers ∆ par définition de (Yn )n≥1 et le deuxième tend vers 0
L2
car nous avons montré que Yn → Y . On conclut la preuve par encadrement en prenant la limite.
• Étape 2 : montrons l’équivalence entre les propriétés 1. et 2. Soit Y ∈ L2 (G) satisfaisant la
propriété 1. et Z ∈ L2 (G), alors pour tout t ∈ R, Y + tZ ∈ L2 (G), d’où en utilisant le point 1.
dans la première inégalité, on a :

0 ≤ E[(X − Y − tZ)2 ] − E[(X − Y )2 ] = −2tE[(X − Y )Z] + t2 E[Z 2 ].

d’où pour tout t ∈ R, 2tE[(X − Y )Z] ≤ t2 E[Z 2 ]. Ainsi,


t t
∀ t > 0, E[(X − Y )Z] ≤ E[Z 2 ] et lim E[Z 2 ] = 0,
2 t→0+ 2
t t
∀ t < 0, E[(X − Y )Z] ≥ E[Z 2 ] et lim E[Z 2 ] = 0,
2 t→0 2

et par suite E[(X − Y )Z] = 0.


Réciproquement, soit Y ∈ L2 (G) satisfaisant à la propriété 2. et Z ∈ L2 (G) ; alors Z − Y ∈ L2 (G)
et,

E[(X − Z)2 ] = E[(X − Y )2 ] − 2E[(X − Y )(Z − Y )] + E[(Z − Y )2 ]


= E[(X − Y )2 ] + E[(Z − Y )2 ], d’après la propriété 2.

Ainsi, pour tout Z ∈ L2 (G), E[(X − Y )2 ] ≤ E[(X − Z)2 ], et par suite,

E[(X − Y )2 ] ≤ inf E[(X − Z)2 ].


Z∈L2 (G)

Comme Y ∈ L2 (G), E[(X − Y )2 ] ≥ inf Z∈L2 (G) E[(X − Z)2 ], d’où Y satisfait à la propriété 1.
• Étape 3 : unicité. Supposons qu’il existe Y, Y 0 ∈ L2 (G) satisfaisant la propriété 2. On a

E[(Y − Y 0 )2 ] = E[(Y − X + X − Y 0 )(Y − Y 0 )]


= E[(Y − X)(Y − Y 0 )] − E[(Y 0 − X)(Y − Y 0 )] = 0, car Y − Y 0 ∈ L2 (G),

d’où Y − Y 0 = 0 p.s.

1.2.2 Construction de l’espérance conditionnelle dans le cas L2

Soit X ∈ L2 (F) et Y ∈ L2 (G) la projection orthogonale de X sur L2 (G). Pour tout B ∈ G,


IB ∈ L2 (G), d’où d’après la propriété 2. du Théorème 1.2,

E[(X − Y )IB ] = 0 ⇔ E[XIB ] = E[Y IB ].

Ainsi dans ce cas, l’espérance conditionnelle E[X|G] est la projection orthogonale de X sur L2 (G).

7
Chapitre 1. Espérance conditionnelle

1.3 Construction de l’espérance conditionnelle dans le cas L1

Construisons l’espérance conditionnelle dans le cas L1 en utilisant l’existence établie dans le


cas L2 .

Preuve. Existence de l’espérance conditionnelle, cas L1 . Soit X ∈ L1 (F) et supposons X ≥ 0


p.s. On procède par approximation.
Pour tout n ≥ 1, on définit Xn = X ∧ n, alors Xn ∈ L2 (F) et la suite (Xn )n≥1 est croissante.
On note Yn la projection orthogonale de Xn sur L2 (G). En utilisant la propriété de positivité de
l’espérance conditionnelle - voir proposition 1.1 - on déduit que la suite (Yn )n≥1 est positive et
croissante p.s., elle est donc convergente p.s. ; notons Y sa limite ∈ [0, ∞] (et on pose Y (ω) = 0
pour tout ω ∈ Ω où la limite n’est pas définie), qui est G-mesurable. D’après le théorème de
convergence monotone (appliqué deux fois) on a, pour tout B ∈ G,

E[IB Y ] = lim E[IB Yn ] = lim E[IB Xn ] = E[IB X].


n→∞ n→∞

En prenant B = Ω dans l’identité ci-dessus, on obtient que E(Y ) = E(X), d’où Y ∈ L1 (G)
(X ≥ 0, X ∈ L1 (F)). On conclut que Y = E[X|G].
Si on n’a pas X ≥ 0, on écrit X = X + − X − , alors Y + = E[X + |G], Y − = E[X − |G] existent et
Y = Y + − Y − vérifie la définition de l’espérance conditionnelle (utilise la linéarité de l’espérance
conditionnelle - voir après).

1.4 Quelques cas particuliers

Dans cette section nous explicitons quelques cas particuliers utiles d’espérance conditionnelle.

1.4.1 Espérance conditionnelle discrète

Si (Ai )i≥1 forme une partition de Ω, si G = σ((Ai )i≥1 ) et si, pour tout i ≥ 1, P(Ai ) > 0, alors
R
Ω X(ω)IAi (ω)P(dω)
X E[XIA ] X
i
E[X|G] = IAi = IAi .
P(Ai ) P(Ai )
i≥1 i≥1

En particulier, si on considère la tribu triviale σ(∅, Ω),

E[X|σ(∅, Ω)] = E[X].

1.4.2 Espérance conditionnelle par rapport à une variable aléatoire

Soit X et Y deux v.a. dans L1 (F). On note :

E[X|Y ] := E[X|σ(Y )].

Rappels.
— Un événement A ∈ σ(Y ) ssi il existe B ∈ B(R) tel que A = {Y ∈ B}.

8
Chapitre 1. Espérance conditionnelle

— Une fonction borélienne g : R → R est σ(Y )-mesurable ssi il existe une fonction borélienne
f telle que g = f (Y ).
• Cas des variables aléatoires discrètes. Supposons que Y est à valeurs dans un espace
dénombrable E. Alors,
X E[XI{Y =y} ]
E[X|Y ] = I .
P(Y = y) {Y =y}
y∈E

• Cas des variables aléatoires à densité. Supposons que le couple (X, Y ) a pour densité
p(x, y), i.e., pour toute fonction borélienne f : R2 → R,
Z
E[f (X, Y )] = f (x, y)p(x, y)dxdy.
R2

Notons q la densité de Y : Z
∀ y ∈ R, q(y) = p(x, y)dx.
R

Alors pour toute fonction borélienne h : R → R telle que h(X) ∈ L1 (F), on a


Z
E[h(X)|Y ] = h(x)ν(Y, dx),

où (
1
q(y) p(x, y)dx si q(y) > 0
ν(y, dx) =
δ0 (dx) si q(y) = 0.

1.5 Propriétés de l’espérance conditionnelle

Dans cette section, nous énumérons les propriétés de l’espérance conditionnelle. Nous les par-
tageons en deux groupes : celles similaires aux propriétés de l’espérance et celles qui lui sont
spécifiques. Certaines seront démontrées en exercices.
Proposition 1.1. Dans la suite G est une sous-tribu de F, les v.a. X, (Xn )n≥1 sont dans L1 (F)
et les propriétés sont vraies p.s.

1. Linéarité. L’application X ∈ L1 (F) 7→ E[X|G] est linéaire.


2. Positivité. Si X ≥ 0 alors E[X|G] ≥ 0.
3. Inégalité de Cauchy-Schwartz conditionnelle. Supposons X, Y, XY ∈ L2 (F), alors :
1 1
|E[XY |G]| ≤ E[X 2 |G] 2 E[Y 2 |G] 2 .

4. Convergence monotone conditionnelle. Soit (Xn )n≥1 une suite croissante de v.a. positives
qui converge vers une v.a. X p.s., alors

E[X|G] = lim E[Xn |G]


n→∞

5. Lemme de Fatou conditionnel. Soit (Xn )n≥1 une suite de v.a. positives, alors

E[lim inf Xn |G] ≤ lim inf E[Xn |G].

9
Chapitre 1. Espérance conditionnelle

6. Convergence dominée conditionnelle. Soit (Xn )n≥1 une suite de v.a. qui converge vers une
v.a. X p.s. Supposons qu’il existe une v.a. positive Z telle que, pour tout n ≥ 1, |Xn | ≤ Z
et que E[Z] < ∞. Alors,
E[X|G] = lim E[Xn |G].
n→∞

7. Inégalité de Jensen conditionnelle. Soit f : R → R une fonction convexe telle que f (X) ∈
L1 (F), alors
f (E[X|G]) ≤ E[f (X)|G].
En particulier, |E[X|G]| ≤ E[ |X| |G].

Proposition 1.2. Dans toute la suite X ∈ L1 (F), G, G1 , G2 sont des sous-tribus de F et les
propriétés sont vraies p.s.

1. E[E[X|G]] = E[X].
2. Si G2 ⊂ G1 ,
E[E[X|G1 ]|G2 ] = E[E[X|G2 ]|G1 ] = E[X|G2 ].

3. Si Y est G-mesurable et XY ∈ L1 (F), alors

E[XY |G] = Y E[X|G].

4. Si X est indépendante de G, alors

E[X|G] = E[X].

5. Supposons que X est indépendante de G, que Y est G-mesurable et que f : R2 → R est


une fonction borélienne telle que f (X, Y ) ∈ L1 (F), alors

E[f (X, Y )|G] = g(Y ),

où g(y) = E[f (X, y)].

10
Chapitre 2

Arrêt optimal en horizon fini

2.1 Temps d’arrêt et martingales

2.1.1 Temps d’arrêt

Soit (Ω, F, P) un espace de probabilité. Un processus aléatoire discret réel est une suite (Xn )n≥0
de v.a. définies sur (Ω, F, P) à valeurs dans (R, B(R)). Dans la suite nous ne considérons que des
processus de ce type.

Définition 2.1. Une filtration de (Ω, F, P) est une suite croissante (Fn )n≥0 de sous-tribus de F.
L’espace (Ω, F, (Fn )n≥0 , P) est un espace de probabilité filtré.

Interprétation : le paramètre n représente le temps et Fn est l’information connue au temps n.

Exemple 2.1. Soit (Xn )n≥0 un processus et, pour tout n ≥ 0, soit

Fn = σ(X0 , . . . , Xn ),

alors (Fn )n≥0 s’appelle la filtration naturelle ou canonique de (Xn )n≥0 .

Définition 2.2. Un processus (Xn )n≥0 est dit adapté à la filtration (Fn )n≥0 si, pour tout n ≥ 0,
Xn est Fn -mesurable.

Remarque 2.1. Par définition, la filtration canonique est la plus petite filtration qui rende le
processus adapté.

Dans la suite, nous fixons un espace de probabilité filtré (Ω, F, (Fn )n≥0 , P) et toutes les notions
sont relatives à cet espace.

Définition 2.3. Une v.a. T : Ω → N ∪ {∞} est appelée un temps d’arrêt (par rapport à la
filtration (Fn )n≥0 ) si, pour tout n ≥ 0,

{T = n} ∈ Fn ,

ou de manière équivalente si pour tout n ≥ 0, {T ≤ n} ∈ Fn .

Remarque 2.2. Si T est un temps d’arrêt alors, pour tout n ≥ 1, {T ≥ n} = {T ≤ n−1}c ∈ Fn−1 .

11
Chapitre 2. Arrêt optimal en horizon fini

Interprétation : les temps d’arrêt sont des instants aléatoires où la décision de “s’arrêter” est
prise en fonction de ce qui s’est passé dans le passé et au présent.

Exemple 2.2.
1. Soit k ≥ 0, alors la variable aléatoire T ≡ k est un temps d’arrêt.
2. Soient (Xn )n≥0 un processus adapté et A un borélien de R, alors
(
inf{n ≥ 0 : Xn ∈ A} s’il existe n ≥ 0 t.q. Xn ∈ A
TA =
∞ sinon
est un temps d’arrêt. En effet, pour tout n ≥ 0,
{TA = n} = {X0 ∈ / A, Xn ∈ A} ∈ Fn .
/ A, . . . , Xn−1 ∈
3. Soit (Xn )n≥0 un processus discret où Xn représente le prix d’une action au temps n.
Posons (Fn )n≥0 = (σ(X0 , . . . , Xn ))n≥0 et supposons que cette action a une durée de vie
N . Soit T l’instant où le prix de l’action est maximal, alors T n’est pas un temps d’arrêt.
En effet pour tout n ≥ 0,
\
{T = n} = {Xk ≤ Xn } ∈/ Fn .
0≤k≤N

Ceci s’interprète par le fait qu’on ne peut pas décider de vendre une action au moment
où elle est à son maximum en ne connaissant que l’information du passé et du présent.
Proposition 2.1.
1. Soient S et T deux temps d’arrêt, alors S ∧ T , S ∨ T sont des temps d’arrêt.
2. Si (Tk )k≥0 est une suite de temps d’arrêt, alors inf k (Tk ), supk (Tk ), lim inf k (Tk ), lim supk (Tk )
sont des temps d’arrêt.
En particulier, pour tout n ≥ 0, si T est un temps d’arrêt, alors n ∧ T et n ∨ T en sont aussi.
Définition 2.4. Soit T un temps d’arrêt. La tribu du passé jusqu’à l’instant T est
FT = {A ∈ F : ∀ n ≥ 0, A ∩ {T = n} ∈ Fn }.
Cette tribu représente l’information connue jusqu’au temps (aléatoire) T . Dans la définition, on
peut remplacer {T = n} par {T ≤ n} ; on a alors l’interprétation suivante, A est observable à
l’instant n si T a eu lieu avant n.
Propriété 2.1. Soit T un temps d’arrêt.
1. FT est une tribu.
2. Soit k ≥ 0 et supposons que T ≡ k, alors FT = Fk .
3. T est FT -mesurable.
4. Supposons que T < ∞ p.s. et soit (Xn )n≥0 un processus adapté, alors XT est FT -
mesurable.
5. Soient S, T des temps d’arrêt tels que S ≤ T p.s., alors FS ⊂ FT .

Démonstration. Voir feuille exercice 2.


Remarque 2.3. Pour tout n ≥ 0, n ∧ T est un temps d’arrêt borné p.s. donc fini p.s. Ainsi,
d’après les propriétés 4. et 5. si (Xn )n≥0 est un processus adapté, alors pour tout n ≥ 0, Xn∧T
est Fn∧T -mesurable et donc Fn -mesurable. Par conséquent, si le processus (Xn )n≥0 est adapté,
le processus (Xn∧T )n≥0 est aussi adapté.

12
Chapitre 2. Arrêt optimal en horizon fini

2.1.2 Martingales et théorème d’arrêt

Définition 2.5. Soit (Xn )n≥0 un processus adapté tel que, pour tout n ≥ 0, Xn est intégrable.
On dit que le processus (Xn )n≥0 est une martingale, resp. sur-martingale, sous-martingale, si

∀ n ≥ 0, E[Xn+1 |Fn ] = Xn , resp. E[Xn+1 |Fn ] ≤ Xn , resp. E[Xn+1 |Fn ] ≥ Xn .

Interprétation : une martingale représente un jeu équitable. Imaginons que Xn représente l’avoir
du joueur au temps n, alors le gain moyen qu’il peut espérer au temps n + 1 connaissant toute
l’information jusqu’au temps n est son gain à l’instant n ; en résumé le joueur ne gagne ni ne
perd.

Propriété 2.2. Si (Xn )n≥0 est une martingale, resp. sur-martingale, alors
1. Pour tout 0 ≤ n ≤ m, E[Xm |Fn ] = Xn , resp. E[Xm |Fn ] ≤ Xn .
2. Pour tout n ≥ 0, E[Xn ] = E[X0 ], resp. E[Xn ] ≤ E[X0 ].

Démonstration. Nous ne démontrons que le cas martingale, le cas sur-martingale étant analogue.
La propriété 1. se montre par récurrence. Si m = n, c’est une propriété de l’espérance condi-
tionnelle. L’étape d’induction utilise le fait suivant : soit m ≥ n + 1, alors Fn ⊂ Fm−1 et d’après
une propriété de l’espérance conditionnelle,

E[Xm |Fn ] = E[E[Xm |Fm−1 ]|Fn ] = E[Xm−1 |Fn ].

Pour montrer la propriété 2. on prend l’espérance dans l’égalité du point 1.

Exemple 2.3.
1. Soit X une v.a. dans L1 (F) ; posons

∀ n ≥ 0, Xn = E[X|Fn ],

alors (Xn )n≥0 est une martingale. En effet, pour tout n ≥ 0, Xn est Fn -mesurable, dans
L1 et
E[Xn+1 |Fn ] = E[E[X|Fn+1 ]|Fn ] = E[X|Fn ] = Xn ,
en utilisant une propriété de l’espérance conditionnelle.
2. Marche aléatoire. Soit (Yk )k≥0 une suite de v.a. indépendantes, intégrables, telles que,
pour tout k ≥ 0, E[Yk ] = 0. Pour tout n ≥ 0, on pose
n
X
Xn = Yk .
k=0

Alors (Xn )n≥0 est une martingale pour la filtration (Fn = σ(Y0 , . . . , Yn ))n≥0 . En effet,
pour tout n ≥ 0, Xn est Fn -mesurable, dans L1 et
" n+1 #
X
E[Xn+1 |Fn ] = E Yk |Fn = E[Yn+1 + Xn |Fn ] = E[Yn+1 ] + Xn = Xn ,
k=0

d’après les propriétés de l’espérance conditionnelle, et en utilisant que les v.a. (Yk )k≥0
sont indépendantes et centrées.

13
Chapitre 2. Arrêt optimal en horizon fini

Théorème 2.1 (Théorème d’arrêt). Soit (Xn )n≥0 une martingale, resp. sur-martingale, et soit
T un temps d’arrêt ; alors (Xn∧T )n≥0 est aussi une martingale, resp. sur-martingale. De plus,
si le temps d’arrêt T est borné p.s., on a XT ∈ L1 (FT ) et

E[XT ] = E[X0 ], resp. E[XT ] ≤ E[X0 ].

Démonstration. Montrons d’abord que (Xn∧T )n≥0 est une martingale. D’après la remarque 2.3,
ce processus est adapté. Une preuve alternative s’obtient en écrivant, pour tout n ≥ 0,
n−1
X
Xn∧T = Xi I{T =i} + Xn I{T ≥n} . (2.1)
i=0

De cette expression on déduit que, pour tout n ≥ 0, la v.a. Xn∧T est Fn -mesurable et aussi
qu’elle est intégrable. En effet,
n
X
|Xn∧T | ≤ |Xi |,
i=1

qui est intégrable comme somme finie de v.a. intégrables. Pour la dernière propriété d’une mar-
tingale, calculons
(2.1)
X(n+1)∧T − Xn∧T = Xn+1 I{T ≥n+1} − Xn I{T ≥n} + Xn I{T =n}
= (Xn+1 − Xn )I{T ≥n+1} .

La v.a. I{T ≥n+1} étant Fn -mesurable, et (Xn )n≥0 étant une martingale, on déduit immédiatement
que
E[X(n+1)∧T − Xn∧T |Fn ] = I{T ≥n+1} E[Xn+1 − Xn |Fn ] = 0.

Supposons maintenant que T est borné p.s., c’est-à-dire qu’il existe N > 0 tel que T ≤ N p.s.
Le fait que XT est FT -mesurable est montré dans la propriété 2.1. Montrons que XT ∈ L1 . On a
N
X N
X
E[|XT |] = E[|Xn |I{T =n} ] ≤ E[|Xn |],
n=0 n=0

qui est dans L1 comme somme finie de v.a. dans L1 .


Utilisant de plus que (Xn∧T )n≥0 est une martingale, on déduit que

E[XT ] = E[XN ∧T ] = E[X0∧T ] = E[X0 ],

ce qui finit de démontrer la deuxième partie du théorème.

Théorème 2.2. Soient S, T deux temps d’arrêt bornés p.s. tels que S ≤ T p.s., et soit (Xn )n≥0
une martingale, alors
E[XT |FS ] = XS .

Démonstration. Par hypothèse, il existe N > 0 tel que S ≤ T ≤ N p.s. Montrons d’abord que

E[XN |FT ] = XT .

14
Chapitre 2. Arrêt optimal en horizon fini

On a XN ∈ L1 (F) et d’après le théorème 2.1, XT ∈ L1 (FT ). Ainsi, d’après la définition de


l’espérance conditionnelle, il suffit de montrer que pour tout B ∈ FT , E[XN IB ] = E[XT IB ].
Rappelons que B ∈ FT ssi pour tout n ≥ 0, B ∩ {T = n} ∈ Fn . Calculons,
N
X
E[XN IB ] = E[XN IB∩{T =n} ]
n=0
XN
= E[ E[XN IB∩{T =n} |Fn ]], (propriété de l’espérance conditionnelle)
n=0
XN
= E[IB∩{T =n} E[XN |Fn ]], car B ∩ {T = n} ∈ Fn
n=0
XN
= E[IB∩{T =n} Xn ], car (Xn )n≥0 est une martingale
n=0
XN
= E[IB∩{T =n} XT ] = E[XT IB ].
n=0

Montrons maintenant que E[XT |FS ] = XS . On a,

E[XT |FS ] = E[E[XN |FT ]|FS ], car E[XN |FT ] = XT


= E[XN |FS ], car FS ⊂ FT d’après la propriété 2.1
= XS .

2.2 Arrêt optimal en horizon fini : résultats généraux

Dans cette section on se donne




◦ Un espace probabilisé filtré (Ω, F, (Fn )n≥0 , P) où, pour tout n ≥ 0, Fn représente

l’information connue au temps n.




(H1 ) ◦ Un processus (Yn )n≥0 adapté à la filtration (Fn )n≥0 . Typiquement, pour tout n ≥ 0,

Yn représente le gain à l’instant n, on suppose que Yn est intégrable.





◦ Un entier N déterministe qui représente l’horizon de temps.

À chaque instant précédant N on peut décider de continuer ou de s’arrêter et on cherche à


optimiser le gain moyen. Autrement dit, le but est de trouver le moment optimal pour s’arrêter,
d’où le terme d’arrêt optimal. Cet instant ne doit dépendre que de l’information passée ou
présente, c’est pourquoi apparaissent naturellement les temps d’arrêt.
Avant de formaliser la question, voici quelques exemples d’applications.
◦ Un joueur doit décider quand quitter un jeu.
◦ Un particulier vend sa maison ; des acheteurs successifs proposent un prix. A chaque fois
le vendeur peut accepter de vendre à ce prix, mais un prix refusé ne se représente pas.
◦ Vous vous dirigez en voiture vers un but en cherchant à vous garer le plus près possible.
Vous ne pouvez pas faire demi-tour, si vous ne profitez pas d’une place libre lorsque vous
la voyez, vous ne la retrouverez pas.

15
Chapitre 2. Arrêt optimal en horizon fini

◦ Vous souhaitez déterminer le bon moment pour vendre ou acheter une action.
Formalisons maintenant la question. Notons TN l’ensemble des temps d’arrêt bornés par N .
Définition 2.6.
◦ Le gain moyen optimal, noté JN , est
JN = sup E[YT ].
T ∈TN

◦ Un temps d’arrêt optimal, noté T ?, est un temps d’arrêt dans TN tel que
E[YT ? ] = JN .
Remarquons, qu’a priori, on ne sait pas si un tel temps d’arrêt existe, ou même s’il est
unique.

La solution du problème d’arrêt optimal (comme la plupart des problèmes d’optimisation) passe
par la détermination d’une fonction valeur (Zn )0≤n≤N associée aux différents choix possibles au
temps n. La fonction valeur représente le gain que je peux espérer au temps n en fonction de
l’information accumulée jusqu’au temps n.
A chaque étape j’ai deux choix : m’arrêter ou continuer sauf au temps final N où je suis obligé
de m’arrêter. Au temps final, je gagne YN . Au temps n < N , si je m’arrête je gagne Yn ; si je
continue, connaissant l’information jusqu’au temps n, je peux espérer gagner E[Zn+1 |Fn ]. On
souhaite choisir la meilleure des deux solutions. La fonction valeur (Zn )0≤n≤N est donc définie
par récurrence descendante de la manière suivante :
◦ Z N = YN ,
◦ ∀ 0 ≤ n ≤ N − 1, Zn = max(Yn , E[Zn+1 |Fn ]).
Montrons une propriété importante de (Zn ).
Proposition 2.2. La fonction valeur (Zn )0≤n≤N est une sur-martingale, et c’est la plus petite
sur-martingale supérieure ou égale à (Yn )0≤n≤N .
Définition 2.7. On dit que (Zn ) est l’enveloppe de Snell du processus adapté (Yn ).

Démonstration.
• Le processus (Zn )0≤n≤N est une sur-martingale.
◦ (Zn ) est adapté : clair.
◦ ∀ n ≥ 0, Zn ∈ L1 . Par récurrence descendante. C’est vrai pour ZN = YN . Puis,
|Zn | ≤ |Yn | + |E[Zn+1 |Fn ]|,
et les deux termes du membre de droite sont dans L1 .
◦ Zn ≥ E[Zn+1 |Fn ] : clair.
• (Zn ) est supérieure ou égale à (Yn ) : clair.
• (Zn ) est la plus petite ... Soit (Vn ) une sur-martingale supérieure ou égale à (Yn ). Montrons
par récurrence descendante que (Vn ) est supérieure ou égale à (Zn ). On a VN ≥ YN = ZN .
Supposons vrai pour n + 1 ; alors,
sur-mart. hyp.
Vn ≥ Yn et Vn ≥ E[Vn+1 |Fn ] ≥ E[Zn+1 |Fn ],
donc Vn ≥ max(Yn , E[Zn+1 |Fn ]) = Zn .

16
Chapitre 2. Arrêt optimal en horizon fini

Comme mentionné plus haut, pour tout 0 ≤ n ≤ N , Zn représente le gain que l’on peut espérer
au temps n connaissant l’information accumulée jusqu’au temps n. Ainsi il semble qu’un moment
opportun pour s’arrêter est lorsque Yn = Zn . Ceci motive la définition suivante :
(
? inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Zk+1 |Fk ]} si non vide
T = min{0 ≤ k ≤ N : Yk = Zk } =
N sinon.

Le théorème suivant démontre les propriétés fondamentales de T ? et résoud de manière théorique


le problème d’optimisation que nous nous sommes posé.
Théorème 2.3.
1. T ? ∈ TN , autrement dit T ? est un temps d’arrêt borné par N .
2. (Zn∧T ? )0≤n≤N est une martingale.
3. T ? est un temps d’arrêt optimal et

sup E[YT ] = E[YT ? ] = E[ZT ? ] = E[Z0 ].


T ∈TN

4. T ? est le plus petit temps d’arrêt optimal.

Avant de démontrer ce théorème, remarquons que pour calculer le gain optimal il suffit de calculer
E[Z0 ].

Démonstration.
1. Le processus (Zn − Yn )0≤n≤N est adapté, et {0} est un borélien de R. Ainsi, d’après
l’exemple 2.2, T ? = min{0 ≤ k ≤ N : Zk − Yk = 0} est un temps d’arrêt.
2. D’après le théorème d’arrêt, nous savons que (Zn∧T ? )0≤n≤N est une sur-martingale. Il
nous reste donc à considérer E[Z(n+1)∧T ? |Fn ]. Procédons comme dans la preuve du théo-
rème d’arrêt ; écrivons
n
X
Z(n+1)∧T ? = Zi I{T ? =i} + Zn+1 I{T ? ≥n+1} = ZT ? I{T ? ≤n} + Zn+1 I{T ? ≥n+1} .
i=1

Comme le premier terme du membre de droite est Fn -mesurable et I{T ? ≥n+1} l’est égale-
ment, on déduit que

E[Z(n+1)∧T ? |Fn ] = ZT ? I{T ? ≤n} + I{T ? ≥n+1} E[Zn+1 |Fn ].

Mais si T ? ≥ n + 1, on a Yn 6= Zn ce qui, par définition de Zn implique que, Zn =


E[Zn+1 |Fn ]. Donc finalement,

E[Z(n+1)∧T ? |Fn ] = ZT ? I{T ? ≤n} + Zn I{T ? ≥n+1} = Zn∧T ? .

3. Comme le temps d’arrêt T ? est borné, d’après le point 2., on a

E[ZT ? ] = E[ZN ∧T ? ] = E[Z0∧T ? ] = E[Z0 ].

De plus E[ZT ? ] = E[YT ? ] par définition de T ? . Il nous reste à montrer l’optimalité, c’est-
à-dire, que pour tout temps d’arrêt S ∈ TN , E[YS ] ≤ E[YT ? ]. Par définition de (Zn ), on a

17
Chapitre 2. Arrêt optimal en horizon fini

ZS ≥ YS p.s. De plus, vu que (Zn ) est une sur-martingale et que le temps d’arrêt S est
borné, on a par le théorème d’arrêt

E[ZS ] ≤ E[Z0 ].

En se souvenant que E[Z0 ] = E[YT ? ], on conclut

E[YS ] ≤ E[ZS ] ≤ E[YT ? ].

4. Soit S ∈ TN un temps d’arrêt optimal. Nous devons montrer que S ≥ T ? . En utilisant


l’optimalité et le théorème d’arrêt comme au point précédent, nous obtenons :
opt. th. ar.
E[YS ] = E[YT ? ] = E[Z0 ] ≥ E[ZS ] ⇒ E[YS − ZS ] ≥ 0.

De plus, par définition de (Zn ), on a ZS ≥ YS p.s. ainsi E[ZS − YS ] ≥ 0 et par suite


E[ZS − YS ] = 0. Utilisant à nouveau que ZS − YS ≥ 0 p.s. on conclut que ZS = YS p.s.
En revenant à la définition de T ? , ceci implique que S ≥ T ? p.s.

2.3 Arrêt optimal : problèmes avec structure markovienne

On se place dans le même cadre que celui de la section précédente, mais on suppose de plus que
le processus (Yn )0≤n≤N peut se construire à l’aide d’une chaîne de Markov.

2.3.1 Rappels sur les chaînes de Markov

Soit E un espace dénombrable muni de la tribu P(E).


Définition 2.8. Une matrice stochastique est une famille (Q(x, y))x,y∈E de nombres dans [0, 1]
telle que X
∀ x ∈ E, Q(x, y) = 1.
y∈E

Définition 2.9.
◦ Soit (Xn )n≥0 un processus à valeurs dans E et soit, pour tout n ≥ 0, une matrice sto-
chastique Qn . On dit que (Xn )n≥0 est une chaîne de Markov si, pour tout n ≥ 0, pour
tout (x0 , . . . , xn−1 , x, y) ∈ E n+2 tel que P(X0 = x0 , . . . , Xn = x) > 0, on a :

P(Xn+1 = y|X0 = x0 , . . . , Xn−1 = xn−1 , Xn = x) = P(Xn+1 = y|Xn = x) = Qn (x, y).

Autrement dit, la loi du futur connaissant le passé et le présent ne dépend que du présent.
◦ Les matrices (Qn )n≥0 sont appelées les matrices de transition de la chaîne.
◦ Si pour tout n ≥ 0, Qn ≡ Q, la chaîne de Markov est dite homogène ; c’est-à-dire que le
mécanisme de transition entre l’instant n et l’instant n + 1 ne dépend pas de n. Sinon
elle est dite inhomogène.

Notation. Soit f : E → R une fonction mesurable telle que f (Xn+1 ) est dans L1 . On note
X
Qn f (x) := E[f (Xn+1 )|Xn = x] = Qn (x, y)f (y).
y∈E

18
Chapitre 2. Arrêt optimal en horizon fini

Exemple 2.4. Dans les exemples suivants, on considère (x0 , . . . , xn−1 , x, y) ∈ E n+2 et on
suppose que les événements par rapport auxquels on conditionne ont probabilité strictement
positive.

1. Si (Xn )n≥0 est une suite de v.a. indépendantes à valeurs dans E, alors c’est une chaîne
de Markov. En effet,

P(X0 = x0 , . . . , Xn = x, Xn+1 = y)
P(Xn+1 = y|X0 = x0 , . . . , Xn−1 = xn−1 , Xn = x) =
P(X0 = x0 , . . . , Xn = x)
= P(Xn+1 = y) = P(Xn+1 = y|Xn = x).

Le noyau de transition est Qn (x, y) = P(Xn+1 = y). Si les v.a. sont identiquement
distribuées alors la chaîne de Markov est homogène.

Pkn)k≥0 une suite de v.a. i.i.d. à valeurs dans E = Z. Pour tout n ≥ 0, on définit
2. Soit (X
Sn = k=0 Xk . Alors (Sn )n≥0 s’appelle la marche aléatoire à valeurs dans Z ; c’est une
chaîne de Markov homogène. En effet, on a que Xn+1 est indépendante de (Sk )0≤k≤n ,
puis

P(S0 = x0 , . . . , Sn = x, Sn+1 = y)
P(Sn+1 = y|S0 = x0 , . . . , Sn = x) =
P(S0 = x0 , . . . , Sn = x)
P(Xn+1 = y − x, S0 = x0 , . . . , Sn = x)
=
P(S0 = x0 , . . . , Sn = x)
= P(Xn+1 = y − x) = P(Sn+1 = y|Sn = x).

Le noyau de transition est Q(x, y) = P(Xn+1 = y − x) = P(X0 = y − x).


3. On reprend le processus de Galton-Watson introduit dans la feuille d’exercice 1. On a
(Xp,q )p,q∈N∗ des v.a. i.i.d. à valeurs dans N. On pose Z0 = 1, puis pour tout n ≥ 1,
(
Xn,1 + · · · + Xn,Zn−1 si Zn−1 ≥ 1
Zn =
0 si Zn−1 = 0.

Alors (Zn )n≥0 est une chaîne de Markov homogène. En effet, on a que les v.a. (Xn+1,j )j∈N∗
sont indépendantes de (Zk )0≤k≤n , puis si x 6= 0,

P(Z0 = x0 , . . . , Zn = x, Zn+1 = y)
P(Zn+1 = y|Z0 = x0 , . . . , Zn = x) =
P(Z0 = x0 , . . . , Zn = x)
P(Z0 = x0 , . . . , Zn = x, xj=1 Xn+1,j = y)
P
=
P(Z0 = x0 , . . . , Zn = x)
x
X 
=P Xn+1,j = y , par indépendance
j=1

= P(Zn+1 = y|Zn = x).

Le noyau de transition est Q(x, y) = P( xj=1 Xn+1,j = y) = P( xj=1 X1,j = y), si x 6= 0 ;


P P
Q(0, 0) = 1, Q(0, y) = 0 si y 6= 0.

19
Chapitre 2. Arrêt optimal en horizon fini

2.3.2 Arrêt optimal avec structure markovienne

En plus des hypothèses (H1 ), dans la suite de cette section, on suppose que :



◦ (Xn )n≥0 est une chaîne de Markov à valeurs dans E dénombrable. On note (Qn )n≥0 les

 matrices de transition de la chaîne de Markov.
(H2 )


◦ (Fn )n≥0 est la filtration canonique.

◦ Pour tout 0 ≤ n ≤ N , Y = ϕ (X ), où ϕ : E → R est une fonction mesurable.
n n n n

On obtient alors le théorème suivant.


Théorème 2.4. Soit (Zn )0≤n≤N l’enveloppe de Snell du processus (Yn )0≤n≤N . Sous les hypo-
thèses précédentes, il existe des fonctions mesurables Vn : E → R, 0 ≤ n ≤ N , telles que
1. Zn = Vn (Xn ), autrement dit Zn est σ(Xn )-mesurable.
2. Le plus petit temps d’arrêt optimal T ? est égal à
(
? inf{0 ≤ k ≤ N − 1 : ϕk (Xk ) ≥ Qk Vk+1 (Xk )} si non vide
T = min{0 ≤ k ≤ N : Xk ∈ Dk } =
N sinon.
où Dk = {x ∈ E : ϕk (x) = Vk (x)}.

Démonstration.
1. Il suffit de construire les (Vn )0≤n≤N par récurrence descendante et d’appliquer les résultats
vus dans le cadre général. On a

ZN = YN = ϕN (XN ),

donc VN = ϕN convient. Supposons le résultat démontré pour n + 1. Alors,

Zn = max(Yn , E[Zn+1 |Fn ])


= max(ϕn (Xn ), E[Vn+1 (Xn+1 )|Fn ]), d’après l’hypothèse de récurrence
= max(ϕn (Xn ), E[Vn+1 (Xn+1 )|Xn ]), d’après la propriété de Markov
= max(ϕn (Xn ), Qn Vn+1 (Xn )).

Ainsi Vn (Xn ) = max(ϕn (Xn ), Qn Vn+1 (Xn )) convient et est bien σ(Xn )-mesurable.
2. En appliquant ceci aux résultats généraux, on obtient
(
inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Zk+1 |Fk ]} si non vide
T ? = min{0 ≤ k ≤ N : Yk = Zk } =
N sinon
(
inf{0 ≤ k ≤ N − 1 : ϕk (Xk ) ≥ Qk Vk+1 (Xk )} si non vide
= min{0 ≤ k ≤ N : ϕk (Xk ) = Vk (Xk )} =
N sinon.

Ce théorème donne une description plus explicite du temps d’arrêt optimal T ? : il s’agit du
temps d’entrée de la chaîne de Markov (Xn )0≤n≤N dans un borélien de E (où le borélien dépend
de n).

20
Chapitre 2. Arrêt optimal en horizon fini

Corollaire 2.5. Dans le contexte du théorème précédent, si les (Xn )n≥0 sont de plus indépen-
dantes (pas forcément identiquement distribuées), alors :
(
? inf{0 ≤ k ≤ N − 1 : ϕk (Xk ) ≥ E[Vk+1 (Xk+1 )]} si non vide
T =
N sinon.

2.4 Arrêt optimal : problèmes monotones

On se place dans le cadre général de l’arrêt optimal, c’est-à-dire sous les hypothèses (H1 ).
Définition 2.10. On dit que le problème d’arrêt est monotone si, pour tout 0 ≤ n ≤ N − 1, les
événements
An = {Yn ≥ E[Yn+1 |Fn ]}
sont emboîtés : A0 ⊂ A1 ⊂ · · · ⊂ AN −1 . Cela signifie que si le gain à un temps n est supérieur
à l’espérance du gain obtenu en s’arrêtant au temps suivant n + 1, ce sera le cas pour tous les
temps suivants.
Définition 2.11. On appelle règle d’anticipation à une étape (1-step lookahead rule) le temps
d’arrêt (
inf{0 ≤ k ≤ N − 1 : Yk ≥ E[Yk+1 |Fk ]} si non vide
T1-sla =
N sinon.

Autrement dit, cette règle consiste à s’arrêter au premier instant où le gain est supérieur au gain
moyen obtenu en s’arrêtant à l’étape suivante ; il n’est pas nécessaire de regarder plus loin.
Le théorème suivant montre que cette règle est optimale. L’avantage du temps d’arrêt T1-sla est
que l’on n’a pas besoin de la fonction valeur (Zn )0≤n≤N ; l’inconvénient est qu’il faut montrer la
monotonie du problème.
Théorème 2.6. Si le problème d’arrêt est monotone, le temps d’arrêt T1-sla est optimal.

Démonstration.
• Étape 1 : même sans l’hypothèse de monotonie, on a T1-sla ≤ T ? . Pour tout 0 ≤ n ≤ N − 1,
Yn+1 ≤ Zn+1 p.s. donc E[Yn+1 |Fn ] ≤ E[Zn+1 |Fn ] p.s., d’où

{0 ≤ n ≤ N − 1 : Yn ≥ E[Zn+1 |Fn ]} ⊂ {0 ≤ n ≤ N − 1 : Yn ≥ E[Yn+1 |Fn ]},

donc si ces ensembles sont non-vides,

inf{0 ≤ n ≤ N − 1 : Yn ≥ E[Zn+1 |Fn ]} ≥ inf{0 ≤ n ≤ N − 1 : Yn ≥ E[Yn+1 |Fn ]},

Dans le cas où le premier sous-ensemble est vide, T ? = N ≥ T1-sla , et dans le cas où le second
est vide, alors T ? = N = T1-sla .
• Étape 2 : T1-sla ≥ T ? . Si T1-sla = N , il n’y a rien à prouver. Supposons donc T1-sla < N .
On a, pour tout 0 ≤ n ≤ N − 1,
déf. monotonie \
{T1-sla = n} ⊂ {Yn ≥ E[Yn+1 |Fn ]} ⊂ {Yk ≥ E[Yk+1 |Fk ]}.
n≤k≤N −1

21
Chapitre 2. Arrêt optimal en horizon fini

Montrons que ∩n≤k≤N −1 {Yk ≥ E[Yk+1 |Fk ]} ⊂ ∩n≤k≤N {Zk = Yk }. Supposons que, pour tout
n ≤ k ≤ N − 1, l’événement {Yk ≥ E[Yk+1 |Fk ]} est réalisé. Par définition, ZN = YN , ainsi on a

ZN −1 = max(YN −1 , E[ZN |FN −1 ]) = max(YN −1 , E[YN |FN −1 ]) = YN −1 .

De manière analogue,

ZN −2 = max(YN −2 , E[ZN −1 |FN −2 ]) = max(YN −2 , E[YN −1 |FN −2 ]) = YN −2 ,

et donc par récurrence descendante, on montre que pour tout n ≤ k ≤ N , l’événement {Zk = Yk }
est réalisé, ce qui prouve l’inclusion cherchée.
On remarque de plus que, par définition du temps d’arrêt optimal T ? ,
\
{Zk = Yk } ⊂ {T ? ≤ n}.
n≤k≤N

Nous avons donc montré que, pour tout 0 ≤ n ≤ N − 1, {T1-sla = n} ⊂ {T ? ≤ n}, d’où l’on
conclut que T1-sla ≥ T ? .

22
Chapitre 3

Compléments sur les martingales : uniforme


intégrabilité et applications

3.1 Uniforme intégrabilité

Dans toute la suite, on se donne un espace probabilisé (Ω, F, P).


Définition 3.1. Une famille (Xi )i∈I de v.a. dans L1 (F) est dite uniformément intégrable, abrégé
u.i., si  
lim sup E[ |Xi |I{|Xi |>a} ] = 0.
a→∞ i∈I

On a la définition équivalente suivante.


Définition 3.2. Une famille (Xi )i∈I de v.a. dans L1 (F) est u.i. ssi
1. La famille (Xi )i∈I est bornée dans L1 .
2. ∀ ε > 0, ∃ δ > 0, t.q. ∀ A ∈ F, t.q. P(A) < δ,

∀ i ∈ I, E[ |Xi |IA ] < ε.

Preuve de l’équivalence des définitions.


• Déf. 3.1 ⇒ Déf. 3.2. Soit ε > 0 et soit a suffisamment grand pour que
ε
∀ i ∈ I, E[ |Xi |I{|Xi |>a} ] < .
2
ε
Posons, M = a + 2 alors, pour tout i ∈ I,
ε
E[|Xi |] = E[|Xi |I{|Xi |>a} ] + E[|Xi |I{|Xi |≤a} ] ≤ + a = M,
2
et le point 1. est vérifié.
ε
Posons δ = 2a et soit A t.q. P(A) < δ. Alors, pour tout i ∈ I,

E[|Xi |IA ] = E[|Xi |IA I{|Xi |>a} ] + E[|Xi |IA I{|Xi |≤a} ]
ε ε
≤ E[|Xi |I{|Xi |>a} ] + aP(A) < + = ε,
2 2

23
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

ce qui montre le deuxième point.


• Déf. 3.2 ⇒ Déf. 3.1. On veut montrer que, pour tout ε > 0, ∃ a0 t.q. ∀ a > a0 ,

∀ i ∈ I, E[|Xi |I{|Xi |>a} ] < ε.

Comme les (Xi )i∈I sont dans L1 on a, d’après l’inégalité de Markov, pour tout a > 0,

E[|Xi |] M
∀ i ∈ I, P(|Xi | > a) ≤ ≤ , (3.1)
a a
en utilisant le point 1. et en notant M la borne supérieure des (E[|Xi |])i∈I .
Soit ε > 0 et soit δ > 0 tel que le point 2. est vérifié. Alors d’après l’équation (3.1), pour tout
a > a0 := Mδ , P(|Xi | > a) < δ, ainsi d’après le point 2.

∀ i ∈ I, E[ |Xi |I{|Xi |>a} ] < ε,

ce qui conclut la preuve.

Remarque 3.1. On a vu que si (Xi )i∈I est u.i. alors la famille est borné dans L1 . La réciproque
est fausse. Par exemple, on pose I = N∗ , et on définit pour tout n > 0,
(
n avec probabilité n1
Xn =
0 sinon.

Alors, E[|Xn |] = E[Xn ] = 1 et la suite est bien bornée dans L1 . Par contre, pour tout a > 0,

1
E[ |Xn |I{|Xn |>a} ] = E[Xn I{Xn >a} ] = nI{n>a} P(Xn = n) + 0 = nI{n>a} = I{n>a} .
n
Ainsi,  
sup E[ |Xn |I{|Xn |>a} ] = 1, et lim sup E[ |Xn |I{|Xn |>a} ] = 1 6= 0.
n≥1 a→∞ n≥1

Exemple 3.1.
1. Une famille finie (Xi )1≤i≤n de v.a. dans L1 (F) est u.i. En effet, pour tout a > 0,
n
hX i
0 ≤ sup E[ |Xi |I{|Xi |>a} ] ≤ E |Xi |I{|Xi |>a} .
1≤i≤n i=1
Pn Pn Pn
De plus, lima→∞ i=1 |Xi |I{|Xi |>a} = 0 p.s., ∀ a > 0, i=1 |Xi |I{|Xi |>a} ≤ i=1 |Xi | ∈
L1 (F), donc d’après le théorème de convergence dominée,
n
hX i h n
X i
lim E |Xi |I{|Xi |>a} = E lim |Xi |I{|Xi |>a} = 0.
a→∞ a→∞
i=1 i=1

Avec la première inégalité on déduit alors


 
lim sup E[ |Xi |I{|Xi |>a} ] = 0.
a→∞ 1≤i≤n

24
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

2. Soit (Xn )n≥1 tel que, pour tout n ≥ 1, |Xn | ≤ Z, où Z ≥ 0 et E[Z] < ∞ ; alors (Xn )n≥1
est u.i. En effet, pour tout a > 0, pour tout n ≥ 1,

E[|Xn |I{|Xn |>a }] ≤ E[ZI{Z>a} ],

et on conclut de manière analogue à l’exemple 1.


3. Soit p > 1, alors une famille (Xi )i∈I de v.a. bornées dans Lp est u.i. En effet, posons
M = supi∈I E[|Xi |p ] et notons que, pour tout a > 0,

|Xi |p−1
|Xi |p−1 > ap−1 I{|Xi |p−1 >ap−1 } ⇔ I{|Xi |p−1 >ap−1 } ≤ .
ap−1
Ainsi, pour tout i ∈ I,
E[|Xi |p ] M
E[ |Xi |I{|Xi |>a} ] = E[ |Xi |I{|Xi |p−1 >ap−1 } ] ≤ p−1
≤ p−1 ,
a a
d’où
M  
sup E[ |Xi |I{|Xi |>a} ] ≤ , et lim sup E[ |Xi |I{|X |>a} ] = 0.
i∈I ap−1 a→∞ i∈I i

Notons que d’après la remarque 3.1, on ne peut pas espérer descendre jusque p = 1.
4. Soit X ∈ L1 (F). Alors (E[X|G])G ss-tribu de F est u.i. On va montrer que la définition 3.1
est satisfaite. Tout d’abord, vu que X est dans L1 , d’après l’exemple 1., le singleton (X)
est u.i. donc, d’après la définition 3.2, pour tout ε > 0, il existe δ t.q. pour tout A ∈ F
t.q. P(A) < δ,
E[|X|IA ] < ε.
De plus, pour tout G sous-tribu de F, E[X|G] ∈ L1 (G), donc d’après l’inégalité de Markov,
pour tout a > 0,
E[|E[X|G]|] E[E[ |X| |G]] E[|X|]
P(|E[X|G]| > a) ≤ ≤ = ,
a a a
E[|X|]
ainsi, pour tout a > a0 := δ , P(|E[X|G]| > a) < δ et donc

E[|X|I{|E[X|G]|>a} ] < ε.

Par ailleurs, pour tout G sous-tribu de F,


  h i déf. esp. cond.
E |E[X|G]| I{|E[X|G]|>a} ≤ E E[ |X| |G] I{|E[X|G]| > a} = E[|X|I{|E[X|G]|>a} ] < ε.
| {z }
∈G

On conclut que la définition 3.1 est satisfaite en prenant le sup sur toutes les sous-tribus
G de F.
Le théorème suivant motive l’introduction des familles de v.a. u.i. En effet, il donne un critère
nécessaire et suffisant pour avoir équivalence entre convergence en probabilité et convergence
dans L1 . Le théorème de convergence dominée, quant à lui, ne donne qu’un critère suffisant : si
(Xn )n≥1 converge vers X p.s. (donc aussi en probabilité) et si, pour tout n ≥ 1 |Xn | ≤ Z, où
Z ≥ 0 et E[Z] < ∞, alors (Xn )n≥1 converge vers X dans L1 . Notons que comme attendu, cette
hypothèse de domination est plus forte que l’u.i., voir point 2. de l’exemple 3.1.

25
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

Théorème 3.1. Soit (Xn )n≥0 une suite de v.a. dans L1 (F). Alors, il y a équivalence entre :
1. (Xn )n≥0 converge dans L1 vers X∞ ∈ L1 .
2. (Xn )n≥0 converge en probabilité vers X∞ et la famille (Xn )n≥0 est u.i.

Démonstration.
• 1. ⇒ 2. La convergence dans L1 implique la convergence en probabilité (inégalité de Markov).
Pour montrer que (Xn )n≥0 est u.i. utilisons la définition 3.2. On a que (Xn )n≥0 est bornée dans
L1
L1 . En effet, comme Xn → X∞ , il existe C tel que, pour tout n ≥ 0, E[|Xn − X∞ |] ≤ C ; ainsi

E[|Xn |] ≤ E[|Xn − X∞ |] + E[|X∞ |] ≤ C + E[|X∞ |].


L1
Vérifions maintenant la deuxième condition. Soit ε > 0. Comme Xn → X∞ , il existe N ≥ 0 tel
que, pour tout n ≥ N , E[|Xn − X∞ |] < 4ε ; ainsi, pour tout n ≥ N ,
ε
E[|Xn − XN |] ≤ E[|Xn − X∞ |] + E[|XN − X∞ |] < .
2
D’autre part d’après le point 1. de l’exemple 3.1, la famille finie (Xn )0≤n≤N de v.a. est u.i. Donc
d’après le point 2. de la définition 3.2, il existe δ > 0 tel que pour tout A ∈ F tel que P(A) < δ,
ε
∀ 0 ≤ n ≤ N, E[|Xn |IA ] < .
2
De plus, pour tout n ≥ N ,

E[|Xn |IA ] ≤ E[|Xn − XN |] + E[|XN |IA ] ≤ ε,

démontrant ainsi le point 2. de la définition 3.2.


• 2. ⇒ 1. D’après le théorème de Riesz-Fisher l’espace L1 (F) est complet. Ainsi, pour montrer
que (Xn )n≥0 converge dans L1 , il suffit de montrer que cette suite est de Cauchy dans L1 .
En utilisant la définition 3.2, on remarque que (Xn )n≥0 u.i. implique que (Xn − Xm )(n,m)∈N2 est
aussi u.i. Ainsi, pour tout ε > 0, il existe a (suffisamment grand) tel que

∀ (n, m) ∈ N2 , E[|Xn − Xm |I|Xn −Xm |>a ] < ε. (3.2)


P
Par ailleurs, puisque Xn → X∞ , il existe N tel que pour tout n, m ≥ N ,
n εo n ε o ε
P(|Xn − Xm | > ε) ≤ P |Xn − X∞ | > ∪ |Xm − X∞ | > < . (3.3)
2 2 a
Ainsi, pour tout n, m ≥ N ,

kXn − Xm k1 = E[|Xn − Xm |]
= E[|Xn − Xm |I{|Xn −Xm |>a} ] + E[|Xn − Xm |I{a≥|Xn −Xm |>ε} ] + E[|Xn − Xm |I{|Xn −Xm |≤ε} ]
≤ ε + aP(|Xn − Xm | > ε) + ε, d’après (3.2)
ε
≤ ε + a + ε = 3ε, d’après (3.3).
a
On a bien montré que la suite (Xn )n≥0 est de Cauchy dans L1 ce qui clôt cette partie de
preuve.

26
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

3.2 Martingales, convergence L1 , théorème d’arrêt

3.2.1 Rappels

Vous avez vu les deux théorèmes suivants sur la convergence des martingales.

Théorème 3.2 (Convergence presque sûre). Soit (Xn )n≥0 une martingale bornée dans L1 , i.e.
sup E[|Xn |] < ∞, alors il existe une v.a. X∞ ∈ L1 telle que
n≥0

p.s.
Xn −→ X∞ .

Théorème 3.3 (Convergence dans Lp , p > 1). Soit (Xn )n≥0 une martingale bornée dans Lp
pour p > 1, i.e., supn≥0 E[|Xn |p ] < ∞. Alors, il existe une v.a. X∞ ∈ Lp telle que

Lp
Xn −→ X∞ ,
p.s.

et E[|X∞ |p ] = sup E[|Xn |p ].


n≥0

Remarque 3.2. Ce théorème est faux si p = 1. Voici un contre-exemple. Soit (Yk )k≥0 une suite
de v.a. i.i.d. telle que P(Y0 = 2) = P(Y0 = 0) = 21 . Posons, pour tout n ≥ 0,
n
Y
Xn = Yk .
k=0

On considère la filtration naturelle (Fn = σ(Y0 , . . . , Yn ))n≥0 . Alors, pour tout n ≥ 0, Xn est
Fn -mesurable. La famille (Xn )n≥0 est bornée dans L1 car pour tout n ≥ 0,

E[|Xn |] = E[Xn ] = (E[Y0 ])n+1 = 1.

C’est bien une martingale car

E[Xn+1 |Fn ] = E[Yn+1 Xn |Fn ] = Xn .

En effet, d’après les propriétés de l’espérance conditionnelle, comme Xn est Fn -mesurable et


Yn+1 indépendante de Fn , E[Yn+1 Xn |Fn ] = Xn E[Yn+1 ] = Xn .
p.s.
Montrons que Xn −→ 0. Soit ε > 0 petit, alors
[
{|Xn | > ε} ⊂ {Y0 = 2, . . . , YN = 2},
n≥N

ainsi,
 1 N +1
P(lim sup{|Xn | > ε}) = P(∩N ≥0 ∪n≥N {|Xn | > ε}) ≤ P(∩N ≥0 {Y0 = 2, . . . , YN = 2}) = lim = 0,
n≥0 N →∞ 2

où dans la dernière inégalité on a utilisé qu’il s’agit d’une intersection d’événements décroissants.
L1
Pourtant Xn 9 0, car limn→∞ E[|Xn |] = 1.

27
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

3.2.2 Convergence dans L1 des martingales

La question qui se pose est donc “ Quand a-t-on convergence dans L1 d’une martingale ? ” La
réponse est donnée par le théorème suivant qui donne des critères nécessaires et suffisants et
utilise l’uniforme intégrabilité.

Théorème 3.4 (Convergence L1 ). Soit (Xn )n≥0 une martingale. Alors les 3 conditions suivantes
sont équivalentes :
1. La suite (Xn )n≥0 converge p.s. et dans L1 vers une v.a. X∞ ∈ L1 ,
2. La suite (Xn )n≥0 est u.i.
3. La martingale (Xn )n≥0 est fermée, c’est-à-dire qu’il existe une v.a. Z ∈ L1 telle que, pour
tout n ≥ 0, Xn = E[Z|Fn ] p.s.
Si la condition 1. est satisfaite, on peut prendre Z = X∞ dans 3.

Démonstration.
• 1. ⇒ 2. D’après le théorème 3.1, on a que si (Xn )n≥0 converge dans L1 alors (Xn )n≥0 est u.i.
• 2. ⇒ 1. Si (Xn )n≥0 est u.i. alors, d’après la définition 3.2, la famille (Xn )n≥0 est bornée dans
L1 ce qui, d’après le théorème 3.2, implique qu’elle converge p.s. donc en probabilité. Avec l’u.i.
et le théorème 3.1 ceci implique la convergence en L1 .
L1
• 1. ⇒ 3. Supposons que Xn −→ X∞ . Pour montrer que, pour tout n ≥ 0, Xn = E[X∞ |Fn ]
p.s.
p.s. nous allons prouver que E[|Xn − E[X∞ |Fn ]|] = 0. Comme (Xn )n≥0 est une martingale, nous
savons que pour tout k ≥ 0,
E[Xn+k |Fn ] = Xn .
p.s.,L1
De plus, nous avons aussi que, pour tout n ≥ 0, Xn+k −→ X∞ . Ainsi,
k→∞

0 ≤ E[|Xn − E[X∞ |Fn ]|] = E[ |E[Xn+k |Fn ] − E[X∞ |Fn ]| ]


= E[ |E[Xn+k − X∞ |Fn ]| ]
≤ E[E[|Xn+k − X∞ | |Fn ]], propriété de l’espérance conditionnelle
k→∞
= E[|Xn+k − X∞ |] −→ 0.

• 3. ⇒ 2. D’après le point 4. de l’exemple 3.1, si Z ∈ L1 , alors la famille (E[Z|Fn ])n≥0 est u.i.,
ce qui est exactement le point 2.

3.2.3 Théorème d’arrêt

Définition 3.3. Soit (Xn )n≥0 un processus adapté qui converge p.s. vers X∞ . Pour tout temps
d’arrêt T , fini ou non, on définit :

X
XT = Xn I{T =n} + X∞ I{T =∞} .
n=0

On peut montrer que XT est FT -mesurable.

28
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

Théorème 3.5. Soit (Xn )n≥0 une martingale u.i. (elle converge donc p.s. et dans L1 vers une
v.a. X∞ ∈ L1 ). Alors pour tout temps d’arrêt T (fini ou non), on a

XT = E[X∞ |FT ].

En particulier, E[XT ] = E[X∞ ] = E[Xn ], pour tout n ≥ 0.


Si S, T sont deux temps d’arrêt (finis ou non), tels que S ≤ T p.s. alors

E[XT |FS ] = XS .

Remarque 3.3.
• Comme conséquence du point 4. de l’exemple 3.1, on a que la famille (XT = E[X∞ |FT ])T temps d’arrêt
est u.i.
• Par rapport au théorème d’arrêt, on demande en plus la convergence p.s. et dans L1 de la
martingale. On gagne le fait que le processus arrêté soit fermé, et on peut enlever l’hypothèse
de temps d’arrêt borné p.s.

Démonstration. Montrons d’abord que XT est dans L1 . On a



X
E[|XT |] = E[|Xn |I{T =n} ] + E[|X∞ |I{T =∞} ], Fubini v.a. positives
n=0
X∞
= E[ |E[X∞ |Fn ]| I{T =n} ] + E[|X∞ |I{T =∞} ], point 3. du théorème 3.4
n=0
X∞
≤ E[E[ |X∞ | |Fn ]I{T =n} ] + E[|X∞ |I{T =∞} ]
n=0
X∞
= E[|X∞ |I{T =n} ] + E[|X∞ |I{T =∞} ]
n=0
= E[|X∞ |] < ∞.

D’après la remarque après la définition de XT , nous savons que XT est FT -mesurable.


Pour montrer que XT = E[X∞ |FT ], il nous reste à montrer que pour tout B ∈ FT ,

E[XT IB ] = E[X∞ IB ].

On a,

X
E[XT IB ] = E[Xn IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], Fubini XT ∈ L1
n=0
X∞
= E[E[X∞ |Fn ]IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], point 3. du théorème 3.4
n=0
X∞
= E[X∞ IB∩{T =n} ] + E[X∞ IB∩{T =∞} ], définition e.c. et B ∩ {T = n} ∈ Fn
n=0
= E[X∞ IB ].

29
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

En prenant l’espérance dans XT = E[X∞ |FT ], on obtient que E[XT ] = E[X∞ ]. En prenant
l’espérance dans Xn = E[X∞ |Fn ], on obtient que E[Xn ] = E[X∞ ], pour tout n ≥ 0.
La fin de la preuve est analogue à celle dans le cas où T, S sont bornés p.s. On a
FS ⊂FT
E[XT |FS ] = E[E[X∞ |FT ]|FS ] = E[X∞ |FS ] = XS .

3.3 Application de la convergence des martingales : la LFGN

Cette section n’utilise pas l’uniforme intégrabilité. On se donne une filtration (Fn )n≥0 . Le but
est de démontrer la loi forte des grands nombres en utilisant le théorème de convergence dans
L2 des martingales. Nous démontrons d’abord la proposition suivante.
Proposition 3.1. Soit (Xn )n≥0 une martingale telle que X0 = 0 et
X 1
E[(Xn − Xn−1 )2 ] < ∞.
n2
n≥1

Xn p.s.
Alors, −→ 0.
n
Démonstration. Posons M0 = 0 et pour tout n ≥ 1,
n
X 1
Mn = (Xk − Xk−1 ).
k
k=1

• Montrons que (Mn )n≥0 est une martingale.


◦ Pour tout n ≥ 0, Mn est Fn -mesurable et dans L1 comme somme finie de v.a. dans L1 ,
en utilisant le fait que (Xn )n≥0 est une martingale.
◦ Calculons, pour tout n ≥ 0,
1
E[Mn+1 − Mn |Fn ] = E[Xn+1 − Xn |Fn ]
n+1
= 0, car E[Xn+1 − Xn |Fn ] = 0, (Xn )n≥0 étant une martingale.

• Montrons que Mn est bornée dans L2 , i.e., supn≥1 E[Mn2 ] < ∞. On a


n
h X 11 i
E[Mn2 ] =E (Xk − Xk−1 )(Xk 0 − Xk 0 −1 )
0
k k0
k,k =1
n
X 1 X 1
= 0
E[(Xk − Xk−1 )(Xk0 − Xk0 −1 )] + E[(Xk − Xk−1 )2 ].
kk k2
1≤k6=k0 ≤n k=1

Si k 6= k 0 , supposons sans perte de généralité que k 0 > k. Alors, d’après les propriétés de
l’espérance conditionnelle, on a

E[(Xk − Xk−1 )(Xk0 − Xk0 −1 )] = E[E[(Xk − Xk−1 )(Xk0 − Xk0 −1 )|Fk0 −1 ]]


= E[(Xk − Xk−1 )E[Xk0 − Xk0 −1 |Fk0 −1 ]], car k 0 > k ⇒ Fk , Fk−1 ⊂ Fk0 −1
= 0, car (Xn )n≥0 est une martingale.

30
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

Ainsi, pour tout n ≥ 1,


n
X 1
E[Mn2 ] = E[(Xk − Xk−1 )2 ]
k2
k=1

X 1
≤ E[(Xk − Xk−1 )2 ] < ∞, par hypothèse.
k2
k=1

Le membre de droite étant indépendant de n, ceci conclut cette partie de la preuve.


En conséquence du théorème 3.3 (cas p = 2), on sait que la martingale (Mn )n≥0 converge p.s.
(et dans L2 ) vers une v.a. M∞ dans L2 .
• Conclusion. On a ∀ k ≥ 1, Mk − Mk−1 = k1 (Xk − Xk−1 ) ⇔ Xk − Xk−1 = k(Mk − Mk−1 ). Donc,
pour tout n ≥ 1,
n
X n
X
Xn = Xn − X0 = (Xk − Xk−1 ) = k(Mk − Mk−1 ), car X0 = 0
k=1 k=1
n
X 
= kMk − (k − 1)Mk−1 − Mk−1
k=1
n−1
X
= nMn − 0M0 − Mk , (changement d’indice),
k=0

et ainsi, pour tout n ≥ 1,


n−1
Xn 1X
= Mn − Mk .
n n
k=0
p.s. 1 Pn−1 p.s.
On a Mn → M∞ ce qui implique, d’après le théorème de Cesarò, que n k=0 Mk → M∞ , et
p.s.
finalement que Xnn → 0.

Théorème 3.6 (Loi forte des grands nombres). Soit (Yn )n≥1 une suite de v.a. i.i.d. telle que
E[|Y1 |] < ∞. Alors,
n
1X p.s.
Yk −→ E[Y1 ].
n
k=1

Démonstration. Quitte à poser Ỹn = Yn − E[Yn ], on peut supposer E[Y1 ] = 0, ce que l’on va faire
dans la suite.
Posons X0 = 0 et pour tout n ≥ 1,
n 
X 
Xn = Yk I{|Yk |≤k} − E[Yk I{|Yk |≤k} ] .
k=1

• Montrons que (Xn )n≥0 est une martingale pour la filtration F0 = {∅, Ω}, (Fn = σ(Y1 , . . . , Yn ))n≥1 .
◦ Pour tout n ≥ 0, Xn est Fn -mesurable et dans L1 comme somme finie de v.a. dans L1 ,
en utilisant l’hypothèse Y1 ∈ L1 .

31
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

◦ Calculons, pour tout n ≥ 0,

E[Xn+1 − Xn |Fn ] = E[Yn+1 I{|Yn+1 |≤n+1} − E[Yn+1 I{|Yn+1 |≤n+1} ]|Fn ]


= E[Yn+1 I{|Yn+1 |≤n+1} ] − E[Yn+1 I{|Yn+1 |≤n+1} ] = 0,

où dans la deuxième égalité on utilise le fait que les (Yn )n≥1 sont indépendantes et que
l’espérance est constante.
•PMontrons que (Xn )n≥0 satisfait à l’hypothèse de la proposition précédente, c’est-à-dire que
1 2
k≥1 k2 E[(Xk − Xk−1 ) ] < ∞. On a

E[(Xk − Xk−1 )2 ] = E (Yk I{|Yk |≤k} − E[Yk I{|Yk |≤k} ])2


 
2
= E Yk2 I{|Yk |≤k} ] − E[Yk I{|Yk |≤k}


≤ E Yk2 I{|Yk |≤k} = E Y12 I{|Y1 |≤k} .


   

1 1 1

Par ailleurs, pour tout k ≥ 1, puisque k2
≤2 k − k+1 , on a

1 2 2 2
Y I ≤ Y 2I − Y 2I
k 2 1 {|Y1 |≤k} k 1 {|Y1 |≤k} k + 1 1 {|Y1 |≤k}
2 2 2
= Y12 I{|Y1 |≤k} − Y12 I{|Y1 |≤k+1} + I .
k k+1 k + 1 {k<|Y1 |≤k+1}
Ainsi, en prenant la somme sur k ∈ {1, . . . , n} et en remarquant le télescopage, nous obtenons
n m
X 1 2
h
2 2 2
i X h 1
2
i
E[(Xk − Xk−1 ) ] ≤ E 2Y1 I{|Y |≤1} − Y I {|Y |≤n+1} + 2 E Y I {k<|Y |≤k+1}
k2 1
n+1 1 1
k+1 1 1
k=1 k=1

1 1
Ensuite, nous bornons Y12 par 1 dans le premier terme, le deuxième terme par 0, et k+1 par |Y1 |
dans la dernière somme, ce qui nous donne
n m
X 1 2
X
E[(Xk − Xk−1 ) ] ≤ 2 + 2 E[|Y1 |I{k<|Y1 |≤k+1} ] = 2 + 2E[|Y1 |I{1<|Y1 |≤n+1} ].
k2
k=1 k=1

En utilisant le théorème de convergence monotone, on déduit finalement que


X 1
E[(Xk − Xk−1 )2 ] ≤ 2 + 2E[|Y1 |] < ∞,
k2
k≥1

car Y1 est supposée dans L1 .


Xn p.s.
Ainsi d’après la proposition précédente, n → 0, i.e.,
n
1 X  p.s.
Yk I{|Yk |≤k} − E[Yk I{|Yk |≤k} ] −→ 0.
n
k=1

• Vu que Y1 est dans L1 , on a d’après le théorème de convergence dominée, que

lim E[Yk I{|Yk |≤k} ] = lim E[Y1 I{|Y1 |≤k} ] = E[Y1 ] = 0.


k→∞ k→∞

32
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

1 Pn n→∞
En conséquence d’après le théorème de Cesarò, n k=1 E[Yk I{|Yk |≤k} ] −→ 0, et donc
n
1X p.s.
Yk I{|Yk |≤k} −→ 0. (3.4)
n
k=1

• Application de Borel-Cantelli. On considère la suite d’événements ({|Yk | > k})k≥1 , alors



X ∞
X Z ∞
P(|Yk | > k) = P(|Y1 | > k) ≤ P(|Y1 | > t)dt = E[|Y1 |].
k=1 k=1 0

Ainsi d’après le lemme de Borel-Cantelli,


 
P(lim sup{|Yk | > k}) = P ∩N ≥1 ∪k≥N {|Yk | > k} = 0,
k
 
donc P ∪N ≥1 ∩k≥N {|Yk | ≤ k} = 1, autrement dit, p.s. il existe N ≥ 1 tel que ∀ k ≥ N ,
|Yk | ≤ k.
• Conclusion. On écrit, pour n suffisamment grand,
n N −1 n
1X 1 X 1 X
Yk = Yk + Yk
n n n
k=1 k=1 k=N

Vu que Y1 < ∞ p.s., le premier terme tend vers 0 p.s. lorsque n tend vers l’infini. Pour le
deuxième, on a p.s.
n n
1 X 1 X
Yk = Yk I{|Yk |≤k} , d’après notre utilisation du lemme de Borel-Cantelli
n n
k=N k=N
n N −1
1 X 1 X
= Yk I{|Yk |≤k} − Yk I{|Yk |≤k} ;
n n
k=1 k=1

le premier tend vers 0 p.s. d’après l’identité (3.4), le deuxième tend vers 0 p.s. car Y1 < ∞ p.s.
En conclusion, on a montré la loi des grands nombres :
n
1X p.s.
Yk −→ 0.
n
k=1

33
Chapitre 3. Compléments sur les martingales : uniforme intégrabilité et
applications

34
Chapitre 4

Contrôle des chaînes de Markov

La théorie des systèmes dynamiques contrôlés existe à la fois en temps discret et en temps
continu, dans un cadre déterministe ou stochastique (aléatoire). Ce cours est consacré au cas
stochastique discret. Le cas déterministe est plus simple (il s’agit d’un cas particulier), par contre
le cas stochastique continu est plus complexe et fait appel aux EDS rétrogrades.

4.1 Processus et chaînes de Markov contrôlés

Le contexte est donné par :

◦ Le temps discret, N.
◦ L’espace des états, S : ensemble dénombrable, muni de la tribu P(S) des parties de S.
On note Proba (S) l’ensemble des mesures de probabilité sur (S, P(S)).
◦ L’espace des actions, A : ensemble quelconque.

Définition 4.1. Un système dynamique contrôlé, stochastique et en temps discret, avec espace
des états S et espace des actions A, est la donnée d’une application

P : N × S × A −→ Proba (S).

L’interprétation est que si à l’instant n ∈ N on est dans l’état x ∈ S et si on choisit l’action


a ∈ A, alors on bouge dans l’état y ∈ S avec probabilité P (n, x, a)(y).

Notation. Pour toute fonction F : N × S → R, on note P F la fonction de N × S × A → R


définie par X
P F (n, x, a) = P (n, x, a)(y)F (n + 1, y) = E[F (n + 1, Y )],
y∈S

où Y ∼ P (n, x, a), à condition que la somme dans le membre de droite soit bien définie.
Souvent P sera homogène en temps et pourra être vu comme une fonction P : S×A → Proba (S).
Dans ce cas, pour toute fonction F : S → R,
X
P F (x, a) = P (x, a)(y)F (y).
y∈S

35
Chapitre 4. Contrôle des chaînes de Markov

Définition 4.2. Un contrôle est une politique de choix des actions. Formellement, soit k ∈ N,
on appelle contrôle partant de k, une application

u : Sk∗ −→ A,

où Sk∗ = {(n, (xk , . . . , xn )) : n ∈ N, n ≥ k, (xk , . . . , xn ) ∈ S n−k+1 }. L’application u représente


le choix, pour tout n ≥ k, d’une action a ∈ A à l’instant présent n en fonction des états observés
(xk , . . . , xn ) entre les temps k et n. On note un (xk , . . . , xn ) := u(n, (xk , . . . , xn )) et Ck l’ensemble
des contrôles partant de k.

Définition 4.3. Étant donnés : un instant et un état initial (k, x) ∈ N × S, un contrôle u ∈ Ck


partant de k, une système dynamique contrôlé P , on définit de manière récursive un processus
(Xn )n≥k à valeurs dans S, appelé processus ou chaîne contrôlée par u et d’état initial (k, x), en
posant
◦ Xk = x,
◦ pour tout n ≥ k, pour tout (xk , . . . , xn ) ∈ S n−k+1 tel que xk = x et P(Xk = xk , . . . , Xn =
xn ) > 0,

P(Xn+1 = xn+1 |Xk = xk , . . . , Xn = xn ) = P (n, xn , un (xk , . . . , xn ))(xn+1 ),

En mots cette définition se reformule de la manière suivante : sachant qu’à l’instant k on est
dans l’état x, et qu’entre les instants k et n on a visité les états (xk = x, . . . , xn ), à l’instant n
on choisit le contrôle un (xk , . . . , xn ) pour déterminer la distribution de l’état suivant Xn+1 .

Remarque 4.1. Cette définition détermine la loi du processus (Xn )n≥k ; en effet, pour tout n ≥ k,
pour tout (xk , . . . , xn ) ∈ S n−k+1 , on a

P(Xk = xk , . . . , Xn = xn )δx,xk P (k, xk , uk (xk ))(xk+1 ) . . . P (n − 1, xn−1 , un−1 (xk , . . . , xn−1 ))(xn ).

Réalisation de systèmes dynamiques contrôlés. Voici une manière de réaliser un système


dynamique contrôlé. En plus de l’espace des états S et de l’espace des actions A, on se donne
une suite (Zn )n≥0 de v.a. i.i.d. à valeurs dans un espace (E, E), appelées innovations, et une
application G : N × S × A × E → S. On définit alors le système dynamique contrôlé P par

∀ (n, x, a) ∈ N × S × A, P (n, x, a) est la loi de G(n, x, a, Zn+1 ).

La paire (G, (Zn )n≥0 ) s’appelle une réalisation d’un système dynamique contrôlé.
Étant donné un instant et un état initial (k, x) ∈ N × S, un contrôle u ∈ Ck , on peut réaliser le
processus contrôlé (Xn )n≥k associé en le définissant par
◦ Xk = x,
◦ pour tout n ≥ k, Xn+1 = G(n, Xn , Un , Zn+1 ) avec Un = un (Xk , . . . , Xn ).
Remarque 4.2. Tout système dynamique contrôlé peut être réaliser de cette manière ; parfois
cela est naturel parfois ça ne l’est pas.

Cas markovien. Soit k ∈ N, le contrôle u ∈ Ck est dit markovien si u ne dépend de la trajectoire


passée qu’à travers l’instant n. On peut alors voir u comme une application de N × S → A et
on note un (xn ) = un (xk , . . . , xn ).

36
Chapitre 4. Contrôle des chaînes de Markov

Dans ce cas, le processus contrôlé (Xn )n≥k est markovien, de matrice de transition
( P (n, x, un (x))(y) )(x,y)∈S 2 .
On parle de processus ou chaîne de Markov contrôlée.
Si le contrôle markovien u est de plus homogène, on peut le voir comme une fonction de S → A
et on note u(xn ) = un (xn ). Si de plus, le système dynamique contrôlé est homogène en temps,
la chaîne contrôlée markovienne est alors homogène, de matrice de transition
( P (x, u(x))(y) )(x,y)∈S 2 .
On parle de processus ou chaîne de Markov contrôlée homogène.

4.2 Équations de la programmation dynamique

4.2.1 Le problème

Notre objectif est de déterminer le “meilleur” contrôle pour un système dynamique aléatoire
contrôlé donné. Pour cela nous introduisons une fonction de coût. Notons que dans la suite,
l’application G (ou P ) est fixée.
Définition 4.4.
◦ La fonction de coût est une application c : N × S × A → R.
◦ Pour tout temps et état initial (k, x) ∈ N × S, pour tout contrôle u ∈ Ck , on définit le
coût moyen du processus (Xn )n≥k contrôlé par u d’état initial (k, x), par

hX i
u
V (k, x) = E c(n, Xn , Un ) ,
n=k

avec Un = un (Xk , . . . , Xn ) ; sous réserve que cette expression ait un sens, ce qui est bien
le cas lorsque c est une fonction positive ou négative, ou lorsque sup(x,a)∈S×A |c(n, x, a)|
est sommable sur N. Dans la suite on supposera être dans un de ces trois cas.
Pour tout n ≥ k, c(n, Xn , Un ) représente le coût de faire le contrôle Un à l’instant n
lorsqu’on se trouve en Xn .

Nous cherchons à minimiser ce coût sur tous les contrôles, ce qui amène naturellement aux
définitions suivantes.
Définition 4.5.
◦ On définit la fonction valeur du système, V : N × S → R, par
∀ (k, x) ∈ N × S, V (k, x) = inf V u (k, x).
u∈Ck

◦ Un contrôle u ∈ Ck est optimal pour (k, x) si V u (k, x) = V (k, x).

Précisément, nos objectifs sont de déterminer la fonction valeur V et d’identifier le(s) contrôle(s)
optimal(aux) lorsqu’il(s) existe(nt).
En pratique, on ne peut pas faire de recherche sur tous les contrôles car il y a trop de cas. La
solution est donnée par le théorème fondamental de la section suivante qui introduit aussi les
équations de Bellman.

37
Chapitre 4. Contrôle des chaînes de Markov

4.2.2 La fonction valeur : équations de Bellman

Pour déterminer la fonction valeur V on utilise le théorème fondamental suivant.


Théorème 4.1. La fonction valeur V satisfait l’équation suivante, appelée équation de Bellman
ou équation de la programmation dynamique,

∀ (k, x) ∈ N × S, V (k, x) = inf {(c + P V )(k, x, a)},


a∈A
P
où on rappelle que P V (k, x, a) = y∈S P (k, x, a)(y)V (k + 1, y) = E[V (k + 1, Y )], avec Y ∼
P (k, x, a).
Remarque 4.3. Le théorème ne dit rien sur l’unicité des solutions à l’équation de Bellman. On
verra plus tard, dans le cas où l’horizon de temps est fini, comment cela se passe.

Démonstration.
• Préliminaire. Montrons que
X
V u (k, x) = c(k, x, uk (x)) + P (k, x, uk (x))(y)V ũ (k + 1, y) = (c + P V ũ )(k, x, uk (x)), (4.1)
y∈S

où le contrôle ũ ∈ Ck+1 est défini en (4.2). Comme Xk = x p.s., on a, pour tout u ∈ Ck ,



h X i
u
V (k, x) = c(k, x, uk (x)) + E c(n, Xn , Un )
n=k+1
X h X ∞ i
= c(k, x, uk (x)) + E c(n, Xn , Un )I{Xk+1 =y} ,
y∈S n=k+1

où on rappelle que Un = un (Xk , . . . , Xn ).


On utilise le point de vue de la réalisation de systèmes dynamiques contrôlés : soit (G, (Zn )n≥0 )
une telle réalisation. Alors, pour le temps et l’état initial (k, x), pour le contrôle u ∈ Ck , une
réalisation du processus contrôlé (Xn )n≥k est donnée par :
◦ Xk = x,
◦ ∀ n ≥ k, Xn+1 = G(n, Xn , Un , Zn+1 ).
À partir du contrôle u ∈ Ck , on définit un contrôle ũ ∈ Ck+1 :

∀ n ≥ k + 1, ∀ (xk+1 , . . . , xn ) ∈ S n−k , ũn (xk+1 , . . . , xn ) = un (x, xk+1 , . . . , xn ). (4.2)

Pour le temps et l’état initial (k + 1, y), en utilisant la réalisation (G, (Zn )n≥0 ) du système
dynamique contrôlé et le contrôle ũ ∈ Ck+1 , on définit le processus contrôlé (X̃n )n≥k+1 par
◦ X̃k+1 = y ;
◦ ∀ n ≥ k + 1, X̃n+1 = G(n, X̃n , Ũn , Zn+1 ).
Alors, si l’événement {Xk+1 = y} est réalisé on a, pour tout n ≥ k + 1, X̃n = Xn et Ũn = Un .
En effet, par récurrence sur n,
◦ n = k + 1 : X̃k+1 = y = Xk+1 et
def. Ũ def. ũ def. U
Ũk+1 = ũk+1 (X̃k+1 ) = uk+1 (x, X̃k+1 ) = uk+1 (Xk , Xk+1 ) = Uk+1 .

38
Chapitre 4. Contrôle des chaînes de Markov

◦ Supposons le résultat démontré pour tout k + 1 ≤ ` ≤ n :

X̃n+1 = G(n, X̃n , Ũn , Zn+1 ), par définition de X̃n+1


= G(n, Xn , Un , Zn+1 ), hypothèse de récurrence
= Xn+1 , définition de Xn ,

et

Ũn+1 = ũn+1 (X̃k+1 , . . . , X̃n+1 ), par définition de Ũn


= un+1 (x, X̃k+1 , . . . , X̃n+1 ), par définition de ũ
= un+1 (x, Xk+1 , . . . , Xn+1 ), hypothèse de récurrence + ci-dessus
= un+1 (Xk , Xk+1 , . . . , Xn+1 ) = Un+1 , définition de Xk et de Un .

Remarquons de plus que, X̃k+1 est constante donc indépendante de Xk+1 , et que pour tout
n ≥ k + 2, X̃n est σ(Zk+2 , . . . , Zn )-mesurable, donc indépendante de Xk+1 qui est σ(Zk+1 )-
mesurable (par indépendance des (Zn )n≥0 ). De la première identité ci-dessus, on déduit aussi
que pour tout n ≥ k + 1, Ũn est indépendante de Xk+1 .
Ainsi, on a que

h X i ∞
h X i
E c(n, Xn , Un )I{Xk+1 =y} = E c(n, X̃n , Ũn )I{Xk+1 =y}
n=k+1 n=k+1

h X i
=E c(n, X̃n , Ũn ) P(Xk+1 = y)
n=k+1

= V (k + 1, y)P(Xk+1 = y),

où dans la première égalité on utilise l’égalité presque sûre des variables aléatoires, dans la
deuxième l’indépendance et dans la troisième le fait que la réalisation (G, (Zn )n≥1 ) du système
dynamique est la même pour (X̃n )n≥k+1 et (Xn )n≥k ; seuls le contrôle et la condition initiale
sont différents.
La preuve de l’identité (4.1) est conclue en remarquant que

P(Xk+1 = y) = P(Xk+1 = y|Xk = x), car Xk = x


= P (k, x, uk (x))(y), définition du processus contrôlé.

• Montrons que V (k, x) ≥ inf a∈A (c + P V )(k, x, a). D’après (4.1), on a pour tout contrôle u ∈ Ck ,
X
V u (k, x) = c(k, x, uk (x)) + P (k, x, uk (x))(y)V ũ (k + 1, y)
y∈S
X
≥ c(k, x, uk (x)) + P (k, x, uk (x))(y)V (k + 1, y), par définition de V (k + 1, y)
y∈S
 X
≥ inf c(k, x, a) + P (k, x, a)(y)V (k + 1, y)
a∈A
y∈S

= inf {(c + P V )(k, x, a)}.


a∈A

39
Chapitre 4. Contrôle des chaînes de Markov

• Montrons que V (k, x) ≤ inf a∈A (c + P V )(k, x, a).


Par définition de V (k + 1, y), pour tout ε > 0, pour tout y ∈ S, il existe un contrôle uy ∈ Ck+1
tel que
y
V u (k + 1, y) < V (k + 1, y) + ε.
À partir du contrôle uy ∈ Ck+1 , on définit un contrôle u ∈ Ck de la manière suivante :
◦ ∀ x ∈ S, uk (x) quelconque,
x
◦ ∀ n ≥ k + 1, (xk+1 , . . . , xn ) ∈ S n−k , un (x, xk+1 , . . . , xn ) = unk+1 (xk+1 , . . . , xn ).
Alors on remarque que le contrôle ũ ∈ Ck+1 associé à u par (4.2) satisfait, ∀ n ≥ k+1, ∀ (xk+1 , . . . , xn ) ∈
S n−k ,
x
ũn (xk+1 , . . . , xn ) = un (x, xk+1 , . . . , xn ) = unk+1 (xk+1 , . . . , xn ).
Ainsi d’après l’équation (4.1) appliquée avec le contrôle u ∈ Ck défini ci-dessus, on obtient
X
V (k, x) ≤ V u (k, x) = c(k, x, uk (x)) + P (k, x, uk (x))(y)V ũ (k + 1, y)
y∈S
y
X
= c(k, x, uk (x)) + P (k, x, uk (x))(y)V u (k + 1, y)
y∈S
X
< c(k, x, uk (x)) + P (k, x, uk (x))(y)V (k + 1, y) + ε.
y∈S

Ceci étant vrai pour tout choix de uk (x), on peut prendre l’infimum sur les a ∈ A à droite, ce
qui nous donne,
 X
V (k, x) ≤ inf c(k, x, a) + P (k, x, a)(y)V (k + 1, y) + ε.
a∈A
y∈S

Ceci étant vrai pour tout ε > 0, la preuve est terminée.

Remarque 4.4.
1. On peut définir une fonction de gain r : N × S × A → R au lieu d’une fonction de coût.
On cherche alors,
V (k, x) = sup V u (k, x).
u∈Ck

On pose c = −r et on retrouve le problème précédent. Ainsi, la fonction valeur satisfait


à l’équation de Bellman

V (k, x) = sup{(r + P V )(k, x, a)}.


a∈A

2. Lorsque la fonction de coût c et le système dynamique P sont homogènes, la fonction


valeur est homogène et l’équation de Bellman devient

V (x) = inf {(c + P V )(x, a)}.


a∈A

Notons que la politique de contrôle u n’a pas besoin d’être homogène en temps (ceci se
voit à travers l’équation de Bellman où l’homogénéité en temps des contrôles n’est plus
nécessaire vu que l’on prend l’infimum sur tous les a ∈ A).

40
Chapitre 4. Contrôle des chaînes de Markov

4.3 Contrôle stochastique à horizon fini

On se donne :
◦ un système dynamique contrôlé P : N × S × A → Proba(S)
◦ un horizon de temps N ∈ N et une fonction de coût c : N × S × A → R tels que
(
0 si n ≥ N + 1
c(n, x, a) =
C(x) si n = N , pour une fonction C : S → R donnée.

◦ un temps et un état initial (k, x) ∈ N × S et un contrôle partant de k, u ∈ Ck .


Alors, le coût moyen du processus (Xn )n≥k contrôlé par u et d’état initial (k, x) est
◦ ∀ k ≥ N + 1, V u (k, x) = 0,
◦ V u (N, x) = E[C(XN )] = C(x) car
hPXN = x p.s. si le temps et il’état initial sont (N, x),
u N −1
◦ ∀ 0 ≤ k ≤ N − 1, V (k, x) = E n=k c(n, Xn , Un ) + C(XN ) .

Notons que pour tout contrôle u, V (N, x) = V u (N, x) = C(x) car le membre de droite est
indépendant de u. Ainsi, en utilisant l’équation de Bellman
 X 
V (k, x) = inf c(k, x, a) + V (k + 1, y)P (k, x, a)(y) (4.3)
a∈A
y∈S

on peut construire par une récurrence rétrograde, V (N − 1, x), . . . , V (0, x). La solution est donc
unique.
Il reste encore à déterminer un contrôle optimal. Dans le cadre markovien, ceci est donné par la
proposition suivante.

Proposition 4.1. Soit 0 ≤ k0 ≤ N . Supposons que u ∈ Ck0 est un contrôle markovien tel que,
pour tout k0 ≤ k ≤ N − 1, pour tout x ∈ S,

V (k, x) = (c + P V )(k, x, uk (x)).

Alors, u est optimal pour (k0 , x), pour tout x ∈ S.

Démonstration. Soit u ∈ Ck0 un tel contrôle markovien et soit (Xn )n≥k0 le processus contrôlé
associé de temps et état initial (k0 , x). Définissons,
(
V (k0 , x) si k = k0
Mk = Pk−1
j=k0 c(j, Xj , Uj ) + V (k, Xk ) si k0 + 1 ≤ k ≤ N .

Calculons, pour tout k0 ≤ k ≤ N − 1,

Mk+1 − Mk = V (k + 1, Xk+1 ) − V (k, Xk ) + c(k, Xk , Uk ),

d’où, pour tout y ∈ S,

E[Mk+1 − Mk |Xk = y] = P V (k, y, uk (y)) − V (k, y) + c(k, y, uk (y)), car u est markovien
= 0, par hypothèse,

41
Chapitre 4. Contrôle des chaînes de Markov

P
où on a utilisé que E[V (k+1, Xk+1 )|Xk = y] = z∈S V (k+1, z)P (k, y, uk (y))(z) = P V (k, y, uk (y)).
Ceci étant vrai pour tout y ∈ S, on déduit que pour tout k0 ≤ k ≤ N − 1, E[Mk ] = E[Mk+1 ].
Ainsi,
−1
hNX i
V (k0 , x) = E[Mk0 ] = E[MN ] = E c(j, Xj , Uj ) + V (N, XN ) = V u (k0 , x).
j=k0

En conclusion : dans le cas horizon fini, il suffit de trouver à chaque étape l’action qui mini-
mise (4.3), si elle existe, pour construire une politique de contrôle optimal.
Lien avec l’arrêt optimal dans le cadre markovien. On se donne une chaîne de Markov
(Xn )n≥0 à valeurs dans un espace E. Alors, pour tout n ≥ 0,
Xn+1 = G(n, Xn , εn+1 ),
où (εn )n≥0 est une suite de v.a. i.i.d. Soit (Yn )0≤n≤N = (ϕn (Xn ))0≤n≤N le processus de grain
associé. Alors la fonction valeur satisfait :
◦ ZN = YN = ϕN (XN )
◦ ∀, 0 ≤ k ≤ N − 1, Zk = max(Yk , E[Zk+1 |Fk ]).
Dans le cadre markovien, on peut écrire, Zk = Vk (Xk ) (voir cours) et
◦ ZN = VN (XN ) = ϕN (XN )
◦ ∀ 0 ≤ k ≤ N − 1, Vk (Xk ) = max(ϕk (Xk ), E[Vk+1 (G(k, Xk , εk+1 ))|Xk ]). Ainsi,
∀ x ∈ E, Vk (x) = max(ϕk (x), E[Vk+1 (G(k, x, εk+1 ))])
Traduisons maintenant ceci en contrôle optimal. On se donne
◦ Espace des états S = E ∪ {∆} (l’espace de la chaîne de Markov avec un cimetière).
◦ Espace des action A = {0, 1}, où 0 signifie “on continue” et 1 “on arrête”.
◦ Une réalisation du système dynamique contrôlé
(
G(n, x, εn+1 ) si x ∈ E et a = 0 (on continue)
G̃(n, x, a, εn+1 ) =
∆ sinon (càd x ∈ E et a = 1, ou x = ∆ et a ∈ {0, 1}).

◦ Le processus contrôlé associé (X̃n )n≥0 avec X̃n+1 = G̃(n, Xn , Un , εn+1 ).


◦ La fonction de gain r :
(
ϕN (x) si x ∈ E
r(N, x, a) = R(x) =
0 si x = ∆
Pour tout 0 ≤ k ≤ N − 1,
(
0 si a = 0 (on continue) ou x = ∆
r(k, x, a) =
ϕk (x) si x ∈ E et a = 1 (on s’arrête).
On peut montrer que pour tout 0 ≤ k ≤ N , V (k, ∆) = 0. On a aussi, ∀ x ∈ E, V (N, x) =
ϕN (x). De plus, pour a ∈ {0, 1}, P V (k, x, a) = E[V (k + 1, Y )] avec Y ∼ P (k, x, a). Ainsi,
en utilisant la formulation avec G̃, pour tout x ∈ E,
(
E[V (k + 1, G(k, x, εk+1 ))] si a = 0
P V (k, x, a) = E[V (k + 1, G̃(k, x, a, εk+1 ))] =
0 si a = 1.

42
Chapitre 4. Contrôle des chaînes de Markov

Donc, pour tout 0 ≤ k ≤ N − 1, ∀ x ∈ E, d’après les équations de Bellman,

V (k, x) = max(ϕk (x), E[V (k + 1, G(k, x, εk+1 ))]).

Les quantités Vk ( · ) et V (k, · ) satisfont à la même récurrence rétrograde, ce sont donc


les mêmes quantités.

43

Vous aimerez peut-être aussi