Cours Quant If
Cours Quant If
et Applications en Finance
Huyên PHAM
Université Paris 7
Laboratoire de Probabilités et
Modèles aléatoires, CNRS UMR 7599
pham@[Link]
Version : 2006-2007.
Préface 3
3 Filtrage et quantification 35
3.1 Filtrage linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Rappel sur les variables gaussiennes . . . . . . . . . . . . . . . . 35
3.1.2 Filtre de Kalman-Bucy . . . . . . . . . . . . . . . . . . . . . . . 37
3.2 Filtrage non linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.1 Description du modèle . . . . . . . . . . . . . . . . . . . . . . . . 41
3.2.2 Equation du filtre . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Approximation par quantification . . . . . . . . . . . . . . . . . . 46
3.3 Applications et exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
3.3.1 Application : Valorisation d’options européennes en information
partielle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
1
TABLE DES MATIÈRES 2
3.3.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Bibliographie 55
Préface
3
Chapitre 1
Dans la suite, |.| est la norme euclidienne sur Rd et on note (.|.) ou parfois . le produit
scalaire associé. L’intérieur d’une partie A de Rd est notée int(A) et son adhérence
Adh(A). On note ]A le cardinal d’un ensemble A de Rd et 1A la fonction indicatrice de
A. Etant donné un espace de probabilité (Ω, A, P), on note L2 (Ω, P; Rd ) l’ensemble des
variables aléatoires X à valeurs dans Rd telles que E|X|2 < +∞ et on note kXk2 =
1
E|X|2 2 . On notera aussi PX la loi de probabilité de X et λd la mesure de Lebesgue de
Rd . On note Supp(µ) le support topologique d’une mesure µ sur Rd et Conv(Supp(µ))
son enveloppe convexe fermée.
est appelée mosaique (ou diagramme) de Voronoi de x. Les C̄i (x), i = 1, . . . , N , sont les
cellules fermées de Voronoi engendrées par x. Ainsi, C̄i (x) consiste en tous les points
u de Rd tels que xi est le plus proche de u parmi les points xj de x ; voir figure 1.1.
∪N d
i=1 C̄i (x) = R ,
4
QUANTIFICATION VECTORIELLE 5
et que les cellules de Voronoi C̄i (x) sont fermées dans Rd . On introduit aussi les cellules
ouvertes de Voronoi dans Rd :
o d
Ci (x) = u ∈ R : |u − xi | < min |u − xj | , i = 1, . . . , N,
xj 6=xi
qui sont clairement ouvertes dans Rd et disjointes deux à deux mais ne couvrent pas
Rd . On appelle partition de Voronoi de x toute partition Ci (x), i = 1, . . . , N , de Rd ,
i.e. ∪N d
i=1 Ci (x) = R et Ci (x) ∩ Cj (x) = ∅ si xi 6= xj , telle que :
Nous montrons d’abord quelques propriétés intuitives sur les cellules de Voronoi.
C̄i (x) = ∩N
j=1 Hij (x). (1.3)
il est clair que Hij (x) est convexe et donc aussi C̄i (x) d’après (1.3). De même, en
écrivant que
n o
Cio (x) = ∩xj 6=xi u ∈ Rd : |u − xi | < |u − xj |
1
= ∩xj 6=xi u ∈ Rd : xi − xj | u − (xi + xj ) > 0 ,
2
on a la convexité de Cio (x).
(b) Vérifions que pour tout xj 6= xi , λ ∈ ]0, 1[ et u ∈ Hij (x), on a
n o
λu + (1 − λ)xi ∈ v ∈ Rd : |v − xi | < |v − xj | . (1.4)
En effet, posons v = λu + (1 − λ)xi , i.e. v − xi = λ(u − xi ). v est dans Hij (x) par
convexité de cet ensemble. Supposons alors par l’absurde que |v − xi | = |v − xj |. Alors,
en utilisant le fait que pour tous vecteurs x 6= y avec |x| = |y|, on a |(1 − λ)x + λy| <
|x|, on en déduit :
1 1
|u − xj | = (v − xi ) − (xj − xi ) = |v − xi − λ(xj − xi )|
λ λ
1
= |(1 − λ)(v − xi ) + λ(v − xj )|
λ
1
< |v − xi | = |u − xi | ≤ |u − xj |,
λ
qui est la contradiction voulue.
? D’après (1.3), on a int(C̄i (x)) = ∩N
j=1 int(Hij (x)) et donc pour obtenir int(C̄i (x)) =
o
Ci (x), on doit montrer que pour tout xj 6= xi
n o
int(Hij (x)) ⊂ u ∈ Rd : |u − xi | < |u − xj | .
Soit u ∈ int(Hij (x)) et ε > 0 tel que B(u, ε) ⊂ Hij (x). Si u = xi , on a trivialement
|u − xi | < |u − xj |. Sinon, on pose t = 1 + ε/|u − xi | et w = xi + t(u − xi ). Alors on a :
ce qui implique w ∈ Hij (x). Comme u = 1t w + (1 − 1t )xi avec 1/t < 1, on a d’après
(1.4) |u − xi | < |u − xj |.
QUANTIFICATION VECTORIELLE 7
? Soit u ∈ C̄i (x). Alors d’après (1.3), u ∈ Hij (x) pour tout j. Considérons la suite
un = (1 − 1/n)u + 1/nxi , n ≥ 1. D’après (1.4), on a pour tout xj 6= xi , |un − xi | <
|un − xj |, i.e. un ∈ Cio (x). Comme la suite (un )n converge vers u, ceci prouve que u ∈
Adh(Cio (x)) et donc C̄i (x) = Adh(Cio (x)).
? La dernière relation de l’assertion (a) découle de la définition de la frontière d’un
ensemble A de Rd : ∂A = Adh(A)∩(int(A))c et des relations précédentes :
∂Cio (x) = Adh(Cio (x)) ∩ (Cio (x))c = C̄i (x) ∩ int(C̄i (x)) = ∂ C̄i (x).
Puisque Sij (x) est un hyperplan de Rd , on a λd (Sij (x)) = 0 et l’assertion (c) est alors
une conséquence de la relation ci-dessus. 2
Autrement dit, X̂ x est la projection selon le plus proche voisin de la variable aléatoire
X sur la grille x. Les pi sont appelés aussi masses des cellules de Voronoi. L’erreur
résultante au carré de quantification quadratique est appelée distorsion (quadratique)
et s’écrit donc par définition d’une partition de Voronoi :
X
DN (x) := E|X − X̂ x |2
N
X
E |X − xi |2 1Ci (x) (X) = E 2
= min |X − xi |
i=1,...,N
i=1
Z
= dN (x, u)PX (du) (1.5)
Rd
QUANTIFICATION VECTORIELLE 8
et donc
n o
DX
N = inf E|X − Y |2 : Y : Ω → Rd mesurable, ]Y (Ω) ≤ N .
Preuve. Soit Y une variable aléatoire quelconque discrète dans Rd de support Y (Ω)
⊂ {x1 , . . . , xN }. On a alors par définition de la quantification de Voronoi :
|X − X̂ x |2 = min |X − xi |2 ≤ |X − Y |2 , p.s.
i=1,...,N
2
L’existence et la caractérisation d’un quantifieur optimal requiert l’étude de la
distorsion DNX en fonction de x ∈ (Rd )N .
Proposition 1.2.3 La fonction x 7→ DN X est continue sur (Rd )N et atteint son mi-
ce qui prouve DX X
k+1 < D k . Considérons l’ensemble de (R )
d k+1 : K X
k+1 = {Dk+1 ≤
X
Dk+1 (x(k+1) X
)}. Kk+1 est fermé par continuité de Dk+1 . Il est aussi borné car d’après
le lemme de Fatou :
X 2
lim inf Dk+1 (x) ≥ E lim inf min |X − xi |
x=(x1 ,...,xk+1 )→+∞ x=(x1 ,...,xk+1 )→+∞ i=1,...,k+1
≥ DX
k
X
> Dk+1 (x(k+1) ).
Ainsi, Kk+1 est un compact de (Rd )k+1 dans lequel Dk+1 X atteint son minimum qui
est alors évidemment aussi un minimum absolu sur (R )k+1 . De plus, comme DX
d
k+1 <
X X
Dk , un minimum de Dk+1 a nécessairement toutes ses k + 1 composantes distinctes.
Finalement, en notant par Π la projection sur le convexe fermé Conv(Supp(PX )), on
a pour tout x ∈ (Rd )N et u ∈ Supp(PX ), |Π(xi ) − u| = |Π(xi ) − Π(u)| ≤ |xi − u| car Π
X ((Π(x ) X
est 1-Lipschitzienne et donc DN i 1≤i≤N ) ≤ DN (x). Ceci prouve qu’un minimum
de DNX a ses composantes dans Conv(Supp(P )).
X 2
On a le résultat suivant de différentiabilité de la fonction de distorsion.
∂dN
(x, u) = 2 (xi − u)1Ci (x) (u) 1≤i≤N ,
∂x
∂dN
et donc ∂x (x, u) existe PX (du) p.s. sous la condition PX (∪N
i=1 ∂Ci (x)) = 0. De plus,
pour tout x dans un compact K de (Rd )N avec xi 6= xj pour i 6= j, on a ∂d ∂x (x, u) ≤
N
Un quantifieur optimal est donc stationnaire (la réciproque n’étant pas toujours vraie).
On a la propriété utile suivante sur les quantifieurs stationnaires.
Examples
1. Soit N = 1. Alors D1X (x) = E|X − x|2 atteint son minimum en x∗ = E(X) et on a
DX1 = V ar(X).
On obtient donc
1 3 1
arg min D2X = {∇D2X = 0} = , 1 ; 0, et DX
2 = .
x∈R2 4 4 24
∗,1
Pour x∗,1 = (1/4, 1), on a C1/4 (x∗,1 ) = ] − ∞, 5/8[ et C1 (x∗,1 ) = [5/8, ∞[, d’où p1/4
= 2/3 et p∗,1
1 = 1/3. Pour x
∗,2 = (0, 3/4), on a C (x∗,2 ) = ] − ∞, 3/8[ et C
0
∗,1
3/4 (x ) =
∗,2 ∗,2
[3/8, ∞[, d’où p0 = 1/3 et p3/4 = 2/3.
3. Soit X de loi uniforme sur [0, 1] : U ([0, 1]). La recherche du minimum de la distorsion
DN X peut se restreindre aux N -uplets x = (x , . . . , x ) avec 0 ≤ x < x < . . . < x ≤
1 N 1 2 N
1. Pour de tels N -uplets, les cellules (fermées) de Voronoi sont :
x1 + x2 xi−1 + xi xi + xi+1
C̄1 (x) = −∞, , C̄i (x) = , , 2 ≤ i ≤ N − 1,
2 2 2
xN −1 + xN
C̄N (x) = , +∞ .
2
On calcule explicitement le gradient de la distorsion :
∂DNX Z
1
(x) = 2 (x1 − u)du = (3x1 − x2 )(x1 + x2 ),
∂x1 C̄1 (x)∩[0,1] 4
∂DNX Z
1
(x) = 2 (xi − u)du = (2xi − (xi−1 + xi+1 ))(xi+1 − xi−1 ), 2 ≤ i ≤ N − 1,
∂xi C̄i (x) 4
∂DNX Z
1
(x) = 2 (xN − u)du = (3xN − xN −1 − 2)(2 − (xN −1 + xN )).
∂xi C̄N (x)∩[0,1] 4
On vérifie alors aisément qu’il y a un unique x∗ = (x∗1 , . . . , x∗N ) tel que ∇DN
X (x∗ ) = 0 :
Cet unique quantifieur stationnaire est donc aussi l’unique minimum de DN X . Les ce-
llules fermées de Voronoi associées sont C̄1 (x∗ ) = ]−∞, 1/N ], C̄i (x∗ ) = [(i−1)/N, i/N ],
i = 2, . . . , N − 1, et C̄N (x∗ ) = [1 − 1/N, ∞[. Par symétrie et translation, on calcule
aisément la distorsion minimale :
N Z
X
X ∗
DN
X = DN (x ) = |x∗i − u|2 1[0,1] (u)du
i=1 Ci (x∗ )
Z
1 1
= N |u|2 du = ,
[−1/2N,1/2N ] 12 N 2
ainsi que les masses des cellules de Voronoi associées p∗i = PX [Ci (x∗ )] = 1/N , i =
1, . . . , N .
4. Soit X de loi uniforme sur le cube [0, 1]d : U ([0, 1]d ). Considérons la mosaique de
Voronoi de [0, 1]d construite avec les N = k d translations C1 , . . . , CN du cube [0, 1/k]d .
Notons xi , i = 1, . . . , N , les points centraux de ces cubes, voir figure. La distorsion
associée est
N Z
X
X
DN (x) = |xi − u|2 du.
i=1 Ci
|u|2
Z Z Z
2 2
|xi − u| du = |u| du = 2+d
du.
Ci [− 1 , 1 ]d2k 2k
[− 1 , 1 ]d k 2 2
On obtient donc
Z
X 1 1 d
DN (x) = 2 |u|2 du = 2 .
N d [− 12 , 21 ]d N d 12
Proposition 1.3.6
lim DX
N = 0.
N →+∞
Preuve. Soit (xn )n∈N∗ une suite dense dans Rd et considérons le N -uplet x(N ) =
(x1 , . . . , xN ). Alors la suite de variables aléatoires positives fN = mini=1,...,N |X − xi |2
est décroissante et converge p.s. vers 0. On en déduit par le théorème de convergence
QUANTIFICATION VECTORIELLE 13
Théorème 1.3.1 Soit X de loi uniforme sur [0, 1]d : U ([0, 1]d ). Alors
2
Jd := lim N d DX
N existe dans ]0, +∞[.
N →+∞
Dans un deuxième temps, on étend le résultat pour des lois non uniformes. On note
PX = PaX + PsX la décomposition de Lebesgue de PX par rapport à λd , i.e. PaX est la
partie absolument continue et PsX la partie singulière. On note dPaX /dλd la densité de
Radon-Nykodim de PaX par rapport à λd . Pour toute fonction borélienne mesurable de
Rd dans R et r ∈ ]0, +∞[, on note
Z 1
r
r
kf kr = |f | dλd .
2 dPaX
lim N d DX
N = Jd . (1.11)
N →+∞ dλd d
d+2
Remarque 1.3.2 Si PX est une mesure purement singulière par rapport à λd alors le
théorème précédent montre que DX −2/d ). En fait, dans ce cas, la vitesse peut
N = o(N
être plus rapide. Par exemple, si PX est une mesure discrète alors DX N = 0 dès que N
≥ ]supp(PX ). Si ]supp(PX ) = N et la transformée de Laplace de X est finie sur tout
R+ , e.g. la loi de Poisson, alors :
X 2
≤ E 1X≥N |X − N + 1|2
DN ≤ E min |X − n|
n=0,...,N −1
Example
Soit X de loi normale N (m, Σ) sur Rd (Σ matrice de variance-covariance). Alors la
formule (1.11) donne
1+ d
2 2 2 1
lim N d DX
N = 2π 1 + (det(Σ)) d Jd .
N →+∞ d
Projet 1 : Mémoire sur la démonstration du théorème 1.3.2. Ref : Graf et Lushgy [10].
recherche des minima d’une fonction est un problème classique en analyse. Il est lié au
problème de la recherche des points à un niveau puisque argmin DN X ⊂ {∇D X = 0}.
N
On va donc en fait chercher les quantifieurs stationnaires i.e. solution de : ∇DN X (x∗ )
= 0 qui vont nous donner au moins des minimas locaux. Nous examinons dans ce
paragraphe les méthodes de point fixe et celles du gradient.
L’algorihme de Lloyd consiste à définir récursivement une suite (xn )n≥0 dans (Rd )N
partant d’un point initial x ∈ (Rd )N :
x0 = x Z
1
xn+1
i
n
= Fi (x ) := uPX (du), i = 1, . . . , N, (1.12)
PX (Ci (xn )) Ci (xn )
L’heuristique de la qualité d’un tel algorithme est donnée par l’argument suivant : en
n
notant X̂ n := X̂ x , la relation (1.12) implique X̂ 0 = X̂ x et
X̂ n+1 = E[X|X̂ n ], n ∈ N.
En dimension d = 1, on montre (voir [11]) que lorsque PX admet une densité stric-
tement log-concave (e.g. la distribution normale), alors l’application x 7→ (Fi (x))1≤i≤N
est une contraction et donc admet un unique point fixe vers lequel la méthode de
Lloyd converge avec une vitesse exponentielle. En dimension d ≥ 2, les résultats de
convergence de la méthode de Lloyd ne sont pas clairement établis dans la littérature.
De plus, lorsque d ≥ 2, l’implémentation de la méthode de Lloyd n’est pas réaliste
car on doit calculer numériquement des intégrales multiples sur des mosaiques de Vo-
ronoi. En fait, l’algorithme de Lloyd ne s’utilise en pratique qu’en dimension d = 1 où
les mosaiques de Voronoi et le calcul d’intégrale simple sont explicites.
Projet 2 : Démonstration de la convergence de la méthode de Lloyd en dimension 1
et implémentation pour la loi normale.
des corrections diminuant petit à petit. Supposons ainsi que x∗ est un point attractif,
i.e.
(x − x∗ |∇DN
X
(x)) > 0, ∀x 6= x∗ ∈ (Rd )N . (1.13)
x0 = x
xn+1 = xn − γn ∇DN X n
(x ), (1.14)
P P 2
où la suite (γn ) des pas est une suite positive telle que n γn = +∞ et n γn < +∞.
Cet algorithme se présente de façon générale sous la forme :
x0 = x
xn+1 = xn − γn h(xn ), (1.15)
où h est une fonction continue et la suite (γn ) des pas est une suite positive telle que
P P 2
n γn = +∞ et n γn < +∞. La convergence de cet algorithme peut être étudiée selon
la technique de Robbins-Monro. C’est l’approche que nous considérons ici. Elle peut
être aussi approfondie avec la technique de Kushner-Clark, appelée encore méthode
de l’EDO, en étudiant l’équation différentielle ordinaire dx/dt = −h(x) associée à
l’algorithme.
QUANTIFICATION VECTORIELLE 16
(Yn ) est donc minorée (par − n χ0n ) et converge. Notons aussi que n−1 0
P P
Pn−1 0 P 0 k=1 ηk ≤ Yn +
k=1 χk et donc la série à termes positifs n ηn converge. Ceci implique la convergence
0 2
P
de la suite (Vn ) et finalement celle de (Vn ) et de n ηn .
Preuve de la proposition 1.4.7.
Par la formule de Taylor, on a
Z 1
n+1 n
V (x ) = V (x ) + (∇V (txn + (1 − t)xn+1 ).(xn+1 − xn )dt.
0
? Un premier choix est V (x) = |x−x∗ |2 . Alors ∇V (x) = 2(x−x∗ ). D’après l’expression
(1.8) de ∇DN X , on a |∇D X (x)|2 ≤ Cte(1 + |x|2 ) de sorte que sous (1.13), les hypothèses
N
de la proposition 1.4.7 sont vérifiées. On obtient alors que |xn − x∗ |2 converge vers une
X (xn )|xn − x∗ )| converge. Si par l’absurde δ 6=
P
constante δ ≥ 0 et la série n γn |(∇DN
0, alors à partir d’un certain rang n0 , on aurait pour tout n ≥ n0 , 0 < δ/2 ≤ |xn − x∗ |2
≤ 2δ et |(∇DN X (xn )|xn − x∗ )| > c avec c > 0 d’après (1.13). C’est en contradiction avec
P
la divergence de la série n γn .
? Un autre choix de fonction de Lyapounov est V (x) = DN X . Sous la condition que
X X 2 X
∇DN est Lipschitzienne et |∇DN | ≤ cte(1 + DN ), la proposition 1.4.7 implique que
X (xn )) converge vers D ∗ et la série X n 2
P
la suite (DN n n γn |∇DN (x )| converge. Si de plus
DNX (x) converge vers l’infini quand |x| tend vers l’infini, alors en utilisant la méthode
dite de l’EDO (équation différentielle ordinaire), on montre (voir Lemme [Link].8 dans
[5]) que xn converge vers une composante connexe de {∇DN X = 0} ∩ {D X = D ∗ }. En
N
particulier, si {∇DN X = 0} = {x∗ } alors xn converge vers x∗ .
et la suite (Zn ) est une suite de variables aléatoires i.i.d. de loi PX simulable choisie
indépendante de la variable initiale x0 . On peut réécrire (1.17) sous la forme :
γn
xn+1 = xn − X n
(x ) + ∇x dN (xn , Zn+1 ) − ∇DN X n
∇DN (x ) .
2
Les termes ∇x dN (xn , Zn+1 ) − ∇DN X (xn ), n ≥ 0, ont une espérance conditionnelle nulle
Comme dans le cas déterministe, la preuve de cette proposition repose sur le lemme
suivant :
La suite Yn = Vn0 − n−1 (χ0 − η 0 ) est donc une surmartingale. Pour tout m ∈ N∗ ,
P
k=1
Pn k 0 k 0
on note τm = inf{n : k=1 (χk − ηk ) ≥ m} de sorte que la surmartingale arrêtée
(Yn∧τm )n est minorée par −m et converge p.s. vers une variable aléatoire finie d’après
le théorème de Doob. Donc sur {τm = +∞}, (Yn ) converge p.s. vers une limite finie.
De plus, sur Ω1 , ln nk=1 (1 + βk ) = nk=1 ln(1 + βk ) converge quand n tend vers
Q P
P
l’infini et donc (αn ) converge vers α > 0. La convergence de la série n χn implique
donc celle de n χ0n sur Ω1 .
P
Pn−1 0 Pn−1 0
Puisque k=1 ηk ≤ Yn + k=1 χk , on en déduit que la série à termes positifs
P 0
n ηn converge sur Ω1 ∩ {τm P = +∞} et donc aussi (Vn0 ). Ceci implique la convergence
de la suite (Vn ) et de la série n ηn sur Ω1 ∩ {τm = +∞}. Or sur Ω1 , la série n χ0n
P
Si on suppose de plus (1.13), alors les hypothèses de la proposition 1.4.8 sont vérifiées.
On obtient alors que |xn − x∗ |2 converge p.s. vers une variable aléatoire positive δ
X (xn )|xn − x∗ )| converge p.s. Soit ω un évènement tel que ces
P
et la série n γn |(∇DN
deux convergences aient lieu. Si par l’absurde δ(ω) 6= 0, alors à partir d’un certain
rang n0 = n0 (ω), on aurait pour tout n ≥ n0 , 0 < δ(ω)/2 ≤ |xn (ω) − x∗ |2 ≤ 2δ(ω) et
|(∇DN X (xn (ω))|xn (ω) − x∗ )| > c(ω) avec c(ω) > 0 d’après (1.13). C’est en contradiction
P
avec la divergence de la série n γn .
X . Sous la condition que
? Un autre choix de fonction de Lyapounov est V (x) = DN
∇DNX est Lipschitzienne et
Z
|∇DN (x)| + |∇x dN (x, u)|2 PX (du) ≤ cte(1 + DN
X 2 X
(x)),
X (xn ))
les hypothèses de la proposition 1.4.8 sont vérifiées et on obtient que la suite (DN n
∗ X n 2 X
P
converge p.s. vers D et la série n γn |∇DN (x )| converge p.s. Si de plus DN (x)
converge vers l’infini quand |x| tend vers l’infini, alors en utilisant la méthode dite de
l’EDO (équation différentielle ordinaire), on montre (voir Lemme [Link].8 dans [5]) que
xn converge p.s. vers une composante connexe de {∇DN X = 0} ∩ {D X = D ∗ }. En
N
particulier, si {∇DN X = 0} = {x∗ } alors xn converge vers x∗ p.s.
xn+1
i = xni − γn (xni − Z n+1 )1Ci (xn ) (Z n+1 ), i = 1, . . . , N
• phase d’apprentissage :
xn+1
i = xni − γn (xni − Z n+1 ), si i = i(n + 1)
xn+1
i = xni , si i 6= i(n + 1)
Cette procédure en deux phases est connue dans la littérature comme l’algorithme
de Kohonen. D’un point de vue numérique, la principale activté est la phase de
compétition concernant la recherche à chaque étape du plus proche voisin de la nou-
velle variable simulée Z n+1 . La phase d’apprentissage est simplement la mise à jour de
la grille xn en modifiant la composante sélectionnée par la phase de compétition par
une homothétie avec Z n+1 de rapport (1 − γn ).
? Une première approche simple consiste, après avoir terminé l’algorithme de Kohonen
jusqu’au pas n et enregistré la grille limite x∗ = xn , à estimer les caractéristiques
voulues par une estimation standard de Monte-Carlo :
n n
1X 1X
pni = 1Zk ∈Ci (x∗ ) , i = 1, . . . , N, et D n
= min |Zk − x∗i |2 ,
n n i=1,...,N
k=1 k=1
où (Zk )1≤k≤n est un échantillon i.i.d. de loi PX . Par la loi standard des grands nombres,
on est assuré de la convergence quand n tend vers l’infini d’une telle procédure :
? Une autre approche plus pertinente et moins couteuse permet d’obtenir une estima-
tion des caractéristiques voulues de façon simultanée à la procédure de Kohonen :
n n
1X 1X
pni = 1Zk ∈Ci (xk−1 ) = 1i=i(k) , i = 1, . . . , N,
n n
k=1 k=1
n n
1 X 1X
D n
= min |Zk − xk−1
i |2 = k−1 2
|Zk − xi(k) |
n i=1,...,N n
k=1 k=1
QUANTIFICATION VECTORIELLE 22
Alors les variables aléatoires H(xn , Zn+1 ) − h(xn ), n ≥ 0, sont centrées, non corrélées
deux à deux, et bornées dans L1+ε/2 . La loi forte des grands nombres dans L1+ε/2
implique alors que
n
1 X
H(xk−1 , Zk ) − h(xk−1 ) −→ 0 p.s.
n
k=1
que
n
1X
H(xk−1 , Zk ) −→ h(x∗ ) p.s. sur {xn → x∗ }.
n
k=1
Remarque 1.4.4 Au lieu de prendre comme pas 1/n dans le calcul récursif (1.21)-
(1.22) des pin et Dn , on peut prendre le même pas (γn ) que pour l’algorithme de
Kohonen :
1
pn+1
i = pni − γn+1 (pni − 1i=i(n+1) ), p0i = , i = 1, . . . , N
N
Dn+1 = Dn − γn+1 Dn − |Zn+1 − xni(n+1) |2 , D0 = 0.
|f (y) − f (z)|
[f ]lip = sup < +∞.
y6=z∈Rd |y − z|
Lorsque f possède un peu plus de régularité, la borne d’erreur peut être améliorée.
Proposition 1.5.11 Pour tout f ∈ L1 (PX ) telle que f soit de class C 1 avec ∇f
∗
Lipschitzienne et pour tout quantifieur stationnaire X̂ ∗ = X̂ x , on a :
On en déduit que
E[f (X)] − E[f (X̂ ∗ )] − E[∇f (X̂ ∗ ).(X − X̂ ∗ )] ≤ [∇f ]lip E|X − X̂ ∗ |2 .
Proposition 1.5.12 Pour tout f ∈ L1 (PX ) telle que f soit convexe et pour tout quan-
∗
tifieur stationnaire X̂ ∗ = X̂ x , on a :
Remarque 1.5.7 Ceci montre que l’intégration numérique de fonctions convexes avec
un quantifieur stationnaire fournit toujours une borne inférieure à la vraie valeur.
Symétriquement, on a toujours une borne supérieure avec un quantifieur stationnaire
pour les fonctions concaves.
QUANTIFICATION VECTORIELLE 25
Il est bien connu que par la loi des grands nombres, cette quantité converge p.s. quand
N tend vers l’infini vers E[f (X)]. De plus par le théorème central limite, on a une
1
vitesse de convergence en 1/N 2 indépendante de la dimension d.
Dans ce chapitre, on considère une chaine de Markov (Xk )0≤k≤n à valeurs dans Rd
de probabilités de transition Pk (x, dx0 ) (de k − 1 à k), k = 1, . . . , n, et de distribution
initiale µ pour X0 . Notons alors que la distribution jointe de (X0 , . . . , Xn ) est égale à
µ(dz0 )P1 (z0 , dz1 ) . . . Pn (zn−1 , dzn ).
On s’intéresse à l’approximation par quantification de cette chaine de Markov, i.e.
à l’approximation de la distribution du processus (Xk )0≤k≤n par la distribution d’un
processus (X̂k )0≤k≤n à valeurs dans un espace d’état fini et prenant en compte la
loi de probabilité du processus. Une approche naive consisterait en la quantification
du vecteur aléatoire (X0 , . . . , Xn ) dans Rd(n+1) selon la méthode décrite au chapitre
précédent. Mais d’après le théorème de Zador, pour un nombre total de points N dans
la grille temps-espace, on obtiendrait une erreur de quantification de l’ordre N −1/nd :
c’est bien évidemment très lent lorsque n est grand.
On propose une approche basée sur le fait qu’une chaine de Markov est complètement
caractérisée par sa distribution initiale et par ses probabilités de transition. L’idée est
alors de quantifier la loi initiale de X0 et les probabilités conditionnelles de Xk sa-
chant Xk−1 . On verra alors que cela conduit à une erreur d’approximation d’ordre
n1+1/d /N 1/d .
Dans la suite, on utilise les notations usuelles νf , P f , νP , P Q pour ν mesure, P, Q
probabilités de transition et f fonction mesurable, i.e.
Z Z
νf = f (x)ν(dx), P f (x) = f (x0 )P (x, dx0 )
Z Z
0 0
νP (dx ) = ν(dx)P (x, dx ), P Q(x0 , dx2 ) = P (x0 , dx1 )Q(x1 , dx2 ).
26
QUANTIFICATION D’UNE CHAINE DE MARKOV 27
On définit l’ensemble
n o
BL1 (Rd ) = f : Rd → R, k f k∞ ≤ 1 et [f ]lip ≤ 1 .
Notons que l’application projection n’étant pas injective, le processus (X̂k ) construit
ainsi ne conserve pas la propriété de Markov de (Xk ). On définit cependant des matrices
de probabilité de transition P̂k = (pijk ), k = 1, . . . , n, de façon canonique à partir des
X̂k par :
βkij
pij
k := P[X̂k = xjk |X̂k−1 = xik−1 ] = , i = 1, . . . , Nk−1 , j = 1, . . . , Nk ,
pik−1
où
sont les masses des cellules de Voronoi du couple (Xk−1 , Xk ) (resp. Xk−1 ). On définit
aussi la loi de probabilité discrète µ̂ (de poids µ̂i , i = 1, . . . , N0 ) de X̂0 quantifieur de
Voronoi de X0 de loi µ :
On approxime alors la loi µP1 . . . Pn de (X0 , . . . , Xn ) par la loi discrète µ̂P̂1 . . . P̂n .
La qualité de cette approximation est estimée en fonction des erreurs de quantification
à chaque date et mesurée comme suit : on introduit l’ensemble
n o
d
Sn+1 = φ : (Rd )n+1 → R, φ(z0 , . . . , zn ) = f0 (z0 ) . . . fn (zn ) où fi ∈ BL1 (Rd )
Pk+1 φ(Xk ) − P̂k+1 φ(X̂k ) ≤ [Pk+1 ]Lip [φ]Lip Xk − X̂k + [φ]Lip Xk+1 − X̂k+1 .
2 2 2
Preuve. On écrit
h i
Pk+1 φ(Xk ) − P̂k+1 φ(X̂k ) ≤ Pk+1 φ(Xk ) − E Pk+1 φ(Xk )| X̂k
2 2
h i
+ E Pk+1 φ(Xk )| X̂k − P̂k+1 φ(X̂k )
2
= I1 + I2 .
où on a utilisé dans la deuxième égalité le fait que X̂k est σ(Xk )-mesurable, et dans la
première inégalité la propriété de L2 -contraction de l’espérance conditionnelle (ici par
rapport à X̂k ). On obtient ainsi la relation voulue. 2
Plus généralement, on a l’erreur d’approximation suivante de µP1 . . . Pn par µ̂P̂1 . . . P̂n .
QUANTIFICATION D’UNE CHAINE DE MARKOV 29
d
Théorème 2.1.1 Pour tout φ ∈ Sn+1 on a
n
!
X [P ]n−k+1
lip
−1
µP1 . . . Pn − µ̂P̂1 . . . P̂n φ ≤ 1+ k Xk − X̂k k2 ,
[P ]lip − 1
k=0
avec la convention que pour k = n, vn = v̂n = fn . Notons alors que ces fonctions
s’écrivent sous forme récursive par :
pour k = 1, . . . , n − 1 et que
h i
µP1 . . . Pn − µ̂P̂1 . . . P̂n φ = E v0 (X0 ) − v̂0 (X̂0 ) .
pour tous k = 0, . . . , n.
Etape 2. D’après (2.1)-(2.2), on peut écrire :
= I1 + I2 + I3 . (2.4)
QUANTIFICATION D’UNE CHAINE DE MARKOV 30
Comme l’espérance conditionnelle (ici par rapport à X̂k ) est une L2 -contraction et vk+1
est bornée par 1, on a :
Puisque X̂k est σ(Xk )-measurable et en rappelant que fk est bornée par 1, on a :
n
X
vk (Zk ) − v̂k (Ẑk ) ≤ 1 + [vl ]lip Xl − X̂l .
1 2
l=k
2.1.2 Exemple
Un exemple courant de chaine de Markov est donné par la dynamique :
où (εk )k est une suite de variables i.i.d. centrée et de carré intégrable (e.g. un bruit blanc
gaussien standard) indépendant de X0 et F est une fonction mesurable correspondant
au schéma d’Euler de pas δ = T /n d’une diffusion sur [0, T ] :
√
F (x, ε) = x + b(x)δ + σ(x) δε.
où c est une constante (dépendant de T , [b]lip , [σ]lip , E|ε1 |2 ) mais indépendante de δ.
QUANTIFICATION D’UNE CHAINE DE MARKOV 31
Ce problème est motivé en finance par le calcul d’options américaines (en fait ici
bermudéennes car les dates d’exercice de l’options sont discrètes). Dans ce cas, (Xk ), k
= 0, . . . , n, représente le processus de prix d’une action aux dates tk = kδ, où δ > 0 est
le délai entre deux dates possibles d’exercice d’une option de flux g(Xk ), r est le taux
d’intérêt et f (k, x) = e−rtk g(x). Dans le cas d’un modèle à volatilité stochastique, (Xk )
peut représenter aussi le couple prix-volatilité. Par exemple, (Xk ) est la discrétisation
par schéma d’Euler de pas δ d’un modèle de diffusion pour le couple prix-volatilité
(voir exemple 2.1.2).
On va adopter la méthode de la programmation dynamique pour calculer U0 . On
introduit l’enveloppe de Snell de (f (k, Xk )) :
où Tk,n désigne l’ensemble des temps d’arrêts à valeurs dans {k, . . . , n}. Uk est donc en
finance le prix de l’option bermudéenne à la date k. Le principe de la programmation
dynamique stipule que Uk s’exprime sous forme récursive par :
Un = f (n, Xn )
Uk = max (f (k, Xk ) , E[Uk+1 |Fk ]) , k = 0, . . . , n − 1.
Ceci signifie qu’à chaque date k, on a le choix entre arréter le processus et recevoir
comme gain f (k, Xk ) ou continuer et recevoir comme gain espéré E[Uk+1 |Fk ]. De plus,
par la propriété de Markov de (Xk ), pour toute date k, il existe une fonction mesurable
vk sur Rd telle que
Uk = vk (Xk ).
On doit donc calculer la suite de fonctions (vk ) qui s’exprime par le principe de la
programmation dynamique sous forme récursive comme :
la suite de fonctions (vk ) par la suite de fonctions (v̂k ) où v̂k défini sur la grille xk se
calcule explicitement de façon récursive par :
On obtient alors l’estimation d’erreur suivante. On fait l’hypothèse que pour tout
k, les fonctions fk := f (k, .) sont Lipschiztiennes et on pose
n
X
Uk − Ûk ≤ [f ]lip + [P ]lip [vj+1 ]lip Xj − X̂j
2 2
j=k
avec la convention que [vn+1 ]lip = 0. En substituant (2.7) dans cette inégalité, on a
l’estimation voulue. 2
n1+1/d
.
N 1/d
Filtrage et quantification
35
FILTRAGE ET QUANTIFICATION 36
suit approximativement une loi gaussienne. Ceci explique en partie que les variables
aléatoires gaussiennes sont l’un des modèles stochastiques fondamentaux. Ces distri-
butions offrent aussi l’avantage d’être caractérisées uniquement par deux paramètres :
la moyenne et la matrice de covariance.
Un vecteur aléatoire Z = (Z 1 , . . . , Z d ) de dimension d sur (Ω, F, P) est dit gaussien
si toute combinaison linéaire des composantes du vecteur X est une variable aléatoire
réelle gaussienne (normale), i.e. pour tout u ∈ Rd , u.Z est gaussien. On note Z ∼
N (µ, Σ) où m = E(Z) est la moyenne de Z et Σ sa matrice (symétrique-positive) de
covariance :
R = ΣX − ΣXY Σ−1
Y
ΣY X .
FILTRAGE ET QUANTIFICATION 37
i.e. c’est la loi gaussienne de moyenne X̂(y) et de matrice de covariance R. Pour cela,
on note que ΦX|Y =y est caractérisée par :
Xn = AXn−1 + Bεn
Yn = CXn + ηn ,
Notons que l’espace vectoriel engendré par (X0 , . . . , Xn , Y0 , . . . , Yn ) est égal à celui
engendré par (X0 , ε0 , . . . , εn , η0 , ηn ) qui est gaussien par hypothèse. On en déduit que
Πn et Π−
n sont des lois gaussiennes :
Nous allons montrer que le calcul de ces moyennes et variances conditionnelles peut
être mené explicitement de manière inductive selon deux étapes :
• Une étape de correction/mise à jour
! !
X̄n− X̄n
−→ ,
Σ̄−
n Σ̄n
est gaussien centré, avec une loi gaussienne conditionnelle caractérisée d’après la pro-
position 3.1.1 par :
Par définition, on a
ΣX̃n = Σ̄−
n. (3.3)
De plus, notons que Ȳn− = E(CXn + ηn |Y0 , . . . , Yn−1 ) = C X̄n− , et Ỹn = C X̃n + ηn . On
a donc
alors X̃n et (Y0 , . . . , Yn−1 ) sont des variables gaussiennes noncorrelés, et donc indépendantes.
On en déduit
h i h i
E X̃n |Y0 , . . . , Yn−1 , Yn = E X̃n |Y0 , . . . , Yn−1 , Ỹn = E[X̃n |Ỹn ].
On a alors
= X̄n− + Σ̄− 0 − 0 η −1 −
n C (C Σ̄n C + Σn ) (Yn − C X̄n ),
Σ̄n = Σ̄− − 0 − 0 η −1 −
n − Σ̄n C (C Σ̄n C + Σn ) C Σ̄n .
Kn = Σ̄− 0 − 0 η −1
n C (C Σ̄n C + Σn ) . (3.8)
Etape de prédiction :
Cette étape est plus simple que la précédente car elle ne dépend plus des observations.
On écrit
−
X̄n+1 = E [Xn+1 |Y0 , . . . , Yn ] = AE [Xn |Y0 , . . . , Yn ] = AX̄n .
FILTRAGE ET QUANTIFICATION 40
On a alors aussi
Σ̄− − − 0
n+1 = E (Xn+1 − X̄n+1 )(Xn+1 − X̄n+1 )
= E (A(Xn − X̄n ) + Bεn )(A(Xn − X̄n ) + Bεn )0
= AΣ̄n A0 + BΣεn B 0 .
Remarque 3.1.1 Les suites (Σ− n ) et (Σn ) ne dépendent pas des observations (Yn ). Ils
peuvent donc être pré-calculées.
Exemple
Considérons l’exemple d’un modèle unidimensionnel signal/observation :
Xn = aXn−1 + εn
Yn = cXn + ηn ,
K0
X̄0 = X̄0− + K0 (Y0 − cX̄0− ) = K0 Y0 , Σ̄0 = (1 − cK0 )Σ̄−
0 = .
c
cΣ̄−
A la date n, on a par définition de la matrice de gain Kn = c2 Σ̄−
n
. D’après l’étape
n +1
de prédiction (3.10), on a Σ−n = a
2
Σ̄n−1 2+−1. D’autre part, avec l’étape de correction
c Σ̄n Σ̄−
(3.7), on a Σ̄n = (1 − cKn )Σ̄n = 1 − c2 Σ̄− +1 Σ̄n = c2 Σ̄− +1 = Kn /c. On a donc cΣ̄−
− − n
n
n n
= a2 Kn−1 + c, d’où la relation de récurrence sur la matrice de gain :
a2 Kn−1 + c c
Kn = , K0 = .
c(a2 Kn−1 + c) + 1 1 + c2
et de loi initiale µ0
• la suite (Yn )n vérifie l’hypothèse de canal sans mémoire, i.e.
? conditionnellement aux états cachés X0 , . . . , Xn , les observations Y0 , . . . , Yn sont
mutuellement indépendantes
? la loi conditionnelle de Yn sachant X0 , . . . , Xn ne dépend que de Xn , avec une
probabilité d’émission à densité (par rapport à la mesure de Lebesgue sur Rq ) :
En intégrant par rapport aux variables x = (x0 , . . . , xn ), on obtient la loi jointe des
observations Y[0,n] :
Z Z n
Y
P Y[0,n] ∈ dy[0,n] = ... P X[0,n] ∈ dx[0,n] gk (xk , yk )dyk
E E k=0
n
" #
Y
= E gk (Xk , yk ) dy[0,n] (3.12)
k=0
FILTRAGE ET QUANTIFICATION 42
Remarque 3.2.2 Notons que (Xn , Yn ) est une chaine de Markov. En effet, on a par
la formule de Bayes et l’hypothèse de canal sans mémoire :
P Xn ∈ dxn , Yn ∈ dyn |X[0,n−1] = x[0,n−1] , Y[0,n−1] = y[0,n−1]
P X[0,n] ∈ dx[0,n] , Y[0,n] ∈ dy[0,n]
=
P X[0,n−1] ∈ dx[0,n−1] , Y[0,n−1] ∈ dy[0,n−1]
P Y[0,n] ∈ dy[0,n] |X[0,n] = x[0,n] P X[0,n] ∈ dx[0,n]
=
P Y[0,n−1] ∈ dy[0,n−1] |X[0,n−1] = x[0,n−1] P X[0,n−1] ∈ dx[0,n−1]
Qn Qn
k=0 gk (xk , yk )dyk µ0 (dx0 ) Pk (xk−1 , dxk )
= Qn−1 Qk=0
n−1
k=0 gk (xk , yk )dyk µ0 (dx0 ) k=0 Pk (xk−1 , dxk )
= gn (xn , yn )dyn Pn (xn−1 , dxn ).
Exemple. Le cadre typique d’un tel schéma signal/observation est donné par le
système :
Xn = Fn (Xn−1 , εn ), n ≥ 1, X0 ∼ µ0
Yn = Gn (Xn , ηn ), n ≥ 0,
où Fn , Gn sont des fonctions mesurables, et (εn )n≥1 , (ηn )n≥0 sont des bruits blancs,
indépendants entre eux et indépendants de X0 . Dans ce cas, (Xn )n≥0 est une chaine
de Markov de probabilité de transition Pn donnée par :
Pn f (x) = E[f (Fn (x, εn ))], pour toute fonction mesurable bornée f.
Gn (x, η) = hn (x) + η,
gn (x, y) = kn (y − hn (x)).
Un autre exemple est le cas en finance où (Xn ) représente le rendement et/ou la
volatilité non observable d’un actif risqué S observable. La dynamique du prix est
donnée par :
√
1 2
Sn+1 = Sn exp b(Xn ) − σ (Xn ) δ + σ(Xn ) δηn ,
2
obtenue par exemple par discrétisation selon un schéma d’Euler de pas δ d’un modèle à
volatilité stochastique. En posant Yn+1 = ln(Sn /Sn−1 ), on a le modèle d’observation :
√
Yn = b̂(Xn )δ + σ(Xn ) δηn ,
où on a posé b̂ = b − σ 2 /2. Si ηn est un bruit blanc gaussien centré réduit, alors la loi
de Yn sachant Xn = x admet pour densité :
!
1 (y − b̂(x)δ)2
gn (x, y) = p exp − .
2πσ 2 (x)δ 2σ 2 (x)δ
D’après l’expression (3.11) de la loi jointe (X[0,n] , Y[0,n] ) et celle (3.12) de la loi de Y[0,n] ,
on obtient par la formule de Bayes :
Qn
k=0 ḡk (xk ) P X[0,n] ∈ dx[0,n]
P X[0,n] ∈ dx[0,n] Y0 = y0 , . . . , Yn = yn | = .
E [ nk=0 ḡk (Xk )]
Q
Πn ϕ = E [ϕ(Xn )|Y0 = y0 , . . . , Yn = yn ]
E [ϕ(Xn ) nk=0 ḡk (Xk )]
Q
πn ϕ
= Q n = ,
E [ k=0 ḡk (Xk )] πn 1
où πn est la mesure positive, appelée filtre non normalisé, définie par :
n
" #
Y
πn ϕ = E ϕ(Xn ) ḡk (Xk ) .
k=0
De manière similaire, on a
Π−
n ϕ = E [ϕ(Xn )|Y0 = y0 , . . . , Yn−1 = yn−1 )]
h Qn−1 i
E ϕ(Xn ) k=0 ḡk (Xk ) π−ϕ
= hQ i = n− ,
n−1 πn 1
E k=0 ḡk (Xk )
où πn− est la mesure positive, appelée filtre prédictif non normalisé, définie par :
n−1
" #
Y
πn− ϕ = E ϕ(Xn ) ḡk (Xk ) .
k=0
Nous allons montrer qu’on peut obtenir une équation récurrente exprimant Πn en
fonction de Πn−1 . Pour cela, il suffit d’une équation récurrente sur πn en fonction de
πn−1 , puis de normaliser. On note P(E) l’ensemble des mesures de probabilités sur E
et M(E) l’ensemble des mesures positives sur E.
Théorème 3.2.1 La suite (Πn ) dans P(E) vérifie l’équation de récurrence en deux
étapes, partant de l’initialisation Π0 = µ0 :
• Etape de prédiction :
Πn−1 −→ Π− n = Πn−1 Pn ,
où par définition Πn−1 Pn (dx0 ) = E Πn−1 (dx)Pn (x, dx0 ) est l’action du noyau de pro-
R
agissant sur la mesure Πn−1 par : Πn−1 Hn (dx0 ) = E Πn−1 (dx)Hn (x, dx0 ).
R
On a donc
πn = ḡn πn− .
πn ḡn π − ḡn Π−
Πn = = −n = −n
πn 1 πn ḡn Πn ḡn
où la dernière égalité exprime simplement, comme conséquence de Fubini, le fait que :
Z Z Z
πn−1 (Pn ϕ) = (Pn ϕ)(x)πn−1 (dx) = ϕ(x0 )Pn (x, dx0 ) πn−1 (dx)
ZE Z E
E Z
0 0
= πn−1 (dx)Pn (x, dx ) ϕ(x ) = πn−1 Pn (dx0 )ϕ(x0 )
E E E
= (πn−1 Pn )ϕ.
FILTRAGE ET QUANTIFICATION 46
On a donc :
πn− = πn−1 Pn .
pij
k := P[X̂k = xjk |X̂k−1 = xik−1 ] i = 1, . . . , Nk−1 , j = 1, . . . , Nk .
Π̂0 = µ̂0
• Prédiction
Π̂−
k = Π̂k−1 P̂k , k ≥ 1,
• Correction
ḡk Π̂−
k
Π̂k = , k ≥ 1,
(ḡk Π̂−
k )1
Π̂k−1 Ĥk
Π̂k = , k ≥ 1,
(Π̂k−1 Ĥk )1
Π̂i0 = µ̂i0 , i = 1, . . . , N0
PNk−1 i ij
i=1 Π̂k−1 Ĥk
Π̂jk = PNk PNk−1 i ij
, k = 1, . . . , n, , j = 1, . . . , Nk .
j=1 i=1 Π̂k−1 Ĥk
b ∈ Rd ,
|Pk ϕ(x) − Pk ϕ(x̂)| ≤ [Pk ]Lip [φ]Lip |x − x̂|, ∀x, x
(i) Les fonctions gk , k = 1, . . . , n, sont bornées
et on pose kgk∞ := maxk=1,...,n kgk k∞
(A2) (ii) Il existe [gk ]Lip , k = 1, . . . , n, tels que ∀x, x̂ ∈ Rd , y ∈ Rq
|gk (x, y) − gk (x̂, y)| ≤ [gk ]Lip |x − x̂|,
et on pose [g]Lip := maxk=1,...,n [gk ]Lip .
On obtient alors la borne d’erreur suivante pour l’approximation du filtre par quan-
tification.
Théorème 3.2.2 Sous (A1) and (A2), étant donnée une observation (Y0 , . . . , Yn ) =
(y0 , . . . , yn ), on a :
n
kgkn∞ X
sup Πn φ − Π̂n φ ≤ An,k kXk − X̂k k2 , (3.13)
φ∈BL1 (Rd ) γn (y)
k=0
et
!
n−k [g] [P ]n−k+1 −1
An,k = 2 [P ]Lip + Lip Lip
.
kgk∞ [P ]Lip − 1
π0 = µ0 , πk = πk−1 Hk , k = 1, . . . , n,
d’où
πn
Πn = et πn = µ0 H1 . . . Hn
πn 1
De cette expression symétrique, on introduit les noyaux de transition donnés par les
équations backward :
πn = µ0 R0 .
FILTRAGE ET QUANTIFICATION 50
Etape 2 : approximation d’erreur du filtre non normalisé. On écrit pour toute fonction
test ϕ ∈ BL1 (Rd ),
h i
|πn ϕ − π̂n ϕ| = µ0 R0 ϕ − µ̂0 R̂0 ϕ = E [R0 ϕ(X0 )] − E R̂0 ϕ(X̂0 )
Comme pour l’analyse d’erreur des options américaines, l’idée est alors, à partir de la
formule backward de Rk et R̂k , d’obtenir une estimation de Rk ϕ(Xk ) − R̂k ϕ(X̂k )
2
on a :
avec la loi des espérances conditionnelles itérées pour le deuxième terme. On a uti-
lisé les conditions (A1) et (A2) pour la dernière inégalité. On a donc l’inégalité de
récurrence
avec αk = [P ]Lip [ḡk+1 uk+1 ]Lip , βk+1 = [g]Lip kuk+1 k∞ , et la relation terminale kun (Xn )−
ûn (X̂n )k2 ≤ Xn − X̂n . Par induction, on en déduit
2
n
X
|πn ϕ − π̂n ϕ| ≤ u0 (X0 ) − û0 (X̂0 ) ≤ Ck (ϕ) Xk − X̂k , (3.15)
2 2
k=0
kuk k∞ ≤ kgkn−k
∞
.
Etape 3 : retour au filtre normalisé. Il suffit d’écrire que pour tout ϕ ∈ BL1 (Rd ) :
πn ϕ π̂n ϕ
Πn ϕ − Π̂n ϕ = −
πn 1 π̂n 1
|πn ϕ − π̂n ϕ| 1 1
≤ + π̂n |ϕ| −
πn 1 πn 1 π̂n 1
|πn ϕ − π̂n ϕ| |πn 1 − π̂n 1|
≤ +
πn 1 πn 1
n
1 X
≤ (Ck (ϕ) + Ck (1)) Xk − X̂k ,
πn 1 2
k=0
Remarque 3.2.3 Convergence du filtre quantifié. Si les grilles sont choisies optimale-
ment à chaque date k = 0, . . . , n, alors d’après le théorème de Zador, on a le taux de
convergence pour le filtre quantifié :
n
kgkn∞ X 1
sup Πn ϕ − Π̂n , ϕ ≤ An,k C(PXk , d) 1 . (3.17)
φ∈BL1 (Rd ) γn (y) Nd
k=0 k
En conséquence :
- Etant donné un nombre total de points N , on peut répartir optimalement le
nombre de points Nk pour chaque date k, i.e. déterminer (N0 , . . . , Nk ) vérifiant N0 +
. . . + Nn = N et minimisant le terme de droite de (3.17).
- Pour un horizon fixé n, on a la convergence du filtre quantifié, i.e. Π̂n converge
vers Πn lorsque min0≤k≤n Nk tend vers l’infini.
- Lorsque n tend vers l’infini, la convergence du filtre quantifié est aussi satisfaite
typiquement dans le cas d’un schéma d’Euler issue d’une diffusion discrétisée sur [0, T ]
de pas T /n :
r
T T
Xk+1 = Xk + b(Xk ) + σ(Xk ) εk+1 .
n n
En effet, sous des conditions de Lipschitz sur les coefficients b et σ, on a vu que :
c
[P ]Lip ≤ 1+
n
pour une constante c indépendante de n. Dans ce cas, en répartissant simplement Nk
= N̄ = N/(n+1) points sur chaque grille de temps, la relation (3.17) donne une vitesse
de convergence de l’ordre :
kgkn∞ n + 1
.
γn (y) N̄ 1/d
FILTRAGE ET QUANTIFICATION 53
Ainsi, étant donnée une observation (Y0 , . . . , Yk ) = (y0 , . . . , yk ), son prix est approximé
par la formule explicite :
Nk
X
Π̂k vk (., yk ) := vk (xik , yk )Π̂ik ,
i=1
3.3.2 Exemples
Modèle linéaire gaussien. C’est le modèle étudié au paragraphe 3.1.2 :
pour lequel le filtre Πn est explicite : Πn ∼ N (X̄n , Σ̄n ) avec X̄n et Σ̄n se calculant
explicitement de manière inductive.
FILTRAGE ET QUANTIFICATION 54
Projet 7. Choisir les paramètres du modèle en dimension 1 pour que le signal Xk soit
stationnaire, Xk ∼ N (0, ΣX 0 ) pour tout k, et impémenter le filtre quantifié. Comparer
avec le filtre théorique explicite.
Modèle à volatilité stochastique. On considère le modèle ARCH :
où (εk ) et (ηk ) sont deux bruits blancs indépendants gaussiens. Ce modèle est populaire
en finance où X est le facteur de la volatilité de l’actif risqué de prix logarithmique Y
= ln S.
Projet 8. Choisir les paramètres du modèle en dimension 1 pour que le signal Xk soit
stationnaire, Xk ∼ N (0, ΣX
0 ) pour tout k, et impémenter le filtre quantifié. Calculer le
prix d’un put européen en information totale et partielle.
Bibliographie
[1] Bally V., Pagès G. (2003) : A quantization algorithm for solving discrete time
multi-dimensional optimal stopping problems, Bernoulli, 9, 1003-1049.
[2] Bally V., Pagès G., Printems J. (2001) : A stochastic quantization method for
nonlinear problems, Monte Carlo Methods and Applications, 7, n0 1-2, pp.21-34.
[3] Bartoli N. et P. Del Moral (2005) : Simulation et algorithmes stochastiques,
Cépadues-Éditions.
[4] Bucklew J., Wise G. (1982) : Multidimensional Asymptotic Quantization Theory
with rth Power distortion Measures, IEEE Transactions on Information Theory,
Special issue on Quantization, 28, n0 2, pp. 239-247.
[5] Duflo, M. (1996) : Algorithmes stochastiques, Mathématiques et Applications, 23,
Springer-Verlag.
[6] Duflo, M. (1997) : Random Iterative Models, Coll. Applications of Mathematics,
34, Springer-Verlag, Berlin, 1997, 385p.
[7] Elliott R., Aggoun L. and J. Moore (1995) : Hidden Markov Models, Estimation
and Control, Springer Verlag, 361 pp.
[8] Fort J.C., Pagès G. (2002) : Asymptotics of optimal quantizers for some scalar
distributions, Journal of Computational and Applied Mathematics, 146, pp.253-
275.
[9] Gersho A., Gray R. (eds.) (1982) : IEEE Transactions on Information Theory,
Special issue on Quantization, 28.
[10] Graf S., Luschgy H. (2000) : Foundations of Quantization for Probability Distri-
butions, Lecture Notes in Mathematics n0 1730, Springer, Berlin, 230 pp.
[11] Kieffer J. (1982) : Exponential rate of convergence for the Lloyd’s method I, IEEE
Transactions on Information Theory, Special issue on Quantization, 28, 205-210.
[12] Kohonen T. (1982) : Analysis of simple self-organizing process, Biological Cyber-
netics, 44, pp. 135–140.
[13] Kushner H.J., Yin G.G. (1997) : Stochastic Approximation Algorithms and Appli-
cations, Springer, New York.
55
Bibliographie 56