Stats Proc
Stats Proc
A. Joulin
Bureau 115 - GMM
ajoulin@[Link]
3 Maximum de vraisemblance 27
3.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Introduction à la vraisemblance . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Exemples classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.3 Le cas d’une chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . 31
3.2 Le cas des diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Le cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Exemples apparaissant en finance . . . . . . . . . . . . . . . . . . . 35
3.2.3 Test de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Discrétisation des diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Diffusions observées à des instants discrets . . . . . . . . . . . . . . 44
3.3.2 Discrétisation par schéma d’Euler . . . . . . . . . . . . . . . . . . . 47
3
4 TABLE DES MATIÈRES
Chapitre 1
où mi := E[Xi ] pour tout i ∈ {1, . . . , d}. La matrice Γ est symétrique et semi-définie posi-
tive au sens où pour tout x ∈ Rd , on a xT Γx ≥ 0, le symbole T désignant la transposition.
5
6 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE
Un processus gaussien X = (Xt )t≥0 est donc caractérisé en loi par sa “gaussianité”
ainsi que par ses fonctions espérance et covariance :
Nous sommes maintenant en mesure d’introduire le mouvement brownien, qui peut être
construit comme objet limite de marches aléatoires renormalisées (théorème de Donsker)
ou encore par le développement en série à base d’ondelettes de Haar (théorème de Lévy).
Définition 1.1.3. Soit B = (Bt )t≥0 un processus à valeurs dans R. Il est appelé mouve-
ment brownien si c’est un processus gaussien centré et de fonction de covariance donnée
par
K(s, t) = Cov(Bs , Bt ) = min{s, t}, s, t ≥ 0.
Proposition 1.1.4. Soit B un mouvement brownien. Alors il vérifie les assertions sui-
vantes :
(i) B0 = 0 p.s.
(ii) pour tous 0 ≤ s ≤ t, la v.a. Bt − Bs a même loi que Bt−s , qui suit la loi
normale centrée N (0, t − s) : on dit que le mouvement brownien est à accroissements
stationnaires.
(iii) pour tous 0 = t0 < t1 < · · · < td , les v.a. Bti − Bti−1 , i ∈ {1, . . . , d}, sont
indépendantes : on dit que le mouvement brownien est à accroissements indépendants.
En tant que processus, le mouvement brownien peut être considéré comme une v.a.
à valeurs dans C , l’espace vectoriel des fonctions continues de [0, +∞[ dans R muni de la
tribu borélienne associée (la topologie sous-jacente est celle de la convergence uniforme
sur tout compact). Notons P la loi de B sur C , c’est-à-dire que l’on a pour tout ensemble
borélien A de C ,
P (A) := P (B ∈ A) .
Cette loi sur l’espace C , appelée mesure de Wiener, est déterminée par les lois fini-
dimensionnelles du mouvement brownien, c’est-à-dire par celles des vecteurs du type
(Bt1 , . . . , Btd ) où d ∈ N∗ et t1 < t2 < · · · < td . Il résulte de la proposition précédente que
si l’on se donne 0 = t0 < t1 < t2 · · · < td , alors la densité jointe du vecteur (Bt1 , . . . , Btd )
est donnée par
d
!
1 X (xk − xk−1 )2
p exp − , x ∈ Rd ,
(2π) d/2 t1 (t2 − t1 ) · · · (td − td−1 ) k=1
2(tk − tk−1 )
où par convention x0 = 0. Ainsi, pour montrer qu’un processus X est un mouvement
brownien, il suffit de montrer que ses lois fini-dimensionnelles coı̈ncident avec celles du
mouvement brownien.
Bien qu’à trajectoires continues, le mouvement brownien est un objet très irrégulier,
ce fait étant illustré par sa représentation graphique tout à fait singulière. En effet, non
seulement les trajectoires du mouvement brownien ne sont pas dérivables, mais de surcroı̂t
8 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE
elles ne sont pas à variation bornée. On rappelle qu’une fonction f : R → R est dite à
variation bornée sur l’intervalle [a, b] si
X
sup |f (ti+1 ) − f (ti )| < +∞,
i
où le supremum est pris sur l’ensemble des subdivisions (ti ) de [a, b]. Notons que la
plupart des fonctions que l’on rencontre en pratique sont à variation bornée (les fonctions
de classe C 1 , les fonction monotones, etc).
1.2 Martingales
Introduisons à présent la notion de martingale.
Définition 1.2.1. Une famille (Ft )t≥0 de sous-tribus de A est une filtration de l’espace
(Ω, A, P) si
Fs ⊂ Ft , 0 ≤ s ≤ t.
L’espace (Ω, A, (Ft )t≥0 , P) est alors appelé un espace de probabilité filtré.
Un processus X est adapté à une filtration (Ft )t≥0 si Xt est Ft -mesurable pour tout t ≥ 0.
Définition 1.2.2. Considérons un processus M adapté à une filtration (Ft )t≥0 , et dont
tous les éléments sont intégrables. On dit que M est une martingale pour (Ft )t≥0 si
E[Mt | Fs ] = Ms , 0 ≤ s ≤ t.
Notons aussi que M 2 − [M, M ] étant une martingale, elle est d’espérance constante, d’où
E[Mt2 ] = E [[M, M ]t ] , t ≥ 0.
avec les théorèmes associés aux sommes de variables i.i.d. Si M = (Mn )n∈N désigne une
martingale à temps discret pour une filtration (Fn )n∈N , on définit sa variation quadratique
discrète par
n
X
E (Mk − Mk−1 )2 | Fk−1 ,
[M, M ]n := [M, M ]0 := 0.
k=1
Comme dans le cas du temps continu, c’est l’unique processus croissant adapté
(même prévisible, c’est-à-dire que [M, M ]n est Fn−1 -mesurable pour tout n ∈ N∗ ) et issu
de 0 tel que le processus M 2 − [M, M ] soit une martingale.
Théorème 1.2.5 (LGN). Soit M une martingale telle que p.s. [M, M ]∞ = +∞. Alors
on a la convergence p.s. suivante :
Mn
lim = 0.
n→+∞ [M, M ]n
Rappelons que si X = (Xn )n∈N est une suite de variables i.i.d. centrées et de carré
intégrable, alors la suite M donnée par
n
X
Mn = Xi , n ∈ N∗ ,
i=1
Théorème 1.2.6 (TCL). Soit M une martingale et soit (an )n∈N une suite positive tendant
vers l’infini lorsque n tend vers l’infini. On suppose la convergence en probabilité suivante
[M, M ]n
lim = σ 2 > 0.
n→+∞ an
Alors on a les convergences en loi
Mn √ Mn
√ =⇒ N (0, σ 2 ) et an =⇒ N (0, σ −2 ).
an n→+∞ [M, M ]n n→+∞
La première convergence en loi est le TCL proprement dit tandis que la seconde
en est une conséquence grâce au point (iii) du lemme de Slutsky.
1.3. INTÉGRATION STOCHASTIQUE 11
Lemme 1.2.7 (Lemme de Slutsky). Soient (Xn )n∈N ∗ et (Yn )n∈N ∗ deux suites de v.a.
convergeant en loi respectivement vers un nombre c ∈ R et une v.a. Y . Alors
(i) la somme Xn + Yn converge en loi vers c + Y .
(ii) le produit Xn Yn converge en loi vers c Y .
(iii) le ratio Yn /Xn converge en loi vers Y /c dès que c 6= 0.
Dans l’énoncé, l’hypothèse selon laquelle Xn converge vers une constante est cru-
ciale. En effet, si la limite était une v.a., le résultat ne serait plus valide et il faudrait une
hypothèse plus forte comme la convergence en loi du couple (Xn , Yn ) pour que le résultat
reste vrai. Par ailleurs, le lemme reste valide lorsque l’on remplace toutes les convergences
en loi par des convergences en probabilité.
où la v.a. ak est bornée et Ftk -mesurable, et 0 = t0 < t1 < · · · < tn < · · · est une suite
croissant vers l’infini. On définit l’intégrale stochastique de H par rapport à M de la
manière suivante : Z +∞ X
Ht dMt := ak (Mtk+1 − Mtk ).
0 k≥0
On peut ensuite démontrer que H02 (M ) est dense dans l’espace H2 (M ) constitué
des processus adaptés H tels que
Z +∞
2 2
kHkH2 (M ) := E Ht d[M, M ]t < +∞.
0
On rappelle que [M, M ] étant à variation bornée (car croissante), cette intégrale est cons-
truite au sens classique. Ainsi, en définissant l’intégrale stochastique sur l’espace des pro-
cessus simples H02 (M ), on peut espérer l’étendre par densité aux processus dans H2 (M ).
12 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE
C’est l’objet du résultat suivant, qui justifie le mot “stochastique ” dans l’expression
“intégrale stochastique” : la limite est construite dans l’espace L2 et non au sens de la
convergence p.s.
R +∞
Théorème 1.3.2. Soit H ∈ H2 (M ). Alors l’intégrale stochastique 0 Ht dMt déterminée
R +∞
par la limite dans L2 d’intégrales du type 0 Htn dMt , où (H n )n∈N ⊂ H02 (M ) est une
suite de processus simples convergeant vers H pour la norme de H2 (M ), est bien définie.
De plus, on a l’isométrie dite d’Itô :
"Z 2 #
+∞ Z +∞
E Ht dMt =E Ht2 d[M, M ]t .
0 0
R +∞
Enfin, si Xt désigne la v.a. définie par Xt = 0 Hs 1[0,t] (s) dMs , où le processus H ∈
2
H
R t (M ), alors la famille (Xt )t≥0 est une martingale de carré intégrable. On note alors
0
Hs dMs la v.a. Xt .
Définition 1.3.4. Un processus X est une semimartingale s’il s’écrit sous la forme
Xt = Mt + At , t ≥ 0,
On peut montrer que cette décomposition est unique. Si Y est une autre semi-
martingale de décomposition Yt = M̃t + Ãt , on définit la variation quadratique des semi-
martingales X et Y par celle de leur partie martingale,
[X, Y ] := [M, M̃ ].
En particulier, si A et à sont deux processus à variation bornée et si M est une martingale,
alors on a
[M, Ã] = [A, Ã] = 0.
Enfin, l’intégrale stochastique par rapport à une semimartingale est définie de la manière
suivante.
Définition 1.3.5. Soit RX = M + A une semimartingale et H un processus adapté.
·
L’intégrale stochastique 0 Hs dXs est alors définie comme la semimartingale
Z t Z t Z t
Hs dXs := Hs dMs + Hs dAs , t ≥ 0.
0 0 0
Pour conclure que X est une semimartingale, on utilise implicitement le fait que
l’intégrale par rapport à un processus à variation bornée est elle-même un processus à
variation bornée.
On va voir que ces formules ne sont plus valables dès que l’on sort du cadre des processus à
variation bornée. Cependant, en reprenant le même type de démonstration via la formule
de Taylor et en contrôlant de manière adéquate le reste quadratique (qui est négligeable
dans le cas précédent), on est en mesure d’obtenir la fameuse formule d’Itô, faisant donc
apparaı̂tre un terme supplémentaire : la variation quadratique.
14 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE
Dans le cas unidimensionnel, si M est une martingale, alors pour toute fonction
f : R → R de classe C 2 ,
Z t
1 t 00
Z
0
f (Mt ) = f (M0 ) + f (Ms ) dMs + f (Ms ) d[M, M ]s , t ≥ 0.
0 2 0
Ainsi, non seulement on retrouve le fait que le processus M 2 − [M, M ] est une martingale,
mais de plus on donne sa valeur sous forme d’intégrale sochastique. Une autre application
intéressante de la formule d’Itô est la formule d’intégration par parties, généralisant celle
vue ci-dessus dans le cadre des processus à variation bornée.
Corollaire
R +∞1.4.3 (LGN pour les intégrales browniennes). Soit H un processus adapté tel
2
que p.s. 0 Ht dt = +∞. Alors on a le résultat de convergence p.s. suivant :
Rt
Hs dBs
lim R0 t = 0.
t→+∞
0
Hs2 ds
1.5. THÉORÈME DE GIRSANOV 15
P(A) = 0 =⇒ Q(A) = 0.
Ceci équivaut à la propriété suivante : il existe une unique v.a. (à égalité P-p.s.) P-
intégrable et positive ou nulle, dite dérivée de Radon-Nykodym de Q par rapport à P et
notée dQ/dP, telle que pour tout A ∈ A,
dQ
Q(A) = EP 1A .
dP
On note dans la suite F∞ := σ(Ft : t ≥ 0).
Théorème 1.5.1 (Girsanov). Soit H un processus adapté. Alors le processus donné par
Z t
1 t 2
Z
Lt := exp Hs dBs − H ds , t ≥ 0,
0 2 0 s
est une P-martingale qui converge p.s. lorsque t → +∞. Soit Q la probabilité équivalente
à P sur la tribu F∞ , dont la densité est donnée par la v.a. limite L∞ . Alors le processus
Z t
Bt := Bt −
f Hs ds, t ≥ 0,
0
Équations différentielles
stochastiques en finance
Ces équations, appelées Équations Différentielles Stochastiques (EDS), sont des équations
différentielles perturbées par un bruit aléatoire, lequel est représenté par une partie brow-
nienne. Remarquons que le sens donné à cette équation dépend de la théorie de l’intégrale
stochastique introduite dans le chapitre précédent. La solution X de cette EDS est appelée
processus de diffusion (ou seulement une diffusion), terme rappelant le lien étroit entre le
mouvement brownien et l’EDP de la chaleur. La fonction b s’appelle la dérive (ou drift en
anglais) car elle indique la tendance de la diffusion (lorsqu’on prend l’espérance, l’intégrale
stochastique disparaı̂t). A contrario, la fonction σ devant le mouvement brownien reflète
l’intensité ou variabilité du bruit : on parle de volatilité (stochastique) en finance.
Depuis quelques années, on a incorporé à la modélisation des marchés financiers des
processus qui ne sont pas des diffusions comme par exemple les solutions d’EDS dirigées
par un processus de Poisson ou plus généralement par un processus de Lévy (à la place
du mouvement brownien). Néanmoins, l’étude statistique de ce type de modèle est bien
plus difficile, la différence principale résidant dans la présence des sauts : ces processus
ne sont pas à trajectoires continues. En particulier, la théorie du calcul stochastique sur
laquelle repose l’estimation statistique est différente pour ces processus. C’est pourquoi
nous n’allons considérer dans la suite de ce cours que des processus de diffusion. Par
17
18 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES
ailleurs, nous n’étudierons essentiellement que des modèles dits paramétriques, c’est-à-dire
que l’on estimera statistiquement un (ou plusieurs) paramètre(s) inconnu(s) apparaissant
dans ces EDS à travers les fonctions b et σ, plutôt qu’estimer les fonctions elles-mêmes
si elles devaient nous être inconnues. Ce dernier cadre est celui de l’estimation dite
non-paramétrique, théorie en progrès mais moins développée à ce jour que l’estimation
paramétrique.
Tout d’abord, établissons un théorème général à propos de l’existence et de l’unicité
de la solution d’une EDS. Il s’avère qu’il existe plusieurs notions d’existence et d’unicité.
Cependant, nous avons pris le parti de passer sous silence ces différentes notions pour
n’en retenir qu’une seule.
Théorème 2.1.1. Étant donné un horizon fini fixé T > 0, considérons l’EDS suivante
sur [0, T ]:
dXt = b(t, Xt ) dt + σ(t, Xt ) dBt ,
où X0 est une v.a. F0 -mesurable, de carré intégrable et indépendante du mouvement
brownien B. Supposons les coefficients b et σ continus en temps et lipschitziens en espace,
i.e. pour tout t ∈ [0, T ],
Alors:
(i) existence : il existe une solution X sur [0, T ] continue et adaptée, qui de plus
est de carré intégrable.
(ii) unicité : si X et Y sont deux telles solutions de cette EDS (avec le même
mouvement brownien et la même valeur initiale), alors elles sont égales p.s., i.e.
P (Xt = Yt ∀ t ∈ [0, T ]) = 1.
Xt = X0 + µt + σBt , t ≥ 0.
Cette diffusion a été étudiée par Bachelier dans sa thèse (soutenue en 1900), consti-
tuant ainsi les fondations des mathématiques financières modernes. Le processus X est
évidemment gaussien, d’espérance E[Xt ] = E[X0 ] + µt et de covariance
où les constantes µ et σ sont dans R et ]0, +∞[, respectivement. On suppose aussi que
p.s. X0 > 0. On remarque que si Xt est différent de 0, l’EDS se réécrit
dXt
= µ dt + σ dBt ,
Xt
c’est-à-dire que le terme de gauche, qui est l’intégrale stochastique par rapport à X de la
dérivée du logarithme népérien, est simplement un mouvement brownien avec dérive. La
formule d’Itô appliquée au logarithme népérien nous donne
σ2
d log(Xt ) = µ − dt + σ dBt ,
2
et il en résulte alors que l’unique solution de l’EDS est
σ2
Xt = X0 exp σ Bt + µ − t .
2
Ce processus, appelé mouvement brownien géométrique par les probabilistes, est le fameux
modèle de Black-Scholes (1973), dans lequel l’évolution du prix d’une action donnée est
régie par un processus stochastique. Plus précisément, la célèbre formule de Black-Scholes
permet de calculer la valeur théorique d’une option européenne à partir des données
suivantes :
- Xt (resp. x0 ) est la valeur au temps t (resp. valeur initiale, supposée déterministe)
de l’action sous-jacente ;
- T est l’échéance, ou maturité de l’option ;
- K est le prix d’exercice fixé par l’option (strike) ;
20 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES
L’intérêt de modéliser les marchés financiers par la diffusion de Black et Scholes est que les
calculs peuvent être faits de manière explicite, la v.a. Xt s’exprimant comme une fonction
très simple de Bt . En revanche, ce modèle est limité au sens où il ne colle pas réellement
à la réalité des marchés financiers. Par exemple, la formule de Black et Scholes n’est plus
valable dès que le taux d’intérêt et la volatilité ne sont plus constants ou encore pour la
prise en compte d’éventuels krachs boursiers (modélisés dans ce cas par des processus à
sauts).
dXt = −µ Xt dt + σ dBt ,
où µ ∈ R∗ et σ > 0. Ce modèle a été introduit au début des années 30 par les physiciens
Ornstein et Uhlenbeck lorsqu’ils ont étudié la théorie cinétique des gaz, et plus précisément
le comportement en vitesse de ces molécules. Notons tout de même que cette équation
était écrite légèrement différemment, “à la physicienne”, car le calcul stochastique intro-
duit par Itô n’est né que 10 ans après. Concernant la modélisation financière, il s’agit
d’un modèle décrivant l’évolution de taux d’intérêt.
2.2. DIFFUSIONS EN FINANCE 21
Cette EDS peut être interprétée comme une perturbation aléatoire brownienne
de l’équation différentielle ordinaire dxt = −µxt dt dont la solution est xt = x0 e−µt . On
s’attend donc à ce que ce terme exponentiel joue un rôle dans la résolution de l’EDS.
Appliquons la formule d’Itô au processus (eµt Xt )t≥0 :
Par exemple dans le cas où X0 = 0 p.s., le processus est centré et a pour variance
Var(Xt ) = σ 2 (1 − e−2µt )/2µ. Enfin, si l’on suppose X0 gaussienne, la présence d’une
intégrale stochastique d’une fonction déterministe nous assure du caractère gaussien de
ce processus. En effet, on peut R démontrer que si f est une fonction continue alors la
t
martingale de carré intégrable 0 f (s) dBs est un processus gaussien. En particulier
t≥0
on a pour tout t > 0 : Z t
2
Mt ∼ N 0, f (s) ds .
0
dXt = − (µ Xt − ν) dt + σ dBt ,
où p.s. X0 > 0 et µ, ν ∈ R et σ > 0. Cette équation admet une unique solution dès lors
que le processus ne touche jamais 0 : une condition nécessaire et suffisante pour cela est
que
µ > 0 et 2 µ ν > σ 2 ,
ce que l’on supposera dans la suite. Au contraire des processus précédents, la représentation
de X n’est pas explicite, ce qui rend son étude plus délicate. En revanche, on peut don-
ner sa loi pour certaines valeurs des paramètres µ, ν et σ. Supposons que la quantité
d := 4µν/σ 2 soit un nombre entier strictement supérieur à 2 et considérons un processus
d’Ornstein-Uhlenbeck d-dimensionnel X̃ solution de l’EDS
µ σ p
dX̃t = − X̃t dt + dB̃t , X̃0 = (0, 0, . . . , 0, X0 )T ,
2 2
où B̃ est un mouvement brownien dans Rd supposé indépendant de X0 , la condition
initiale du modèle CIR. En appliquant la formule d’Itô multidimensionnelle au processus
X̃ et à la fonction f de classe C 2 sur Rd définie par f (x) = kxk2 , où k · k désigne la norme
euclidienne, on a
Z t Z t 2
σ σ µ
f (X̃t ) − f (X̃0 ) = < ∇f (X̃s ), dB̃s > + ∆f (X̃s ) − < X̃s , ∇f (X̃s ) > ds,
0 2 0 8 2
c’est-à-dire
Z t Z t
2 2
kX̃t k − kX̃0 k = σ < X̃s , dB̃s > + µ ν − kX̃s k2 ds.
0 0
résultat auquel nous nous attendions. En effet, il suffit de prendre l’espérance directement
dans l’EDS (l’intégrale brownienne disparaı̂t).
2.3. PROCESSUS DE MARKOV 23
E [f (Xt ) | Fs ] = E [f (Xt ) | Xs ] .
où A désigne un ensemble borélien de mesure de Lebesgue strictement positive (on parle
de borélien positif). Ces quantités sont respectivement le temps d’entrée dans A et le
temps passé dans A par le processus.
(i) irréductibilité : partant de n’importe quel point x ∈ R, le processus peut
atteindre en temps fini n’importe quel borélien positif A. Ceci s’écrit Px (TA < +∞) > 0
ou encore de manière équivalente, Ex [VA ] > 0.
(ii) récurrence : non seulement le processus est irréductible, mais aussi partant
de n’importe quel point x ∈ R, le processus atteint en temps fini n’importe quel borélien
positif A. Ceci s’écrit Px (TA < +∞) = 1. On peut montrer que ceci est équivalent à
la propriété apparemment plus forte : partant de n’importe quel point x ∈ R, la durée
passée dans n’importe quel borélien positif A est infinie, c’est-à-dire Px (VA = +∞) = 1.
Enfin ceci équivaut à la propriété apparemment plus faible : Ex [VA ] = +∞.
(iii) transience : le processus est dit transitoire s’il est irréductible et non récurrent,
c’est-à-dire que pour tout x ∈ R et tout borélien positif A, on a Px (TA < +∞) < 1 ou
encore que Px (VA = +∞) = 0 ou encore que Ex [VA ] < +∞. C’est le cas des processus qui
tendent p.s. vers l’infini ou vers une constante déterministe lorsque t tend vers l’infini.
(iv) récurrence positive, ou ergodicité : le processus est récurrent et partant de
n’importe quel point x ∈ R, le temps d’entrée dans n’importe quel borélien positif A est
fini en moyenne. En d’autres termes, on a Ex [TA ] < +∞.
(v) récurrence nulle : le processus est récurrent et pour tout x ∈ R et tout borélien
positif A, on a Ex [TA ] = +∞.
24 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES
Dans le cas ergodique, et seulement dans ce cas, il existe une unique probabilité
invariante π pour le processus, c’est-à-dire que si X0 suit la loi π alors pour tout t > 0,
la variable Xt la suit aussi. Lorsque X0 suit la loi invariante, le processus X est dit
stationnaire. L’ergodicité est associée à une propriété de convergence en temps long,
apparaissant aussi dans le cas des chaı̂nes de Markov, et connu sous le nom de théorème
ergodique (ou loi des grands nombres markovienne). Ce résultat est à la base de ce que
nous allons faire dans la partie Statistique.
Théorème 2.3.2 (Théorème ergodique, ou LGN markovienne). Supposons que le pro-
cessus X soit ergodique. Alors pour toute fonction f ∈ L1 (π), on a la convergence p.s.
suivante :
1 t
Z
lim f (Xs ) ds = π(f ),
t→+∞ t 0
R
où π(f ) désigne l’intégrale de f sous π, i.e. π(f ) := R f dπ.
Maintenant, posons-nous la question suivante, en lien avec les EDS : les solutions
d’EDS sont-elles des processus de Markov, et si oui, existe-il des critères sur les fonctions
b et σ assurant les propriétés ci-dessus ? Le résultat suivant répond à ces questions.
Théorème 2.3.3. La solution X d’une EDS est un processus de Markov, qui est homogène
si les fonctions b et σ ne dépendent pas du temps. Supposons de plus que σ ne s’annule
pas sur R et notons U , V et Z les fonctions et quantité suivantes : pour tout x ∈ R,
Z x Z x
eU (y)
Z
b(u) −U (y)
U (x) = 2 2
du, V (x) = e dy et Z = 2
dy.
0 σ(u) 0 R σ(y)
Alors le processus est ergodique et la probabilité invariante π admet des moments de tout
ordre, c’est-à-dire que pour tout p > 0,
Z
|x|p fπ (x) dx < +∞.
R
27
28 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
à la mesure de Lebesgue.
La v.a. obtenue en appliquant la fonction (x1 , . . . , xn ) 7→ argmaxθ∈Θ Ln (x1 , . . . , xn , θ) au
n-échantillon (X1 , . . . , Xn ) s’appelle l’estimateur du maximum de vraisemblance (EMV)
du paramètre θ.
où Uθ ∼ Nd (0, I(θ)−1 ) et I(θ) est la matrice (ou information) de Fisher d × d formée des
éléments
h i
I(θ)i,j = Cov ∂θi log fθ (X1 ), ∂θj log fθ (X1 ) = −E ∂θ2i ,θj log fθ (X1 ) ,
que l’on suppose bien définie et inversible. En particulier l’EMV atteint à la limite la
borne de Cramer-Rao : il est asymptotiquement sans biais, i.e. limn→∞ E[θ̂n ] = θ, et de
variance minimale : on dit qu’il est asymptotiquement efficace.
qui est donc la somme de v.a. i.i.d. centrées et de variance I(θ), l’information de Fisher.
Par le TCL, on a la convergence
√
n Hn (X1 , . . . , Xn , θ) =⇒ N (0, I(θ)) .
n→+∞
Par la LGN, on obtient que Kn (X1 , . . . , Xn , θ) converge vers l’espérance de ∂θ2 log fθ (X1 ),
qui n’est autre que −I(θ). Ainsi on obtient finalement que
√
√ n Hn (X1 , . . . , Xn , θ)
n θ̂n − θ ≈ ,
n→+∞ −Kn (X1 , . . . , Xn , θ)
qui suit la loi I(θ)−1 Nd (0, I(θ)), c’est-à-dire la loi N (0, I(θ)−1 ).
À présent, si l’on désire estimer non pas θ mais plutôt g(θ), où g est une “bonne”
fonction, on a à notre disposition un résultat très utile en pratique, connu sous le nom de
“delta-method”.
Théorème 3.1.3. Soit g une fonction définie sur Θ ⊂ Rd et à valeurs dans Rk , de classe
C 1 et dont la matrice jacobienne d × k au point θ, notée Jac(g)(θ), est inversible. Alors
g(θ̂n ) est l’EMV de g(θ) et de plus, on a la convergence en loi suivante :
√
n g(θ̂n ) − g(θ) =⇒ Jac(g)(θ)T Uθ ,
n→+∞
où Uθ ∼ Nd (0, I(θ)−1 ). Autrement dit, la loi limite est celle d’un vecteur gaussien k-
dimensionnel centré et de matrice de covariance Jac(g)(θ)T I(θ)−1 Jac(g)(θ).
◦ cas d’une v.a. de Bernoulli de paramètre θ ∈ Θ ⊂]0, 1[. L’EMV est donné par
la moyenne empirique
n
1 X
θ̂n = Xi =: X̄n ,
n i=1
c’est-à-dire l’estimateur sans biais donné par la LGN puisque E[X1 ] = θ. De plus,
l’information de Fisher est
1 1
I(θ) = = ,
θ(1 − θ) Var(X1 )
◦ cas d’une v.a. de Poisson de paramètre θ ∈ Θ ⊂]0, ∞[. L’EMV est encore la
moyenne empirique, comme dans le cas Bernoulli. L’information de Fisher, quant à elle,
vaut 1/θ, c’est-à-dire l’inverse de la variance d’une v.a. de Poisson de paramètre θ.
◦ cas d’une v.a. gaussienne de moyenne m et de variance σ 2 : pour θ = (m, σ 2 ) et
Θ ⊂ R×]0, ∞[, l’EMV vaut
θ̂n = X̄n , Sn2 ,
Par la LGN, la variance empirique converge p.s. (donc en probabilité) vers la variance σ 2 .
En utilisant la théorie des vecteurs gaussiens et en particulier le théorème de Cochran,
on peut montrer que les moyenne et variance empiriques sont indépendantes et suivent
respectivement la loi N (m, σ 2 /n) et celle de la variable (σ 2 /n) Y , où Y suit la loi du χ2 à
n − 1 degrés de liberté. De plus, notons que Sn2 est biaisée car E[Sn2 ] = (n − 1)σ 2 /n mais
asymptotiquement sans biais. L’information de Fisher étant donnée par
1
σ 2 0
I(θ) = ,
0 2σ1 4
1
Ln (x1 , . . . , xn , θ) = , 0 ≤ x1 , . . . , xn ≤ θ,
θn
et alors l’EMV est donné par
On remarque que θ̂n converge bien en probabilité vers θ donc c’est un estimateur con-
sistant, et que E[θ̂n ] = nθ/(n + 1) : il est asymptotiquement sans biais. En revanche la
normalité asymptotique n’est pas vérifiée, ce modèle n’étant pas régulier en un certain
sens (on peut montrer par ailleurs que n(θ − θ̂n ) converge en loi vers une v.a. exponentielle
de paramètre 1/θ).
Cet exemple fait partie de la classe importante des processus auto-régressifs d’ordre
1, notés processus AR(1), intervenant comme modèle de régression pour des séries tem-
porelles (dans lequel la série est expliquée par ses valeurs passées plutôt que par d’autres
variables). Notons que l’on a pris X0 déterministe par simplicité, mais ceci reste valide
dans le cas d’une variable initiale aléatoire, l’important étant que l’on connaisse sa loi.
En effet, la valeur de la chaı̂ne au temps 0 est observée en pratique et peut donc être
considérée comme connue (sa loi ne dépendra pas du paramètre inconnu θ).
Pθ (A) = P (X ∈ A)
= EP 1{X∈A}
1
= EQ 1{X∈A} θ
MT
Z T
1 T
Z
2
= EQ 1{X∈A} exp bθ (t, Xt ) dBt + bθ (t, Xt ) dt
0 2 0
Z T
1 T
Z
2
= EQ 1{X∈A} exp bθ (t, Xt ) dXt − bθ (t, Xt ) dt .
0 2 0
alors on en déduit que Pθ est absolument continue sur CT par rapport à P et admet pour
densité Z T
1 T
Z
dPθ
(x) = exp bθ (t, xt ) dxt − bθ (t, xt ) dt , x ∈ CT .
2
dP 0 2 0
On peut d’ores et déjà définir la notion de vraisemblance dans ce cas. Cependant, nous
allons la définir dans un cadre plus général. Considérons le processus de diffusion X
solution de l’EDS suivante :
Z t Z t
X t = X0 + bθ (s, Xs ) ds + σ(s, Xs ) dBs , t ∈ [0, T ],
0 0
On sait que VTn tend vers σ 2 T p.s. et dans L2 lorsque n tend vers l’infini, et que E[VTn ] =
σ 2 T . On montre aussi en utilisant le TCL pour les variables i.i.d. que la convergence en
loi suivante est satisfaite :
√
n
VT 2
n −σ =⇒ N (0, 2 σ 4 ).
T n→+∞
où les (Zi,n,T )i=1,...,n sont i.i.d. centrées et de variance égale à 2σ 4 T 2 /n2 .
où b et σ sont deux fonctions continues sur [0, T ] avec de plus σ > 0, et θ ∈ Θ ⊂ R
est un paramètre inconnu que l’on souhaite estimer. La variable X0 , quant à elle, est
36 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
Ainsi, il n’y a pas de convergence en temps long et l’EMV n’est pas consistant.
Calculons à présent l’EMV et étudions ses principales propriétés pour les exemples
classiques que nous avons introduits dans le chapitre précédent.
où σ > 0 est supposé connu tandis que θ ∈ Θ ⊂ R est un paramètre inconnu que l’on va
estimer. Ce processus est le cas le plus simple entrant dans la classe des processus dont
on vient de calculer l’EMV. On a alors que
BT
θ̂T = θ + σ ,
T
qui tend p.s. et dans L2 vers le paramètre inconnu θ. L’EMV est donc sans biais,
consistant et a pour loi N (θ, σ 2 /T ).
Modèle de Black-Scholes
Considérons maintenant le modèle de Black-Scholes. L’EDS satisfaite est la suivante :
où X0 > 0 p.s., σ > 0 est supposé connu tandis que θ ∈ Θ ⊂ R est le paramètre inconnu
à estimer. La log-vraisemblance du modèle est donnée par
Z T
θ dxt θ2 T
log LT (x, θ) = 2 − , x ∈ CT .
σ 0 xt 2σ 2
Cette fonction de θ étant concave et comme il n’y a qu’un seul point critique, l’EMV est
donné par
Z T
1 dXt
θ̂T =
T 0 Xt
BT
= θ+σ ,
T
c’est-à-dire le même estimateur que dans le cas du mouvement brownien avec dérive, les
conclusions étant alors les mêmes. Notons que ce résultat était attendu, l’EMV étant
stable par bijection. En effet, on peut montrer que s’il existe une fonction bijective f
nous permettant d’exprimer un processus X 2 en fonction d’un processus X 1 dépendant
d’un paramètre inconnu θ, alors l’EMV de θ associé à X 2 est le même que celui associé à
X 1 . Dans notre cas, le processus X 1 est un mouvement brownien avec dérive,
Processus ergodiques
Étudions à présent le cas des processus ergodiques, pour lesquels il existe un résultat
général sur l’EMV multidimensionnel.
où Uθ ∼ Nd (0, I(θ)−1 ), I(θ) est la matrice de Fisher d × d formée des éléments
∂θi bθ ∂θj bθ
Z
I(θ)i,j := dπθ ,
R σ2
Examinons à présent le cas des trois processus ergodiques que nous avons vus dans
le chapitre précédent, qui satisfont l’hypothèse (H) et pour lesquels le théorème précédent
va s’appliquer.
Cette fonction de θ est concave et n’a qu’un seul point critique. Ainsi, l’EMV est donné
par
RT
Xt dXt
θ̂T = − R0 T
0
Xt2 dt
3.2. LE CAS DES DIFFUSIONS 39
RT
Xt dBt
= θ − σ R0 T .
0
Xt2 dt
En utilisant la LGN pour les martingales, on en déduit que l’EMV est consistant et
asymptotiquement sans biais. En revanche, contrairement aux précédents modèles, la
normalité asymptotique n’est pas immédiate à cause de la présence de l’intégrale stochas-
tique. Cependant, le TCL markovien peut s’appliquer et l’on obtient la convergence en
loi suivante : √
T θ̂T − θ =⇒ N (0, 2θ) ,
T →+∞
résultat correspondant bien au théorème ci-dessus car l’information de Fisher est donnée
par Z
1 1
I(θ) = 2 x2 πθ (dx) = .
σ R 2θ
Modèle de Vasicek. Focalisons-nous maintenant sur le modèle de Vasicek qui généralise
le cas précédent, et pour lequel plusieurs situations sont possibles. Le processus X est
solution de l’EDS
dXt = − (µ Xt − ν) dt + σ dBt ,
où µ > 0, ν ∈ R∗ et σ > 0. L’unique probabilité invariante πθ est la loi N (ν/µ, σ 2 /2µ).
Notons dans la suite
Z T Z T Z T
2
Y1 := Xt dt, Y2 := Xt dt and Z := − Xt dXt .
0 0 0
◦ Cas où ν et σ sont supposés connus tandis que θ = µ ∈ Θ ⊂]0, +∞[ est le
paramètre inconnu à estimer. En procédant de la même manière que pour le processus
d’Ornstein-Uhlenbeck, on obtient que
RT
νY2 + Z Xt dBt
θ̂T = = θ − σ R0 T ,
Y1 Xt2 dt
0
◦ Cas où µ et σ sont supposés connus tandis que θ = ν ∈ Θ ⊂]0, +∞[ est à estimer.
On a alors que
XT − X0 + µY2 BT
θ̂T = = θ+σ ,
T T
donc que l’EMV est consistant, sans biais et a pour loi N (θ, σ 2 /T ).
40 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
◦ Cas où seul σ est supposé connu, le paramètre inconnu à estimer étant θ =
(µ, ν) ∈ Θ ⊂]0, +∞[×R∗ . On trouve que l’EMV bidimensionnel vaut
T Z + Y2 (XT − X0 ) Y2 Z + Y1 (XT − X0 )
θ̂T = , .
T Y1 − Y22 T Y1 − Y22
Modèle CIR. Terminons par le cas du modèle CIR. Le processus X est solution de l’EDS
p
dXt = µ(ν − Xt ) dt + σ Xt dBt ,
où p.s. X0 > 0 et les paramètres satisfont µ > 0, ν > 0, σ > 0 avec 2µν > σ 2 . Réécrivons
ce modèle légèrement différemment afin de dissocier les paramètres apparaissant dans la
dérive. À présent, le processus X est solution de l’EDS
p
dXt = (a − b Xt ) dt + σ Xt dBt ,
où p.s. X0 > 0 et les paramètres satisfont cette fois a > 0, b > 0, σ > 0 avec 2a > σ 2 .
L’unique probabilité invariante πθ est la loi Gamma de paramètres α = 2a/σ 2 et β =
σ 2 /2b. Notons dans la suite
Z T Z T Z T
Y1 := Xt−1 dt, Y2 := Xt dt and Z := Xt−1 dXt .
0 0 0
◦ Cas où b et σ sont supposés connus tandis que θ = a ∈ Θ ⊂]σ 2 /2, +∞[ est le
paramètre inconnu. On a alors que
R T −1/2
Z + bT Xt dBt
θ̂T = = θ + σ 0R T −1 ,
Y1 Xt dt 0
◦ Cas où a et σ sont supposés connus tandis que θ = b ∈ Θ ⊂]0, +∞[ est le
paramètre inconnu à estimer. L’EMV est donné par
RT √
aT − XT + X0 Xt dBt
θ̂T = = θ − σ 0R T .
Y2 Xt dt 0
tandis que P est la loi de X sur CT (sous une autre probabilité Q) correspondant à celle
d’une diffusion solution de l’EDS
où B̃ est un Q-mouvement brownien. Notons que si l’on fait dépendre b d’un paramètre
θ̃ supposé connu, alors on définit le rapport de vraisemblance par
!
1 T b2θ − b2θ̃
Z T
bθ − bθ̃
Z
dPθ
LT (x, θ, θ̃) := (x) = exp (t, xt ) dxt − (t, xt ) dt , x ∈ CT .
dPθ̃ 0 σ2 2 0 σ2
Quels sont ici les risques de première et deuxième espèces ? Rejeter (H0 ) à tort revient à
croire à l’absence d’avion alors qu’en réalité il y en a un, tandis qu’accepter (H0 ) à tort
signifie que l’on pense qu’un avion passe alors qu’il n’en est rien. On voit ainsi que ces
deux erreurs n’ont pas les mêmes conséquences et c’est pourquoi l’hypothèse nulle a été
choisie de cette manière.
Notons PH0 , PH1 les probabilités définies sur l’espace (Ω, FT ) de la manière suivante : sous
PH0 le processus X vaut m + σ B (on note P0 sa loi sur CT ) et sous PH1 , on a X = σ B
(on note P1 sa loi sur CT ). Ainsi, le rapport de vraisemblance s’écrit
Z T Z T
dP1 1 1
(y) = exp − 2 f (t) dyt + 2 f (t) dt , y ∈ CT .
2
dP0 σ 0 2σ 0
Soit α ∈]0, 1[. Le test de Neyman-Pearson admet la règle de décision suivante : on rejette
(H0 ) lorsque le rapport de vraisemblance est grand, c’est-à-dire lorsque
Z T
f (t) dxt ≤ Cα ,
0
Autrement dit, la probabilité de rejeter (H0 ) à tort est égale à α (risque de première
espèce). Sous l’hypothèse (H0 ), on a X = m + σ B donc
Z T Z T Z T
loi
f (t) dXt = σ f (t) dBt + f (t)2 dt = σ vT Z + vT2 ,
0 0 0
RT
où Z désigne une v.a. de loi N (0, 1) et vT2 := 0 f (t)2 dt. D’où
Z T
Cα − vT2
α = PH0 f (t) dXt ≤ Cα = P Z ≤ .
0 σ vT
Ainsi, en notant qα le quantile d’ordre α pour la loi normale centrée et réduite, on en
déduit la valeur de Cα :
Cα = qα σ vT + vT2 .
Enfin, les paramètres σ et vT étant connus, il reste à fixer le risque de première espèce
α (en général α = 0, 05) puis conclure le test en utilisant la règle de décision en fonction
RT
de la réalisation x du processus X : si 0 f (t) dxt ≤ Cα , alors l’hypothèse (H0 ) est
rejetée. Ou encore la probabilité de se tromper en rejetant (H0 ) est inférieure au seuil α
préalablement déterminé et le test est jugé significatif.
RT
Au contraire, sous (H1 ), on a X = σB et donc l’intégrale 0 f (t) dXt a même loi
que la v.a. σ vT Z. D’où le risque de seconde espèce β (ou probabilité d’accepter (H0 ) à
tort) est Z T vT
β = PH1 f (t) dXt > Cα = P Z > qα + .
0 σ
44 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
avec T = nhn et où l’on autorise le pas hn des observations à dépendre du nombre
d’observations n. Une diffusion étant un processus de Markov, la suite extraite (Xihn )
indicée par i forme une chaı̂ne de Markov. Plusieurs études asymptotiques sont alors
envisageables, qui diffèrent suivant les modèles que l’on considère ou selon les observations
dont on dispose :
◦ si hn ne dépend pas de n alors faire tendre le nombre n d’observations vers l’infini
revient à faire tendre T vers l’infini. Ce cadre est similaire à celui étudié précédemment en
temps continu et c’est la convergence des martingales, voire les théorèmes limites pour les
chaı̂nes de Markov ergodiques, qui sont utilisés pour démontrer les éventuelles consistance
et normalité asymptotique de l’EMV associé. C’est par exemple le cas de la chaı̂ne de
Markov correspondant au processus d’Ornstein-Uhlenbeck, dont nous avons calculé l’EMV
en début de chapitre et sur lequel nous allons revenir ci-dessous.
◦ si hn → 0 lorsque n → +∞ tandis que le produit T = nhn reste fixe (c’est le cas
de la subdivision uniforme), on est dans le cas d’observations de plus en plus raprochées
à l’intérieur d’un intervalle fixe. Cette situation a été étudiée lors de l’estimation par la
variation quadratique approchée d’un paramètre inconnu θ apparaissant dans la volatilité
σθ (en particulier pour estimer le paramètre σ lui-même s’il devait être inconnu, dans le
cas d’une volatilité constante). En revanche cette discrétisation n’est pas appropriée si le
paramètre inconnu apparaı̂t dans la fonction de dérive b car l’EMV n’est alors même pas
consistant.
◦ si hn → 0 et T → +∞ lorsque n → ∞ (par exemple hn = n−1/2 ), il s’agit
d’observations de plus en plus rapprochées à l’intérieur d’un intervalle de plus en plus
3.3. DISCRÉTISATION DES DIFFUSIONS 45
grand. Deux régimes asymptotiques rentrent alors en concurrence et c’est pourquoi l’étude
est en général plus délicate.
Remarquons que si l’on n’est pas dans le second cas, l’estimation de la volatilité σ
comme paramètre inconnu devient intéressante car nous ne disposons plus de l’approxima-
tion par la variation quadratique approchée.
Illustrons dans ce cas discret la mise en oeuvre de l’estimation par maximum de
vraisemblance sur deux exemples, le modèle de Black-Scholes et le processus d’Ornstein-
Uhlenbeck. Comme on l’a vu précédemment, il est suffisant pour Black-Scholes de se
consacrer à l’estimation des paramètres inconnus intervenant non pas dans ce modèle mais
plutôt dans celui du mouvement brownien avec dérive. Ainsi, soit X = (Xi hn )i∈{1,2,...,n} la
discrétisation du mouvement brownien avec dérive sur l’intervalle [0, T ], c’est-à-dire pour
tout i ∈ {1, 2, . . . , n},
Xihn = X(i−1)hn + µ hn + σ Bihn − B(i−1)hn , X0 = x ∈ R,
où θ = (µ, σ 2 ) ∈ Θ ⊂ R×]0, +∞[ est le paramètre bidimensionnel inconnu à estimer. La
densité jointe fθ de la chaı̂ne de Markov X est celle d’un vecteur gaussien n-dimensionnel
et l’on a
n
!
1 1 X
fθ (x1 , . . . , xn ) = exp − 2 (xi − xi−1 − µ hn )2 , (x1 , . . . , xn ) ∈ Rn ,
(2π σ 2 hn )n/2 2 σ hn i=1
où par convention x0 = x. D’où la log-vraisemblance est donnée pour tout (x1 , . . . , xn ) ∈
Rn par
n
n 2 1 X
log Ln (x1 , . . . , xn , θ) = − log(2π σ hn ) − (xi − xi−1 − µ hn )2 ,
2 2 σ 2 hn i=1
et l’on en déduit l’EMV bidimensionnel
n
!
1 1 X 2
θ̂n = Ȳn,hn , Yihn − Ȳn hn ,
hn T i=1
où Y est la suite définie par Yihn := Xihn − X(i−1)hn , i ∈ {1, 2, . . . , n}, et Ȳn,hn est la
moyenne empirique associée,
n
1 X
Ȳn,hn := Yihn .
n i=1
Notons que grâce à l’indépendance et à la stationnarité des accroissements browniens, la
suite Y est i.i.d. de loi N (µ hn , σ 2 hn ) : on obtient alors les mêmes conclusions que dans
le cas de variables gaussiennes i.i.d. vu en début de chapitre : les coordonnées µ̂n et σ̂n2
de l’EMV sont indépendantes et suivent respectivement la loi N (µ, σ 2 /T ) et celle de la
variable (σ 2 /n) Y , où Y suit la loi du χ2 à n − 1 degrés de liberté. Par ailleurs on peut
réécrire l’EMV comme
n 2 2 !
BT σ 2 X Bi hn − B(i−1) hn BT
θ̂n = µ + σ , √ − hn σ 2 ,
T n i=1 hn T
46 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
où θ = (µ, σ 2 ) ∈ Θ ⊂]0, +∞[2 est le paramètre inconnu à estimer. Comme il est difficile
de calculer les densités conditionnelles en utilisant la formule ci-dessus, tirons profit de
l’expression explicite du processus, c’est-à-dire
Z ihn
−µhn −µihn
Xihn = e X(i−1)hn + σ e eµr dBr
(i−1)hn
s
1 − e−2µhn
loi e−µhn X(i−1)hn + σ U,
= 2µ
où U suit la loi N (0, 1) et est indépendante de X(i−1)hn grâce à l’indépendance des ac-
croissements browniens. Afin d’utiliser la delta-method, supposons que hn = h ne dépende
pas de n et posons
s
1 − e−2µh
µ̃ := e−µh ∈]0, 1[ et σ̃ := σ > 0,
2µ
de sorte que si l’on note respectivement µ̂n et σ̂n2 les EMV des paramètres µ̃ et σ̃ 2 , alors
le couple (µ, σ 2 ) peut être estimé par l’EMV bi-dimensionnel
log(µ̂n ) 2 log µ̂n 2
− , − σ̂ .
h h(1 − µ̂2n ) n
3.3. DISCRÉTISATION DES DIFFUSIONS 47
Yi = µ̃ Yi−1 + σ̃ Ui ,
où Yi = Xih et la suite (Ui ) indicée par i ∈ {1, . . . , n} est i.i.d. de loi N (0, 1). Évidemment,
Y est un vecteur gaussien et pour tout i ∈ {1, . . . , n},
2i
i 2 1 − µ̃
Yi ∼ N µ̃ x, σ̃ .
1 − µ̃2
Pn
En notant M la martingale discrète Mn := i=1 Yi−1 Ui , l’EMV se réécrit
n
!
2 X 2 2
Mn σ̃ σ̃ Mn
θ̂n = µ̃ + σ̃ , Ui2 − ,
[M, M ]n n i=1 n [M, M ]n
de Markov (Xihn )i∈{1,...,n} , ce qui n’est pas toujours le cas (les densités conditionnelles de
Xihn sachant X(i−1)hn nous sont inconnues en dehors de certains cas particuliers comme
ceux que nous venons d’étudier). On met alors en oeuvre un schéma d’Euler, c’est-à-dire
une discrétisation de l’EDS du type
Z ti+1 Z ti+1
Xti+1 = Xti + b(r, Xr ) dr + σ(r, Xr ) dBr
ti ti
≈ Xti + b(ti , Xti ) (ti+1 − ti ) + σ(ti , Xti ) Bti+1 − Bti .
Plus précisément, si 0 = tn0 < tn1 < · · · < tnpn = T est une suite de subdivisions de
l’intervalle [0, T ], de pas tendant vers 0 lorsque n → +∞ (en général on prend la subdi-
vision uniforme donnée par tni = iT /n pour i ∈ {0, 1, . . . , n} et pn = n), on construit les
variables X̂tnni par le schéma récursif suivant : X̂0n = X0 et
X̂tnni = X̂tnni−1 + bθ (tni−1 , X̂tnni−1 ) (tni − tni−1 ) + σ(tni−1 , X̂tnni−1 ) (Btni − Btni−1 ).
La suite (X̂tnni )i=0,...,pn est une chaı̂ne de Markov dont les densités conditionnelles sont
gaussiennes. En effet, sachant que X̂tnni = xi , on a
X̂tn = X̂tnni−1 + bθ (tni−1 , X̂tnni−1 ) (t − tni−1 ) + σ(tni−1 , X̂tnni−1 ) (Bt − Btni−1 ), t ∈ [tni−1 , tni ].
Alors pour tout p ≥ 1, il existe Cp > 0 telle que pour tout n ∈ N∗ , on ait
" #
Cp
E sup |X̂tn − Xt |2p ≤ 2βp ,
t∈[0,T ] n
Ainsi, la probabilité précédente est le terme général d’une série convergente dès lors que
2p(β − γ) > 1. Le paramètre p ≥ 1 étant arbitraire, choisissons-le de sorte que cette
condition soit satisfaite. Par le lemme de Borel-Cantelli, pour tout ω en dehors d’un
ensemble négligeable, il existe N (ω) ∈ N∗ tel que pour tout n ≥ N (ω), on ait
Autrement dit, pour tout γ ∈]0, β[, on a la convergence p.s. uniforme sur [0, T ] de X̂ vers
X à vitesse nγ :
lim nγ sup |X̂tn − Xt | = 0.
n→+∞ t∈[0,T ]
Dans le cas homogène on obtient la même convergence pour tout γ ∈]0, 1/2[.
Pour terminer l’étude statistique, donnons la pseudo log-vraisemblance obtenue
par la discrétisation via le schéma d’Euler dans le cadre du modèle CIR ergodique, pour
lequel la log-vraisemblance associée à la discrétisation temporelle de la diffusion n’est pas
calculable. Le schéma d’Euler considéré est le suivant :
p
Xih = X(i−1)h − b X(i−1)h − a h + σ X(i−1)h Bih − B(i−1)h , X0 = x > 0,
Notons que h ne doit pas dépendre de n car dans le cas contraire, le modèle est modifié à
chaque fois que le nombre n d’observations change, ce qui n’a pas de sens du point de vue
50 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE
statistique. Après avoir calculé la densité jointe de la chaı̂ne de Markov (Xih )i∈{1,...,n} , on
en déduit la log-vraisemblance : pour tout (x1 , . . . , xn ) ∈ Rn ,
n
X 1 2
1 2
log Ln (x1 , . . . , xn , θ) = − log 2π σ xi−1 h + (xi − xi−1 + h (b xi−1 − a)) .
i=1
2 2 σ 2 xi−1 h
Après des calculs pénibles, on en tire alors l’EMV tridimensionnel de θ ainsi que les mêmes
conclusions (pour la consistance et la normalité asymptotique au sens de la convergence
en loi) que celles obtenues dans le cas du modèle CIR à temps continu.