0% ont trouvé ce document utile (0 vote)
85 vues50 pages

Stats Proc

Le document présente un cours sur la statistique des processus financiers, incluant des rappels sur le calcul stochastique, les équations différentielles stochastiques, et la méthode du maximum de vraisemblance. Il aborde des concepts clés tels que le mouvement brownien, les martingales, et divers modèles financiers comme Black-Scholes et Vasicek. Ce cours est destiné aux étudiants de 5ème année en spécialité MMS-IF à l'INSA Toulouse pour l'année universitaire 2017-2018.

Transféré par

qpm4777p87
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
85 vues50 pages

Stats Proc

Le document présente un cours sur la statistique des processus financiers, incluant des rappels sur le calcul stochastique, les équations différentielles stochastiques, et la méthode du maximum de vraisemblance. Il aborde des concepts clés tels que le mouvement brownien, les martingales, et divers modèles financiers comme Black-Scholes et Vasicek. Ce cours est destiné aux étudiants de 5ème année en spécialité MMS-IF à l'INSA Toulouse pour l'année universitaire 2017-2018.

Transféré par

qpm4777p87
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Département GMM

5ème année Spécialité MMS-IF

Statistique des processus financiers


Aldéric Joulin

A. Joulin
Bureau 115 - GMM
ajoulin@[Link]

Année universitaire 2017-2018


Table des matières

1 Rappels sur le calcul stochastique 5


1.1 Le mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.3 Intégration stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Formule d’Itô . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.5 Théorème de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

2 Équations différentielles stochastiques 17


2.1 Résultat d’existence et d’unicité de la solution . . . . . . . . . . . . . . . . 17
2.2 Diffusions en finance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2.1 Le mouvement brownien avec dérive . . . . . . . . . . . . . . . . . 19
2.2.2 Le modèle de Black-Scholes . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3 Le processus d’Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . . 20
2.2.4 Le modèle de Vasicek . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.2.5 Le modèle de Cox-Ingersoll-Ross . . . . . . . . . . . . . . . . . . . . 22
2.3 Processus de Markov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

3 Maximum de vraisemblance 27
3.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.1.1 Introduction à la vraisemblance . . . . . . . . . . . . . . . . . . . . 27
3.1.2 Exemples classiques . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3.1.3 Le cas d’une chaı̂ne de Markov . . . . . . . . . . . . . . . . . . . . 31
3.2 Le cas des diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.1 Le cadre général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.2.2 Exemples apparaissant en finance . . . . . . . . . . . . . . . . . . . 35
3.2.3 Test de Neyman-Pearson . . . . . . . . . . . . . . . . . . . . . . . . 41
3.3 Discrétisation des diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.3.1 Diffusions observées à des instants discrets . . . . . . . . . . . . . . 44
3.3.2 Discrétisation par schéma d’Euler . . . . . . . . . . . . . . . . . . . 47

3
4 TABLE DES MATIÈRES
Chapitre 1

Rappels sur le calcul stochastique

1.1 Le mouvement brownien


Dans tout ce cours, on va considérer des variables aléatoires (en abrégé v.a.) et pro-
cessus stochastiques définis sur un espace de probabilité générique (Ω, A, P). Avant de
définir le mouvement brownien, commençons par introduire la notion de vecteurs gaussiens
généralisant les v.a. gaussiennes unidimensionnelles. Si X est un vecteur aléatoire en di-
mension d (i.e. une v.a. à valeurs dans Rd vue comme un vecteur colonne) tel que chacune
de ses coordonnées Xi , i ∈ {1, . . . , d}, soit de carré intégrable, alors on définit dans la
suite son vecteur espérance et sa matrice de covariance par
 
  σ1,1 σ1,2 · · · σ1,d
E[X1 ]  σ2,1 σ2,2 · · · σ2,d 
 ·   
   · · · · · · 
E[X] = m :=  ·  et Var(X) = Γ := 
 ·
,

 · 

 · · · · · 

 · · ··· · 
E[Xd ]
σd,1 σd,2 · · · σd,d

où σi,j désigne la covariance entre les variables Xi et Xj :

σi,j = Cov(Xi , Xj ) := E[(Xi − mi ) (Xj − mj )] = E[Xi Xj ] − mi mj ,

où mi := E[Xi ] pour tout i ∈ {1, . . . , d}. La matrice Γ est symétrique et semi-définie posi-
tive au sens où pour tout x ∈ Rd , on a xT Γx ≥ 0, le symbole T désignant la transposition.

Définition 1.1.1. Soit X un vecteur aléatoire en dimension d et de matrice de covariance


Γ, supposée inversible. Il est dit gaussien si la densité jointe est donnée par
 
1 1 T −1
fX (x) = √ exp − (x − m) Γ (x − m) , x ∈ Rd .
(2π) d/2 det Γ 2

On note alors X ∼ Nd (m, Γ) (et N (m, Γ) si d = 1).

5
6 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE

Ainsi, comme dans le cas unidimensionnel, la donnée du vecteur espérance et de


la matrice de covariance caractérise la loi d’un vecteur gaussien. Rappelons quelques
propriétés importantes des vecteurs gaussiens :
1 - La fonction caractéristique étant vue comme la transformée de Fourier de
la densité, on a la caractérisation suivante de la loi d’un vecteur gaussien (on notera
indifféremment < x, y > ou xT y le produit scalaire entre deux éléments de Rd ) : un vecteur
aléatoire X est gaussien d’espérance m et de matrice de covariance Γ si et seulement si
sa fonction caractéristique est donnée par
 
1 T
φX (θ) := E[ei<θ,X>
] = exp iθ m − θ Γθ , θ ∈ Rd .
T
2

2 - Un vecteur aléatoire X est gaussien si et seulement si θT X est une v.a. gaus-


sienne unidimensionnelle pour tout θ ∈ Rd différent du vecteur nul, i.e. toute combinaison
linéaire non nulle de ses coordonnées est gaussienne (donc chacune des coordonnées d’un
vecteur gaussien suit une loi gaussienne ; en revanche, la réciproque est fausse).
3 - Miracle gaussien : les coordonnées d’un vecteur gaussien X sont indépendantes
si et seulement si sa matrice de covariance est diagonale.
4 - Transformation linéaire : soit X ∼ Nd (m, Γ). Si A est une matrice inversible
d × d et b un vecteur dans Rd , alors le vecteur AX + b est gaussien d’espérance Am + b
et de matrice de covariance AΓAT .
5 - X ∼ Nd (m, Γ) si et seulement si X = AU + m, où U ∼ Nd (0, Id ) et A est une
matrice carrée d × d inversible et vérifiant AAT = Γ.
6 - Théorème Central Limite (TCL) multidimensionnel : soit (Xn )n≥1 une suite
de vecteurs aléatoires i.i.d. à valeurs dans Rd , et dont les coordonnées sont de carré
intégrable. Notons m := E[X1 ] et Γ := Var(X1 ). Alors on a la convergence en loi suivante
n
1 X
√ (Xi − m) −→ Nd (0, Γ).
n i=1 n→+∞

À présent, introduisons la notion de processus gaussien, qui est une généralisation


non-dénombrable des vecteurs gaussiens.

Définition 1.1.2. Un processus (stochastique) est une famille de variables aléatoires


réelles Xt indexées par le temps t ≥ 0 et dont les trajectoires t → Xt sont continues.
Il est dit gaussien si chacun des vecteurs extraits est un vecteur gaussien, i.e. pour tout
d ∈ N∗ et tout d-uplet (t1 , . . . , td ), le vecteur d-dimensionnel (Xt1 , . . . , Xtd ) est gaussien.

Un processus gaussien X = (Xt )t≥0 est donc caractérisé en loi par sa “gaussianité”
ainsi que par ses fonctions espérance et covariance :

t −→ E[Xt ] et (s, t) −→ Cov(Xs , Xt ), s, t ≥ 0.


1.1. LE MOUVEMENT BROWNIEN 7

Nous sommes maintenant en mesure d’introduire le mouvement brownien, qui peut être
construit comme objet limite de marches aléatoires renormalisées (théorème de Donsker)
ou encore par le développement en série à base d’ondelettes de Haar (théorème de Lévy).

Définition 1.1.3. Soit B = (Bt )t≥0 un processus à valeurs dans R. Il est appelé mouve-
ment brownien si c’est un processus gaussien centré et de fonction de covariance donnée
par
K(s, t) = Cov(Bs , Bt ) = min{s, t}, s, t ≥ 0.

Cette dénomination est essentiellement dûe à un botaniste anglais, Robert Brown,


qui le décrit pour la première fois en 1827 en observant des mouvements de particules à
l’intérieur de grains de pollen. Un siècle plus tard, en 1923, l’américain Norbert Wiener le
construit rigoureusement, et c’est pour cela que l’on parle aussi de processus de Wiener.

Proposition 1.1.4. Soit B un mouvement brownien. Alors il vérifie les assertions sui-
vantes :
(i) B0 = 0 p.s.
(ii) pour tous 0 ≤ s ≤ t, la v.a. Bt − Bs a même loi que Bt−s , qui suit la loi
normale centrée N (0, t − s) : on dit que le mouvement brownien est à accroissements
stationnaires.
(iii) pour tous 0 = t0 < t1 < · · · < td , les v.a. Bti − Bti−1 , i ∈ {1, . . . , d}, sont
indépendantes : on dit que le mouvement brownien est à accroissements indépendants.

En tant que processus, le mouvement brownien peut être considéré comme une v.a.
à valeurs dans C , l’espace vectoriel des fonctions continues de [0, +∞[ dans R muni de la
tribu borélienne associée (la topologie sous-jacente est celle de la convergence uniforme
sur tout compact). Notons P la loi de B sur C , c’est-à-dire que l’on a pour tout ensemble
borélien A de C ,
P (A) := P (B ∈ A) .
Cette loi sur l’espace C , appelée mesure de Wiener, est déterminée par les lois fini-
dimensionnelles du mouvement brownien, c’est-à-dire par celles des vecteurs du type
(Bt1 , . . . , Btd ) où d ∈ N∗ et t1 < t2 < · · · < td . Il résulte de la proposition précédente que
si l’on se donne 0 = t0 < t1 < t2 · · · < td , alors la densité jointe du vecteur (Bt1 , . . . , Btd )
est donnée par
d
!
1 X (xk − xk−1 )2
p exp − , x ∈ Rd ,
(2π) d/2 t1 (t2 − t1 ) · · · (td − td−1 ) k=1
2(tk − tk−1 )

où par convention x0 = 0. Ainsi, pour montrer qu’un processus X est un mouvement
brownien, il suffit de montrer que ses lois fini-dimensionnelles coı̈ncident avec celles du
mouvement brownien.
Bien qu’à trajectoires continues, le mouvement brownien est un objet très irrégulier,
ce fait étant illustré par sa représentation graphique tout à fait singulière. En effet, non
seulement les trajectoires du mouvement brownien ne sont pas dérivables, mais de surcroı̂t
8 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE

elles ne sont pas à variation bornée. On rappelle qu’une fonction f : R → R est dite à
variation bornée sur l’intervalle [a, b] si
X
sup |f (ti+1 ) − f (ti )| < +∞,
i

où le supremum est pris sur l’ensemble des subdivisions (ti ) de [a, b]. Notons que la
plupart des fonctions que l’on rencontre en pratique sont à variation bornée (les fonctions
de classe C 1 , les fonction monotones, etc).

1.2 Martingales
Introduisons à présent la notion de martingale.

Définition 1.2.1. Une famille (Ft )t≥0 de sous-tribus de A est une filtration de l’espace
(Ω, A, P) si
Fs ⊂ Ft , 0 ≤ s ≤ t.
L’espace (Ω, A, (Ft )t≥0 , P) est alors appelé un espace de probabilité filtré.
Un processus X est adapté à une filtration (Ft )t≥0 si Xt est Ft -mesurable pour tout t ≥ 0.

Définition 1.2.2. Considérons un processus M adapté à une filtration (Ft )t≥0 , et dont
tous les éléments sont intégrables. On dit que M est une martingale pour (Ft )t≥0 si

E[Mt | Fs ] = Ms , 0 ≤ s ≤ t.

En particulier, une martingale est d’espérance constante. Voici quelques exemples


de martingales, toutes par rapport à la filtration engendrée par le mouvement brownien
B, c’est-à-dire Ft = σ(Bs : s ∈ [0, t]), t ≥ 0 :
◦ le mouvement brownien lui-même ;
◦ le processus (Bt2 − t)t≥0 ;
2
◦ le processus exponentiel (eθBt −θ t/2 )t≥0 , où θ ∈ R.
Dans la suite de ce cours, on suppose l’espace de probabilité (Ω, A, P) filtré par une
filtration générique (Ft )t≥0 . On appelle alors mouvement brownien par rapport à la filtra-
tion (Ft )t≥0 un mouvement brownien B adapté pour cette filtration et à accroissements
indépendants au sens suivant : pour tous 0 ≤ s ≤ t, la v.a. Bt − Bs est indépendante de
Fs (cette définition d’indépendance des accroissements coı̈ncide avec celle de la Proposi-
tion 1.1.4 lorsque la filtration (Ft )t≥0 est celle du mouvement brownien considéré).
Pour les martingales, quitte à remplacer Mt par Mt − M0 , on suppose à présent, et sauf
indication du contraire, qu’elles sont toujours issues de 0. Enfin, pour ne pas s’embêter
avec des notions techniques pas très importantes, nous supposons que tous les processus
considérés ont de bonnes propriétés d’intégrabilité.
Rappelons le théorème principal de convergence en temps long des martingales.
1.2. MARTINGALES 9

Théorème 1.2.3 (Convergence L2 ). Soit M une martingale bornée dans L2 , c’est-à-dire

sup E[Mt2 ] < +∞.


t≥0

Alors Mt converge p.s. et dans L2 lorsque t → +∞ vers une v.a. M∞ .


À présent, définissons la variation quadratique d’une martingale.
Théorème 1.2.4. Soit M une martingale. Alors il existe un unique processus croissant
adapté issu de 0, appelé la variation quadratique de M et noté [M, M ] = ([M, M ]t )t≥0 ,
tel que M 2 − [M, M ] soit une martingale. De plus, on a la convergence en probabilité
suivante :
n
X
[M, M ]t = lim (Mit/n − M(i−1)t/n )2 , t > 0.
n→+∞
i=1

Pour le mouvement brownien, on a la convergence dans L2 (donc en probabilité)


suivante : n
X
[B, B]t = lim (Bit/n − B(i−1)t/n )2 = t, t > 0.
n→+∞
i=1

Notons aussi que M 2 − [M, M ] étant une martingale, elle est d’espérance constante, d’où

E[Mt2 ] = E [[M, M ]t ] , t ≥ 0.

En particulier M est bornée dans L2 si et seulement si [M, M ]∞ := limt→+∞ [M, M ]t existe


comme limite p.s. et est dans L1 , auquel cas

sup E[Mt2 ] = lim E[Mt2 ] = E [[M, M ]∞ ] .


t≥0 t→+∞

Ainsi, pour utiliser le théorème de convergence des martingales, on peut calculer sa


variation quadratique et voir si la v.a. [M, M ]∞ , lorsqu’elle existe, est intégrable. Notons
également que la variation quadratique peut être généralisée à deux martingales M et N :
c’est l’unique processus [M, N ] adapté issu de 0 et à variation bornée tel que M N −[M, N ]
soit une martingale. On a aussi la convergence en probabilité
n
X
[M, N ]t = lim (Mit/n − M(i−1)t/n ) (Nit/n − N(i−1)t/n ).
n→+∞
i=1

En particulier, l’application (M, N ) 7→ [M, N ] est bilinéaire.


Dans ce qui suit, nous allons énoncer deux résultats de convergence des martingales,
la Loi des Grands Nombres (LGN) et le Théorème Central Limite (TCL), dont nous
aurons besoin dans la partie Statistique. Bien que ces résultats soient aussi valables en
temps continu, nous ne nous focaliserons que sur le cas du temps discret, afin de faire
apparaı̂tre la variation quadratique d’une martingale à temps discret, et de faire le lien
10 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE

avec les théorèmes associés aux sommes de variables i.i.d. Si M = (Mn )n∈N désigne une
martingale à temps discret pour une filtration (Fn )n∈N , on définit sa variation quadratique
discrète par
n
X
E (Mk − Mk−1 )2 | Fk−1 ,
 
[M, M ]n := [M, M ]0 := 0.
k=1

Comme dans le cas du temps continu, c’est l’unique processus croissant adapté
(même prévisible, c’est-à-dire que [M, M ]n est Fn−1 -mesurable pour tout n ∈ N∗ ) et issu
de 0 tel que le processus M 2 − [M, M ] soit une martingale.

Théorème 1.2.5 (LGN). Soit M une martingale telle que p.s. [M, M ]∞ = +∞. Alors
on a la convergence p.s. suivante :
Mn
lim = 0.
n→+∞ [M, M ]n

Rappelons que si X = (Xn )n∈N est une suite de variables i.i.d. centrées et de carré
intégrable, alors la suite M donnée par
n
X
Mn = Xi , n ∈ N∗ ,
i=1

est une martingale pour la filtration Fn = σ(Xi : 1 ≤ i ≤ n), n ∈ N∗ . En appliquant le


théorème précédent, on retrouve la LGN classique. Lorsque l’on remplace le temps discret
par le temps continu, on obtient le même résultat et appliqué au mouvement brownien,
il vient
Bt
lim = 0.
t→+∞ t

Pour le TCL, on a plusieurs résultats à notre disposition. Cependant, nous n’allons


énoncer que celui dont on se sert le plus. Bien évidemment, on retrouve le TCL pour les
variables i.i.d. centrées avec le choix de la suite an = n.

Théorème 1.2.6 (TCL). Soit M une martingale et soit (an )n∈N une suite positive tendant
vers l’infini lorsque n tend vers l’infini. On suppose la convergence en probabilité suivante

[M, M ]n
lim = σ 2 > 0.
n→+∞ an
Alors on a les convergences en loi
Mn √ Mn
√ =⇒ N (0, σ 2 ) et an =⇒ N (0, σ −2 ).
an n→+∞ [M, M ]n n→+∞

La première convergence en loi est le TCL proprement dit tandis que la seconde
en est une conséquence grâce au point (iii) du lemme de Slutsky.
1.3. INTÉGRATION STOCHASTIQUE 11

Lemme 1.2.7 (Lemme de Slutsky). Soient (Xn )n∈N ∗ et (Yn )n∈N ∗ deux suites de v.a.
convergeant en loi respectivement vers un nombre c ∈ R et une v.a. Y . Alors
(i) la somme Xn + Yn converge en loi vers c + Y .
(ii) le produit Xn Yn converge en loi vers c Y .
(iii) le ratio Yn /Xn converge en loi vers Y /c dès que c 6= 0.
Dans l’énoncé, l’hypothèse selon laquelle Xn converge vers une constante est cru-
ciale. En effet, si la limite était une v.a., le résultat ne serait plus valide et il faudrait une
hypothèse plus forte comme la convergence en loi du couple (Xn , Yn ) pour que le résultat
reste vrai. Par ailleurs, le lemme reste valide lorsque l’on remplace toutes les convergences
en loi par des convergences en probabilité.

1.3 Intégration stochastique


Ce paragraphe constitue l’objet central d’un cours de calcul stochastique, le calcul d’Itô
étant considéré comme l’un des thèmes les R tplus importants de la théorie des probabilités.
Il s’agit de donner un sens à l’intégrale 0 Hs dXs en tant que processus, où X est une
martingale et H un processus adapté suffisamment intégrable. Si X est un processus à
variation bornée, la théorie classique de l’intégration pour les fonctions à variation bornée
nous permet de donner un sens à cette intégrale, c’est-à-dire qu’elle peut être construite
comme une limite p.s. Étant donné que la seule martingale à variation bornée est la
martingalle nulle, cette intégrale ne peut être définie comme ceci. Pour contourner cette
difficulté, l’idée est de la définir sur une classe de processus simples et de l’étendre à une
classe plus générale par un argument de densité-continuité dans L2 .
Définition 1.3.1. Soit M une martingale et soit H02 (M ) l’espace formé des processus
simples de la forme X
Ht = ak 1(tk ,tk+1 ] (t), t ≥ 0,
k≥0

où la v.a. ak est bornée et Ftk -mesurable, et 0 = t0 < t1 < · · · < tn < · · · est une suite
croissant vers l’infini. On définit l’intégrale stochastique de H par rapport à M de la
manière suivante : Z +∞ X
Ht dMt := ak (Mtk+1 − Mtk ).
0 k≥0

On peut ensuite démontrer que H02 (M ) est dense dans l’espace H2 (M ) constitué
des processus adaptés H tels que
Z +∞ 
2 2
kHkH2 (M ) := E Ht d[M, M ]t < +∞.
0

On rappelle que [M, M ] étant à variation bornée (car croissante), cette intégrale est cons-
truite au sens classique. Ainsi, en définissant l’intégrale stochastique sur l’espace des pro-
cessus simples H02 (M ), on peut espérer l’étendre par densité aux processus dans H2 (M ).
12 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE

C’est l’objet du résultat suivant, qui justifie le mot “stochastique ” dans l’expression
“intégrale stochastique” : la limite est construite dans l’espace L2 et non au sens de la
convergence p.s.
R +∞
Théorème 1.3.2. Soit H ∈ H2 (M ). Alors l’intégrale stochastique 0 Ht dMt déterminée
R +∞
par la limite dans L2 d’intégrales du type 0 Htn dMt , où (H n )n∈N ⊂ H02 (M ) est une
suite de processus simples convergeant vers H pour la norme de H2 (M ), est bien définie.
De plus, on a l’isométrie dite d’Itô :
"Z 2 #
+∞ Z +∞
E Ht dMt =E Ht2 d[M, M ]t .
0 0

R +∞
Enfin, si Xt désigne la v.a. définie par Xt = 0 Hs 1[0,t] (s) dMs , où le processus H ∈
2
H
R t (M ), alors la famille (Xt )t≥0 est une martingale de carré intégrable. On note alors
0
Hs dMs la v.a. Xt .

Dans la suite, on ne précisera plus l’intégrabilité de HR afin de simplifier les énoncés.


t
Une martingale étant d’espérance constante et la valeur de 0 Hs dMs en 0 étant nulle par
construction, on a Z t 
E Hs dMs = 0, t ≥ 0.
0

Dans le cas brownien, l’isométrie d’Itô nous donne


"Z 2 #
t Z t 
2
E Hs dBs =E Hs ds , t ≥ 0.
0 0

Regardons à présent comment se comporte l’intégrale stochastique par rapport à la va-


riation quadratique.

Proposition 1.3.3. Soient M, M̃ deux martingales. Alors on a l’identité suivante :


Z · Z ·  Z t
Hs dMs , Ks dM̃s = Hs Ks d[M, M̃ ]s , t ≥ 0.
0 0 t 0

À présent, introduisons les semimartingales, qui généralisent la notion de martin-


gale vue précédemment. Il s’agit de la classe de processus la plus générale pour laquelle
nous allons donner un sens à l’intégrale stochastique.

Définition 1.3.4. Un processus X est une semimartingale s’il s’écrit sous la forme

Xt = Mt + At , t ≥ 0,

où M est une martingale et A un processus adapté et à variation bornée.


1.4. FORMULE D’ITÔ 13

On peut montrer que cette décomposition est unique. Si Y est une autre semi-
martingale de décomposition Yt = M̃t + Ãt , on définit la variation quadratique des semi-
martingales X et Y par celle de leur partie martingale,
[X, Y ] := [M, M̃ ].
En particulier, si A et à sont deux processus à variation bornée et si M est une martingale,
alors on a
[M, Ã] = [A, Ã] = 0.
Enfin, l’intégrale stochastique par rapport à une semimartingale est définie de la manière
suivante.
Définition 1.3.5. Soit RX = M + A une semimartingale et H un processus adapté.
·
L’intégrale stochastique 0 Hs dXs est alors définie comme la semimartingale
Z t Z t Z t
Hs dXs := Hs dMs + Hs dAs , t ≥ 0.
0 0 0

Pour conclure que X est une semimartingale, on utilise implicitement le fait que
l’intégrale par rapport à un processus à variation bornée est elle-même un processus à
variation bornée.

1.4 Formule d’Itô


À présent, nous allons énoncer l’un des résultats les plus importants de la théorie du
calcul stochastique, la formule d’Itô. Ces travaux ont été publiés entre 1942 et 1950 par le
mathématicien japonais Kiyoshi Itô. Elle montre qu’une fonction de classe C 2 de d semi-
martingales est encore une semimartingale, et exprime explicitement sa décomposition.
Rappelons que dans le cadre classique de l’intégration (appliqué aux processus), un des
théorèmes fondamentaux de cette théorie est le suivant : étant donné A un processus à
variation bornée et une fonction f : R → R de classe C 1 , on a
Z t
f (At ) − f (A0 ) = f 0 (As ) dAs , t ≥ 0.
0

De même, si à est un autre processus à variation bornée, la formule d’intégration par


parties est vérifiée :
Z t Z t
At Ãt − A0 Ã0 = As dÃs + Ãs dAs , t ≥ 0.
0 0

On va voir que ces formules ne sont plus valables dès que l’on sort du cadre des processus à
variation bornée. Cependant, en reprenant le même type de démonstration via la formule
de Taylor et en contrôlant de manière adéquate le reste quadratique (qui est négligeable
dans le cas précédent), on est en mesure d’obtenir la fameuse formule d’Itô, faisant donc
apparaı̂tre un terme supplémentaire : la variation quadratique.
14 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE

Théorème 1.4.1 (Formule d’Itô). Soit X 1 , . . . , X d des semimartingales et soit f : Rd →


R une fonction de classe C 2 . Alors pour tout t ≥ 0,
d Z t
X ∂f
f (Xt1 , . . . , Xtd ) = f (X01 , . . . , X0d ) + (Xs1 , . . . , Xsd ) dXsi
i=1 0 ∂xi
d Z t
1 X ∂ 2f
+ (Xs1 , . . . , Xsd ) d[X i , X j ]s . (1.4.1)
2 i,j=1 0 ∂xi ∂xj

Dans le cas unidimensionnel, si M est une martingale, alors pour toute fonction
f : R → R de classe C 2 ,
Z t
1 t 00
Z
0
f (Mt ) = f (M0 ) + f (Ms ) dMs + f (Ms ) d[M, M ]s , t ≥ 0.
0 2 0

Par exemple, la formule d’Itô appliquée à la fonction f (x) = x2 entraı̂ne que


Z t
2 2
Mt − [M, M ]t = M0 + 2 Ms dMs , t ≥ 0.
0

Ainsi, non seulement on retrouve le fait que le processus M 2 − [M, M ] est une martingale,
mais de plus on donne sa valeur sous forme d’intégrale sochastique. Une autre application
intéressante de la formule d’Itô est la formule d’intégration par parties, généralisant celle
vue ci-dessus dans le cadre des processus à variation bornée.

Corollaire 1.4.2. Si X et Y sont deux semimartingales, alors


Z t Z t
Xt Yt = X0 Y0 + Ys dXs + Xs dYs + [X, Y ]t , t ≥ 0.
0 0

En appliquant la formule d’Itô bidimensionnelle au mouvement brownien B ainsi


qu’à la semimartingale déterministe Xt := t, on obtient pour toute fonction f : (x, t) ∈
R × R+ 7→ f (x, t) ∈ R de classe C 2 en x et C 1 en t,
Z t Z t
1 ∂ 2f

∂f ∂f
f (Bt , t) = f (0, 0) + (Bs , s) dBs + + (Bs , s) ds, t ≥ 0.
0 ∂x 0 ∂t 2 ∂x2

En effet, vu que X est à variation bornée, on a [B, X] = 0.


À présent, énonçons les versions des LGN et TCL pour les intégrales browniennes.

Corollaire
R +∞1.4.3 (LGN pour les intégrales browniennes). Soit H un processus adapté tel
2
que p.s. 0 Ht dt = +∞. Alors on a le résultat de convergence p.s. suivant :
Rt
Hs dBs
lim R0 t = 0.
t→+∞
0
Hs2 ds
1.5. THÉORÈME DE GIRSANOV 15

Ci-dessous, le TCL pour les intégrales stochastiques browniennes est donné en


toute généralité (i.e avec une fonction f générale), bien qu’en pratique la fonction identité
convienne la plupart du temps.
Corollaire 1.4.4 (TCL pour les intégrales browniennes). Soit H un processus adapté et
f :]0, +∞[→]0, +∞[ une fonction tendant vers l’infini à l’infini. On suppose la conver-
gence en probabilité suivante
Z t
1
lim Hs2 ds = σ 2 > 0.
t→+∞ f (t) 0

Alors on a les convergences en loi


Z t Rt
1 p Hs dBs
p Hs dBs =⇒ N (0, σ 2 ) et f (t) R0 t =⇒ N (0, σ −2 ).
f (t) 0 t→+∞ 2
Hs ds t→+∞
0

1.5 Théorème de Girsanov


Terminons ce chapitre par le théorème de Girsanov, outil très utilisé en finance lorsqu’il
s’agit de changer de probabilité pour faire apparaı̂tre de nouvelles martingales.
On rappelle qu’une probabilité Q est dite absolument continue sur l’espace (Ω, A) (ou sur
A par abus de langage) par rapport à la probabilité P si pour tout A ∈ A,

P(A) = 0 =⇒ Q(A) = 0.

Ceci équivaut à la propriété suivante : il existe une unique v.a. (à égalité P-p.s.) P-
intégrable et positive ou nulle, dite dérivée de Radon-Nykodym de Q par rapport à P et
notée dQ/dP, telle que pour tout A ∈ A,
 
dQ
Q(A) = EP 1A .
dP
On note dans la suite F∞ := σ(Ft : t ≥ 0).
Théorème 1.5.1 (Girsanov). Soit H un processus adapté. Alors le processus donné par
Z t
1 t 2
Z 
Lt := exp Hs dBs − H ds , t ≥ 0,
0 2 0 s
est une P-martingale qui converge p.s. lorsque t → +∞. Soit Q la probabilité équivalente
à P sur la tribu F∞ , dont la densité est donnée par la v.a. limite L∞ . Alors le processus
Z t
Bt := Bt −
f Hs ds, t ≥ 0,
0

est une martingale par rapport à Q, et même un Q-mouvement brownien.


16 CHAPITRE 1. RAPPELS SUR LE CALCUL STOCHASTIQUE
Chapitre 2

Équations différentielles
stochastiques en finance

2.1 Résultat d’existence et d’unicité de la solution


La plupart des processus intervenant en finance satisfont une équation de la forme
Z t Z t
X t = x0 + b(s, Xs ) ds + σ(s, Xs ) dBs ,
0 0

ou sous une forme différentielle,



dXt = b(t, Xt ) dt + σ(t, Xt ) dBt ;
X 0 = x0 .

Ces équations, appelées Équations Différentielles Stochastiques (EDS), sont des équations
différentielles perturbées par un bruit aléatoire, lequel est représenté par une partie brow-
nienne. Remarquons que le sens donné à cette équation dépend de la théorie de l’intégrale
stochastique introduite dans le chapitre précédent. La solution X de cette EDS est appelée
processus de diffusion (ou seulement une diffusion), terme rappelant le lien étroit entre le
mouvement brownien et l’EDP de la chaleur. La fonction b s’appelle la dérive (ou drift en
anglais) car elle indique la tendance de la diffusion (lorsqu’on prend l’espérance, l’intégrale
stochastique disparaı̂t). A contrario, la fonction σ devant le mouvement brownien reflète
l’intensité ou variabilité du bruit : on parle de volatilité (stochastique) en finance.
Depuis quelques années, on a incorporé à la modélisation des marchés financiers des
processus qui ne sont pas des diffusions comme par exemple les solutions d’EDS dirigées
par un processus de Poisson ou plus généralement par un processus de Lévy (à la place
du mouvement brownien). Néanmoins, l’étude statistique de ce type de modèle est bien
plus difficile, la différence principale résidant dans la présence des sauts : ces processus
ne sont pas à trajectoires continues. En particulier, la théorie du calcul stochastique sur
laquelle repose l’estimation statistique est différente pour ces processus. C’est pourquoi
nous n’allons considérer dans la suite de ce cours que des processus de diffusion. Par

17
18 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES

ailleurs, nous n’étudierons essentiellement que des modèles dits paramétriques, c’est-à-dire
que l’on estimera statistiquement un (ou plusieurs) paramètre(s) inconnu(s) apparaissant
dans ces EDS à travers les fonctions b et σ, plutôt qu’estimer les fonctions elles-mêmes
si elles devaient nous être inconnues. Ce dernier cadre est celui de l’estimation dite
non-paramétrique, théorie en progrès mais moins développée à ce jour que l’estimation
paramétrique.
Tout d’abord, établissons un théorème général à propos de l’existence et de l’unicité
de la solution d’une EDS. Il s’avère qu’il existe plusieurs notions d’existence et d’unicité.
Cependant, nous avons pris le parti de passer sous silence ces différentes notions pour
n’en retenir qu’une seule.

Théorème 2.1.1. Étant donné un horizon fini fixé T > 0, considérons l’EDS suivante
sur [0, T ]:
dXt = b(t, Xt ) dt + σ(t, Xt ) dBt ,
où X0 est une v.a. F0 -mesurable, de carré intégrable et indépendante du mouvement
brownien B. Supposons les coefficients b et σ continus en temps et lipschitziens en espace,
i.e. pour tout t ∈ [0, T ],

|b(t, x) − b(t, y)|2 + |σ(t, x) − σ(t, y)|2 ≤ KT |x − y|2 , x, y ∈ R. (2.1.1)

Alors:
(i) existence : il existe une solution X sur [0, T ] continue et adaptée, qui de plus
est de carré intégrable.
(ii) unicité : si X et Y sont deux telles solutions de cette EDS (avec le même
mouvement brownien et la même valeur initiale), alors elles sont égales p.s., i.e.

P (Xt = Yt ∀ t ∈ [0, T ]) = 1.

La généralisation de ce résultat à la dimension supérieure est immédiate (le mou-


vement brownien multidimensionnel étant construit comme un vecteur de mouvements
browniens indépendants). Par ailleurs, la conclusion de ce théorème reste valable dans le
cadre d’hypothèses affaiblies que l’on rencontre souvent en pratique. Par exemple b et σ
peuvent être supposées localement lipschitziennes en espace et satisfaisant une condition
de croissance linéaire convenable pour éviter une explosion en temps fini.

2.2 Exemples classiques de diffusions en finance


À présent, introduisons quelques exemples de diffusions apparaissant très fréquemment
en finance. Pour certaines, il existe une représentation explicite de la solution sous forme
d’une fonction du mouvement brownien B (ou de sa trajectoire), ce qui va nous permettre
de faire une étude statistique approfondie des paramètres associés aux coefficients b et σ.
2.2. DIFFUSIONS EN FINANCE 19

2.2.1 Le mouvement brownien avec dérive


Il s’agit bien évidemment de la diffusion la plus simple que nous allons considérer. Les
fonctions b et σ sont supposées constantes, à savoir b(x) = µ ∈ R et σ(x) = σ > 0. Le
processus est donc le suivant :

Xt = X0 + µt + σBt , t ≥ 0.

Cette diffusion a été étudiée par Bachelier dans sa thèse (soutenue en 1900), consti-
tuant ainsi les fondations des mathématiques financières modernes. Le processus X est
évidemment gaussien, d’espérance E[Xt ] = E[X0 ] + µt et de covariance

Cov(Xs , Xt ) = Var(X0 ) + σ 2 min{s, t}.

2.2.2 Le modèle de Black-Scholes


Considérons l’EDS linéaire très simple :

dXt = µ Xt dt + σXt dBt ,

où les constantes µ et σ sont dans R et ]0, +∞[, respectivement. On suppose aussi que
p.s. X0 > 0. On remarque que si Xt est différent de 0, l’EDS se réécrit
dXt
= µ dt + σ dBt ,
Xt
c’est-à-dire que le terme de gauche, qui est l’intégrale stochastique par rapport à X de la
dérivée du logarithme népérien, est simplement un mouvement brownien avec dérive. La
formule d’Itô appliquée au logarithme népérien nous donne
σ2
 
d log(Xt ) = µ − dt + σ dBt ,
2
et il en résulte alors que l’unique solution de l’EDS est
σ2
   
Xt = X0 exp σ Bt + µ − t .
2
Ce processus, appelé mouvement brownien géométrique par les probabilistes, est le fameux
modèle de Black-Scholes (1973), dans lequel l’évolution du prix d’une action donnée est
régie par un processus stochastique. Plus précisément, la célèbre formule de Black-Scholes
permet de calculer la valeur théorique d’une option européenne à partir des données
suivantes :
- Xt (resp. x0 ) est la valeur au temps t (resp. valeur initiale, supposée déterministe)
de l’action sous-jacente ;
- T est l’échéance, ou maturité de l’option ;
- K est le prix d’exercice fixé par l’option (strike) ;
20 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES

- µ = r est le taux d’intérêt sans risque (sous la probabilité risque-neutre) ;


- σ est la volatilité du prix de l’action.
Le prix théorique d’une option d’achat européenne (on parle alors de call ), qui donne le
droit mais pas l’obligation d’acheter l’actif X à la valeur K à la date T , est l’espérance
du payoff (XT − K)+ = max{XT − K, 0} actualisé. La loi de l’actif sous-jacent étant
log-normale (i.e. son logarithme suit une loi normale), le prix théorique peut être calculé
explicitement :

C(x0 , K, r, σ, T ) := e−rT E (XT − K)+ = x0 ϕ(d) − K e−rT ϕ(d − σ T ),
 

où ϕ est la fonction de répartition de la loi gaussienne centrée et réduite et

ln(x0 /K) + (r + σ 2 /2)T


d := √ .
σ T
De même, le prix théorique d’une option de vente européenne (on parle alors de put), qui
donne le droit mais pas l’obligation de vendre l’actif X à la valeur K à la date T , est
l’espérance du payoff (K − XT )+ actualisé, et est donné par la formule

P (x0 , K, r, σ, T ) := e−rT E (K − XT )+ = −x0 ϕ(−d) + K e−rT ϕ(σ T − d),
 

L’intérêt de modéliser les marchés financiers par la diffusion de Black et Scholes est que les
calculs peuvent être faits de manière explicite, la v.a. Xt s’exprimant comme une fonction
très simple de Bt . En revanche, ce modèle est limité au sens où il ne colle pas réellement
à la réalité des marchés financiers. Par exemple, la formule de Black et Scholes n’est plus
valable dès que le taux d’intérêt et la volatilité ne sont plus constants ou encore pour la
prise en compte d’éventuels krachs boursiers (modélisés dans ce cas par des processus à
sauts).

2.2.3 Le processus d’Ornstein-Uhlenbeck


La méthode par changement de variable que l’on vient de proposer dans le cas du modèle
de Black-Scholes peut très bien se révéler inutile pour des cas très simples, comme celui
que nous allons regarder maintenant. L’EDS que l’on va considérer est la suivante :

dXt = −µ Xt dt + σ dBt ,

où µ ∈ R∗ et σ > 0. Ce modèle a été introduit au début des années 30 par les physiciens
Ornstein et Uhlenbeck lorsqu’ils ont étudié la théorie cinétique des gaz, et plus précisément
le comportement en vitesse de ces molécules. Notons tout de même que cette équation
était écrite légèrement différemment, “à la physicienne”, car le calcul stochastique intro-
duit par Itô n’est né que 10 ans après. Concernant la modélisation financière, il s’agit
d’un modèle décrivant l’évolution de taux d’intérêt.
2.2. DIFFUSIONS EN FINANCE 21

Cette EDS peut être interprétée comme une perturbation aléatoire brownienne
de l’équation différentielle ordinaire dxt = −µxt dt dont la solution est xt = x0 e−µt . On
s’attend donc à ce que ce terme exponentiel joue un rôle dans la résolution de l’EDS.
Appliquons la formule d’Itô au processus (eµt Xt )t≥0 :

d(eµt Xt ) = µ eµt Xt dt + eµt dXt


= µ eµt Xt dt − µ eµt Xt dt + σ eµt dBt
= σ eµt dBt ,

d’où la solution de l’EDS,


Z t
−µt
Xt = X0 e +σ e−µ(t−s) dBs , t ≥ 0.
0

L’espérance est E[Xt ] = E[X0 ] e−µt et en utilisant l’indépendance de X0 et du mouvement


brownien B, ainsi que l’isométrie d’Itô, on obtient la covariance suivante : si 0 ≤ s ≤ t,
2µs
 
−µ(s+t) 2 e −1
Cov(Xs , Xt ) = e Var(X0 ) + σ .

Par exemple dans le cas où X0 = 0 p.s., le processus est centré et a pour variance
Var(Xt ) = σ 2 (1 − e−2µt )/2µ. Enfin, si l’on suppose X0 gaussienne, la présence d’une
intégrale stochastique d’une fonction déterministe nous assure du caractère gaussien de
ce processus. En effet, on peut R démontrer que si f est une fonction continue alors la
t
martingale de carré intégrable 0 f (s) dBs est un processus gaussien. En particulier
t≥0
on a pour tout t > 0 :  Z t 
2
Mt ∼ N 0, f (s) ds .
0

2.2.4 Le modèle de Vasicek


Ce modèle est une généralisation du modèle de Black-Scholes, auquel on a ajouté une
dérive. Le processus X est solution de l’EDS

dXt = − (µ Xt − ν) dt + σ dBt ,

où µ, ν ∈ R∗ et σ > 0. En notant X̃ le processus X̃t = Xt − ν/µ qui est un processus


d’Ornstein-Uhlenbeck, on trouve facilement la représentation explicite de X :
Z t
−µt ν
e−µ(t−s) dBs + 1 − e−µt .

Xt = X0 e + σ
0 µ
Tout comme le processus d’Ornstein-Uhlenbeck, l’inconvénient principal lorsque l’on utilise
ce processus dans la modélisation financière est qu’il peut prendre des valeurs négatives.
C’est pourquoi le prochain exemple est plus approprié, bien que plus délicat à étudier.
22 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES

2.2.5 Le modèle de Cox-Ingersoll-Ross


Considérons l’EDS suivante :
p
dXt = µ(ν − Xt ) dt + σ Xt dBt ,

où p.s. X0 > 0 et µ, ν ∈ R et σ > 0. Cette équation admet une unique solution dès lors
que le processus ne touche jamais 0 : une condition nécessaire et suffisante pour cela est
que
µ > 0 et 2 µ ν > σ 2 ,
ce que l’on supposera dans la suite. Au contraire des processus précédents, la représentation
de X n’est pas explicite, ce qui rend son étude plus délicate. En revanche, on peut don-
ner sa loi pour certaines valeurs des paramètres µ, ν et σ. Supposons que la quantité
d := 4µν/σ 2 soit un nombre entier strictement supérieur à 2 et considérons un processus
d’Ornstein-Uhlenbeck d-dimensionnel X̃ solution de l’EDS
µ σ p
dX̃t = − X̃t dt + dB̃t , X̃0 = (0, 0, . . . , 0, X0 )T ,
2 2
où B̃ est un mouvement brownien dans Rd supposé indépendant de X0 , la condition
initiale du modèle CIR. En appliquant la formule d’Itô multidimensionnelle au processus
X̃ et à la fonction f de classe C 2 sur Rd définie par f (x) = kxk2 , où k · k désigne la norme
euclidienne, on a
Z t Z t 2 
σ σ µ
f (X̃t ) − f (X̃0 ) = < ∇f (X̃s ), dB̃s > + ∆f (X̃s ) − < X̃s , ∇f (X̃s ) > ds,
0 2 0 8 2

c’est-à-dire
Z t Z t  
2 2
kX̃t k − kX̃0 k = σ < X̃s , dB̃s > + µ ν − kX̃s k2 ds.
0 0

Par ailleurs on peut démontrer


Rt que l’intégrale stochastique ci-dessus a même loi que
l’intégrale stochastique 0 σkX̃s k dBs où B est un mouvement brownien unidimension-
nel indépendant de X0 . Ainsi, le processus kX̃k2 est solution de l’EDS unidimension-
nelle du modèle CIR et par unicité de la solution, les processus X et kX̃k2 coı̈ncident.
Comme le mouvement brownien multidimensionnel B̃ a ses coordonnées indépendantes
par définition, le processus X̃ a lui aussi ses d coordonnées indépendantes : la v.a. Xt
suit donc la loi d’une somme de carrés de gaussiennes indépendantes, toutes centrées et
de même variance (sauf la dernière), c’est-à-dire une loi dite du χ2 non centrée à d degrés
de liberté. Son espérance peut alors être calculée et l’on trouve

E[Xt ] = E[X0 ] e−µt + ν 1 − e−µt ,




résultat auquel nous nous attendions. En effet, il suffit de prendre l’espérance directement
dans l’EDS (l’intégrale brownienne disparaı̂t).
2.3. PROCESSUS DE MARKOV 23

2.3 Processus de Markov


Dans cette partie, nous faisons un bref résumé de la théorie des processus de Markov,
dont nous aurons besoin dans la partie Statistique pour établir la normalité asymptotique
de l’estimateur de maximum de vraisemblance.
Définition 2.3.1. Soit X un processus adapté à une filtration (Ft )t≥0 . On dit que c’est
un processus de Markov s’il vérifie la propriété suivante, dite propriété de Markov : pour
toute fonction borélienne positive ou bornée f et tous 0 ≤ s ≤ t, on a l’égalité p.s.

E [f (Xt ) | Fs ] = E [f (Xt ) | Xs ] .

Autrement dit, le futur est indépendant du passé conditionnellement au présent.


Si l’espérance conditionnelle, qui est une fonction borélienne de Xs , ne dépend que de
t − s, l’écart entre t et s, alors le processus de Markov est dit homogène. On supposera
cette propriété d’homogénéité vérifiée dans la suite pour simplifier la présentation.
À présent, introduisons les notions d’irréductibilité, de récurrence et de récurrence
positive des processus de Markov comme on le fait dans le cas discret des chaı̂nes de
Markov à espace d’état dénombrable. On considère dans la suite
Z +∞
TA := inf{t ≥ 0 : Xt ∈ A}, et VA := 1A (Xt ) dt,
0

où A désigne un ensemble borélien de mesure de Lebesgue strictement positive (on parle
de borélien positif). Ces quantités sont respectivement le temps d’entrée dans A et le
temps passé dans A par le processus.
(i) irréductibilité : partant de n’importe quel point x ∈ R, le processus peut
atteindre en temps fini n’importe quel borélien positif A. Ceci s’écrit Px (TA < +∞) > 0
ou encore de manière équivalente, Ex [VA ] > 0.
(ii) récurrence : non seulement le processus est irréductible, mais aussi partant
de n’importe quel point x ∈ R, le processus atteint en temps fini n’importe quel borélien
positif A. Ceci s’écrit Px (TA < +∞) = 1. On peut montrer que ceci est équivalent à
la propriété apparemment plus forte : partant de n’importe quel point x ∈ R, la durée
passée dans n’importe quel borélien positif A est infinie, c’est-à-dire Px (VA = +∞) = 1.
Enfin ceci équivaut à la propriété apparemment plus faible : Ex [VA ] = +∞.
(iii) transience : le processus est dit transitoire s’il est irréductible et non récurrent,
c’est-à-dire que pour tout x ∈ R et tout borélien positif A, on a Px (TA < +∞) < 1 ou
encore que Px (VA = +∞) = 0 ou encore que Ex [VA ] < +∞. C’est le cas des processus qui
tendent p.s. vers l’infini ou vers une constante déterministe lorsque t tend vers l’infini.
(iv) récurrence positive, ou ergodicité : le processus est récurrent et partant de
n’importe quel point x ∈ R, le temps d’entrée dans n’importe quel borélien positif A est
fini en moyenne. En d’autres termes, on a Ex [TA ] < +∞.
(v) récurrence nulle : le processus est récurrent et pour tout x ∈ R et tout borélien
positif A, on a Ex [TA ] = +∞.
24 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES

Dans le cas ergodique, et seulement dans ce cas, il existe une unique probabilité
invariante π pour le processus, c’est-à-dire que si X0 suit la loi π alors pour tout t > 0,
la variable Xt la suit aussi. Lorsque X0 suit la loi invariante, le processus X est dit
stationnaire. L’ergodicité est associée à une propriété de convergence en temps long,
apparaissant aussi dans le cas des chaı̂nes de Markov, et connu sous le nom de théorème
ergodique (ou loi des grands nombres markovienne). Ce résultat est à la base de ce que
nous allons faire dans la partie Statistique.
Théorème 2.3.2 (Théorème ergodique, ou LGN markovienne). Supposons que le pro-
cessus X soit ergodique. Alors pour toute fonction f ∈ L1 (π), on a la convergence p.s.
suivante :
1 t
Z
lim f (Xs ) ds = π(f ),
t→+∞ t 0
R
où π(f ) désigne l’intégrale de f sous π, i.e. π(f ) := R f dπ.
Maintenant, posons-nous la question suivante, en lien avec les EDS : les solutions
d’EDS sont-elles des processus de Markov, et si oui, existe-il des critères sur les fonctions
b et σ assurant les propriétés ci-dessus ? Le résultat suivant répond à ces questions.
Théorème 2.3.3. La solution X d’une EDS est un processus de Markov, qui est homogène
si les fonctions b et σ ne dépendent pas du temps. Supposons de plus que σ ne s’annule
pas sur R et notons U , V et Z les fonctions et quantité suivantes : pour tout x ∈ R,
Z x Z x
eU (y)
Z
b(u) −U (y)
U (x) = 2 2
du, V (x) = e dy et Z = 2
dy.
0 σ(u) 0 R σ(y)

Alors le processus X est :


◦ récurrent si et seulement si limx→±∞ V (x) = ±∞.
◦ récurrent nul si et seulement s’il est récurrent et Z = +∞.
◦ récurrent positif (ergodique) si et seulement s’il est récurrent et Z < +∞.
Dans ce dernier cas uniquement, la probabilité invariante existe et a pour densité par
rapport à la mesure de Lebesgue
1 eU (y)
fπ (y) = y ∈ R.
Z σ(y)2
Les critères précédents sont des conditions nécessaires et suffisantes pour obtenir
la propriété désirée. Cependant elles peuvent ne pas être très explicites, en particulier
lorsqu’il s’agit d’évaluer des intégrales. Dans ce qui suit, nous donnons une condition
suffisante très simple assurant l’ergodicité. Notons P l’ensemble des fonctions régulières
à croissance au plus polynomiale en l’infini.
Proposition 2.3.4. Supposons que la fonction 1/σ ∈ P et que
b(x)
lim sign(x) < 0.
|x|→+∞ σ(x)2
2.3. PROCESSUS DE MARKOV 25

Alors le processus est ergodique et la probabilité invariante π admet des moments de tout
ordre, c’est-à-dire que pour tout p > 0,
Z
|x|p fπ (x) dx < +∞.
R

Ce jeu d’hypothèses sera appelé dans la suite l’hypothèse (H).


Tous les processus que l’on a vus précédemment sont des processus de Markov
homogènes. On peut montrer qu’ils sont tous irréductibles sur R, sauf les modèles de
Black-Scholes et CIR qui le sont sur ]0, +∞[ (qui est l’ensemble des valeurs possibles
prises par ces deux processus). Plus précisément, nous avons pour :
◦ le mouvement brownien avec dérive : il est transitoire dans le cas µ 6= 0 car
p.s. limt→+∞ Xt = ±∞ (selon le signe de µ) et récurrent nul sinon (il s’agit alors du
mouvement brownien).
◦ le modèle de Black-Scholes : il est transitoire sur ]0, +∞[ dans le cas µ 6= σ 2 /2
car il tend p.s. vers 0 ou +∞ selon que µ < σ 2 /2 ou µ > σ 2 /2. Si µ = σ 2 /2 alors il est
récurrent nul, comme fonction croissante du mouvement brownien.
◦ le processus d’Ornstein-Uhlenbeck : il est ergodique dans le cas µ > 0 car il
satisfait l’hypothèse (H) et l’unique probabilité invariante est la loi normale centrée et de
variance σ 2 /2µ. Si µ < 0 alors il est transitoire et Xt eµt converge p.s. et dans L2 vers la
v.a. gaussienne Z +∞
X0 + σ eµr dBr .
0
◦ le modèle de Vasicek : on a les mêmes conclusions que pour le processus
d’Ornstein-Uhlenbeck (seule l’espérance pour la loi limite est modifiée).
◦ le modèle CIR : il est ergodique sur ]0, +∞[ car il satisfait l’hypothèse (H) sur
]0, +∞[ et l’unique probabilité invariante π est la loi Gamma de paramètres α = d/2 et
β = σ 2 /2µ, i.e. de densité sur R+ donnée par
1
fπ (x) = xα−1 e−x/β .
Γ(α)β α
Pour terminer avec les processus de Markov, regardons ce que donne la combinaison
du théorème ergodique (la convergence p.s. entraı̂nant la convergence en probabilité) avec
le TCL pour les intégrales browniennes, lorsque le processus H est de la forme f (X), où
X est la solution d’une EDS.
Théorème 2.3.5 (TCL markovien). Suppposons que les fonctions b et σ satisfassent
l’hypothèse (H). Alors pour toute fonction h ∈ P, on a les convergences en loi
Rt
1
Z t √ h(Xs ) dBs
h(Xs ) dBs =⇒ N 0, π(h2 ) t R0t =⇒ N 0, π(h2 )−1 .
 
√ et
t 0 t→+∞
0
h(Xs )2 ds t→+∞
Ainsi, le TCL markovien pourra s’appliquer aux processus d’Ornstein-Uhlenbeck,
de Vasicek et au modèle CIR, comme nous allons le voir lors de l’estimation statistique
par maximum de vraisemblance.
26 CHAPITRE 2. ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES
Chapitre 3

Estimation par maximum de


vraisemblance

3.1 Rappels sur l’estimation par maximum de vraisem-


blance
Nous allons nous intéresser à la statistique paramétrique, où la loi d’une v.a. X peut être
caractérisée par un paramètre θ ∈ Θ qui est un nombre ou un vecteur inconnu que l’on
souhaite estimer. L’ensemble Θ, quant à lui, est un sous-ensemble de R ou de Rd supposé
implicitement compact ou borné (pour assurer des résultats de régularité sur lesquels nous
n’insisterons pas). La méthode que l’on va étudier repose sur la notion de vraisemblance et
est très souvent utilisée en pratique (nous n’aborderons pas d’autres types de procédures
d’estimation comme les méthodes des moments, bayésienne ou de la distance minimale).

3.1.1 Introduction à la vraisemblance


On se donne un n-échantillon (X1 , . . . , Xn ) d’observations issues d’une v.a. X dépendant
d’un paramètre inconnu θ ∈ Θ, c’est-à-dire une suite de variables i.i.d. de même loi
que X, notée Pθ . Rappelons que P est une probabilité sur (Ω, A) tandis que Pθ est une
probabilité sur l’ensemble des valeurs prises par X muni de sa tribu naturelle (la tribu
borélienne dans le cas d’un espace continu et l’ensemble des parties dans le cas discret
d’un ensemble fini ou dénombrable). On suppose aussi que la famille (Pθ )θ∈Θ vérifie la
condition d’identifiabilité, c’est-à-dire que l’application θ 7→ Pθ est injective : si deux lois
de probabilités Pθ1 et Pθ2 sont égales alors θ1 = θ2 .

Définition 3.1.1. On appelle vraisemblance de la loi Pθ la fonction Ln : (x1 , . . . , xn , θ) 7→


Ln (x1 , . . . , xn , θ) définie :
- dans le cas discret par Ln (x1 , . . . , xn , θ) = ni=1 Pθ ({xi });
Q

- dans le casQcontinu par la densité de la loi jointe du n-échantillon, c’est-à-dire


Ln (x1 , . . . , xn , θ) = ni=1 fθ (xi ), où fθ désigne la densité de la loi marginale Pθ par rapport

27
28 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

à la mesure de Lebesgue.
La v.a. obtenue en appliquant la fonction (x1 , . . . , xn ) 7→ argmaxθ∈Θ Ln (x1 , . . . , xn , θ) au
n-échantillon (X1 , . . . , Xn ) s’appelle l’estimateur du maximum de vraisemblance (EMV)
du paramètre θ.

Par exemple dans le cas discret, on effectue un tirage de n valeurs et il faut


donc trouver le paramètre qui maximise la probabilité d’avoir tiré ce tirage. Notons
que l’EMV peut être unique, ne pas être unique, ou même ne pas exister. Cependant
nous n’étudierons que des cas où il y a existence et unicité de l’EMV. Par ailleurs, lorsque
la vraisemblance est strictement positive et grâce à la croissance stricte du logarithme
népérien (noté log dans la suite), il est équivalent (et souvent plus simple en pratique) de
maximiser la log-vraisemblance, c’est-à-dire le logarithme népérien de la vraisemblance
(le produit se transforme en somme, ce qui est plus simple à dériver). La recherche de
l’EMV est alors un problème d’optimisation de la log-vraisemblance : si c’est une fonction
assez régulière de θ, alors il s’agit :
- de trouver un point critique, i.e. un point pour lequel le gradient de la log-
vraisemblance s’annule, puis
- de vérifier que la matrice hessienne en ce point est négative (il s’agit donc d’un
maximum local) puis
- de montrer que ce maximum local est en fait global. Ce dernier point est en
général assuré par l’éventuelle concavité de la log-vraisemblance.
Notons ∂ l la dérivée partielle d’ordre l ∈ N∗ . Rappelons quelques propriétés satis-
faites par l’EMV, que l’on note dans la suite θ̂n .

Proposition 3.1.2. Soit θ ∈ Θ ⊂ Rd un paramètre inconnu. L’EMV est un estima-


teur consistant de θ, c’est-à-dire qu’il converge en probabilité vers θ lorsque n tend vers
l’infini, (i.e. la norme euclidienne de θ̂n − θ tend vers 0 en probabilité). De plus, il
est asymptotiquement normal au sens de la convergence en loi vers un vecteur gaussien
d-dimensionnel :
√  
n θ̂n − θ =⇒ Uθ ,
n→+∞

où Uθ ∼ Nd (0, I(θ)−1 ) et I(θ) est la matrice (ou information) de Fisher d × d formée des
éléments
h i
I(θ)i,j = Cov ∂θi log fθ (X1 ), ∂θj log fθ (X1 ) = −E ∂θ2i ,θj log fθ (X1 ) ,


que l’on suppose bien définie et inversible. En particulier l’EMV atteint à la limite la
borne de Cramer-Rao : il est asymptotiquement sans biais, i.e. limn→∞ E[θ̂n ] = θ, et de
variance minimale : on dit qu’il est asymptotiquement efficace.

Bien que la démonstration de ce résultat soit assez technique, donnons-en les


grandes étapes pour la normalité asymptotique en dimension 1 (nous ne préciserons ni les
hypothèses techniques ni les modes de convergence). Tout d’abord, notons Hn la fonction
3.1. RAPPELS 29

(aléatoire) de θ définie par


n
1 1 X
Hn (X1 , . . . , Xn , θ) := ∂θ log Ln (X1 , . . . , Xn , θ) = ∂θ log fθ (Xi ),
n n i=1

qui est donc la somme de v.a. i.i.d. centrées et de variance I(θ), l’information de Fisher.
Par le TCL, on a la convergence

n Hn (X1 , . . . , Xn , θ) =⇒ N (0, I(θ)) .
n→+∞

À présent, appliquons le théorème des accroissements finis à θ 7→ Hn (X1 , . . . , Xn , θ) :

0 = Hn (X1 , . . . , Xn , θ̂n ) ≈ Hn (X1 , . . . , Xn , θ) + (θ̂n − θ) Kn (X1 , . . . , Xn , θ),


n→+∞

où Kn est la fonction (aléatoire) donnée par


n
1 X 2
Kn (X1 , . . . , Xn , θ) = ∂θ Hn (X1 , . . . , Xn , θ) = ∂ log fθ (Xi ).
n i=1 θ

Par la LGN, on obtient que Kn (X1 , . . . , Xn , θ) converge vers l’espérance de ∂θ2 log fθ (X1 ),
qui n’est autre que −I(θ). Ainsi on obtient finalement que

√   n Hn (X1 , . . . , Xn , θ)
n θ̂n − θ ≈ ,
n→+∞ −Kn (X1 , . . . , Xn , θ)

qui suit la loi I(θ)−1 Nd (0, I(θ)), c’est-à-dire la loi N (0, I(θ)−1 ).
À présent, si l’on désire estimer non pas θ mais plutôt g(θ), où g est une “bonne”
fonction, on a à notre disposition un résultat très utile en pratique, connu sous le nom de
“delta-method”.

Théorème 3.1.3. Soit g une fonction définie sur Θ ⊂ Rd et à valeurs dans Rk , de classe
C 1 et dont la matrice jacobienne d × k au point θ, notée Jac(g)(θ), est inversible. Alors
g(θ̂n ) est l’EMV de g(θ) et de plus, on a la convergence en loi suivante :
√  
n g(θ̂n ) − g(θ) =⇒ Jac(g)(θ)T Uθ ,
n→+∞

où Uθ ∼ Nd (0, I(θ)−1 ). Autrement dit, la loi limite est celle d’un vecteur gaussien k-
dimensionnel centré et de matrice de covariance Jac(g)(θ)T I(θ)−1 Jac(g)(θ).

3.1.2 Exemples classiques


Voici quelques exemples classiques pour lesquels nous sommes en mesure de déterminer
l’EMV. En particulier, on reconnaı̂t quelques estimateurs bien connus.
30 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

◦ cas d’une v.a. de Bernoulli de paramètre θ ∈ Θ ⊂]0, 1[. L’EMV est donné par
la moyenne empirique
n
1 X
θ̂n = Xi =: X̄n ,
n i=1
c’est-à-dire l’estimateur sans biais donné par la LGN puisque E[X1 ] = θ. De plus,
l’information de Fisher est
1 1
I(θ) = = ,
θ(1 − θ) Var(X1 )

ce qui était attendu car d’après le TCL on a la convergence en loi


√ 
n X̄n − θ =⇒ N (0, Var(X1 )) .
n→+∞

◦ cas d’une v.a. de Poisson de paramètre θ ∈ Θ ⊂]0, ∞[. L’EMV est encore la
moyenne empirique, comme dans le cas Bernoulli. L’information de Fisher, quant à elle,
vaut 1/θ, c’est-à-dire l’inverse de la variance d’une v.a. de Poisson de paramètre θ.
◦ cas d’une v.a. gaussienne de moyenne m et de variance σ 2 : pour θ = (m, σ 2 ) et
Θ ⊂ R×]0, ∞[, l’EMV vaut
θ̂n = X̄n , Sn2 ,


où Sn2 est la variance empirique


n n
1 X 1 X 2
Sn2 := 2
(Xi − X̄n ) = X − X̄n2 .
n i=1 n i=1 i

Par la LGN, la variance empirique converge p.s. (donc en probabilité) vers la variance σ 2 .
En utilisant la théorie des vecteurs gaussiens et en particulier le théorème de Cochran,
on peut montrer que les moyenne et variance empiriques sont indépendantes et suivent
respectivement la loi N (m, σ 2 /n) et celle de la variable (σ 2 /n) Y , où Y suit la loi du χ2 à
n − 1 degrés de liberté. De plus, notons que Sn2 est biaisée car E[Sn2 ] = (n − 1)σ 2 /n mais
asymptotiquement sans biais. L’information de Fisher étant donnée par
 1 
σ 2 0
I(θ) = ,
0 2σ1 4

on en déduit la matrice de covariance limite,


 2 
−1 σ 0
I(θ) = .
0 2σ 4

En particulier on a la convergence en loi suivante :



n Sn2 − σ 2 =⇒ N 0, 2σ 4 .
 
n→+∞
3.1. RAPPELS 31

résultat auquel on s’attendait d’après le TCL appliqué à la variable Y .


◦ cas d’une v.a. uniforme sur [0, θ] avec θ ∈ Θ ⊂]0, +∞[. La vraisemblance vaut

1
Ln (x1 , . . . , xn , θ) = , 0 ≤ x1 , . . . , xn ≤ θ,
θn
et alors l’EMV est donné par

θ̂n = max {X1 , . . . , Xn } .

On remarque que θ̂n converge bien en probabilité vers θ donc c’est un estimateur con-
sistant, et que E[θ̂n ] = nθ/(n + 1) : il est asymptotiquement sans biais. En revanche la
normalité asymptotique n’est pas vérifiée, ce modèle n’étant pas régulier en un certain
sens (on peut montrer par ailleurs que n(θ − θ̂n ) converge en loi vers une v.a. exponentielle
de paramètre 1/θ).

3.1.3 Le cas d’une chaı̂ne de Markov


Avant de passer au cas des diffusions, mentionnons que la vraisemblance peut être définie
pour des v.a. dépendantes telles que les chaı̂nes de Markov. Par exemple, soit (Un )n≥1 une
suite i.i.d. de loi commune N (0, 1) et considérons la suite (Xn )n≥0 définie par récurrence
par X0 = x ∈ R et
Xn+1 = θ Xn + Un+1 , n ∈ N,
où θ ∈ Θ ⊂ R est un paramètre inconnu que l’on souhaite estimer. La suite (Xn )n≥0
est une chaı̂ne de Markov homogène qui est la version à temps discret d’un processus
d’Ornstein-Uhlenbeck, comme on le verra à la fin de ce chapitre. Il n’est pas difficile de
montrer que le vecteur (X1 , . . . , Xn ) des observations est gaussien. Plus précisément on
a la densité jointe suivante :
n
!
1 1 X
fθ (x1 , . . . , xn ) = exp − (xi − θ xi−1 )2 , (x1 , . . . , xn ) ∈ Rn ,
(2π)n/2 2 i=1

où par convention x0 = x. Ainsi, en définissant la vraisemblance de la même manière que


pour les v.a. i.i.d., c’est-à-dire

Ln (x1 , . . . , xn , θ) := fθ (x1 , . . . , xn ), (x1 , . . . , xn ) ∈ Rn ,

l’EMV est égal à


Pn Pn
i=1 Xi Xi−1 i=1 Ui Xi−1 Mn
θ̂n = Pn 2
= θ+ P n 2
= θ+ ,
i=1 Xi−1 i=1 Xi−1 [M, M ]n
Pn
où M est la martingale Mn = i=1 Ui Xi−1 . Ainsi, on verra que la consistance et la
normalité asymptotique de l’EMV dépendent du comportement de la martingale M .
32 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

Cet exemple fait partie de la classe importante des processus auto-régressifs d’ordre
1, notés processus AR(1), intervenant comme modèle de régression pour des séries tem-
porelles (dans lequel la série est expliquée par ses valeurs passées plutôt que par d’autres
variables). Notons que l’on a pris X0 déterministe par simplicité, mais ceci reste valide
dans le cas d’une variable initiale aléatoire, l’important étant que l’on connaisse sa loi.
En effet, la valeur de la chaı̂ne au temps 0 est observée en pratique et peut donc être
considérée comme connue (sa loi ne dépendra pas du paramètre inconnu θ).

3.2 Maximum de vraisemblance pour des diffusions


3.2.1 Le cadre général
La notion de vraisemblance peut être définie dans un cadre bien plus général que ceux
que nous avons vus précédemment, en particulier pour la loi des diffusions que nous avons
introduites dans le chapitre 2. Soit T > 0 un horizon fini et considérons sur l’intervalle
[0, T ] l’unique solution de l’EDS
Z t
Xt = X 0 + bθ (s, Xs ) ds + Bt ,
0

où la fonction bθ est continue en temps et lipschitzienne en espace, et où le paramètre


θ ∈ Θ ⊂ R est supposé inconnu. On suppose aussi que la v.a. X0 est indépendante du
mouvement brownien B et que sa loi ne dépend pas de θ. Du point de vue de l’estimation
statistique, nous sommes dans la situation où toute la trajectoire sur [0, T ] du processus X
est observée. Évidemment, ce type d’observations continues est stricto sensu impossible
à réaliser, sachant qu’en pratique le nombre d’observations est forcément fini. Cependant,
cette idéalisation de la réalité a un intérêt mathématique indéniable, comme nous allons
le voir ci-dessous, et peut être vue comme une “borne supérieure” des résultats que l’on
peut obtenir par discrétisation.
En tant que processus, X peut être considéré comme une v.a. à valeurs dans CT ,
l’espace vectoriel des fonctions continues de [0, T ] dans R muni de la tribu borélienne
associée (la topologie sous-jacente est celle de la convergence uniforme). Notons Pθ la loi
de X sur CT sous la probabilité P, c’est-à-dire que l’on a pour tout ensemble borélien A
de CT ,
Pθ (A) := P (X ∈ A) .
On admet dans la suite que la fonction bθ est choisie de manière à ce que la loi Pθ
vérifie la condition d’identifiabilité. Pour définir une notion de vraisemblance, il nous
faut considérer la loi Pθ et montrer qu’elle est absolument continue sur CT par rapport à
une mesure de référence, comme la loi d’une v.a. continue l’est par rapport à la mesure
de Lebesgue. Pour ce faire, nous allons utiliser le théorème de Girsanov. Notons M θ le
processus
 Z t
1 t
Z 
θ 2
Mt := exp − bθ (s, Xs ) dBs − bθ (s, Xs ) ds , t ∈ [0, T ].
0 2 0
3.2. LE CAS DES DIFFUSIONS 33

Le processus M θ est une P-martingale sur [0, T ] et si Q désigne la probabilité absolument


continue par rapport à P sur l’espace (Ω, FT ) et de densité MTθ , le théorème de Girsanov
nous dit que le processus X est une Q-martingale et même un Q-mouvement brownien
(issu de X0 ). Soit A un ensemble borélien de CT . On a

Pθ (A) = P (X ∈ A)
 
= EP 1{X∈A}
 
1
= EQ 1{X∈A} θ
MT
Z T
1 T
 Z 
2
= EQ 1{X∈A} exp bθ (t, Xt ) dBt + bθ (t, Xt ) dt
0 2 0
Z T
1 T
 Z 
2
= EQ 1{X∈A} exp bθ (t, Xt ) dXt − bθ (t, Xt ) dt .
0 2 0

Ainsi, si l’on note P la loi sur l’espace CT du Q-mouvement brownien X issu de X0 ,


c’est-à-dire que pour tout ensemble borélien A de CT ,

P (A) := Q(X ∈ A),

alors on en déduit que Pθ est absolument continue sur CT par rapport à P et admet pour
densité Z T
1 T
Z 
dPθ
(x) = exp bθ (t, xt ) dxt − bθ (t, xt ) dt , x ∈ CT .
2
dP 0 2 0
On peut d’ores et déjà définir la notion de vraisemblance dans ce cas. Cependant, nous
allons la définir dans un cadre plus général. Considérons le processus de diffusion X
solution de l’EDS suivante :
Z t Z t
X t = X0 + bθ (s, Xs ) ds + σ(s, Xs ) dBs , t ∈ [0, T ],
0 0

où les fonctions bθ et σ sont supposées continues en temps et lipschitziennes en espace,


avec de surcroı̂t σ > 0. De plus, la v.a. X0 est supposée indépendante du mouvement
brownien B et de θ. Donnons-nous une autre fonction b satisfaisant les mêmes hypothèses
et notons hθ la fonction hθ := (bθ − b)/σ puis M θ le processus
 Z t
1 t
Z 
θ 2
Mt := exp − hθ (s, Xs ) dBs − hθ (s, Xs ) ds , t ∈ [0, T ].
0 2 0

Soit Q la probabilité absolument continue par rapport à P sur l’espace (Ω, FT ) et de


densité MTθ . Alors on peut montrer comme précédemment que la loi de X sous Q est celle
d’un processus de diffusion solution de l’EDS
Z t Z t
Xt = X0 + b(s, Xs ) ds + σ(s, Xs ) dB̃s , t ∈ [0, T ],
0 0
34 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

où B̃ est le Q-mouvement brownien donné par


Z t
B̃t = Bt + hθ (s, Xs ) ds, t ∈ [0, T ].
0

Notons que si b ≡ 0 et σ ≡ 1, on retrouve bien le Q-mouvement brownien de la situation


précédente. On en déduit que si Pθ et P désignent respectivement la loi sur l’espace CT
du processus X sous P et sous Q, la loi Pθ est absolument continue sur CT par rapport à
P et admet pour densité (après quelques lignes de calculs)
Z T
1 T b2θ − b2

bθ − b
Z
dPθ
(x) = exp (t, xt ) dxt − (t, xt ) dt .
dP 0 σ2 2 0 σ2
Définition 3.2.1. On suppose que la loi Pθ sur CT associée à la diffusion X sous P vérifie
la condition d’identifiabilité. La vraisemblance de Pθ par rapport à P est la fonction LT ,
définie sur CT × Θ et à valeurs strictement positives, donnée par la densité
Z T
1 T b2θ − b2

bθ − b
Z
dPθ
LT (x, θ) := (x) = exp (t, xt ) dxt − (t, xt ) dt , x ∈ CT .
dP 0 σ2 2 0 σ2
La v.a. obtenue en appliquant la fonction x 7→ argmaxθ∈Θ LT (x, θ) au processus observé
X sur [0, T ] est l’EMV du paramètre θ, que l’on note θ̂T .
Dans la suite de ce cours, on admettra que les modèles que l’on étudie satisfont la
condition d’identifiabilité.
Ainsi, trouver l’EMV revient à déterminer le paramètre θ ∈ Θ pour lequel la
densité est maximale. En particulier, l’EMV satisfait l’équation en θ suivante :
Z T
∂ θ bθ
(t, xt ) (dxt − bθ (t, xt ) dt) = 0.
0 σ2
Comme on a le choix sur la loi de référence P , on choisit souvent en pratique le cas le plus
simple, c’est-à-dire b ≡ 0. En revanche, la volatilité du processus X est la même sous P
comme sous Q, donc fixée par le modèle à étudier. En modifiant la fonction hθ , on aurait
pu s’attendre à obtenir une volatilité différente de σ lorsque l’on considère le processus X
sous Q. Il s’avère que ce n’est pas possible car les lois Pθ et P ne seraient plus absolument
continues sur CT . D’après le calcul de la variation quadratique du mouvement brownien,
on a pour tout T > 0 la convergence p.s. suivante :
n
X
lim (BiT /n − B(i−1)T /n )2 = T.
n→+∞
i=1

Étant donné β > 0, notons Aβ l’ensemble borélien de CT défini par


( n
)
X
Aβ := x ∈ CT : lim (xiT /n − x(i−1)T /n )2 = β 2 T .
n→+∞
i=1
3.2. LE CAS DES DIFFUSIONS 35

Si α est un nombre strictement positif et différent de 1, les lois des processus B et αB


sont étrangères sur CT , c’est-à-dire qu’elles sont portées par deux ensembles disjoints, en
l’occurrence A1 et Aα :
P (B ∈ A1 ) = P (αB ∈ Aα ) = 1.
Autrement dit, elles ne peuvent être absolument continues l’une par rapport à l’autre.
Par ailleurs, on remarque que dans la définition de X, la volatilité ne dépend pas
de θ. En effet, si c’était le cas, alors en utilisant l’approximation en probabilité de la
variation quadratique, on aurait
n
X Z T
2
lim (XiT /n − X(i−1)T /n ) = [X, X]T = σθ (s, Xs )2 ds.
n→+∞ 0
i=1

La connaissance de ces intégrales permettrait alors de trouver la vraie valeur de θ, c’est-


à-dire que le problème statistique serait complètement résolu. Par exemple soit X = σB
et σ 2 ∈ Θ ⊂]0, +∞[ le paramètre inconnu à estimer. Notons pour tout n ∈ N∗ ,
n
X
VTn := (XiT /n − X(i−1)T /n )2 .
i=1

On sait que VTn tend vers σ 2 T p.s. et dans L2 lorsque n tend vers l’infini, et que E[VTn ] =
σ 2 T . On montre aussi en utilisant le TCL pour les variables i.i.d. que la convergence en
loi suivante est satisfaite :

 n 
VT 2
n −σ =⇒ N (0, 2 σ 4 ).
T n→+∞

En effet, la v.a. VTn − σ 2 T s’écrit comme la somme


n
X σ2T
VTn − σ 2 T = Zi,n,T , avec Zi,n,T := (XiT /n − X(i−1)T /n )2 − ,
i=1
n

où les (Zi,n,T )i=1,...,n sont i.i.d. centrées et de variance égale à 2σ 4 T 2 /n2 .

3.2.2 Exemples apparaissant en finance


On vient de voir comment était défini l’EMV dans le cas des diffusions. Cet estimateur
possède-t-il de bonnes propriétés de convergence lorsque T tend vers l’infini ? Pour
répondre à cette question, étudions un exemple très simple, où les fonctions apparaissant
dans l’EDS ne dépendent pas de X. Considérons le processus de diffusion suivant :

dXt = θ b(t) dt + σ(t) dBt , t ∈ [0, T ],

où b et σ sont deux fonctions continues sur [0, T ] avec de plus σ > 0, et θ ∈ Θ ⊂ R
est un paramètre inconnu que l’on souhaite estimer. La variable X0 , quant à elle, est
36 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

indépendante du mouvement brownien B et sa loi ne dépend pas de θ, comme dans tous


les exemples qui vont suivre (auquel cas le processus n’est pas stationnaire, la probabilité
invariante dépendant de θ). Dans ce cas, la log-vraisemblance est donnée par
Z T
θ2 T b(t)2
Z
b(t)
log LT (x, θ) = θ 2
dxt − dt, x ∈ CT .
0 σ(t) 2 0 σ(t)2
Cette fonction de θ étant concave et comme il n’y a qu’un seul point critique, l’EMV est
donné par
R T b(t)
0 σ(t)2
dXt
θ̂T = R T b(t)2
0 σ(t)2
dt
RT
f (t) dBt
= θ + R0T .
0
f (t)2 dt
où f est la fonction f := b/σ. Nous sommes dans l’un des rares cas où l’on connaı̂t ex-
RT
plicitement la loi de l’EMV, qui est la loi N (θ, 1/ 0 f (t)2 dt). Ainsi, θ̂T est un estimateur
sans biais dont le comportement asymptotique en temps long dépend de l’intégrabilité
de la fonction f . Par exemple si f ∈ / L2 (R+ ) alors θ̂T converge vers θ dans L2 , donc en
probabilité : l’EMV est consistant. On a même la convergence p.s. en utilisant la LGN
pour les martingales à temps continu, en remarquant que l’EMV s’écrit
MT
θ̂T = θ + ,
[M, M ]T
RT
où M est la martingale de carré intégrable MT = 0 f (t) dBt . En revanche si f 2 est
intégrable à l’infini, alors cela signifie que la v.a. [M, M ]∞ est bien définie. Ainsi, M est
bornée dans L2 et d’après le theorème de convergence des martingales, MT admet lorsque
T tend vers l’infini une limite p.s. et dans L2 , notée M∞ . On obtient alors que p.s. et
dans L2 ,
M∞
lim θ̂T = θ +
T →+∞ [M, M ]∞
R +∞
f (t) dBt
= θ + R0+∞ .
f (t) 2 dt
0

Ainsi, il n’y a pas de convergence en temps long et l’EMV n’est pas consistant.
Calculons à présent l’EMV et étudions ses principales propriétés pour les exemples
classiques que nous avons introduits dans le chapitre précédent.

Mouvement brownien avec dérive


Commençons par le mouvement brownien avec dérive. Soit X le processus donné par
Xt = X0 + θt + σBt , t ∈ [0, T ],
3.2. LE CAS DES DIFFUSIONS 37

où σ > 0 est supposé connu tandis que θ ∈ Θ ⊂ R est un paramètre inconnu que l’on va
estimer. Ce processus est le cas le plus simple entrant dans la classe des processus dont
on vient de calculer l’EMV. On a alors que
BT
θ̂T = θ + σ ,
T
qui tend p.s. et dans L2 vers le paramètre inconnu θ. L’EMV est donc sans biais,
consistant et a pour loi N (θ, σ 2 /T ).

Modèle de Black-Scholes
Considérons maintenant le modèle de Black-Scholes. L’EDS satisfaite est la suivante :

dXt = θ Xt dt + σ Xt dBt , t ∈ [0, T ],

où X0 > 0 p.s., σ > 0 est supposé connu tandis que θ ∈ Θ ⊂ R est le paramètre inconnu
à estimer. La log-vraisemblance du modèle est donnée par
Z T
θ dxt θ2 T
log LT (x, θ) = 2 − , x ∈ CT .
σ 0 xt 2σ 2
Cette fonction de θ étant concave et comme il n’y a qu’un seul point critique, l’EMV est
donné par
Z T
1 dXt
θ̂T =
T 0 Xt
BT
= θ+σ ,
T
c’est-à-dire le même estimateur que dans le cas du mouvement brownien avec dérive, les
conclusions étant alors les mêmes. Notons que ce résultat était attendu, l’EMV étant
stable par bijection. En effet, on peut montrer que s’il existe une fonction bijective f
nous permettant d’exprimer un processus X 2 en fonction d’un processus X 1 dépendant
d’un paramètre inconnu θ, alors l’EMV de θ associé à X 2 est le même que celui associé à
X 1 . Dans notre cas, le processus X 1 est un mouvement brownien avec dérive,

dXt1 = σ dBt + (θ − σ 2 /2) dt,


1
tandis que X 2 := eX est le processus de Black-Scholes. Le lecteur attentif aura remarqué
que la dérive de X 1 fait apparaı̂tre le terme supplémentaire −σ 2 /2 qui ne dépend pas
de θ. Il s’agit donc tout d’abord d’estimer θ1 := θ − σ 2 /2, puis d’estimer θ = g(θ1 ) où
g(u) := u + σ 2 /2. Le calcul précédent pour le mouvement brownien géométrique montre
que l’EMV de θ1 vaut θˆT1 = θ1 + σBT /T puis que celui de θ vaut g(θˆT1 ) = θ + σBT /T :
nous sommes dans le cadre d’application de la “delta-method”, qui est aussi valable pour
les diffusions, comme mentionné ci-dessous pour les processus ergodiques.
38 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

Processus ergodiques
Étudions à présent le cas des processus ergodiques, pour lesquels il existe un résultat
général sur l’EMV multidimensionnel.

Théorème 3.2.2. Soit θ ∈ Θ ⊂ Rd un paramètre inconnu. Sous de bonnes hypothèses


d’ergodicité du processus, par exemple si fonctions bθ et σ sont polynomiales et satisfont
l’hypothèse (H), l’EMV est consistant, asymptotiquement sans biais et asymptotiquement
normal au sens de la convergence en loi vers un vecteur gaussien :
√  
T θ̂T − θ =⇒ Uθ ,
T →+∞

où Uθ ∼ Nd (0, I(θ)−1 ), I(θ) est la matrice de Fisher d × d formée des éléments

∂θi bθ ∂θj bθ
Z
I(θ)i,j := dπθ ,
R σ2

supposée inversible, et πθ est l’unique probabilité invariante du processus, qui dépend de


θ. De plus, il est asymptotiquement efficace.
Delta-method : si g : Θ → Rk est une fonction de classe C 1 et dont la matrice jacobienne
Jac(g)(θ) en θ est inversible, alors g(θ̂T ) est l’EMV de g(θ) et l’on a la convergence en
loi suivante : √  
T g(θ̂T ) − g(θ) =⇒ Jac(g)(θ)T Uθ .
T →+∞

Examinons à présent le cas des trois processus ergodiques que nous avons vus dans
le chapitre précédent, qui satisfont l’hypothèse (H) et pour lesquels le théorème précédent
va s’appliquer.

Processus d’Ornstein-Uhlenbeck. Commençons par le processus d’Ornstein-Uhlenbeck so-


lution de l’EDS
dXt = −θ Xt dt + σ dBt , t ∈ [0, T ],
où σ > 0 est supposé connu et θ ∈ Θ ⊂]0, +∞[ est le paramètre inconnu, supposé
strictement positif pour assurer l’ergodicité du processus. L’unique probabilité invariante
πθ est la loi N (0, σ 2 /2θ). La log-vraisemblance pour ce modèle est
T T
θ2
Z Z
θ
log LT (x, θ) = − 2 xt dxt − 2 x2t dt, x ∈ CT .
σ 0 2σ 0

Cette fonction de θ est concave et n’a qu’un seul point critique. Ainsi, l’EMV est donné
par
RT
Xt dXt
θ̂T = − R0 T
0
Xt2 dt
3.2. LE CAS DES DIFFUSIONS 39
RT
Xt dBt
= θ − σ R0 T .
0
Xt2 dt

En utilisant la LGN pour les martingales, on en déduit que l’EMV est consistant et
asymptotiquement sans biais. En revanche, contrairement aux précédents modèles, la
normalité asymptotique n’est pas immédiate à cause de la présence de l’intégrale stochas-
tique. Cependant, le TCL markovien peut s’appliquer et l’on obtient la convergence en
loi suivante : √  
T θ̂T − θ =⇒ N (0, 2θ) ,
T →+∞

résultat correspondant bien au théorème ci-dessus car l’information de Fisher est donnée
par Z
1 1
I(θ) = 2 x2 πθ (dx) = .
σ R 2θ
Modèle de Vasicek. Focalisons-nous maintenant sur le modèle de Vasicek qui généralise
le cas précédent, et pour lequel plusieurs situations sont possibles. Le processus X est
solution de l’EDS
dXt = − (µ Xt − ν) dt + σ dBt ,
où µ > 0, ν ∈ R∗ et σ > 0. L’unique probabilité invariante πθ est la loi N (ν/µ, σ 2 /2µ).
Notons dans la suite
Z T Z T Z T
2
Y1 := Xt dt, Y2 := Xt dt and Z := − Xt dXt .
0 0 0

◦ Cas où ν et σ sont supposés connus tandis que θ = µ ∈ Θ ⊂]0, +∞[ est le
paramètre inconnu à estimer. En procédant de la même manière que pour le processus
d’Ornstein-Uhlenbeck, on obtient que
RT
νY2 + Z Xt dBt
θ̂T = = θ − σ R0 T ,
Y1 Xt2 dt
0

et en combinant les TCL et LGN markoviens, l’EMV est consistant, asymptotiquement


sans biais et l’on a la convergence en loi
√  2σ 2 θ2
  
T θ̂T − θ =⇒ N 0, 2 .
T →+∞ 2ν + σ 2 θ

◦ Cas où µ et σ sont supposés connus tandis que θ = ν ∈ Θ ⊂]0, +∞[ est à estimer.
On a alors que
XT − X0 + µY2 BT
θ̂T = = θ+σ ,
T T
donc que l’EMV est consistant, sans biais et a pour loi N (θ, σ 2 /T ).
40 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

◦ Cas où seul σ est supposé connu, le paramètre inconnu à estimer étant θ =
(µ, ν) ∈ Θ ⊂]0, +∞[×R∗ . On trouve que l’EMV bidimensionnel vaut
 
T Z + Y2 (XT − X0 ) Y2 Z + Y1 (XT − X0 )
θ̂T = , .
T Y1 − Y22 T Y1 − Y22

D’après le théorème précédent, l’EMV est consistant, asymptotiquement sans biais et


asymptotiquement normal au sens de la convergence en loi
√  
=⇒ N2 0, I(θ)−1 ,

T θ̂T − θ
T →+∞

où I(θ) est la matrice de Fisher


 
1 2ν 2 + µσ 2 −2µν
I(θ) = .
2µ2 σ 2 −2µν 2µ2

Modèle CIR. Terminons par le cas du modèle CIR. Le processus X est solution de l’EDS
p
dXt = µ(ν − Xt ) dt + σ Xt dBt ,

où p.s. X0 > 0 et les paramètres satisfont µ > 0, ν > 0, σ > 0 avec 2µν > σ 2 . Réécrivons
ce modèle légèrement différemment afin de dissocier les paramètres apparaissant dans la
dérive. À présent, le processus X est solution de l’EDS
p
dXt = (a − b Xt ) dt + σ Xt dBt ,

où p.s. X0 > 0 et les paramètres satisfont cette fois a > 0, b > 0, σ > 0 avec 2a > σ 2 .
L’unique probabilité invariante πθ est la loi Gamma de paramètres α = 2a/σ 2 et β =
σ 2 /2b. Notons dans la suite
Z T Z T Z T
Y1 := Xt−1 dt, Y2 := Xt dt and Z := Xt−1 dXt .
0 0 0

◦ Cas où b et σ sont supposés connus tandis que θ = a ∈ Θ ⊂]σ 2 /2, +∞[ est le
paramètre inconnu. On a alors que
R T −1/2
Z + bT Xt dBt
θ̂T = = θ + σ 0R T −1 ,
Y1 Xt dt 0

et les TCL et LGN markoviens entraı̂nent la convergence en loi


√  2aσ 2 − σ 4
  
T θ̂T − θ =⇒ N 0, ,
T →+∞ 2b

car R x−1 πθ (dx) = 1/β(α − 1) = 2b/(2a − σ 2 ).


R
3.2. LE CAS DES DIFFUSIONS 41

◦ Cas où a et σ sont supposés connus tandis que θ = b ∈ Θ ⊂]0, +∞[ est le
paramètre inconnu à estimer. L’EMV est donné par
RT √
aT − XT + X0 Xt dBt
θ̂T = = θ − σ 0R T .
Y2 Xt dt 0

En combinant les TCL et LGN markoviens, on obtient la convergence en loi


√  σ2 b
  
T θ̂T − θ =⇒ N 0, .
T →+∞ a
R
car R x πθ (dx) = αβ = a/b.
◦ Cas où seul σ est supposé connu, le paramètre inconnu à estimer étant θ =
(a, b) ∈ Θ ⊂]σ 2 /2, +∞[×]0, +∞[. On trouve que l’EMV bi-dimensionnel vaut
 
ZY2 − T (XT − X0 ) ZT − Y1 (XT − X0 )
θ̂T = , .
Y1 Y2 − T 2 Y1 Y2 − T 2
D’après le théorème précédent, l’EMV est consistant, asymptotiquement sans biais et
asymptotiquement normal au sens de la convergence en loi
√  
=⇒ N2 0, I(θ)−1 ,

T θ̂T − θ
T →+∞

où I(θ) est la matrice de Fisher


2b
 
1 2a−σ 2
−1
I(θ) = 2 a .
σ −1 b

3.2.3 Test de Neyman-Pearson


La propriété d’absolue continuité apparaissant dans la définition de la vraisemblance per-
met d’appliquer des procédures statistiques comme le test de Neyman-Pearson que l’on
va voir ci-dessous. On a vu que la vraisemblance était donnée par la densité
Z T
1 T b2θ − b2

bθ − b
Z
dPθ
LT (x, θ) = (x) = exp (t, xt ) dxt − (t, xt ) dt , x ∈ CT ,
dP 0 σ2 2 0 σ2
où θ ∈ Θ est le paramètre inconnu à estimer, Pθ est la loi sur CT sous P associée à la
diffusion X solution de l’EDS

dXt = bθ (t, Xt ) dt + σ(t, Xt ) dBt ,

tandis que P est la loi de X sur CT (sous une autre probabilité Q) correspondant à celle
d’une diffusion solution de l’EDS

dXt = b(t, Xt ) dt + σ(t, Xt ) dB̃t ,


42 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

où B̃ est un Q-mouvement brownien. Notons que si l’on fait dépendre b d’un paramètre
θ̃ supposé connu, alors on définit le rapport de vraisemblance par
!
1 T b2θ − b2θ̃
Z T
bθ − bθ̃
Z
dPθ
LT (x, θ, θ̃) := (x) = exp (t, xt ) dxt − (t, xt ) dt , x ∈ CT .
dPθ̃ 0 σ2 2 0 σ2

Rappelons brièvement quelques éléments à propos des tests statistiques. Un test


d’hypothèse est une démarche qui a pour but de fournir une règle de décision permettant,
sur la base de résultats d’échantillon (c’est-à-dire des observations), de faire un choix entre
deux hypothèses statistiques, l’hypothèse nulle, notée (H0 ), et l’hypothèse alternative,
notée (H1 ). Cette règle de décision va nous conduire à l’acceptation ou au rejet de (H0 ).
Il ne s’agit pas de déterminer si elle est fondamentalement vraie ou non, mais plutôt de
voir si c’est une hypothèse cohérente avec les observations. Cette décision étant fondée
sur une information partielle, les observations, il est donc impossible de prendre la bonne
décision à coup sûr. En pratique, on met en oeuvre une démarche qui nous permet de
rejeter à tort (H0 ) dans une faible proportion de cas. La conclusion déduite des résultats
de l’échantillon aura un caractère probabiliste : on ne pourra prendre une décision qu’en
ayant conscience qu’il y a un certain risque qu’elle soit erronée. Ce risque, dit de première
espèce, nous est donné par le niveau du test, noté α, consenti à l’avance. Plus précisément,
il y a deux façons de se tromper lors d’un test statistique :
- rejeter à tort (H0 ) alors qu’elle est vraie : c’est le risque de première espèce et
l’on note α la probabilité de se tromper dans ce sens, fixée à l’avance. On appelle parfois
α le risque de faux positif : en rejetant l’hypothèse nulle, on considère l’hypothèse à tester
comme validée (positif) alors qu’elle ne l’est pas (faux).
- accepter (H0 ) alors qu’elle est fausse. C’est le risque de deuxième espèce et l’on
note β la probabilité de se tromper dans ce sens, correspondant aux faux négatifs : comme
on accepte (H0 ), l’hypothèse à tester ne peut pas être validée (négatif) alors qu’elle est
vraie (faux). La quantité 1 − β est appelée puissance du test.
En pratique, il s’agit souvent d’effectuer un compromis entre ces deux types d’erreur car
l’on ne diminue l’un des risques qu’en consentant à augmenter l’autre. Notons de surcroı̂t
que ces deux erreurs ne jouent pas un rôle symétrique. On contrôle uniquement le risque
de première espèce α : cela revient à considérer que le risque de rejeter (H0 ) alors que
cette hypothèse est vraie est beaucoup plus coûteux/dangereux que celui de la conserver
à tort (ce dernier risque β n’étant pas maı̂trisé).
Regardons à présent comment mettre en oeuvre le test de Neyman-Pearson dans un
cas simple. Un radarRest utilisé pour détecter le passage éventuel d’un avion correspondant
t
à un signal mt := 0 f (s) ds connu, où t ∈ [0, T ] et f : [0, T ] → R est une fonction
continue. Le radar présente un bruit d’enregistrement brownien avec un coefficient de
diffusion σ > 0 connu. Le signal enregistré x ∈ CT est la réalisation d’un processus X sur
[0, T ] pour lequel deux hypothèses distinctes sont possibles :
- hypothèse nulle (H0 ) : X = m + σ B, correspondant à la présence d’un avion.
- hypothèse alternative (H1 ) : X = σ B, traduisant l’absence d’avion.
3.2. LE CAS DES DIFFUSIONS 43

Quels sont ici les risques de première et deuxième espèces ? Rejeter (H0 ) à tort revient à
croire à l’absence d’avion alors qu’en réalité il y en a un, tandis qu’accepter (H0 ) à tort
signifie que l’on pense qu’un avion passe alors qu’il n’en est rien. On voit ainsi que ces
deux erreurs n’ont pas les mêmes conséquences et c’est pourquoi l’hypothèse nulle a été
choisie de cette manière.
Notons PH0 , PH1 les probabilités définies sur l’espace (Ω, FT ) de la manière suivante : sous
PH0 le processus X vaut m + σ B (on note P0 sa loi sur CT ) et sous PH1 , on a X = σ B
(on note P1 sa loi sur CT ). Ainsi, le rapport de vraisemblance s’écrit
 Z T Z T 
dP1 1 1
(y) = exp − 2 f (t) dyt + 2 f (t) dt , y ∈ CT .
2
dP0 σ 0 2σ 0
Soit α ∈]0, 1[. Le test de Neyman-Pearson admet la règle de décision suivante : on rejette
(H0 ) lorsque le rapport de vraisemblance est grand, c’est-à-dire lorsque
Z T
f (t) dxt ≤ Cα ,
0

où le seuil Cα est déterminé selon le niveau α,


Z T 
PH0 f (t) dXt ≤ Cα = α.
0

Autrement dit, la probabilité de rejeter (H0 ) à tort est égale à α (risque de première
espèce). Sous l’hypothèse (H0 ), on a X = m + σ B donc
Z T Z T Z T
loi
f (t) dXt = σ f (t) dBt + f (t)2 dt = σ vT Z + vT2 ,
0 0 0
RT
où Z désigne une v.a. de loi N (0, 1) et vT2 := 0 f (t)2 dt. D’où
Z T
Cα − vT2
  
α = PH0 f (t) dXt ≤ Cα = P Z ≤ .
0 σ vT
Ainsi, en notant qα le quantile d’ordre α pour la loi normale centrée et réduite, on en
déduit la valeur de Cα :
Cα = qα σ vT + vT2 .
Enfin, les paramètres σ et vT étant connus, il reste à fixer le risque de première espèce
α (en général α = 0, 05) puis conclure le test en utilisant la règle de décision en fonction
RT
de la réalisation x du processus X : si 0 f (t) dxt ≤ Cα , alors l’hypothèse (H0 ) est
rejetée. Ou encore la probabilité de se tromper en rejetant (H0 ) est inférieure au seuil α
préalablement déterminé et le test est jugé significatif.
RT
Au contraire, sous (H1 ), on a X = σB et donc l’intégrale 0 f (t) dXt a même loi
que la v.a. σ vT Z. D’où le risque de seconde espèce β (ou probabilité d’accepter (H0 ) à
tort) est Z T   vT 
β = PH1 f (t) dXt > Cα = P Z > qα + .
0 σ
44 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

Comme Cα est croissant en α, diminuer α revient à diminuer Cα et donc à augmenter β :


il faut donc trouver un compromis entre les risques de première et de deuxième espèces.
Notons par ailleurs que lorsque le rapport signal sur bruit vT /σ grandit, β tend vers 0
très rapidement, à vitesse exponentielle car pour tout x > 0,
2
e−x /2
P (Z > x) ≤ √ .
x 2π

3.3 Discrétisation des diffusions


3.3.1 Diffusions observées à des instants discrets
Comme nous l’avons déjà souligné, l’EMV défini pour les diffusions est purement théorique
au sens où il faudrait que toute la trajectoire entre 0 et T du processus X soit observée,
ce qui est impossible en pratique. En réalité on observe uniquement des variables corres-
pondant à une discrétisation temporelle de la diffusion, c’est-à-dire une suite de variables
Xhn , X2hn , . . . , Xnhn définie par
Z ihn Z ihn
Xihn = X(i−1)hn + b(r, Xr ) dr + σ(r, Xr ) dBr , i ∈ {1, . . . , n},
(i−1)hn (i−1)hn

avec T = nhn et où l’on autorise le pas hn des observations à dépendre du nombre
d’observations n. Une diffusion étant un processus de Markov, la suite extraite (Xihn )
indicée par i forme une chaı̂ne de Markov. Plusieurs études asymptotiques sont alors
envisageables, qui diffèrent suivant les modèles que l’on considère ou selon les observations
dont on dispose :
◦ si hn ne dépend pas de n alors faire tendre le nombre n d’observations vers l’infini
revient à faire tendre T vers l’infini. Ce cadre est similaire à celui étudié précédemment en
temps continu et c’est la convergence des martingales, voire les théorèmes limites pour les
chaı̂nes de Markov ergodiques, qui sont utilisés pour démontrer les éventuelles consistance
et normalité asymptotique de l’EMV associé. C’est par exemple le cas de la chaı̂ne de
Markov correspondant au processus d’Ornstein-Uhlenbeck, dont nous avons calculé l’EMV
en début de chapitre et sur lequel nous allons revenir ci-dessous.
◦ si hn → 0 lorsque n → +∞ tandis que le produit T = nhn reste fixe (c’est le cas
de la subdivision uniforme), on est dans le cas d’observations de plus en plus raprochées
à l’intérieur d’un intervalle fixe. Cette situation a été étudiée lors de l’estimation par la
variation quadratique approchée d’un paramètre inconnu θ apparaissant dans la volatilité
σθ (en particulier pour estimer le paramètre σ lui-même s’il devait être inconnu, dans le
cas d’une volatilité constante). En revanche cette discrétisation n’est pas appropriée si le
paramètre inconnu apparaı̂t dans la fonction de dérive b car l’EMV n’est alors même pas
consistant.
◦ si hn → 0 et T → +∞ lorsque n → ∞ (par exemple hn = n−1/2 ), il s’agit
d’observations de plus en plus rapprochées à l’intérieur d’un intervalle de plus en plus
3.3. DISCRÉTISATION DES DIFFUSIONS 45

grand. Deux régimes asymptotiques rentrent alors en concurrence et c’est pourquoi l’étude
est en général plus délicate.
Remarquons que si l’on n’est pas dans le second cas, l’estimation de la volatilité σ
comme paramètre inconnu devient intéressante car nous ne disposons plus de l’approxima-
tion par la variation quadratique approchée.
Illustrons dans ce cas discret la mise en oeuvre de l’estimation par maximum de
vraisemblance sur deux exemples, le modèle de Black-Scholes et le processus d’Ornstein-
Uhlenbeck. Comme on l’a vu précédemment, il est suffisant pour Black-Scholes de se
consacrer à l’estimation des paramètres inconnus intervenant non pas dans ce modèle mais
plutôt dans celui du mouvement brownien avec dérive. Ainsi, soit X = (Xi hn )i∈{1,2,...,n} la
discrétisation du mouvement brownien avec dérive sur l’intervalle [0, T ], c’est-à-dire pour
tout i ∈ {1, 2, . . . , n},

Xihn = X(i−1)hn + µ hn + σ Bihn − B(i−1)hn , X0 = x ∈ R,
où θ = (µ, σ 2 ) ∈ Θ ⊂ R×]0, +∞[ est le paramètre bidimensionnel inconnu à estimer. La
densité jointe fθ de la chaı̂ne de Markov X est celle d’un vecteur gaussien n-dimensionnel
et l’on a
n
!
1 1 X
fθ (x1 , . . . , xn ) = exp − 2 (xi − xi−1 − µ hn )2 , (x1 , . . . , xn ) ∈ Rn ,
(2π σ 2 hn )n/2 2 σ hn i=1
où par convention x0 = x. D’où la log-vraisemblance est donnée pour tout (x1 , . . . , xn ) ∈
Rn par
n
n 2 1 X
log Ln (x1 , . . . , xn , θ) = − log(2π σ hn ) − (xi − xi−1 − µ hn )2 ,
2 2 σ 2 hn i=1
et l’on en déduit l’EMV bidimensionnel
n
!
1 1 X 2
θ̂n = Ȳn,hn , Yihn − Ȳn hn ,
hn T i=1

où Y est la suite définie par Yihn := Xihn − X(i−1)hn , i ∈ {1, 2, . . . , n}, et Ȳn,hn est la
moyenne empirique associée,
n
1 X
Ȳn,hn := Yihn .
n i=1
Notons que grâce à l’indépendance et à la stationnarité des accroissements browniens, la
suite Y est i.i.d. de loi N (µ hn , σ 2 hn ) : on obtient alors les mêmes conclusions que dans
le cas de variables gaussiennes i.i.d. vu en début de chapitre : les coordonnées µ̂n et σ̂n2
de l’EMV sont indépendantes et suivent respectivement la loi N (µ, σ 2 /T ) et celle de la
variable (σ 2 /n) Y , où Y suit la loi du χ2 à n − 1 degrés de liberté. Par ailleurs on peut
réécrire l’EMV comme
n  2  2 !
BT σ 2 X Bi hn − B(i−1) hn BT
θ̂n = µ + σ , √ − hn σ 2 ,
T n i=1 hn T
46 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

ce qui nous permet d’en déduire les convergences suivantes :


◦ si hn ne dépend pas de n alors lorsque n → +∞, on a que T → +∞, d’où la
consistance de l’EMV en utilisant la LGN pour les deux coordonnées (on sait que BT /T
tend vers 0 p.s. lorsque T → +∞). De plus le TCL ainsi que le lemme de Slutsky
entraı̂nent la normalité asymptotique de l’estimateur σ̂n2 au sens de la convergence en loi
suivante :

n σ̂n2 − σ 2 =⇒ N 0, 2σ 4 .
 
n→+∞

◦ si hn = T /n alors T reste fixe lorsque n → +∞ et aucune convergence n’a lieu


pour l’estimateur µ̂n , au contraire de σ̂n2 : bien que la quantité BT /T reste fixe, la présence
de hn devant ce terme entraı̂ne la convergence p.s. vers 0 lorsque n → +∞. Ainsi, le TCL
et le lemme de Slutsky entraı̂nent la même normalité asymptotique que précédemment.
◦ si hn → 0 et T → +∞ lorsque n → +∞, on obtient exactement les mêmes
conclusions que dans le cas hn constant.
À présent, étudions le cas du processus d’Ornstein-Uhlenbeck. On note X =
(Xi hn )i∈{1,2,...,n} la discrétisation de ce processus sur l’intervalle [0, T ], c’est-à-dire pour
tout i ∈ {1, 2, . . . , n},
Z ihn 
Xihn = X(i−1)hn − µ Xr dr + σ Bihn − B(i−1)hn , X0 = x ∈ R,
(i−1)hn

où θ = (µ, σ 2 ) ∈ Θ ⊂]0, +∞[2 est le paramètre inconnu à estimer. Comme il est difficile
de calculer les densités conditionnelles en utilisant la formule ci-dessus, tirons profit de
l’expression explicite du processus, c’est-à-dire
Z ihn
−µhn −µihn
Xihn = e X(i−1)hn + σ e eµr dBr
(i−1)hn
s
1 − e−2µhn
loi e−µhn X(i−1)hn + σ U,
= 2µ

où U suit la loi N (0, 1) et est indépendante de X(i−1)hn grâce à l’indépendance des ac-
croissements browniens. Afin d’utiliser la delta-method, supposons que hn = h ne dépende
pas de n et posons
s
1 − e−2µh
µ̃ := e−µh ∈]0, 1[ et σ̃ := σ > 0,

de sorte que si l’on note respectivement µ̂n et σ̂n2 les EMV des paramètres µ̃ et σ̃ 2 , alors
le couple (µ, σ 2 ) peut être estimé par l’EMV bi-dimensionnel
 
log(µ̂n ) 2 log µ̂n 2
− , − σ̂ .
h h(1 − µ̂2n ) n
3.3. DISCRÉTISATION DES DIFFUSIONS 47

Ainsi, on peut se restreindre à l’estimation du paramètre θ̃ := (µ̃, σ̃ 2 ) dans le modèle


AR(1) suivant :

Yi = µ̃ Yi−1 + σ̃ Ui ,

où Yi = Xih et la suite (Ui ) indicée par i ∈ {1, . . . , n} est i.i.d. de loi N (0, 1). Évidemment,
Y est un vecteur gaussien et pour tout i ∈ {1, . . . , n},
2i
 
i 2 1 − µ̃
Yi ∼ N µ̃ x, σ̃ .
1 − µ̃2

En particulier, la probabilité invariante est la loi normale centrée et de variance σ̃ 2 /(1−µ̃2 ).


Comme nous l’avons vue en début de chapitre, la densité jointe fθ de la chaı̂ne de Markov
Y est donnée par
n
!
1 1 X
fθ (y1 , . . . , yn ) = exp − 2 (yi − µ̃ yi−1 )2 , (y1 , . . . , yn ) ∈ Rn ,
(2πσ̃ 2 )n/2 2σ̃ i=1

où par convention y0 = x. En calculant la log-vraisemblance, on en déduit l’EMV bidi-


mensionnel θ̂n = (µ̂n , σ̂n2 ) :
Pn n
!
i=1 Y i−1 Y i 1 X 2
θ̂n = P n 2
, (Yi − Yi−1 µ̂n )
i=1 Yi−1 n i=1
n
!
Pn 2 X 2
Pn 2
Y i−1 U i σ̃ σ̃ ( Y i−1 U i )
= µ̃ + σ̃ P i=1
n 2
, Ui2 − i=1
P n 2
.
Y
i=1 i−1 n i=1
n i=1 Yi−1

Pn
En notant M la martingale discrète Mn := i=1 Yi−1 Ui , l’EMV se réécrit
n
!
2 X 2 2
Mn σ̃ σ̃ Mn
θ̂n = µ̃ + σ̃ , Ui2 − ,
[M, M ]n n i=1 n [M, M ]n

et les théorèmes de convergence des martingales discrètes (LGN et TCL du premier


chapitre) combinés à la LGN pour les chaı̂nes de Markov (pour la convergence p.s. de
[M, M ]n /n comme dans le cas du temps continu) et au lemme de Slutsky entraı̂nent
d’une part la consistance de l’EMV et d’autre part sa normalité asymptotique au sens de
la convergence en loi. Plus précisément, on a les convergences en loi des marginales
√ √
n (µ̂n − µ̃) =⇒ N 0, 1 − µ̃2 n σ̂n2 − σ̃ 2 =⇒ N 0, 2 σ̃ 4 .
  
et
n→+∞ n→+∞

3.3.2 Discrétisation par schéma d’Euler


Lorsque l’on observe la diffusion à des instants discrets ihn où i ∈ {1, . . . , n}, l’étude
précédente n’est valable que lorsque l’on est capable de déterminer la loi jointe de la chaı̂ne
48 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

de Markov (Xihn )i∈{1,...,n} , ce qui n’est pas toujours le cas (les densités conditionnelles de
Xihn sachant X(i−1)hn nous sont inconnues en dehors de certains cas particuliers comme
ceux que nous venons d’étudier). On met alors en oeuvre un schéma d’Euler, c’est-à-dire
une discrétisation de l’EDS du type
Z ti+1 Z ti+1
Xti+1 = Xti + b(r, Xr ) dr + σ(r, Xr ) dBr
ti ti

≈ Xti + b(ti , Xti ) (ti+1 − ti ) + σ(ti , Xti ) Bti+1 − Bti .

Plus précisément, si 0 = tn0 < tn1 < · · · < tnpn = T est une suite de subdivisions de
l’intervalle [0, T ], de pas tendant vers 0 lorsque n → +∞ (en général on prend la subdi-
vision uniforme donnée par tni = iT /n pour i ∈ {0, 1, . . . , n} et pn = n), on construit les
variables X̂tnni par le schéma récursif suivant : X̂0n = X0 et

X̂tnni = X̂tnni−1 + bθ (tni−1 , X̂tnni−1 ) (tni − tni−1 ) + σ(tni−1 , X̂tnni−1 ) (Btni − Btni−1 ).

La suite (X̂tnni )i=0,...,pn est une chaı̂ne de Markov dont les densités conditionnelles sont
gaussiennes. En effet, sachant que X̂tnni = xi , on a

X̂tnni = xi + bθ (tni−1 , xi ) (tni − tni−1 ) + σ(tni−1 , xi ) (Btni − Btni−1 ),

qui suit une loi gaussienne de paramètres

E[X̂tnni ] = xi + bθ (tni−1 , xi ) (tni − tni−1 ) et Var(X̂tnni ) = σ 2 (tni−1 , xi ) (tni − tni−1 ).

On obtient alors la densité de la loi jointe et donc la log-vraisemblance associée, qui


diffère de la log-vraisemblance pour la discrétisation de la diffusion elle-même (qui n’est
pas accessible) : on parle alors de “pseudo log-vraisemblance”.
Néanmoins, le schéma d’Euler défini ci-dessus converge-t-il vers la diffusion ? Pour
répondre positivement à cette question, il nous faut trouver une diffusion associée à cette
discrétisation, qui va converger en un certain sens vers la vraie diffusion. On considère
alors le processus (encore noté X̂ n ) passant par les points (tni , X̂tnni )i=0,...,pn en les reliant
de manière brownienne :

X̂tn = X̂tnni−1 + bθ (tni−1 , X̂tnni−1 ) (t − tni−1 ) + σ(tni−1 , X̂tnni−1 ) (Bt − Btni−1 ), t ∈ [tni−1 , tni ].

Notons que le processus X̂ n ne coı̈ncide pas avec la diffusion originelle X. On a le théorème


d’approximation suivant.
Théorème 3.3.1. On suppose que les fonctions bθ et σ sont continues sur [0, T ] et lips-
chitziennes en espace pour assurer l’existence et l’unicité de la solution X de l’EDS. On
suppose de plus qu’elles sont α-hölderiennes en temps pour un α ∈]0, 1[, c’est-à-dire qu’il
existe KT > 0 telle que pour tout x ∈ R,

|b(t, x) − b(s, x)| + |σ(t, x) − σ(s, x)| ≤ KT (1 + |x|) |t − s|α , s, t ∈ [0, T ].


3.3. DISCRÉTISATION DES DIFFUSIONS 49

Alors pour tout p ≥ 1, il existe Cp > 0 telle que pour tout n ∈ N∗ , on ait
" #
Cp
E sup |X̂tn − Xt |2p ≤ 2βp ,
t∈[0,T ] n

où β est le minimum entre α et 1/2. En particulier, si la diffusion est homogène, on


obtient " #
n 2p Cp
E sup |X̂t − Xt | ≤ p.
t∈[0,T ] n

Ce résultat est suffisamment fort pour nous permettre d’obtenir un résultat de


convergence p.s. en utilisant le lemme de Borel-Cantelli. En effet, par l’inégalité de
Chebyshev, on a pour tout ε > 0 et tout γ ∈]0, β[,
h i
E supt∈[0,T ] |X̂tn − Xt |2p
!
Cp
P nγ sup |X̂tn − Xt | > ε ≤ 2p −2γp
≤ 2p 2p(β−γ) .
t∈[0,T ] ε n ε n

Ainsi, la probabilité précédente est le terme général d’une série convergente dès lors que
2p(β − γ) > 1. Le paramètre p ≥ 1 étant arbitraire, choisissons-le de sorte que cette
condition soit satisfaite. Par le lemme de Borel-Cantelli, pour tout ω en dehors d’un
ensemble négligeable, il existe N (ω) ∈ N∗ tel que pour tout n ≥ N (ω), on ait

nγ sup |X̂tn (ω) − Xt (ω)| ≤ ε.


t∈[0,T ]

Autrement dit, pour tout γ ∈]0, β[, on a la convergence p.s. uniforme sur [0, T ] de X̂ vers
X à vitesse nγ :
lim nγ sup |X̂tn − Xt | = 0.
n→+∞ t∈[0,T ]

Dans le cas homogène on obtient la même convergence pour tout γ ∈]0, 1/2[.
Pour terminer l’étude statistique, donnons la pseudo log-vraisemblance obtenue
par la discrétisation via le schéma d’Euler dans le cadre du modèle CIR ergodique, pour
lequel la log-vraisemblance associée à la discrétisation temporelle de la diffusion n’est pas
calculable. Le schéma d’Euler considéré est le suivant :
 p 
Xih = X(i−1)h − b X(i−1)h − a h + σ X(i−1)h Bih − B(i−1)h , X0 = x > 0,

où le paramètre inconnu est

θ := (a, b, σ 2 ) ∈ Θ ⊂ {(u, v, w) ∈ R∗ ×]0, +∞[×]0, +∞[: 2u > w}.

Notons que h ne doit pas dépendre de n car dans le cas contraire, le modèle est modifié à
chaque fois que le nombre n d’observations change, ce qui n’a pas de sens du point de vue
50 CHAPITRE 3. MAXIMUM DE VRAISEMBLANCE

statistique. Après avoir calculé la densité jointe de la chaı̂ne de Markov (Xih )i∈{1,...,n} , on
en déduit la log-vraisemblance : pour tout (x1 , . . . , xn ) ∈ Rn ,
n  
X 1 2
 1 2
log Ln (x1 , . . . , xn , θ) = − log 2π σ xi−1 h + (xi − xi−1 + h (b xi−1 − a)) .
i=1
2 2 σ 2 xi−1 h

Après des calculs pénibles, on en tire alors l’EMV tridimensionnel de θ ainsi que les mêmes
conclusions (pour la consistance et la normalité asymptotique au sens de la convergence
en loi) que celles obtenues dans le cas du modèle CIR à temps continu.

Vous aimerez peut-être aussi