0% ont trouvé ce document utile (0 vote)
49 vues156 pages

Probastat 82

Transféré par

Esdra Alexis
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
49 vues156 pages

Probastat 82

Transféré par

Esdra Alexis
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Tristan Lorino

PROCESSUS STOCHASTIQUES

Février 2005
«
On appelle ça , un peu obscurément, la loi des
grands nombres. Par quoi l’on peut dire à peu près
que, si un homme se tue pour telle raison et un autre pour
telle autre, dès qu’on a affaire à un très grand nombre, le
caractère arbitraire et personnel de ces motifs disparaı̂t, et
il ne demeure... précisément, qu’est-ce qui demeure ? Voilà
ce que j’aimerais vous entendre dire. Ce qui reste, en effet,
vous le voyez vous-même, c’est ce que nous autres profanes
appelons tout bonnement la moyenne, c’est-à-dire quelque
chose dont on ne sait absolument pas ce que c’est. Permettez-
moi d’ajouter que l’on a tenté d’expliquer logiquement cette
loi des grands nombres en la considérant comme une sorte
d’évidence. On a prétendu, au contraire, que cette régularité
dans des phénomènes qu’aucune causalité ne régit ne pouvait
s’expliquer dans le cadre de la pensée traditionnelle ; sans
parler de mainte autre analyse, on a aussi défendu l’idée
qu’il ne s’agissait pas seulement d’événements isolés, mais de
lois, encore inconnues, régissant la totalité. Je ne veux pas
vous ennuyer avec les détails, d’autant que je ne les ai plus
présents à l’esprit, mais personnellement, il m’importerait
beaucoup de savoir s’il faut chercher là-derrière quelque
mystérieuse loi de la totalité ou si tout simplement, par une
ironie de la Nature, l’exceptionnel provient de ce qu’il ne se
produit rien d’exceptionnel, et si le sens ultime du monde
peut être découvert en faisant la moyenne de tout ce qui
n’a pas de sens ! L’une ou l’autre de ces deux conceptions
ne devrait-elle pas avoir une influence décisive sur notre
sentiment de la vie ? Quoi qu’il en soit, en effet, la possibilité
d’une vie ordonnée repose toute entière sur cette loi des
grands nombres ; si cette loi de compensation n’existait pas,
il y aurait des années où il ne se produirait rien, et d’autres
où plus rien ne serait sûr ; les famines alterneraient avec
l’abondance, les enfants seraient en défaut ou en excès et
l’humanité voletterait de côté et d’autre entre ses possibilités
célestes et ses possibilités infernales comme les petits oiseaux
quand on s’approche de leur cage. »

Musil, L’homme sans qualités.

Processus stochastiques 2
Sommaire

I SÉRIES CHRONOLOGIQUES 7
1 Introduction 8
1.1 Mesures spectrales — processus ARMA . . . . . . . . . . . . . . . . . . . . 10
1.2 Prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Prédiction sur le passé infini . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.3 Modélisation par les MA . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Théorème spectral et applications . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Équations ARMA canoniques . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7 Covariance et auto-corrélation des ARMA . . . . . . . . . . . . . . . . . . . 27

2 Modélisation 30
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Modélisations AR et MA — Estimations préliminaires . . . . . . . . . . . . 31
2.2.1 AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Estimation efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Modèles multiplicatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6 Envoi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.1 Critères de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.2 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Modèles autorégressifs non linéaires 44


3.1 Rappels sur les modèles autorégressifs linéaires . . . . . . . . . . . . . . . . 44
3.1.1 Cadre univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.2 Cadre multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.3 Retour au cadre univarié . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Modèles autorégressifs non linéaires lipschitziens . . . . . . . . . . . . . . . 47
3.2.1 Modèles hétéroscédastiques . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.2 Modèle autorégressif non linéaire à coefficients aléatoires . . . . . . . 49
3.3 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Chaı̂nes de Markov et stabilité . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Modèles ARCH et GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6 Modèles de diffusions limites des modèles GARCH . . . . . . . . . . . . . . 56

II THÓRIE DE MARKOV 58

3
SOMMAIRE

4 Introduction 59

5 Ergodicité 66

6 Entropie 69

III PROCESSUS STOCHASTIQUES 71


7 Généralités 72
7.1 Espaces gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.3 Principe d’invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4 Propriétés du brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.1 Variation quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.2 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.4.3 Théorème d’arrêt — Inégalité de Doob . . . . . . . . . . . . . . . . . 76
7.4.4 Intégrale de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.4.5 Équation de Langevin . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8 Calcul stochastique 80
8.1 Intégrale stochastique d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.1 Filtration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.2 Fonctions en escalier . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.1.3 Densité des fonctions en escaliers dans M 2 (R+ ) . . . . . . . . . . . . 82
8.1.4 Intégrale stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.2 L’intégrale stochastique comme martingale . . . . . . . . . . . . . . . . . . 82
8.3 Formule d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.2 Formule générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.3 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.4 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.3.5 Intégration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4 Formule de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.1 Formule de Cameron-Martin . . . . . . . . . . . . . . . . . . . . . . 87
8.4.2 Théorème de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.3 Critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9 Processus de comptage 89
9.1 Rappels concernant les martingales . . . . . . . . . . . . . . . . . . . . . . . 89
9.2 Processus à variation prévisible . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.3 Processus de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.1 Cas univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.2 Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.4 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.5 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.6 Théorie du produit intégral (ou produit infini) . . . . . . . . . . . . . . . . 93
9.7 Approche markovienne des processus de comptage . . . . . . . . . . . . . . 94

IV ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES 96

Processus stochastiques 4
SOMMAIRE

10 Introduction 97
10.1 Existence et unicité de solutions fortes . . . . . . . . . . . . . . . . . . . . . 97
10.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.3 Solutions faibles d’EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.3.1 Modèle de Cox – Ingersoll – Ross . . . . . . . . . . . . . . . . . . . . 99
10.3.2 Absolue continuité de la loi de diffusions sous changement de dérive 99
10.3.3 Équations linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.4 Autre EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.5 Pont brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

11 Propriétés des EDS 103


11.1 Caractère markovien des EDS . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11.1.1 Propriété de Markov des solutions des EDS . . . . . . . . . . . . . . 103
11.1.2 Générateurs et EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11.2 Équations différentielles stochastiques rétrogrades . . . . . . . . . . . . . . . 108
11.3 Lien avec les EDP semi-linéaires . . . . . . . . . . . . . . . . . . . . . . . . 110
11.3.1 Rappel sur la formule de feynman-Kac . . . . . . . . . . . . . . . . . 110
11.3.2 Généralisation de la formule de Feynman-Kac . . . . . . . . . . . . . 113
11.4 Applications des EDSR aux solutions de viscosité d’une famille d’EDP non
linéaires du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.4.1 Équation projective (forward ) . . . . . . . . . . . . . . . . . . . . . 113
11.4.2 Équation rétrogradee (backward ) . . . . . . . . . . . . . . . . . . . . 114

12 Statistique des diffusions 116


12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
12.2 Processus d’Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . . . . . . . . . 118
12.3 Markov et les diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
12.3.1 Étude des estimateurs du maximum de vraisemblance . . . . . . . . 124
12.4 Estimateurs empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

V MODÈLE LINÉAIRE GÉNÉRALISÉ 129


13 Introduction 130
13.1 Modèle linéaire classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
13.2 Modèle linéaire général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
13.2.1 Estimation par les moindres carrés ordinaires . . . . . . . . . . . . . 131
13.2.2 Estimation par les moindres carrés pondérés . . . . . . . . . . . . . . 131
13.2.3 Estimation par le maximum de vraisemblance sous l’hypothèse de
normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
13.2.4 Estimation robuste des écarts-types . . . . . . . . . . . . . . . . . . 135

14 Modèle linéaire généralisé 136


14.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
14.1.1 Les équations de vraisemblance . . . . . . . . . . . . . . . . . . . . . 138
14.1.2 Algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
14.1.3 Simplification lors de l’utilisation d’un lien canonique . . . . . . . . 141
14.1.4 Ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.1.5 Étude des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.2 Données binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.2.1 Méthode itérative de Newton-Raphson . . . . . . . . . . . . . . . . . 144
14.2.2 Méthode du scoring de Fisher . . . . . . . . . . . . . . . . . . . . . . 144
14.3 Modèle linéaire généralisé à effets mixtes . . . . . . . . . . . . . . . . . . . . 144

Processus stochastiques 5
SOMMAIRE

14.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144


14.3.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . 145

VI ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES 147


15 Quasi-vraisemblance 148
15.1 Vraisemblance marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.2 Vraisemblance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.3 Quasi-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.4 Méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . 150
15.5 Méthode de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
15.6 Conditions d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

16 Équations d’estimation généralisées 152


16.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
16.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.1 Estimation de β ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.2 Estimations de α et φ . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.3 Estimation de la variance de βˆ∗ . . . . . . . . . . . . . . . . . . . . . 154
16.3 Différentes matrices de travail R(α) . . . . . . . . . . . . . . . . . . . . . . . 154
16.4 Extensions des GEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

Processus stochastiques 6
Première partie

SÉRIES CHRONOLOGIQUES

7
1

Introduction

Définition 1.1 — On appelle processus une suite (Xn )n de variables aléatoires.

Définition 1.2 — Un processus (Xt )t à valeurs réelles ou complexes est dit du second
ordre si
E |Xt |2 < ∞
 
∀t ∈ T .
Pour un processus de second ordre, on appelle covariance la fonction Γ définie sur
T × T par  
Γ(s, t) = E (Xs − E(Xs ))(Xt − E(Xt )) .

Remarques — Il est utile de noter que :


1. L2 (P) ⊂ L1 (P) ;
2. si X est réelle, alors Γ est réelle, symétrique et semi-définie positive : ∀t1 , . . . , tn ∈
T, ∀a ∈ Cn ,
X
ai Γ(ti , tj )a¯j > 0 ;
i,j

3. Γ semi-définie positive au sens complexe ⇒ Γ hermitienne, i.e. Γ(s, t) = Γ(t, s) ;


4. Γ réelle et semi-définie positive ⇒ Γ symétrique, i.e. Γ(s, t) = Γ(t, s).

Théorème 1.1 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T réel du second ordre de covariance Γ.

Théorème 1.2 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T gaussien centré de covariance Γ.

Définition 1.3 — Un processus réel (Xt )t est dit gaussien si ∀n, ∀(t1 , . . . , tn ) ⊂ T ,
la variable aléatoire vectorielle (Xt1 , . . . , Xtn ) est gaussienne. Un processus gaussien est du
second ordre.

8
1. INTRODUCTION

Définition 1.4 — Un processus du second ordre est dit centré si E(Xt ) = 0 , ∀t ∈ T .

Définition 1.5 — Un processus du second ordre (Xn )n est dit stationnaire au sens
large si la moyenne E(Xn ) est constante et si la covariance Γ(n, m) ne dépend que de la
différence n − m, i.e. ∃γ : Z → C telle que
Γ(n, m) = γ(n − m)
h  i
γ(n) = E Xn − E(Xn ) X0 − E(X0 )

γ(n) = E(Xn X0 ) si les variables sont centrées

E(Xn ) = E(X0 ) ∀n .

Notation — On notera SLC un processus du second ordre stationnaire au sens large


et centré.

Définition 1.6 — Le coefficient de corrélation ρ(n) est une mesure de la dépen-


dance entre l’instant 0 et l’instant n :
γ(n)
ρ(n) = .
γ(0)
Si ρ est proche de 1, la mémoire est dite « longue ».

Remarque — γ est une fonction semi-définie positive telle que :


1. γ(0) est réel, positif ou nul ;
2. γ(n) = γ(−n) ;
3. |γ(n)| 6 γ(0) , ∀n.
Si le SLC est réel, alors γ est réelle et γ(n) = γ(−n).

Proposition 1.1 — Si γ : Z −→ R est paire et semi-définie positive, alors il existe un


SLC gaussien de fonction de covariance γ.

Remarque — Le processus gaussien qui vient d’être construit a la propriété suivante :


P(Xn1 ∈ A1 , . . . , Xnk ∈ Ak ) = P(Xn1 +n ∈ A1 , . . . , Xnk +n ∈ Ak ) .

Définition 1.7 — Un processus (Xn )n est dit stationnaire au sens strict si


∀k,n1 , . . . , nk ,n,
P(Xn1 ∈ A1 , . . . , Xnk ∈ Ak ) = P(Xn1 +n ∈ A1 , . . . , Xnk +n ∈ Ak ) .

Théorème 1.3 (Ergodicité) — Soit f (X0 , . . . ,Xd ) ∈ L1 (Ω, A, P). Alors


N
1 X p.s. 
f (Xi , . . . , Xi+d ) −→ E f (X0 , . . . , Xd ) .
N i=1

Processus stochastiques 9
1. INTRODUCTION

1.1 Mesures spectrales — processus ARMA

Soit Π = R/2πZ le tore. On note e1 (t) = eit , en (t) = eint et ēn (t) = e−int = e−n (t). La
mesure de Lebesgue est invariante par translation :
Z Z
f (x) dx = f (x + u) dx , ∀u ∈ Π .
Π Π

(en )n est un système orthonormé dans L2 (λ), où λ est la mesure de Lebesgue.

Z
||en ||22 = |en |2 dλ

= en e¯n dλ

= 1 dλ
Π
Z
< en ,em > = en e¯m dλ

= en−m dλ
Π

0 si n 6= m
=
1 si n = m .

P+∞ P+∞
−∞ an en converge dans L2 (λ) ssi −∞ |an |2 < ∞.

l2 (C) −→ L2C (Π)


P+∞
(an )n ∈ 7−→ −∞ an en : isométrie bijective

X 2 X X
an en = < an en , an en >
2
XX
= an ām < en , em >
n m
+∞
X
= |an |2 .
−∞

Rappel — Une isométrie est toujours injective ; ici, elle est de plus surjective.

{en }n est une base orthonormale de L2 (λ) : pour f ∈ L2 (λ),


+∞
X
f= an en ,
−∞

f e−n dλ, qui est le ne coefficient de Fourier de f (noté fˆ(n)). Nous avons
R
avec an =
+∞
X
< f, en > = < ak ek , en > = an .
−∞

Processus stochastiques 10
1. INTRODUCTION

f 7−→ (fˆ(n))n∈Z est la transformation de Fourier. C’est une isométrie de L2C (Π) sur
lC2 (Z). Si µ est une mesure bornée sur Π, sa transformée de Fourier est la fonction Fµ ou µ̂
définie sur Z par Z
Fµ(n) = en dµ .
Π

Propriété 1.1 — L’application µ 7−→ µ̂ est injective.

Théorème 1.4 (Herglotz) — La fonction γ sur Z est une covariance si et seulement


si il existe une mesure positive µ sur Π telle que
Z
γ(n) = en dµ .
Π

Définition 1.8 — Si X est un SLC de covariance γX , la mesure µX telle que


Z
γX (n) = en dµX

s’appelle la mesure spectrale de X. De plus, si µX a une densité par rapport à λ, i.e.


µX = fX .λ (pour fX ∈ L1+ (λ)), cette densité s’appelle la densité spectrale.

Rappel — (µn ) converge étroitement vers µ si et seulement si ∀f ∈ Cb ,


Z Z
f dµn −→ f dµ .

Proposition 1.2 — Si (Xnk ) est une suite de SLC telle que, pour tout n, lim Xnk
k→∞
existe dans L2 , si on appelle Xn cette limite, alors le processus X = (Xn ) est un SLC et
µX est la limite étroite des µXk .

+∞
X
Proposition 1.3 — Si |γX (n)|2 < ∞, alors µX est la mesure ayant pour densité
−∞
la fonction
+∞
X
γX (k)e−k .
−∞

+∞
X P
De même si |γX (n)| < ∞ (et dans ce cas, γX (k)e−k est continue).
−∞

Définition 1.9 — On appelle bruit blanc de variance σ 2 une suite de v.a. réelles,
centrées, appartenant à L2 , de variance σ 2 et 2 à 2 non corrélées. On note (Un ) ∈ BB(σ 2 ).

Nota — Un bruit blanc est un SLC.

Processus stochastiques 11
1. INTRODUCTION

Proposition 1.4 — Un SLC U est un BB(σ 2 ) si et seulement si µU = σ 2 λ.

Proposition 1.5 — Si X est un SLC et si a ∈ l1 (Z), alors le processus Y défini par


+∞
X
Yn = ak Xn−k
−∞

est un SLC dont la mesure spectrale µY est donnée par


+∞
X 2
µY = ak e−k µX .
−∞

Définition 1.10 — L’opération de passage de X à Y s’appelle une opération de


filtrage.
P On dit que Y est la transformée de X par le filtre de fonction de transfert
f = ak e−k .

Proposition 1.6 — Si U est un BB(σ 2 ) et si a ∈ l2 (Z), alors


+∞
X
Yn = ak Un−k
−∞

définit un SLC de mesure spectrale

+∞
X 2
ak e−k .σ 2 λ .
−∞

Définition 1.11 (MA) — Si dans la proposition précédente, on suppose ak = 0 pour


k < 0, le processus Y obtenu s’appelle un MA(∞) 1 . Si de plus ak = 0 pour k > q, le
processus Y s’appelle un MA(q).

Exemple — Le processus

Xn = Un + ρUn−1 + · · · + ρk Un−k + · · ·
= Un + ρ(Un−1 + ρUn−2 + · · · )
= Un + ρXn−1

est un processus autorégressif d’ordre 1.

Proposition 1.7 — Si |ρ| =


6 1 et si U est un SLC ou un BB, il existe un SLC X tel
que
Xn − ρXn−1 = Un , ∀n .

1. MA pour moving average., c.-à-d. moyenne mobile.

Processus stochastiques 12
1. INTRODUCTION

Définition 1.12 (ARMA) — On appelle processus ARMA d’ordre (p, q) un SLC


réel X satisfaisant à une équation du type
a0 Xn + a1 Xn−1 + · · · + ap Xn−p = b0 Un + b1 Un−1 + · · · + bq Unq ,
avec U ∈ BB et ai ,bj ∈ R.

Pq
Moving average MA(q) Xn = k=0 bk Un−k .

Pp
Auto-regressive AR(p) Un = k=0 bk Xn−k .

ARMA (p,q) a0 Xn + a1 Xn−1 + · · · + ap Xn−p = b0 Un + b1 Un−1 + · · · + bq Unq .

On note

P (z) = a0 + a1 z + · · · + ap z p

et

Q(z) = a0 + a1 z + · · · + aq z q .

Définition 1.13 — Soit B l’opérateur de retard (shift) :


(BX)n = Xn−1 et (B k X)n = Xn−k .
La définition revient donc à
P (B) · X = Q(B) · U .
Cette équation est appelée équation ARMA.

Théorème 1.5 — Si Z est un SLC et P un polynôme n’ayant pas de racines de module


1, alors il existe un SLC X tel que P (B)X = Z.

Corollaire 1.1 — Si P est un polynôme n’ayant pas de racines de module 1, il existe


des ARMA(p,q), i.e. des SLC réels X tels que P (B)X = Q(B)U .

Proposition 1.8 — Si X est un ARMA solution de P (B)X = Q(B)U où U ∈ BB(σ 2 ),


alors X a une densité spectrale égale à
|Q ◦ e−1 |2 2
σ .
|P ◦ e−1 |2

Définition 1.14 — On dit qu’un ARMA est un processus à spectre rationnel.

Processus stochastiques 13
1. INTRODUCTION

1.2 Prédiction linéaire


 
Soient Y,X1 , . . . ,Xn dans L2 . On cherche Ŷ = b+a1 X1 +· · ·+an Xn tel que E (Y − Ŷ )2
soit minimum.

Théorème 1.6 — La meilleure prédiction de Y par une fonction affine X =


(X1 , . . . ,Xn )t est donnée par
n
X 
Ŷ = E(Y ) + ai Xi − E(Xi ) ,
i=1

i.e.

Ŷ = E(Y ) + at X − E(X)


avec a racine du système 


ΓX a = cov(Xi ,Y ) .
De plus, si ΓX est inversible, on a

V ar(Y − Ŷ ) = V ar(Y ) − at ΓX a ,

où V ar(Y − Ŷ ) est la variance résiduelle.

Proposition 1.9 (Algorithme de Dubin-Levinson) — Soit X un SLC. On suppose


que γX (0) > 0. Soit X̂n+1 = Φn1 Xn + Φn2 Xn−1 + · · · + Φnn X1 la meilleure prédiction de
Xn+1 en fonction de Xn ,Xn−1 , . . . . Soit vn = ||Xn+1 − X̂n+1 ||2 l’erreur de prédiction. Alors
les Φnj et les vn sont données par les 3 équations de récurrence suivantes :

γ(n)− n−1
P
j=1 Φn−1,j γ(n−j)
 Φnn =

vn−1 ,
Φ = Φn−1,j − Φnn Φn−1,n−j ,
 nj

vn = vn−1 (1 − Φ2nn ) ,

avec les conditions initiales Φ11 = γ(1)/γ(0) et v0 = γ(0).

Définition 1.15 — On appelle fonction d’autocorrélation partielle la fonction


r(n) définie par
r(n) = φn,n , n>1.

Remarque — r(n) grand pour n grand : « mémoire longue ».

Proposition 1.10 —

r(n) = corr Xn+1 − projH (Xn+1 ) , X1 − projH(X1 )
< Xn+1 − projH (Xn+1 ) , X1 − projH (X1 ) >
= ,
kX1 − projH (X1 )[Link]+1 − projH (Xn+1 )k

avec H = ev(X2 , . . . ,Xn ).

Processus stochastiques 14
1. INTRODUCTION

Remarque —

ev(X1 , . . . ,Xn ) = H ⊕ R X1 − projH (X1 ) .

Remarque — La connaissance de r(n) entraı̂ne celle des γ(n)/γ(0).

Proposition 1.11 (Algorithme de l’innovation) — Soit X un SLC. (Xn − X̂n ) est


une suite de v.a. deux à deux non corrélées. Par conséquent, (Xk − X̂k )k=1,...,n constituent
une base de l’espace vectoriel ev(X1 , . . . ,Xn ) avec la convention X̂1 = 0. On pose
n
X
X̂n+1 = θn,j (Xn+1−j − X̂n+1−j ) .
j=1

Alors les θn,j et les vn sont données par les 3 équations de récurrence suivantes :

 v0 = Γ(1,1) ,

Γ(n+1,k+1)− k−1
P
j=0 (θk,k−j −θn,n−j θn,n−j )vj
θn,n−k = vk k = 0,1, . . . ,n − 1 ,
 Pn−1 2
vn = Γ(n + 1,n + 1) − j=0 θn,n−j vj .

1.3 Prédiction sur le passé infini

Soit X un processus du second ordre centré. Soient

HnX = ev(Xi ,i 6= n)
X
limites dans L2 de combinaisons linéaires des Xi =

= ak Xn−k .
finie

HnX est une suite croissante (HnX ⊂ Hn+1


X
).

Notations — On note
\
X
H−∞ = HnX
n
[
X
H∞ = HnX .
n

X
Définition 1.16 — H−∞ est appelé le « passé infini ».

Proposition 1.12 — On a
X
H−∞ ⊆ HnX ⊆ Hn+1
X X
⊆ H∞ .

Définition 1.17 — Un processus du second ordre est dit singulier si


X X
H∞ = H−∞ .

Processus stochastiques 15
1. INTRODUCTION

Définition 1.18 — Un processus du second ordre est dit régulier si


X
H−∞ = {0} .

Remarque — Un processus à la fois singulier et régulier est identiquement nul.

Lemme 1.1 — Si H est un espace de Hilbert et Hn une suite croissante (respectivement


décroissante) de sous-espaces fermés de H, alors pour tout x de H, la suite de projections
projHn (x) converge vers projH∞ (x), où H∞ = ∪Hn (resp. H∞ = ∩Hn ).

Théorème 1.7 (Décomposition de Wold) — Si X est un processus du second ordre


centré, il existe deux processus X r et X s , respectivement régulier et singulier, orthogonaux
entre eux et tels que
Xn = Xnr + Xns

i.e.
r s
HnX = HnX ⊕ HnX .
Cette décomposition est unique. De plus,
s
X X
H−∞ = H∞ .

Notation — On note pn = projHnX .

Remarque —
Xns = p−∞ (Xn )

Proposition 1.13 — Si X est un SLC, il existe une isométrie B de H X sur lui-même


telle que
(BX)n = Xn−1 .
De plus,
Bpn = pn−1 B .

Remarque —
pn (X) = lim p(Xn ,Xn−1 ,...,Xn−p ) (X) .
p→∞

Proposition 1.14 — Soit X un SLC. Alors le processus


Un = Xn − pn−1 (Xn )
est un BB non nul ssi X n’est pas singulier. De plus, on a
p∞ B = Bp∞ ,
2 detΓn+1
σU = lim
n→∞ detΓn

et

BUn = Un−1 .

Processus stochastiques 16
1. INTRODUCTION

Définition 1.19 — Ce processus s’appelle l’innovation de X.

Corollaire 1.2 — Si X est un SLC, les parties singulière et régulière de sa décompo-


sition de Wold sont des SLC.

Proposition 1.15 — Les 3 énoncés suivants sont équivalents :


1. X est régulier ;
2. il existe un BB U tel que HnX = HnU , ∀n (U est l’innovation) ;
3. il existe un BB W et une suite c ∈ l2 (N) telle que 1

X
Xn = ck Wn−k .
0

Remarque Cette proposition signifie « l’identité » entre les processus réguliers et les
MA(∞).

Proposition 1.16 — Si W est un BB tel que HnW = HnX ∀n, alors il existe des
scalaires λn tels que (|λn |)n soit une suite constante et

wn = λn Un ,

où U est l’innovation de X.

Remarque — Ceci signifie l’unicité « essentielle » du bruit blanc telle que voulue en
(2) de l’avant-dernière proposition — cependant qu’il n’y a pas unicité en (3).

Proposition 1.17 — Un SLC X est un MA(q) ssi γX (n) = 0 dès que |n| > q.

Remarque — Si X est un processus gaussien, l’innovation est une suite de v.a.


gaussiennes indépendantes, centrées et de même variance.

1.4 Estimation

1.4.1 Moyenne

Soit x1 , . . . ,xn une série expérimentale qui est une réalisation de X1 , . . . ,Xn , processus
stationnaire large que l’on notera X.
1
X̄n = (X1 + · · · + Xn )
n
est un estimateur (sans biais) de la moyenne m. Est-il convergent ?

1. W n’est pas forcément l’innovation — mais on peut prendre l’innovation pour W .

Processus stochastiques 17
1. INTRODUCTION

Proposition 1.18 —
lim Var(X̄n ) = µX ({0}) .
n→∞

Théorème 1.8 — Si µX ({0}) = 0, alors X̄n converge vers m en moyenne quadratique


(i.e. dans L2 ). De plus, si X a une densité fX continue en 0, alors X̄n converge p.s. vers
m.

Théorème 1.9 — Si
+∞
X
Xn = b + aj Zn−j ,
j=−∞

où a ∈ l1 et (Zn )n est une suite de v.a. i.i.d. centrées et de variance σ 2 , et si


+∞
X
α= aj 6= a
−∞

alors

√ L
nX̄n −→ N (b , α2 σ 2 ) .

1.4.2 Covariance

Soit N la longueur de la série. On suppose qu’elle est centrée. On désire estimer la


covaraince. Soit ∀k > 0,
N −k
1 X
γ̃X = Xi Xi+k .
N − k i=1
Il est sans biais. Cependant un problème demeure : la fonction γ̃ ainsi définie n’est pas
nécessairement semi-définie positive.

Définition 1.20 — On définit


N −k
1 X
γ̂ = Xi Xi+k ,
N i=1

N
avec N > 50 et k 6 4.

Proposition 1.19 — γ̂ est un estimateur asymptotiquement sans biais.

Définition 1.21 — On définit


γ̂(k)
ρ̂(k) = .
γ̂(0)

Processus stochastiques 18
1. INTRODUCTION

P
Théorème 1.10 — Si X est un SLC gaussien tel que k∈Z < ∞, alors :
1. γ̂(k) est un estimateur p.s. convergent de γ(k) ;
2. on a ∀K ∈ N,
√  L
N γ̂N (i) − γ(i) i=0,...,K −→ N (0,Γ) ,

où
X 
Γij = γ(m).γ(m + i + j) + γ(m).γ(m + i − j) .
m∈Z

De plus
h  i
lim N E γ̂N (i) − γ(i) γ̂N (j) − γ(j) = Γij .
N →∞

Remarque — X
|k|γ(k) < ∞ ⇐⇒ γ ∈ l2 (Z) .
k∈Z

Théorème 1.11 — Sous les mêmes hypothèses que précédemment, on a que


 
 L  1
ρ̂(1),ρ̂(2), . . . ,ρ̂(k) −→ N ρ(1), . . . ,ρ(k) , W ,
n

où la formule de Bartlett donne


+∞ 
X 
Wij = ρ(k+i)ρ(k+j)+ρ(k−i)ρ(k+j)+2ρ(i)ρ(j)ρ(k)2 −2ρ(i)ρ(k)ρ(k+j)−2ρ(j)ρ(k)ρ(k+i)2 .
k=−∞

Entre autre,
+∞
X  2
Wii = ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k) .
k=1

1.4.3 Modélisation par les MA

MA(q) : γ(i) = 0 si i > q. Pour i > q,

Wii = 1 + 2ρ(1)2 + · · · + 2ρ(q)2


= ∆ii .

Proposition 1.20 — √
N ρ̂(i) N (0 , ∆ii ) .

Processus stochastiques 19
1. INTRODUCTION

Remarque — On peut faire le test de l’hypothèse H0 : le MA est d’ordre inférieur


ou égal à q. Pour le niveau α = 0,05, on rejette l’hypothèse si

1,96 ∆
|ρ̂(i)| > √
N
pour un i > q.
2
Remarque — Modéliser un MA, c’est déterminer q,b0 , . . . ,bq ,σU ; pour ce faire :
1. on choisira le premier q pour lequel on ne rejette pas l’hypothèse de base ;
2. on résoudra ensuite le système
q
X
2
γ̂(k) = σU bl bl−k .
l=k

Définition 1.22 — Si X est un SLC, on appelle périodogramme la fonction aléatoire


N
1 X
IN = | Xk e−k |2 .
N
k=1

Proposition 1.21 — X
IN = γ̂(k)e−k .
|k|<N

Remarque — Dans les bons cas,


+∞
X
fX = γ(k)e−k ,
−∞

d’où IN apparaı̂t comme étant un estimateur empirique de fX .

Théorème 1.12 — Les mesures (IN λ) convergent p.s. étroitement vers µX lorsque X
est stationnaire strict et ergodique.

P
Théorème 1.13 — Si X est un SLC gaussien et si |k|.|γ(k)| < ∞ pour toute
fonction borélienne bornée Φ à valeur dans Rd , on a
 
lim E IN (Φ) = I(Φ)

et
√  L 
N IN (φ) − I(Φ) −→ N 0,Γ(Φ) ,

avec
Z
Γ(Φ) = ΦΦt fX
2
dλ .

Processus stochastiques 20
1. INTRODUCTION

1.5 Théorème spectral et applications

Soit f : Z → C , f ⊂ l2 (Z). Alors f s’écrit sous la forme


+∞
X
f (n) = fˆk e−k (n) .
−∞

On note Z
γX (n) = en dµX .

Définition 1.23 — Si (E,E,µ) est un espace mesuré σ-fini, on appelle mesure aléa-
toire de base µ sur (E,E) toute isométrie de L2C (µ) dans L2C (Ω,A,P).

Soit Eµ = {A ∈ E | µ(A) < ∞}. On note Z une mesure aléatoire. Soit A ∈ Eµ : 1A ⊂


L2C (µ). Z(1A ) = Z(A) est l’image de 1A par l’isométrie. Z est bien une mesure :
(i) Z(∅) = 0 ;
(ii) si A,B ∈ Eµ et A ∩ B = ∅, alors
Z
 
E Z(A)Z(B) = 1A 1B dµ
= 0,

i.e. Z est à accroissements orthogonaux ;

(iii) si A,B ∈ Eµ et A ∩ B = ∅, alors

Z(A ∪ B) = Z(A) + Z(B) ;

(iv) on a
 ∞
(An ) ∈ Eµ , An ∩ Am = ∅ X
P ∞ =⇒ 1An converge dans L2 (µ) vers 1∪An
1 µ(An ) < ∞ 1

X
Z(∪An ) = Z(An ) .
1

Définition 1.24 — Si toutes les v.a. Z(f ) pour f ∈ L2 (µ) sont centrées, on dira que
Z est centrée.

Notation — On note

Z : L2C (µ) −→ L2C (Ω,A,P)


Z Z
f 7−→ Z(f ) = f dZ = f (u)dZ(u)

Processus stochastiques 21
1. INTRODUCTION

Réciproquement — Si Z vérifie les points (i), (ii) et (iv), on lui associe une mesure
aléatoire : pour A ∈ Eµ ,
XN XN
Z( αi 1Ai ) = αi Z(Ai ) .
i=1 i=1

Lemme 1.2 — Si I est une isométrie de E ⊂ H dans H 0 , il existe un prolongement


unique I de I dans E. On a
I(E) = I(E) .

Remarque — La mesure aléatoire est appelée processus spatial (ou champ


spectral).

Proposition 1.22 — Il existe une gaussienne centrée X indexée par Eµ telle que
 
E X(A)X(B) = µ(A ∩ B) .

Théorème de Karhunen Si X est un processus du second ordre centré, défini sur


(Ω,A,P), et s’il existe un espace (E,E,µ) et une fonction a tels que la covariance de X
s’écrive Z
E[Xs X t ] = a(s,u)a(t,u) dµ(u)
E

(quels que soient t et a(t,.) ∈ L2C (µ)), alors il existe une mesure aléatoire Z de base µ telle
que
Z
Xt = a(t,u) dZ(u) .
E

Remarque — On a 
Z a(t,.) = Xt .

Théorème 1.14 (Représentation spectrale) — Si X est un SLC, il existe une


mesure aléatoire ZX de mesure µX telle que
Z
Xn = en dZX .
Π

Nota —
Xn = ZX (en ) .

Proposition 1.23 — Si µX est à support fini, alors il existe des v.a. Aj non corrélées
et des tj ∈ Π tels que X
Xn = Aj eintj .

Processus stochastiques 22
1. INTRODUCTION

Définition 1.25 — U est un processus spatial s’il existe une certaine mesure ν telle
que ∀A,B boréliens,  
E U (A)U (B) = ν(A ∩ B) .

Proposition 1.24 — Soit X un SLC. Les quatre propositions suivantes sont équiva-
lentes :
(i) il existe un BB U et a ∈ l2 (Z) tels que
+∞
X
Xn = ak Un−k ;
k=−∞

(ii) il existe c ∈ l2 (Z) telle que


+∞
X
γX (n − m) = ck−n c̄k−m ;
k=−∞

(iii) X a une densité ;


(iv) X a une densité de la forme
+∞
X
| dk e−k |2
k=−∞
2
avec d ∈ l .

Remarque — Il n’y a pas unicité dans (ii) et (iv) (et (i)). La densité spectrale est
unique ; son écriture, non.

Proposition 1.25 — Si X est un SLC, les trois propriétés suivantes sont équivalentes :
(i) X est régulier ;
P∞
(ii) X a une densité spectrale de la forme | k=0 ak e−k |2 ;
(iii) il existe un BB U et a ∈ l2 (N) tels que
+∞
X
Xn = ak Un−k .
k=0

Théorème 1.15 (Szego - Kolmogorov) — Si X est un SLC et σ 2 est la variance


de son innovation, si µX = fX .λ + ν est la décomposition de Lebesgue de µX par rapport à
λ, alors Z 
σ 2 = exp log fX dλ ,
Π

et si σ 2 > 0 (i.e. le processus n’est pas singulier), alors fX .λ et ν sont les mesures spectrales
respectivement des parties régulière et singulière de la décomposition de Wold de X.

Corollaire 1.3 — Soit X un SLC ayant une densité spectrale fX . Alors

X régulier ⇐⇒ log(fX ) ∈ L1 (λ) .

Processus stochastiques 23
1. INTRODUCTION

Théorème 1.16 — Si X est un SLC et f ∈ L2 (µX ), alors le processus Y défini par


Z
Yn = en f dZX

est un SLC de mesure spectrale


µY = |f |2 µX .

Définition 1.26 — On l’appelle l’image de X par le filtre de réponse f et on note

Y = Af X .

Remarque — On a
ZY (g) = ZX (f g)

pour tout g ∈ L2 (µY ) = L2 |f |2 µX .

Définition 1.27 — Le filtre passe-bande est le filtre

f = 1B ,

pour un ensemble B ⊂ Π.

Définition 1.28 — f est appelée fonction de transfert.

Proposition 1.26 — Si U est un BB et a ∈ l2 (Z), alors le processus


+∞
X
Xn = ak Un−k
−∞

est égal à Af U , où


+∞
X
f = ak e−k .
−∞

On obtient de cette façon tous les processus Af U pour f ∈ L2 (µ).

Proposition 1.27 — Si X est un SLC, si f ∈ L2 (µX ) et g ∈ L2 (|f |2 µX ), alors


f g ∈ L2 (µX ) et 
Af g (X) = Ag Af (X) .

Lemme 1.3 — Si Y = Af X et Z = Ag X et si Yn = Zn pour un n, alors f = g dans


L2 (µX ).

Théorème 1.17 — Si Y = Ah X, il existe un filtre Ak tel que X = Ak Y ssi



µX {h = 0} = 0 ,

et dans ce cas, k = 1/h.

Processus stochastiques 24
1. INTRODUCTION

Remarques —
P+∞
1. Yn = −∞ ck Xn−k est la « convolution » sur Z. Le passage de Y à X la « décon-
volution » ;
P+∞
2. Soit Yn = −∞ ck Xn−k : si n est le temps, le filtre n’est pas réalisable (car il faut
connaı̂tre le futur) ;
P+∞
3. Soit Yn = 0 ck Xn−k : si n est le temps, le filtre est réalisable et qualifié par suite
de causal.

Notation — On considère un ARMA :

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q


P (z) = 1 + a1 + · · · + ap z p
Q(z) = 1 + b1 + · · · + bq z q
hp = P ◦ e−1
hq = q ◦ e−1
Ahp X = Ahq U .

On notera
Ap X = AQ U .

Théorème 1.18 — Si P n’a pas de racine de module 1, alors il existe un unique SLC
X tel que
Ap X = AQ U .

Théorème 1.19 (Fejer - Riesz) — F est une fraction rationnelle telle que F ◦ e−1
soit réelle positive et intégrable ssi il existe une fraction rationnelle irréductible Q/P telle
que pour tout z de module 1, on ait
2
Q
F (z) = (z) ,
P

avec P sans racine de module 1.

Lemme 1.4 — ∀u ∈ , u 6= 0, si |z| = 1, alors


1 z
(z − u)(z − ) = − |z − u|2 .
ū ū

Remarque — Soit f : Π → R définie par


2
Q
f (t) = ◦ e−1 (t) .
P

Cette écriture n’est pas unique. On peut multiplier Q/P par :


(i) des constantes de module 1 ;
(ii) z m avec m ∈ Z ;

Processus stochastiques 25
1. INTRODUCTION

(iii) |u| z−(1/ū)


z−u , avec u 6= 0.

Définition 1.29 — Un produit de fonctions d’un de ces trois types s’appelle un


produit de Blaschke.

Proposition 1.28 — Deux fractions rationnelles ont des modules égaux sur C =
{|z| = 1} ssi leur produit est un produit de Blaschke.

1.6 Équations ARMA canoniques

Rappel — Si u 6= 0,
1
|1 − ue−1 | = |u|2 .|1 − e−1 |2 .

Lemme 1.5 — Si P n’a pas de racine de module 1, alors


+∞
Q X
(z) = ck z k
P −∞

pour z dans une couronne ouverte contenant {|z| = 1}. De plus, les ck tendent vers 0
exponentiellement vite lorsque z → ±∞. Enfin, si toutes les racines de P sont de module
supérieur à 1, alors ck = 0 pour k < 0.

Proposition 1.29 — Si AP X = AQ U avec P sans racine de module 1, alors


+∞
X
Xn = ck Un−k ,
−∞

les (ck )k étant ceux du lemme précédent. Si P a toutes ses racines de module supérieur à
1, alors
+∞
X
Xn = ck Un−k ,
k=0

et en particulier X est régulier.

Proposition 1.30 — Si Q a toutes ses racines de module supérieur à 1, alors il existe


(dk )k tendant exponentiellement vers 0 et telle que
+∞
X
Un = dk Xn−k ,
k=0

et en particulier X est régulier.

Processus stochastiques 26
1. INTRODUCTION

Corollaire 1.4 — Si P et Q ont toutes leurs racines de module supérieur à 1, alors


U est un multiple de l’innovation de X.

Définition 1.30 — P est dit sublime (respectivement quasi-sublime) si toutes les


racines de P sont de module supérieur à 1 (resp. supérieur ou égal à 1).

Théorème 1.20 — Si X est un ARMA, il existe deux polynômes P et Q et un bruit


blanc U tels que :
(i) AP X = AQ U ;
(ii) P est sublime et Q quasi-sublime ;
(iii) P et Q sont premiers entre eux et P (0) = Q(0) = 1.
De plus, pour toute relation AP 0 X = AQ0 W satisfaite pr X, on a d◦ P 6 d◦ P 0 et d◦ Q 6
d◦ Q0 . Si p et q sont les degrés respectivement de P et Q, on dira que X est de type
minimal (p,q). La relation AP X = AQ U avec les propriétés (ii) et (iii) est unique et
s’appelle la relation canonique de X. Toute équation AP 0 X = AQ0 W avec d◦ P = d◦ P 0
et d◦ Q = d◦ Q0 est dite de type minimal.

Proposition 1.31 — Si AP X = AQ U est la relation canonique de X, alors U est


l’innovation de X.

Proposition 1.32 — Un SLC régulier X est un AR(p) ssi r(n) = 0 pour n > p, où r
est la fonction d’autocorrélation partielle.

1.7 Covariance et auto-corrélation des ARMA

Un ARMA X peut être défini de trois manières :


(i) sa covariance (γX (n)) ;
(ii) le triplet (a,b,σ 2 ) (si a et b sont de dimensions resp. p et q, et si σ 2 = σU
2
, alors il y
a p + q + 1 paramètres) ;
P∞ 2
(iii) Xn = 0 ck Un−k , soient (ck ) et σU .

Passage de (ii) à (iii) — Les (ck ) sont les coefficients du développement en série
de Laurent de P/Q :
1 + b1 z + · · · + b q z q X
p
= ck z k .
1 + a1 z + · · · + ap z

Processus stochastiques 27
1. INTRODUCTION

Passage de (iii) à (i) —

γX (n) = E(X0 ,Xn )


 X∞ ∞ 
 X 
= E ck Un−k cl Un−l
0 0

X
2
= σU cl−n cl
0

X
2
= σU cl−n cl .
l=n

Passage de (i) à (ii) —

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q


   
∀s > 0 , E (Xn + . . . )Xn−s = E (Un + . . . )Xn−s
i.e.
γ(s) + a1 γ(s − 1) + · · · + ap γ(s − p) = E[Un Xn−s ] + b1 E[Un−1 Xn−s ] + · · · + bq E[Un−q Xn−s ] ,

dites équations de Yule - Walker .


Dès que s > q,
γ(s) + a1 γ(s − 1) + · · · + ap γ(s − p) = 0
X X
(car Un−q ⊥Hn−s , Un−q+1 ⊥Hn−s , etc).
D’où les p équations suivantes :


 γ(q + 1) + a1 γ(q) + · · · + ap γ(q + 1 − p) = 0
 γ(q + 2) + a1 γ(q + 1) + · · · + ap γ(q + 2 − p) = 0

..


 .
γ(q + p) + a1 γ(q + p − 1) + · · · + ap γ(q) = 0

Posons  
γ(q) ... γ(q + 1 − p)
R(p,q) =  .. ..
 .
 
. .
γ(q + p − 1) . . . γ(q)
Alors le système équivaut à

R(p,q)a = −r(p,q) ,
t
où r(p,q) = γ(q + 1 = , . . . ,γ(q + p) . On admet que R(p,q) est inversible. Alors

a = −R−1 (p,q) · r(p,q) .

Pp
Soit Yn = 0 ak Xn−k , avec a0 = 1. Y est un MA(q).

X
γY (n) = ak al γX (n + k − l) ( et γY (n) = 0 si |n| > q )
06k,l6p
X q
2
= σU bk bk−n pour 0 6 n 6 q .
k=n

Processus stochastiques 28
1. INTRODUCTION

Nous sommes donc en présence de q + 1 équations, qui vont nous permettre de trouver
2
les bk ,bk−n et σU .

2
P
Passage de (ii) à (i) — a,b,σU et l’écriture ck Un−k permettent d’obtenir, via le
système de Yule-Walker, γ(0), . . . ,γ(q). γ est solution de l’équation de récurrence liée au
polynôme P (z), qui est sublime.

Théorème 1.21 — La covariance d’un ARMA décroı̂t exponentielement vite vers 0.

Attention — On considèrera dorénavant Q sublime et



X
Un = dk Xn−k
k=0

avec |dk | & 0 exponentiellement vite.

Proposition 1.33 —

pn−1 (Xn ) = pHn−1


X (Xn )

X
= − dk Xn−k .
k=1

Théorème 1.22 — La fonction d’autocorrélation partielle d’un ARMA tend exponen-


tiellement vite vers 0.

Corollaire 1.5 — kpn−1 (Xn ) − ps (Xn )k2 tend exponentiellement vite vers 0 lorsque
s → ∞ (ps est la projection sur ev(Xn−1 , . . . ,Xn−s )).

P∞Théorème
k
1.23 — Si AP X = AQ U est l’équation canonique de X, et (Q/P )(z) =
0 ck z , alors
 j−1 
h X  P i
pn (Xn+j ) = ZX en+j 1 − ck e−k (e−1 )
Q
k=0

et l’erreur de prédiction vaut


j−1
X
σ2 c2k .

0

Processus stochastiques 29
2

Modélisation

2.1 Introduction

On se donne x1 , . . . ,xN : il s’agit alors de trouver un ARMA(p,q) tel que la série


expérimentale soit une représentation des processus

AP X = AQ U .

Nos objectifs sont la prédiction, le contrôle et l’étude scientifique. Mais ici, nous ne
nous intéresseront qu’à la prédiction. On évoquera la stationnarité. Elle peut laisser ap-
paraı̂tre des périodicités, que l’on tâchera d’éliminer. On tentera d’utiliser des modèles
linéaires de la forme
+∞
X
Xn = ck Un−k
−∞

et plus particulièrement ceux s’écrivant


+∞
X
Xn = ck Un−k .
0

Un tel processus a une densité fX . Dans la pratique, on verra essentielement des MA(q) :
q
X
ck Un−k ,
0

c-à-d qu’on approxime la densité fX par des polynômes. Or la classe des fractions ration-
nelles est plus importante que celle des polynômes ; d’où l’on utilisera aussi les fractions
rationnelles → processus ARMA(p,q). On respectera le principe de parcimonie : on
approximera toujours par un processus ayant le moins de coefficients possible.

Le plan de modélisation se compose de deux étapes :

30
2. MODÉLISATION

– la phase d’identification du modèle, qui consiste à déterminer p et q ;


– la phase d’estimation du modèle, qui consiste à déterminer a, b et σ 2 .
On commence par modéliser par un MA(T) — on peut toujours approximer un ARMA par
un MA :
ARMA → MA(−∞) → MA(T ) ou AR(S)
Puis on essaie de modéliser par un ARMA(p,q) tel que p 6 s et q 6 T (c’est le principe
de parcimonie). Enfin, c’est la phase d’estimation.

Nota — Le principe de parcimonie permet d’éviter le surajustement, qui survient


quand on cherche à ajuster trop parfaitement.

2.2 Modélisations AR et MA — Estimations prélimi-


naires

2.2.1 AR

Soit l’AR(p) avec p connu :

Xn + a1 Xn−1 + · · · + ap Xn−p = Un ,

d’où
Xn = Un − (a1 Xn−1 + · · · + ap Xn−p ) .
On note
en = −(a1 Xn−1 + · · · + ap Xn−p ) .
X
ai est le coefficient de la régression de Xn sur (Xn−1 , . . . ,Xn−p ).
On note

Γp a = γp
R(p,0)a = −r(p,0) ,

d’où

a = −Γ−1
p γp

et

σ 2 = γ(0) − at γp .

Les estimateurs empiriques sont :


b −1
â = −Γ p γ̂p ,

σ̂ 2 = γ̂(0) − ât γ̂p .

Processus stochastiques 31
2. MODÉLISATION

Théorème 2.1 — Si X est un AR(p) d’équation canonique AP X = U où U est i.i.d.


de moyenne nulle et de variance σ 2 , alors les estimateurs empiriques satisfont à
√ L
n(â − a) −→ N (0,σ 2 Γ−1
p )

et
P
σ̂ 2 −→ σ 2 .

Théorème 2.2 — Si U est i.i.d. et si φl est le vecteur de la régression de Xn sur


(Xn−1 , . . . ,Xn−p ), alors pour l > p,
√ L
n(â − φl ) → N (0,σ 2 Γ−1
l )

et en particulier,
√ L
n r̂(l) → N (0,1) .

b = φ − 1Xn−1 + · · · + φl Xn−l . On a que


Remarque — Soit Xn , . . . ,Xn−l et X
φl = r(l). Si AR(p) : pour p < l,

Xn = −a1 Xn−1 − · · · − ap Xn−p + Un ,

d’où −ak = φk , pour 1 6 k 6 p.


On a

Γn a = −γn

et

n r̂(l) → N (0,1)

(toujours si l > p).

Sur la figure 2.1, les deux lignes pointillées donnent un intervalle de confiance de 95 %
pour r̂(l).

Proposition 2.1 — Pour toute covariance, si a est solution de Γp a = −γp , alors le


polynôme 1 + a1 z + · · · + ap z p est quasi-sublime.

2.2.2 MA

1re méthode À q fixé, on résoud le système d’équations (via le procédé de Newton)


q
X
γ̂(k) = bl bl−k .
l=k

Processus stochastiques 32
2. MODÉLISATION

e
2
Pméthode (théorique) Si M A(∞) : fx = |Q ◦ e−1 |2 σ 2 . Si M A(q) : fx =
|k|6q γ(k)e−k . D’où

q
X 1
γ(0) + γ(k)(z k + z −k ) = σ 2 Q(z)Q( )
z
k=1

pour z = e−1 . On cherche Q. Le membre de gauche s’écrit R(z + z1 ) où R est un plynôme
de degré q :
 
1 k k k k−1
(z + ) = z + z + ...
z 1
 
1 k 1
= zk + k + (z k−2 + k−2 ) + . . .
z 1 z

q −q 1 q 1
z +z = (z + ) + (z q−2 + q−2 ) + . . .
z z
D’où le résultat. Finalement, l’équation est
1 1
R(z + ) = σ 2 Q(z)Q( ) .
z z
Soient α1 , . . . ,αq les racines de R :
1
Z+ = αi =⇒ xi et yi
z
et l’une des deux est de module strictement supérieur à 1 ; disons xi . Alors
 Q
Q(z) = (z − xi )
Q(0) = 1

3e méthode De la série expérimentale x1 , . . . ,xN on tire γ̂(k). On trouve un polynôme


sublime tel que AP X = U (où U est l’innovation), i.e. un AR(s) avec s grand. Puis on
trouve le MA : X = A1/P U . Q est alors le début de la série 1/P . L’inconvénient de cette
méthode est qu’on ne sait pas si le polynôme trouvé est sublime (i.e. si on a abouti à la
représentation canonique).

4e méthode elle s’appuie sur la définition suivante.


Définition 2.1 — Si X est un SLC de densité spectrale f continue et positive, on
appelle fonction d’autocorrélation inverse la fonction définie par
Z
1
γi (n) = en dλ .
Π f

Si X est un MA, alors fX = σ 2 |Q ◦ e−1 |2 > 0 et γi est la covariance d’un AR :


1 1
= σ −2 .
fX |Q ◦ e−1 |2
Reste à trouver un estimateur γ̂i de γ.

Processus stochastiques 33
2. MODÉLISATION

• Soit la modélisation AR(T ) avec T grand :


T
X
P (z) = ai z i
0
σ2
AP X = U ⇒
|P ◦ e−1 |2

|P ◦ e−1 |2
Y = AP V avec V ∈ BB(σ 2 ) ⇒
σ2
et la fonction d’autocorrélation de Y est l’inverse de celle de U .

• On prend pour estimation γ̂i de γi la covariance estimée de Y :


X
γY = ai ai+k

• On fait une modélisation AR sur γ̂i .

5e méthode On fait tourner l’algorithme de l’innovation (même inconvénient qu’avec la


3e méthode). D’après Yule-Walker : R(p, q)a = −r(p, q).

Proposition 2.2 — Si X est un ARMA, alors R(p, q) est inversible.


On a

a = −R(p, q)−1 r(p, q) ,



ai = fi γ(p + q − 1), . . . , 1 6 i 6 p ,

âi = fi γ̂(p + q − 1), . . . , 1 6 i 6 p ,
b q)−1 r̂(p, q) .
â = −R(p,

Proposition 2.3 — Si X est gaussien, l’estimateur â est convergent, asymptotique-


ment normal, mais pas efficace.

Nota — Tester si Pb est sublime ; écrire AP X = AQ U : APb X doit être un MA. Puis
(x1 , . . . ,xN ) → (y1 , . . . ,yN −p ) :

 xp + â1 xp−1 + · · · + âp x1 = y1

xp+1 + . . . = y2
 ..
.

On fait une modélisation MA → b̂,σ̂ 2 .

Processus stochastiques 34
2. MODÉLISATION

2.3 Estimation efficace

Soient p et q fixés, et

ζn = (x1 , . . . ,xn )t
χn = (X1 , . . . ,Xn )t
Γn = E[χtnχn ] .

Soit θ ∈ Θ ; f (θ,ζn ) ; soit θen tel que

f (θen ,ζn ) = sup f (θ,ζn ) .


θ∈Θ

Z Z
 
P χn ∈ V (ζn ) = f (θ,ζ)dζ −→ f (θ,ζn )
V (ζn )
Z
1
i.e.  f (θ,ζ)dζ −→ f (θ,ζn ) .
λ V (ζn ) V (ζn )

On considère un ARMA(p,q) gaussien : θ = {a,b,σ 2 } avec Θ ⊆ Rp+q × R+ et ouvert.


La fonction de vraisemblance est
1 1  1
t −1

Ln (θ,χn ) = exp − χn Γn χn ,
(2π)n/2 |det Γn |1/n | 2

d’où

1 
log Ln (θ,χn ) = − n log 2π + log(det Γn ) + χtn Γ−1
n χn .
2

Définition 2.2 — On appelle log-vraisemblance approchée


1 
h1n (θ,χn ) = − n log 2π + n log σ 2 + χtn Γ−1
n χn
2

det Γn+1
σ2 = lim ,
det Γn
 
log σ 2

= lim log det Γn+1 − log det Γn ,
n log σ 2

= log det Γn+1 .

Proposition 2.4 — Si X est un ARMA, il existe une constante c telle que

|n log σ 2 − log det Γn+1 | 6 c .




Processus stochastiques 35
2. MODÉLISATION

Définition 2.3 — L’estimateur du maximum de vraisemblance est θ,


e tel que

h1n (θen ,ζn ) = sup h1n (θn ,ζn ) .


θ

Théorème 2.3 — L’estimateur θen est un estimateur convergent, asymptotiquement


normal et efficace. De plus,

N 0,J(θ)−1 ,

n(θen − θ)

où
∂f ∂f
∂θk . ∂θl
Z
Jkl (θ) = dλ ,
f (θ)2
où f est la densité spectrale.

Proposition 2.5 — Si X est un SLC régulier d’innovation U , et si l’on note U


bk la
régression de Uk sur (X1 , . . . ,Xn ), alors
n
X
σ 2 χtn Γ−1
n χn =
bk2 ,
U
−∞

où σ 2 est la variance de U . De plus, cette quantité ne dépend plus de σ 2 .

Proposition 2.6 — Si X est un ARMA(p,q) d’équation canonique (a,b,σ 2 ), il existe


un BB V ayant même futur que X et tel que
p
X q
X
Xn + ak Xn+k = Vn + bl Vn+l
k=1 l=1

i.e.

∀n, ev(Xn ,Xn+1 , . . . ) = ev(Vn ,Vn+1 , . . . ) .

ARMA
p
X q
X
ak Xn−k = bl Un−l
k=0 l=0
Xp Xq
ak Xn−k = bl Vn−l ,
k=0 l=0

d’où
p
X q
X
ak X
bn−k = bl U
bn−l
k=0 l=0
Xp Xq
ak X
bn−k = bl Vbn−l
k=0 l=0

Processus stochastiques 36
2. MODÉLISATION

et

U
bk = 0 si k > N
X
bk = Xk si 1 6 k 6 N
Vbk = 0 si k 6 0 .

— Étape 1 : calcul des Vbk : on se donne un vecteur α ∈ Rq et on pose

VbN −p+j = αj .

 Pp bN −p+k = VbN −p + Pq bl VbN −p+l



 n=N −p : k=0 ak X l=1 ⇒ VbN −p

 | {z } | {z }
connu connu
..



 .
n = 1 : ···

D’où on a tous les Vbk , k > 1. Or les Vbk , pour k 6 0, sont nuls. On connaı̂t donc tous les
Vbk .

— Étape 2 : calcul des Xbk , k 6 0.


re

b0 + P ak Xk = Vb0 + P bl Vbl ⇒
 de la 1 équation : X X
 b0
de la 2e équation : b−1 + · · · · · ·
X ⇒ X
b−1

 ..
.
Pour j < −q, X
X
bj + ak X
bj+k = 0

et donc X
bn = 0 pour n 6 s, avec s grand.

— Étape 3 : calcul des U


bk , k 6 N .

X
U
bn = dk X
bk ⇒ U
bn = 0 pour n 6 s
0

et l’équation initiale
p
X q
X
ak X
bn−k = bl U
bn−l
0 0

donne U
bk pour k 6 N . Ensuite, on recalcule les Vbk en fonction des U
bk . . .

— Étape 4 : calcul des X


bk , k > N .
p
X
X
bn + ak X
bn−k = 0 dès que n > N + p
0

Les X
bk décroı̂ssent exponentiellement vite vers 0.

Processus stochastiques 37
2. MODÉLISATION

X
bk = 0 pour k > s0 , s0 grand

— Étape 5 : on obtient de nouvelles valeurs pour les VbN −p+j , soient Vb N −p+j (cor-
e
respondant à un nouveau vecteur Φ(α)). De la fonction

Rd −→ Rd
,
α 7−→ Φ(α)

il reste à déterminer le point fixe.

Proposition 2.7 — Si AP X = AQ U avec Q sublime, et si N est suffisamment grand,


la suite Φ(r) (α) converge exponentiellement vite vers une limite α∞ . De plus, les U
bk (r)
calculés au cycle r convergent, pour chaque k, vers U
bk . Par suite,

F (r) (a,b,χN ) → F (a,b,χN ) .

2.4 Processus ARIMA

Il s’agit d’étudier la tendance, les périodicités, la non réversibilité et la variabilité non


constante d’un processus. Pour parer à la variabilité non constante, on peut transformer la
série au moyen d’une fonction déterministe. Concernant la tendance et les périodicités, on
écrit
Xn = f (n) + Vn
avec Vn processus stationnaire, ou
Xn = p(n)
avec p périodique : p(n) = p(n + T ). Dans ce cas,
1 1
(Xn + Xn−1 + .. + Xn−T +1 ) = cte + (Vn + Vn−1 + .. + Vn−T +1 )
T T
On note B l’opérateur de retard. Soit f un polynôme de degré d − 1 :

(I − B)d f = 0 .

Si Xn = f (n) + Vn , alors

(I − B)d Xn = (I − B)d Vn .

Exemple — f (n) = cos(2nπ)/T ; alors

(I − B T )f (n) = 0 .

On va utiliser AR X, où Y
R(z) = (z − zi )si ,

Processus stochastiques 38
2. MODÉLISATION

avec |zi | = 1.

Si

R(z) = a0 + a1 z + · · · + ad z d ,

alors

AR X = a0 Xn + a1 Xn−1 + · · · + ad Xn−d .

Définition 2.4 — Un processus du second ordre X est un SARIMA s’il existe un


polynôme R n’ayant que des racines de module 1 tel que AR X soit un ARMA.

Définition 2.5 — Un processus du second ordre X est un ARIMA(p,d,q) si (I −


B)d X est un ARMA(p,q).

X SARIMA ⇔ AR X = Y ARMA(p,q), où

R(z) = a0 + a1 z + · · · + ad z d ,
AR f = 0 ,
Xd
f = ci fi ,
i=1
 1 n
fi (n) = ,
τi
avec τi racine de R.

a0 Xn + · · · + ad Xn−d = Yn .

La question qui se pose maintenant est la suivante : connaissant Y , comment déterminer


X, modélisation de la série de départ ? On cherche une solution de AR f = g, avec f,g :
Z → R.
+∞
X
φ ∗ ψ(n) = φ(k)ψ(n − k) .
k=−∞

La convolution commute les translations et la dérivation :

AR (f ∗ g) = (AR f ) ∗ g .

Si ψ est une solution de AR f = g, i.e. AR ψ = δ0 , alors

AR (ψ ∗ g) = (AR ψ) ∗ g = g .

Soient

ψ + t.q. ψ + (n) = 0 pour n < 0


ψ − t.q. ψ − (n) = 0 pour n > 0

Processus stochastiques 39
2. MODÉLISATION

Ce sont des solutions de AR ψ = δ0 .

a0 ψ + (n) + · · · + ad ψ + (n − d) = δ0 (n)


 a0 ψ + (0) = 1 ⇒ ψ + (0)


+ +
 a0 ψ (1) + a1 ψ (0) + 0 + . . . = 0 ⇒ ψ + (1)
 ..


.
 −
 ψ (n) = 0 pour n > −d
 a0 ψ − (n) + · · · + ad ψ − (n − d) = δ0 (n)

 a0 ψ − (−1) + a1 ψ + (−1) + · · · + ad ψ − (−1) = δ0 (−1) = 0


 .
 .

.
Notons g + (n) = g(n)1(n>0) et g − (n) = g(n)1(n<0) .

AR (ψ + ∗ g + ) = g+
AR (ψ − ∗ g − ) = g−

AR (ψ + ∗ g + + ψ − ∗ g − ) = g.

Proposition 2.8 — Si Y est un processus du second ordre, le processus X


e défini par

e = ψ+ ∗ Y + + ψ− ∗ Y −
X

est du second ordre et est une solution de l’équation

AR X = Y .

De plus, toutes les solutions de cette équation sont de la forme


en + c1 f1 (n) + · · · + cd fd (n) ,
X

où les fi forment une base de l’espace vectoriel des solutions de AR f = 0 et les ci sont des
v.a. de carré intégrable.

Si Y = AQ W , avec W BB, on a trouvé les solutions de

AR X = AQ W ,

i.e. l’équation ARMA générale. Si R a toutes ses racines de module 1, alors



1 X
= ck z k .
R(z) 0

Soit ψ + (k) = ck : ( ak z k )( ck z k ) = 1. On fait l’hypothèse suivante :


P P

(H) : les v.a. ci sont orthogonales à H Y .

Processus stochastiques 40
2. MODÉLISATION

Proposition 2.9 — Pour n > 0,

HnX = HnY ⊕ F ,

où

F = ev(c1 , . . . ,cd )
= ev(X−1 , . . . ,X−d ) .

2.5 Modèles multiplicatifs

On a vu que si le processus se met sous la forme f (n) + Un , avec f de périodicité T ,


alors on calcule (I − B T ) — et éventuellement (I − B T )d — pour supprimer la périodicité.
Soit une suite expérimentale x1 , . . . de période T . On la découpe en T séries :

x1 , x1+T , x1+2T , . . .
x2 , x2+T , x2+2T , . . .
..
.
xT −1 , x2T −1 , x3T −1 , . . .
xT , x2T , x3T , . . .

On pose Xns = Xs+nT . On fait l’hypothèse que la structure probabiliste ne dépend pas
de s. Chacun de ces processus X s est un ARIMA(p0 ,d0 ,q 0 ). Ainsi,
0
∃R,P,Q t.q. R = (I − B)d ,
∀s, ARP X s = AQ U s .

Attention — Uns = Us+nT n’est pas un bruit blanc.

Notation — Si P est un polynôme, on note

Pe(z) = P (z T ) .

On a alors
ARePe X = AQe U ,
i.e. on a mis la saisonnalité dans les polynômes. U est un ARIMA(p,d,q), c.-à-d. qu’il existe
ρ,π,χ tels que
Aρπ U = Aχ W ,
où W BB et ρ(z) = (1 − z)d .

AρπRePe X = AQχ
e W

Processus stochastiques 41
2. MODÉLISATION

On pose
Z = AρRe X .
Alors
Aρπ Z = AQχ
e W .

À ce processus ARMA, il correspond une unique solution stationnaire si les polynômes


n’ont pas de racine de module 1. Z est stationnaire — c’est lui qu’on modélise.

Définition 2.6 — Un SARIMA(p,d,q)(p0 ,d0 ,q 0 )T est un processus X tel que


0
(I − B)d (I − B T )d X

soit un ARMA(p + p0 + T,q + q 0 + T ).

Exemple — Soit T = 12, d = d0 = 1, p = p0 = q = q 0 = 1. Nous sommes donc en


présence de 5 coefficients (4 par les polynômes et un pour la variance du BB). C’est donc
un ARMA(13,13).

0
Étape 1 : on cherche d et d0 tels que (I − B)d (I − B T )d soit « stationnaire ». On
passe donc par (I − B T ) pour obtenir x13 − x1 , x14 − x2 , . . .. Si la variance décroı̂t
rapidement vers 0, alors il s’agit d’un ARMA. Sinon, on passe par (I − B)(I − B T ) pour
obtenir (x14 − x2 ) − (x13 − x1 ) − . . ..

Étape 2 : on regarde les γ̂ :

γ̂(kT ) −→ ARMA(P,Q) .
modélisation

Étape 3 : on regarde les γ̂ :

γ̂(1) , γ̂(2) , . . . , γ̂(T − 1) −→ ARMA(π,χ)


modélisation

2.6 Envoi

2.6.1 Critères de choix

Identification de (p,q) : quel est le meilleur ? est-ce que le meilleur est bon ?

2.6.2 Tests d’ajustement


1. Exemple d’un principe de critère de choix — Soit
h 2 i
E = E Yn+1 − (â1 Yn + · · · + âp Yn−p+1 ) ,

Processus stochastiques 42
2. MODÉLISATION

Yn − a1 Yn−1 − · · · − ap Yn−p = Un
(les ai sont inconnus).

Les âi sont les coefficients estimés. D’où E est l’erreur commise quand on prend les
coefficients estimés.

h 2 i
E = E Un+1 − ((â1 − a1 )Yn + · · · + (âp − ap )Yn−p+1 )
= σ 2 +t (â − a) Γp (â − a) ,

où Γp = cov(Xn , . . . ,Xn−p+1 ).

â a été estimé à partir d’une série expérimentale x1 , . . . ,xN . Une bonne modélisation
est une modélisation pour laquelle E est petite. E est une v.a. positive. Or

N (â − a) −→ N (0,σ 2 Γ−1 p ).

D’où
√ √
N (â − a)t (σ 2 Γ−1
p )
−1
N (â − a) χ2 (p)
σ2 2
⇒ E σ2 +
χ (p)
N
ρ
⇒ E(E) = σ 2 (1 + ) .
N
Mais σ 2 est inconnu (il est lui aussi estimé : σ 2 = σ̂p2 , et il dépend de p). Quand p %,
1 + Np %, mais σ 2 &. Il s’agit de chercher le p pour lequel E(E) est minimum. Pour un
ARMA, on cherche à maximiser la vraisemblance. C’est le critère d’Akaike .

Exemple d’un principe de critère d’ajustement — Soit


2
AP X = AQ U , σU

Soit x1 , . . . ,xN la réalisation de ce processus.

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q


Alors

(wn )n=p+1,...,N = xn + a1 xn−1 + · · · + ap xn−p − (Un + b1 Un−1 + · · · + bq Un−q ) n=p+1,...,N

est la réalisation d’un bruit blanc. Il existe diverses méthodes pour montrer que wn est un
BB.

Proposition 2.10 (Test du porte-manteau) — ρ̂w (1),ρ̂w (2), . . . doivent être petits.
La quantité
XN
ρ̂2w (k)
k=1
2
suit un χ (N ).

Processus stochastiques 43
3

Modèles autorégressifs non linéaires

3.1 Rappels sur les modèles autorégressifs linéaires

3.1.1 Cadre univarié

Soit l’AR(1)
(?) Xn = aXn−1 + n
avec a ∈ R, n i.i.d. centrées et de variance σ 2 6= 0. On cherche une solution telle que pour
tout n, n soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Notation — On note
ln+ x = sup (0, ln x) .

Proposition 3.1 — On suppose que n ∈ L2 . Le modèle (?) admet une solution


stationnaire stricte dans L2 ssi |a| < 1.

Proposition 3.2 — Si |a| < 1, la solution stationnaire stricte du modèle est unique
(et appartient à L2 ).

Proposition 3.3 — Si |a| < 1 et si E ln+ |1 | < ∞, alors le modèle admet une
 

unique solution stationnaire stricte.

Proposition 3.4 — Soient Vn des v.a. i.i.d. positives.


1
E ln+ V1 < ∞
 
⇒ lim Vnn = 1 ,
1
E ln+ V1 = ∞
 
⇒ lim Vnn = ∞ .

44
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Lemme Soient Vn des v.a. i.i.d. positives.


1
P(Vn = 0) < 1 ⇒ lim Vnn > 1p.s. ,
1
E ln+ V1 < ∞ ⇒ lim Vnn 6 1 .
 

Proposition 3.5 — Si (an )n>0 est une suite à valeurs dans R et sous-additive (i.e.
an+m 6 an + am ), alors
an an
−→ inf .
n n→∞ n n

Rappels —
  X 
E |X| < ∞ ⇔ P |X| > n < ∞ ,
n>0
Z ∞
 
E |X| = P |X| > t dt .
0

3.1.2 Cadre multivarié

Soit l’AR(1)
(??) Xn = AXn−1 + n ,
avec A matrice d×d et Un une suite de vecteurs i.i.d. centrés de L2 . On cherche une solution
telle que pour tout n, Un soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Proposition 3.6 — Nous avons les résultats suivants :


1. si (??) admet une solution stationnaire stricte (Xn )n∈Z qui est dans L2 et si la
matrice de covariance K de (Xn )n∈Z est inversible, alors les valeurs propres de A
sont de modules inférieurs ou égaux à 1 ;
2. si la matrice de covariance Σ des Un est inversible, alors les valeurs propres de A
sont de modules strictement inférieurs à 1 ;
3. si les valeurs propres de A sont de modules 1, alors (??) admet une solution station-
naire stricte (X n )n dans L2 .

Rappel —
X
K = Ap Σ (Ap )t
p>0
X
= Σ + Ap Σ (Ap )t ,
p>1

et par suite,
K = Σ + AKAt .

Définition 3.1 — Soit k.k une norme sur Rd . On définit la norme matricielle
subordonnée à k.k sur Rd par
kAk = sup kAvk .
kvk=1

Processus stochastiques 45
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Définition 3.2 — Le rayon spectral d’une matrice B est



ρ(B) = sup |λi | ; λi valeurs propres de B .

Proposition 3.7 — Pour la norme


v
u d
uX
kvk2 = t |vi |2
i=1

sur Rd , la norme matricielle subordonnée est


1
kAk2 = ρ(AAt ) 2 .

Corollaire 3.1 — Si A est symétrique ou diagonale, kAk2 = ρ(A).

Corollaire 3.2 — Nous avons les résultats suivants :


a)
∀β > ρ(B), ∃α, ∀n ∈ N, kB n k 6 αβ n ;
b)
ρ(B) < 1 ⇒ Bn → 0 ;
c)
ρ(B) < 1 ⇔ ∃n t.q. kB n k < 1 ;
d)
 n1
kB n k

ρ(B)
−→ <1.
βn β

Propriété 3.1 —
1 1
lim kAn k n = inf kAn k n .
n n

3.1.3 Retour au cadre univarié

Soit un AR(p) univarié :


(?) Xn = AXn−1 + Un ,
avec  
a1 ... ... ... ap  
 1 0 ... ... 0  n
.. 0
 
 .. ..   
 0
A =  . . .  et Un = 

..  .

.

 . .. .. .. ..  
 ..

. . . . 
0
0 ... 0 1 0

Processus stochastiques 46
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.8 — Si (?) admet une solution stationnaire stricte dans L2 et si


V (n ) 6= 0, alors ρ(A) < 1.

Définition 3.3 — Le modèle (?) est dit commandable si la matrice


X
Ap Σ (Ap )t
p>0

existe et est inversible.

Proposition 3.9 — Soient A et Σ des matrices d × d.

X d−1
X
Ap Σ (Ap )t inversible ⇐⇒ Ap Σ (Ap )t inversible .
p>0 p=0

Proposition 3.10 — Soit le modèle (?). Alors il existe une solution stationnaire L2
ssi ρ(A) < 1.

3.2 Modèles autorégressifs non linéaires lipschitziens

Soit le modèle
(?) Xn = F (Xn−1 ,n ) = Fn (Xn−1 ) ,
d
avec Xn à valeurs dans R et n i.i.d. On cherche une solution telle que pour tout n, n soit
l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Définition 3.4 — La fonction f : Rn → Rp est lipschitzienne de coefficient de


lipschitz
kf (x) − f (y)kp
cf = sup
kx − ykq
si cf < ∞.

Théorème 3.1 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
 + R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :
 
1) si E ln cF1 < 0, il existe une unique solution X n du modèle qui est stationnaire-
ment stricte ;
   
2) s’il existe k ∈ N? t.q. E ckF < 1 et si E kF1 (x) − xkk < ∞, alors la solution X n
1
stationnaire stricte a un moment d’ordre k.

Processus stochastiques 47
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Nota —

Xn = Fn (Xn−1 )
= Fn ◦ Fn−1 (Xn−2 )
= Fn ◦ . . . ◦ Fn−p+1 (Xn−p ) .

D’où
X n = lim Fn ◦ . . . ◦ Fn−p+1 (0) .
p→∞

Théorème 3.2 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
 + R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :
 
1) s’il existe p t.q. E ln cF1 ◦···◦Fp < 0, alors il existe une unique solution stationnaire
stricte au modèle ;
   
2) s’il existe k,p ∈ N t.q. E ckF ◦···◦Fp < 1 et t.q. E kF1 ◦ · · · ◦ Fp (x) − xkk < ∞,
1

alors il existe une unique solution X n stationnaire stricte, et cette solution a des
moments d’ordre k.

Notation — 
Xn = F (Xn−1 , n )
Xnx =
X0 = x

?
 k

Théorème
 x 3.3
 — S’il existe k,p ∈ N t.q. E kF  1 (x) − xk < ∞ et s’∃β < 1 t.q.
y k k
E kXp − Xp k 6 βkx − yk , ∀x, ∀y, alors il existe une solution stationnaire stricte, et
cette solution a des moments d’ordre k.

Lemme 3.1 — Sous les hypothèses du théorème précédant,

E kFn ◦ · · · ◦ Fn−r+1 kk 6 β r kx − ykk ,


 

ce qui équivaut à
E kXrx − Xry kk 6 β r kx − ykk .
 

3.2.1 Modèles hétéroscédastiques

Soit
Xn = f (Xn−1 ) + g(Xn−1 )n .

F1 (x) − F1 (y) = f (x) + g(x)1 − f (y) − g(y)1 , d’où cF1 6 cf + cg |1 |.

Nous avons que :


   
– si E ln cF1 6 E ln(cf + cg |1 |) < 0, alors il existe une solution strictement
stationnaire ;

Processus stochastiques 48
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

  
– si E cf + cg |1 | < 1 et si cf + cg E |1 | < 1, alors il existe une solution
strictement stationnaire ayant un moment d’ordre 1 ;
 
– si c2f + c2g E 21 + 2cf cg E |1 | < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2 ;

– si c2f + c2g E 21 < 1, alors il existe une solution strictement stationnaire ayant un
moment d’ordre 2 ;
– si E (1 ) = 0, E (2 ) = 1 et si c2f + c2g < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2.

3.2.2 Modèle autorégressif non linéaire à coefficients aléatoires

Soit
Xn = A(n )Xn−1 + B(n ) = F (Xn−1 , n ) .

 
Proposition 3.11 — On suppose que E ln kA(1 )k < ∞. Alors

1   1  
E ln kA(1 ) × . . . × A(p )k −→ γ = inf E ln kA(1 ) × . . . × A(p )k .
p p p

 
Si γ < 0, ∃p t.q. E ln kA(1 ) × . . . × A(p )k < 0, et alors le modèle a une solution
 + 
stationnaire stricte si E ln kB(1 )k < ∞.

Définition 3.5 — γ est appelé le plus grand exposant de Lyapounov du produit


des matrices aléatoires.

Proposition 3.12 — Nous avons


1
ln kA(1 ) × . . . × A(p )k −→ γ p.s. ,
p

i.e.
1
kA(1 ) × . . . × A(p )k p −→ eγ p.s. .

3.3 Ergodicité

Définition 3.6 — On a un processus (Xn )n indexé par N ou Z, Xn : (Ω,F,P). On lui



bn ) indexé par N ou Z et défini sur E N ou Z , B(E N ou Z ) .
associe le processus canonique (X
On considère
φ : Ω → EN 
ω 7→ φ(ω) = X0 (ω), . . . ,Xn (ω)
(trajectoires du processus) .

Processus stochastiques 49
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

bn ) la ne application coordonnée de E N .
On note (X


bn ) est défini sur E N , B(E N ) , P
(X b où P
b est l’image de P par φ. C’est le processus
canonique associé à (Xn )n .

On peut définir le shift θ sur E N :

θ(x0 ,x1 , . . . ,xn , . . . ) = (x1 ,x2 , . . . ,xn+1 , . . . ) ,


bn ◦ θ = X
X bn+1 ,
bn ◦ θ p = X
X bn+p .

Proposition 3.13 — (X
bn ) est stationnaire strict ssi

θP
b = P
b.

Définition 3.7 — On appelle tribu des invariants associée à (X


bn ) l’ensemble

I = A ∈ B(E N ), θ−1 (A) = A .




On appellle tribu des invariants associée à (Xn )

I = φ−1 (I) .

Définition 3.8 — Un processus (Xn ) est dit ergodique si sa tribu des invariants
associée est p.s. grossière, i.e.

∀A ∈ I, P(A) = 0 ou 1 .

Remarque — Nous avons

X
bn ergodique ⇔ Xn ergodique .

Proposition 3.14 —
n  o
A∈I ⇔ ∃B ∈ B(E N ), ∀n, A = ω | Xn (ω),Xn+1 (ω), . . . ∈ B .

Définition 3.9 — La tribu asymptotique, pour un processus (Xn )n , est


\
A∞ = σ(Xn , n > p) .
p

Corollaire 3.3 —
I ⊂ A∞ .

Processus stochastiques 50
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.15 — Si (n )n est une suite de v.a. indépendantes et de même loi,
alors (n )n est stationnaire stricte et ergodique.

Proposition 3.16 — Soit (Xi )i une suite stationnaire stricte et ergodique. Soit φ :
E N → E.e On pose, ∀n ∈ E, X
ei = φ(Xi ,Xi+1 , . . . ,Xi+n , . . . ). Alors X
ei est stationnaire
stricte ergodique.

Proposition 3.17 — Si (n )n∈Z est une suite de v.a. indépendantes et de même loi,
alors (n )n∈Z est stationnaire stricte et ergodique.

Lemme 3.2 — La tribu des invariants est incluse p.s. dans la tribu asymptotique
\
σ(p , p > n) .
p

Conséquences — Elles sont au moins au nombre de 3 :


1) si les (n )n sont i.i.d., alors (n )n est stationnaire stricte ergodique ;
2) si Xn = ψ(n ,n−1 , . . . ,n−k , . . . ), alors (Xn )n est stationnaire stricte ergodique ;
|ai |2 < ∞, alors Xn = ai n−i stationnaire stricte ergodique.
P P
3) si (ai )i est t.q.

Théorème 3.4 (Birkoff ) — Soit (Xi )i∈Z un processus stationnaire strict. Alors
n−1
1X
lim Xi = E (X0 | I) p.s. .
n n i=0

Si X0 est intégrable, et si de plus le processus est ergodique, alors


n−1
1X
lim Xi = E (X0 ) p.s. .
n n i=0

Lemme 3.3  (Ergodicité maximale) — Soit (Xn )n un processus stationnaire strict


tel que E |X0 | < ∞. Soit Sn = X0 +X1 +· · ·+Xn−1 . On pose Mn = max(0,S1 , . . . ,Sn ) >
0. Alors Z
X0 dP > 0 .
{Mn >0}

Théorème 3.5 (Ergodicité sous-additive) —


Un
Un+m 6 Um + Un ◦ θn ⇒ converge p.s. .
n

Proposition 3.18 — La convergence du théorème de Birkoff a aussi lieu dans L1 .

Processus stochastiques 51
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

3.4 Chaı̂nes de Markov et stabilité

Soit (Xn )n une chaı̂ne de Markov homogène de probabilité de transition π :

∀B ∈ B(E), P(Xn+1 ∈ B | Fn ) = P(Xn+1 ∈ B | Xn )


= π(Xn , B) .

Soit ν la loi intiale de cette chaı̂ne.

Proposition 3.19 — La chaı̂ne de Markov est stationnaire stricte ssi

νπ = ν .

Proposition 3.20 — Étant données une proba de transition π et une loi initiale ν, il
existe sur E N ,B(E N ) où Xn est la ne application coordonnée, une unique loi de probabilité
Pν telle que ∀Ai ∈ B(E N ),
Z Z Z

Pν X0 ∈ A0 ,X1 ∈ A1 , . . . ,Xn ∈ An = ν(dx0 ) π(x0 , dx1 ) . . . π(xn−1 , dxn ) .
A0 A1 An

Notation — Nous notons

ν = δx =⇒ P ν = Px .

Définition 3.10 — La chaı̂ne de Markov (Xn ) est dite stable s’il existe une proba µ
telle que
n Z
1X
∀f ∈ Cb , ∀x ∈ E, f (Xi ) −→ dµ Px − p.s. .
n i=1

Définition 3.11 — La chaı̂ne de Markov (Xn ) de proba de transition π est dite


fellerienne si
∀f ∈ Cb , πf ∈ Cb .

Proposition 3.21 — Si la chaı̂ne de Markov de proba de transition π est fellerienne


et stable, la loi limite µ vérifie
µπ = µ .

Proposition 3.22 — Soit le modèle Xn = F (Xn−1 , n ). Si ce modèle admet une


solution stationnaire stricte et ergodique X n et si ∀x, Xnx − X n → 0 p.s., alors ∀f
uniformément continue, ∀x,
n Z
1X p.s.
f (Xix ) −→ f (x) dν(x) ,
n i=1

où ν est la loi de X 1 .

Processus stochastiques 52
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

On a, en plus du résultat de la propositon précédante, que ∀f continue bornée, ∀x,


Z
n
P f (x) −→ f dµ (n → ∞) .

ce qui équivaut à
étroit.
∀x, P n (x,.) −→ µ.

Corollaire 3.4 — Soit le modèle Xn = F (Xn−1 , n ) = Fn (Xn−1 ). S’il existe x tel
que :
— E ln+ kF1 (x) − xk < ∞ ;
 

— E ln+ cF1 < ∞ ;


 
 
— E ln cF1 < 0.
Alors il existe une solution stationnaire stricte ergodique et la chaı̂ne de Markov associée
est stable.

Définition 3.12 — Une chaı̂ne de Markov est dite récurrente positive s’il existe
une proba µ telle que ∀f bornée, ∀x ∈ Rd ,
n Z
1X p.s.
f (Xix ) −→ f (x) dµ(x) ,
n i=1

ce qui revient à dire que ∀A borélien tel que µ(A) > 0, partant de tout point x, la chaı̂ne
visite une infinité de fois A.

Proposition 3.23 — Si la chaı̂ne est stable, alors ∀O ouvert de mesure µ(O) > 0,
∀x ∈ Rd , la chaı̂ne issue de x visite p.s. une infinité de fois l’ouvert O. On dit qu’il y a
récurrence dans les ouverts chargés par la proba invariante.

Définition 3.13 — Une proba de transition P est dite fortement fellerienne si ∀f


bornée, P f est continue et bornée.

Exemple — Soit
Xn+1 = f (Xn ) + n+1 .
Si f est continue, P est fellerienne. Si f est continue et si 1 admet une densité par
raport à la mesure de Lebesgue, alors P est fortement fellerienne.

Proposition 3.24 — Si (Xn )n est stable et P fortement fellerienne, alors (Xn )n est
récurrente positive.

Proposition 3.25 (Fonction de Lyapounov) — Soit V : R→ R+ une fonction


continue telle que V (x) → ∞ quand kxk → ∞. Si νn → ν étroitement et si νn (V ) → ν(V ),
alors ∀Φ à valeurs réelles, continue et telle que |Φ| 6 αV + β,

νn (Φ) −→ ν(Φ) .

Processus stochastiques 53
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Définition 3.14 — V est appelée fonction de Lyapounov.

Application 1 — Si on sait que


n Z
1X
V (Xix ) −→ V dµ
n i=1

et que V est continue et positive, alors ∀Φ continue telle que |Φ| 6 αV + β,


n Z
1X
Φ(Xix ) −→ Φ dµ .
n i=1

Application 2 — Si le modèle Xn+1 = F (Xn , n+1 ) admet une solution stationnaire


stricte (X n )n qui a un moment d’ordre 1 et qui est ergodique, et si X n − Xnx → 0 p.s.,
alors ∀Φ à valeurs réelles, continue et telle que |Φ| 6 αV + β,
n Z
1X p.s.
Φ(Xix ) −→ Φ dν .
n i=1

Application 3 — Soit le modèle Xn = aXn−1 +Un avec ρ(A) < 1 ; si Un a un moment


d’ordre 2, alors il existe une solution stationaire stricte ergodique ayant un moment d’ordre
2.

3.5 Modèles ARCH et GARCH

Un modèle AR classique s’écrit

Xn = a1 Xn−1 + · · · + ap Xn−p + n ,

avec les n bruit blanc gaussien. Ici, il s’agit de modéliser autrement l’erreur. Soit le modèle
 p
 = hn−1 .ηn
 n


ηn i.i.d., E (ηn ) = 0, E (ηn2 ) = 1
(?)
η indépendant de n−1 = σ(p , p 6= n − 1)
 n


hn−1 σ(p , p 6= n − 1) − mesurable

Nous avons que


p
E (n | n−1 ) = hn−1 .E (ηn ) = 0 ,
E (2n | n−1 ) = hn−1 .E (ηn2 ) = hn−1 .

Définition 3.15 — Le modèle est dit hétéroscédastique si E (2n | n−1 ) n’est pas
constant.

Processus stochastiques 54
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.26 — Si n solution du modèle (?) vérifie E (2n ) = cste < ∞, alors
n est un bruit blanc de L2 (i.e. bruit blanc au sens faible).

Définition 3.16 — Le modèle (?) est un ARCH(q) (autoregressive conditionally


heteroshedastical) si
Xq
hn−1 = γ + αi 2n−i ,
i=1

avec γ > 0, αi > 0 ∀i.

Définition 3.17 — Le modèle (?) est un GARCH(p,q) (generalised autoregres-


sive conditionally heteroshedastical) si
q
X p
X
hn−1 = γ + αi 2n−i + βj hn−j−1 ,
i=1 j=1

avec γ > 0, αi ,βi > 0 ∀i.

Proposition 3.27 — S’il existe une solution n du modèle ARCH(q) telle que 2n soit
stationnaire au sens large, alors 2n est un AR(q) vérifiant
q
X
2n = γ + αi 2n−i + Un ,
i=1

avec Un bruit blanc faible.

S’il existe une solution n du modèle GARCH(p,q) telle que 2n soit stationnaire au sens
large, alors 2n est un ARMA sup(p,q),q vérifiant

sup(p,q) p
X X
2n = γ + (αi + βi )2n−i − βj Un−j + Un ,
i=1 j=1

avec Un bruit blanc faible.

Proposition 3.28 — Si le modèle (?) admet une solution stationnaire faible, alors
α + β < 1.

 Proposition  3.29 — Si le modèle (?) admet une solution stationnaire stricte, alors
E ln(α + βη12 ) < 0. Dans ce cas, la solution est ergodique. de plus, si la solution station-
naire stricte admet un moment d’ordre 2, alors α + β < 1.

Proposition 3.30 — Si le modèle GARCH(p,q) admet une solution stationnaire faible,


alors
sup(p,q)
X
(αi + βi ) < 1 .
i=1

Processus stochastiques 55
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.31 — Soit (An )n∈Z une suite de matrices aléatoires formant un pro-
cessus stationnaire strict. Alors
 
  E ln kA1 . . . An k
E ln kA1 k < ∞ ⇐⇒ −→ γ ,
n
où γ est le plus grand exposant de Lyapounov. De plus,

ln kA1 . . . An k p.s.
−→ γ ,
n

i.e.
1 p.s.
kA1 . . . An k n −→ eγ .

Proposition 3.32 — Si γ < 0, alors il existe une solution stationnaire stricte.

Proposition 3.33 — Le modèle GARCH(p,q) admet une solution stationaire stricte


dans L2 ssi
sup(p,q)
X
(αi + βi ) < 1 .
i=1

3.6 Modèles de diffusions limites des modèles GARCH

Soit le modèle de diffusion



dYt = b(Yt ) dt + σ(Yt ) dWt
(?)
Y0 = y0

La discrétisation d’Euler est définie par



Y(k+1)h − Ykh = b(Ykh ) × h + σ(Ykh ) W(k+1)h − Wkh
| {z }

h
hZk+1

Zk = Ykh est une chaı̂ne de Markov.

1  
E Y(k+1)h − Ykh | Ykh = y = b(y)
h
1 
V Y(k+1)h − Ykh | Ykh = y = σ 2 (y)

h

(h)
Théorème 3.6 (Stroock - Varadhan) — Soit (Yk )k une famille de chaı̂nes de
h
Markov indexées par h, à valeurs dans Rd . Y t = Ykh si t ∈ [kh,(k + 1)h[, t ∈ R.

Processus stochastiques 56
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

C’est un processus cadlag. Supposons qu’∃a,b, aplications continues, avec a(y) matrice
d-dimensionnelle définie positive et b(y) vecteur de Rd . On suppose que

1  (h) (h) (h) 


sup E Y1 − Y0 | Y0 = y − b(y) −→ 0 (h → 0) ,
|y|6r h
1  (h) (h) (h) 
sup Cov Y1 − Y0 | Y0 = y − a(y) −→ 0 (h → 0) ,
|y|6r h
1  (h) (h) (h)
E |Y1 − Y0 |2+δ | Y0 = y reste borné quand h → 0 .

sup
|y|6r h1+δ/2

S’il existe σ continue telle que a(y) = σ(y)σ(y)t et si l’EDS (?) admet une solution
h
unique, alors les lois fini-dimensionnelles des processus Y t convergent vers celle de l’EDS.

Conséquence — Discrétisation d’Euler −→ solution de l’EDS.


h→0

Processus stochastiques 57
Deuxième partie

THÓRIE DE MARKOV

58
4

Introduction

Définition 4.1 — Un processus de Markov est un processus tel que, étant donné
la valeur de Xt , la valeur de Xs pour s > t ne dépend pas des valeurs prises avant t, soient
{Xu , u < t}.
Ceci s’écrit

P(Xt ∈]a,b] | Xt1 = x1 , Xt2 = x2 , . . . , Xtn = xn ) = P(Xt ∈]a,b] | Xtn = xn )

pour t1 < t2 < . . . < tn < t.

Définition 4.2 — On appelle fonction de probabilité de transition la fonction

P(x, s ; t, A) = P(Xt ∈ A | Xs = x)

pour t > s et A ⊂ R.

Définition 4.3 — Un processus de Markov ayant un espace d’états fini ou dénombrable


est
 appelé chaı̂ne de Markov. Un processus de Markov pour lequel toutes les réalisations
Xt , t ∈ [0,∞[ sont des fonctions continues est appelé processus de diffusion.

Définition 4.4 — Un processus est dit stationnaire si, pour tout h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ) .

Définition 4.5 — Un processus est dit stationnaire par covariance si ses moments
du second ordre sont finis et si

Cov(Xt , Xt+h ) = E(Xt Xt+h ) − E(Xt ) · E(Xt+h )

ne dépend que de h pour tout t ∈ T .

59
4. INTRODUCTION

Proposition 4.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.

Définition 4.6 — Un processus a ses probabilités de transition stationnaires si


P(x, s ; t, A) ne dépend que de t − s.

Notation — On note

Pijn,n+m = P(Xn+m = j | Xn = i)

et

Pijn,n+1 = Pij
= P(Xn+1 = j | Xn = i) .

Définition 4.7 — Pijn,n+1 est appelée probabilité de transition en un pas (one-


step transition), et Pijn,n+m = Pijm est appelée probabilité de transition en m pas
(m-step transition).

Proposition 4.2 — Nous avons

P(X0 = i0 , X1 = i1 , . . . , Xn = in ) = pi0 · Pi0 ,i1 . . . Pin−2 ,in−1 · Pin−1 ,in

avec pi0 = P(X0 = i0 ).

Remarque — Une chaı̂ne de Markov est déterminée par sa matrice de probabilité


de transition et la distribution de probabilité du processus à l’instant 0.

Définition 4.8 — Une marche aléatoire uni-dimensionnelle est une chaı̂ne de Mar-
kov d’espace d’états l’ensemble (fini ou infini) {a, a + 1, . . . , b} pour lequel, si le processus
est en i à l’instant n, alors à l’instant n + 1 il ne peut être qu’en i, en i − 1 ou en i + 1. La
matrice de transition est alors de la forme
 
r0 p0 0 0 ... ... 0
 q 1 r1 p1 0 ... ... 0
 
 0 q 2 r2 p2 0 ... 0
 
 . . . . . . . . 
0 . . . . ... 0
0 . . . . . . . . . . . . 0 rb

avec pi > 0, qi > 0, ri > 0 et qi + ri + pi = 1 pour tout i ∈ {1, 2, . . .}, p0 > 0, r0 >
0, r0 + p0 = 1 et enfin, si Xn = i, i > 1,

 P(Xn+1 = i + 1 | Xn = i) = pi ,
P(Xn+1 = i | Xn = i) = ri ,
P(Xn+1 = i − 1 | Xn = i) = qi .

Processus stochastiques 60
4. INTRODUCTION

Proposition 4.3 — Si la matrice de probabilité de transition en un pas d’une chaı̂ne


de Markov est P , alors
X∞
Pijn = r
Pik · Pkjs

k=0

pour toute paire (r,s) d’entiers positifs vérifiant r + s = n, et avec la convention



0 1 si i = j ,
Pij =
0 si i 6= j .

Définition 4.9 — Un état j est dit accessible à partir d’un état i s’il existe un entier
n > 0 tel que Pijn > 0.

Définition 4.10 — Deux états i et j communiquent s’ils sont mutuellement acces-


sibles. On note cette communicabilité i ↔ j.

Proposition 4.4 — Le critère de communicabilité est une relation d’équivalence :


(i) i ↔ i (réflexivité) ;
(ii) i ↔ j ⇒ j ↔ i (symétrie) ;
(iii) i ↔ j et j ↔ k ⇒ i ↔ k (transitivité).
Il est par conséquent possible de partitionner l’ensemble des états en classes d’équiva-
lence.
Par ailleurs, s”il était possible, partant d’une classe, d’entrer dans une autre classe avec
une probabilité positive, alors il serait clairement impossible de retourner dans la classe
initiale, à moins que ces deux classes n’en forment qu’une seule.

Définition 4.11 — Une chaı̂ne de Markov est dite irréductible si la relation d’équi-
valence induit une seule classe, i.e. tous ses états communiquent entre eux.

Définition 4.12 — La période d’un état i, noté d(i), est le plus grand commun
diviseur (pgcd) de tous les entiers n > 1 pour lesquels Piin > 0. Par convention, on pose
d(i) = 0 si Piin = 0 pour tout n > 1.

Remarques — Nous avons :


1. Si, pour une marche aléatoire, ri = 0 quel que soit i, alors tous les états de cette
marche aléatoire ont pour période 2.
2. Si, pour une marche aléatoire, il existe un état i0 tel que ri0 > 0, alors tous les états
de cette marche aléatoire ont pour période 1.

Théorème 4.1 — i ↔ j ⇒ d(i) = d(j).

Processus stochastiques 61
4. INTRODUCTION

Remarque — Ceci prouve que la périodicité est une propriété de classe.

Théorème 4.2 — Si l’état i a pour période d(i), alors il existe un entier N (i) (dépen-
dant de i) tel que ∀n > N (i),
nd(i)
Pii >0.

m m+nd(i)
Corollaire 4.1 — Pji >0 ⇒ Pji >0 ∀n suffisamment grand.

Définition 4.13 — Une chaı̂ne de Markov est dite apériodique si tous ses états sont
de période 1.

Soit un état i. On définit, pour chaque entier n > 1,

fiin = P(Xn = i, Xν 6= i, ν = 1, 2, . . . , n − 1 | X0 = i)

qui est la probabilité que, partant de l’état i, le premier retour à cet état se passe au ne
pas de la transition.

Proposition 4.5 — Pour n > 1,


n
X
Piin = fiik Piin−k
k=0

avec fii0 = 0 pour tout i.

Définition 4.14 — Un état i est dit récurrent ssi



X
fiin = 1 ,
n=1

i.e. ssi, partant de cet état, la probabilité d’y repasser après un temps fini vaut 1.

Définition 4.15 — Un état non récurrent est dit transient.

Théorème 4.3 — Un état i est récurrent ssi



X
Piin = ∞ .
n=1

Corollaire 4.2 — Si i ↔ j et si i est récurrent, alors i l’est aussi.

Processus stochastiques 62
4. INTRODUCTION

Remarque — Ceci prouve que la récurrence, comme la périodicité, est une pro-
priété de classe : tous les états d’une même classe d’équivalence sont soit récurrents, soit
transients.

Remarque
P∞ — Le nombre attendu de (re)passages par l’état i, étant donné X0 = i,
vaut n=1 Piin . Par conséquent, le théorème ci-dessus dit que l’état i est récurrent ssi le
nombre attendu de (re)passages par cet état est infini.

Définition 4.16 — On définit

Qij = P(une chaı̂ne partant de l’état i visite infiniment souvent l’état j) .

Théorème 4.4 — L’état i est récurrent (respectivement transient) si Qii = 1 (resp.


Qii = 0).

Théorème 4.5 — Si i ↔ j et si la classe est récurrente, alors



X
? n
f = fij
n=1
= 1.

Corollaire 4.3 — Si i ↔ j et si la classe est récurrente, alors Qij = 1.

Définition 4.17 — Une chaı̂ne de Markov est dite récurrente (respectivement irré-
ductible) si tous ses états sont récurrents (resp. irréductibles).

Théorème 4.6 (Théorème limite 1) — Soit une chaı̂ne de Markov récurrente,


irréductible et apériodique. Soit Piin la probabilité de repasser en i lors de la ne transition,
n = 0, 1, 2, . . ., étant donné que la chaı̂ne part de i, i.e. X(0) = i. Par convention, Pii0 = 1.
Soit fiin la probabilité que le premier (re)passage en i se fasse lors de la ne transition,
n = 0, 1, 2, . . ., avec la convention fii0 = 0. Alors
n 
X 1 si n = 0 ,
Piin − fiin−k Piik =
0 si n > 0 ,
k=0

et
1
lim = P∞ .
n→∞
n=0 nfiin

Théorème 4.7 (Théorème limite 2) — Sous les mêmes conditions que celles du
théorème précédent,
n
lim Pji = lim Piin .
n→∞ n→∞

Processus stochastiques 63
4. INTRODUCTION

Proposition 4.6 — Si i appartient à une classe récurrente apériodique, alors


n
1 X m 1
lim Pii = P∞ n .
n→∞ n
m=0 n=0 nfii

Proposition 4.7 — Si i appartient à une classe récurrente périodique de période d,


alors Piim = 0 si m n’est pas un multiple de d, et de plus
d
lim Piind = P∞ .
n→∞
n=0 nfiin


X
Remarque — nfiin est le temps de récurrence moyen.
n=0

Notation — On note πi = lim Piin .


n→∞

Proposition 4.8 — Si πi > 0 pour un état i d’une classe récurrente apériodique, alors
πi > 0 pour tout état j de la classe de i. Dans ce cas, cette classe est dite récurrente
positive ou fortement ergodique.

Proposition 4.9 — Si πi = 0 pour tout état i d’une classe récurrente, cette classe est
dite récurrente nulle ou faiblement ergodique.

Théorème 4.8 — Dans une classe récurrente positive et apériodique d’états j =


0, 1, 2, . . .,
n
lim Pjj = πj
n→∞

X
= πi Pij
i=0

et

X
πi = 1 .
i=0

Les (π)i sont déterminés de façon unique par les trois équations suivantes :

π

P∞
i > 0,

i=0 πi = 1, (4.1)
 P∞
πj = i=0 πi Pij .

Définition 4.18 — Tout ensemble (πi )i=0,1,2,... vérifiant (4.1) est appelé distribution
de probabilité stationnaire de la chaı̂ne de Markov.

Processus stochastiques 64
4. INTRODUCTION

Définition 4.19 — Soit T l’ensemble de tous les états transients, C, C1 , C2 , . . . les


classes de récurrence et i un état transient. On définit

πi (C)

comme étant la probabilité que la chaı̂ne, partant de i, soit absorbée par la classe récurrente
C (rappel : une fois que la chaı̂ne entre dans une classe récurrente, elle ne la quitte plus).

Théorème 4.9 — Soit j ∈ C (classe récurrente apériodique). Alors pour i ∈ T ,

lim Pijn n
= πi (C) · lim Pjj
n→∞ n→∞
= πi (C) · πj

Théorème 4.10 — Soit B une chaı̂ne de Markov irréductible dont l’espace d’états
est désigné par des entiers positifs. Une condition nécessaire et suffisante pour que B soit
transiente est que le système d’équations

X
Pij yj = yj , i 6= 0
j=0

admette une solution bornée non constante.

Théorème 4.11 — Une condition suffisante pour qu’une chaı̂ne de Markov soit ré-
currente qu’il existe une séquence {yi } telle que

X
Pij yj 6 yj pour i 6= 0 et avec yi → ∞ .
j=0

Processus stochastiques 65
5

Ergodicité

Définition 5.1 — Un processus est dit stationnaire (au sens fort) si, pour tout
h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ).

Définition 5.2 — Un processus est dit stationnaire par covariance (stationnaire


au sens faible) si ses moments du second ordre sont finis et si sa fonction de covariance
Cov(Xn , Xn+v ) = E(Xn Xn+v ) − E(Xn ) E(Xn+v )
h i
= E (Xn − m)(Xn+v − m)
= R(v) (notation)
ne dépend que de h pour tout t ∈ T — m étant la moyenne du processus.

Proposition 5.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.

Théorème 5.1 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance ayant pour fonction de covariance R(v). Alors
N −1
1 X
lim E (X̄N − m)2 = 0
 
lim R(v) = 0 ssi
N →∞ N N →∞
v=0

1
où X̄N = N (X1 + . . . + XN ).

Remarque — Le théorème précédent est une généralisation de la loi des grands


nombres : au lieu d’être indépendantes, les variables Xn sont asymptotiquement indé-
pendantes, dans ce sens que la covariance R(v) a une limite de Cesaro nulle quand v tend
vers l’infini.

66
5. ERGODICITÉ

Théorème 5.2 — Soit (Xn ) un processus gaussien stationnaire par covariance ayant
pour fonction de covariance R(v) et pour moyenne 0. Alors
N −1
1 X
R(v)2 = 0 lim E |R̂T (v) − R(v)|2 = 0 ,
 
lim =⇒
T →∞ T v=0 T →∞

où R̂T (v) est la fonction de covariance de l’échantillon, soit


T −1
1 X
R̂T (v) = Xl Xl+v .
T
l=0

Théorème 5.3 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance. Alors il existe une variable aléatoire X̄ telle que

lim kX̄N − X̄k2 = 0 .


n→∞

Théorème 5.4 (Ergodicité des carrés moyens) — Soit (Xn ) un processus (faible-
ment) stationnaire de moyenne E(Xn ) = m. Alors X̄n = n1 (X0 + . . . + Xn−1 ) converge en
probabilité vers une variable aléatoire X̂, ce qui s’écrit

P lim X̄n = X̄ = 1 .
n→∞

Définition 5.3 — On appelle opérateur de shift l’opérateur T défini par :

T x = T (x0 , x1 , x2 , . . .)
= (x1 , x2 , x3 , . . .) .

Définition 5.4 — On appelle ensemble invariant par opération de shift un


ensemble A tel que, si T est l’opérateur de shift, alors

T x est un élément de A ⇐⇒ x est dans A .

Définition 5.5 — Soit (Xn ) un processus (faiblement) stationnaire. Il est dit ergo-
dique si, pour tout ensemble A invariant par opération de shift,

P (X0 , X1 , . . .) ∈ A = 0 ou 1 .

Théorème 5.5 — Soit (Xn ) un processus stationnaire ergodique de moyenne finie


E(Xn ) = m. Alors, avec une probabilité 1,
1
lim (X1 + . . . + Xn ) = m .
n→∞ n

Processus stochastiques 67
5. ERGODICITÉ

Théorème 5.6 — Soit (Xn ) un processus stationnaire. Les conditions suivantes sont
équivalentes :
(i) (Xn ) est ergodique ;
(ii) pour tout ensemble A invariant par opération de shift,

P (X0 , X1 , . . .) ∈ A = 0 ou 1 ;

(iii) pour tout ensemble A de la forme (x0 , x1 , . . .),


n
1X  
lim 1 = P (X0 , X1 , . . .) ∈ A ;
n→∞ n (Xj , Xj+1 ,...)∈A
j=1

(iv) pour tout k = 1, 2, . . . et tout ensemble A de la forme (x0 , . . . , xk ),


n
1X  
lim 1 = P (X0 , . . . , Xk ) ∈ A ;
n→∞ n (Xj ,..., Xj+k )∈A
j=1

(v) pour tout k et toute fonction φ de k + 1 variables,


n
1X  
lim φ(Xj , . . . , Xj+k ) = E φ(X0 , . . . , Xk ) ;
n→∞ n
j=1

à condition que cette espérance existe ;


(vi) pour toute fonction φ sur un ensemble (x0 , . . . , xk ),
n
1X  
lim φ(Xj , Xj+1 , . . .) = E φ(X0 , X1 , . . .) ,
n→∞ n j=1

à condition que cette espérance existe.

Processus stochastiques 68
6

Entropie

Tandis qu’une probabilité mesure l’incertitude touchant l’occurence d’un événement,


l’entropie mesure l’incertitude touchant l’occurence d’un ensemble d’événements.

Définition 6.1 — Soit X une v.a. prenant la valeur i avec la probabilité pi , i =


1, . . . , n. L’entropie de X se définit par
n
X
H(X) = − pi log(pi )
i=1

(avec la convention 0 × log 0 = 0).

Propriété 6.1 — L’entropie vérifie les trois propriétés suivantes :


(i) l’entropie d’une variable aléatoire constante est nulle ;
(ii) l’ajout à l’entropie de la valeur i + 1, avec la probabilité correspondante pi+1 , ne
modifie pas l’entropie ;
(iii) l’entropie est maximisée, avec la valeur maximum log n, lorsque p1 = . . . = pn =
1/n.

Remarque — La propriété (iii) est conforme à l’intuition, qui veut que la v.a. X1
prenant les valeurs 0 et 1 avec les probabilités 0,001 et 0,999 est plus prévisible que la v.a.
X2 prenant les valeurs 0 et 1 avec probabilité 1/2.

Définition 6.2 — On définit l’entropie d’un couple de v.a. (X,Y ) par


X
H(X,Y ) = − pij log(pij ) .
i,j

69
6. ENTROPIE

Définition 6.3 — On définit l’entropie conditionnelle de X sachant Y par


X X  
H(X | Y ) = − P(Y = j) p(i | j) log p(i | j)
j i

(avec p(i | j) = P(X = i | Y = j)).

Proposition 6.1 — H(X | Y ) = H(X, Y ) − H(Y ).

Proposition 6.2 — H(Xk | X1 , . . . , Xk−1 ) 6 H(Xk | X2 , . . . , Xk−1 ).

Définition 6.4 — On définit l’entropie d’un processus (Xn ) par


 
H (Xn ) = lim H(Xk | X1 , . . . , Xk−1 ) .
k→∞

Proposition 6.3 — H (Xn ) = limk→∞ k1 H(X1 , . . . , Xk ).


 

Proposition 6.4 — Si (Xn ) est ergodique, alors


  1
H (Xn ) = lim − log p(X0 , . . . , Xn−1 ) .
n→∞ n

Proposition 6.5 — Soit (Xn ) une chaı̂ne


 de Markov irréductible d’espace d’états fini.
On suppose que π(i) = P(X0 = i), où π(i) i=1,..., N est la distribution stationnaire de la
chaı̂ne. Alors   X
H (Xn ) = − π(i) P (i, j) log P (i, j) .
i,j

Proposition 6.6 — Une chaı̂ne de Markov irréductible d’espace d’états fini commen-
çant avec sa distribution stationnaire est un processus stationnaire ergodique.

Théorème 6.1 — Soit (Xn ) un processus stationnaire ergodique d’espace d’états fini
{1, . . . , N }. Soient
p(i1 , . . . , im ) = P(X1 = i1 , . . . , Xm = xm )
et  n 
  1X X
H (Xn ) = lim − p(i1 , . . . , pk ) log p(i1 , . . . , ik ) .
n→∞ n i ,..., i
k=1 1 k

Alors, avec une probabilité 1,


  h 1 i
H (Xn ) = lim − log p(X1 , . . . , Xn ) .
n→∞ n

Processus stochastiques 70
Troisième partie

PROCESSUS
STOCHASTIQUES

71
7

Généralités

Définition 7.1 — On considère un espace probabilisé (Ω, A, P) où P est la mesure


de probabilité sur (Ω, A). Un processus aléatoire, ou encore une fonction aléatoire
réelle (f.a.r.) est une fonction à deux variables : t — le temps — et ω — le hasard —, et
elle est notée X(t, ω), avec t ∈ [0, ∞[ et ω ∈ Ω.

À t fixé, la fonction Xt : ω 7→ X(t, ω) est appelée


 coordonnée à l’instant t (c’est donc
une v.a.). La trajectoire est ω 7→ X(t, ω), t > 0 , ordinairement continue.
Une f.a.r. à trajectoire continue (f.a.r.c.) est une application

X : [0, ∞[ × Ω → R
(t, ω) 7→ X(t, ω)

telle que :
a) pour presque tout ω, t 7→ X(t, ω) est continue ;
b) pour tout t > 0, Xt : ω 7→ X(t, ω) est une v.a.r.
La loi de X est caractérisée par la loi des (Xt1 , . . . , Xtk )k>1 , 0 6 t1 < . . . < tk < ∞. En
fait, il s’agit d’une loi marginale finie k-dimensionnelle. Soit

X : Ω → C(R+ , R)

ω 7→ X(t, ω), t > 0

où C(R+ , R) est munie de la topologie de la convergence uniforme sur les compacts.
Munissant C(R+ , R) de la tribu borélienne, X est mesurable. Par conséquent, l’image de P
par cette application mesurable est la probabilité sur C notée PX .

72
7. GÉNÉRALITÉS

7.1 Espaces gaussiens

Définition 7.2 — Un sev 1 fermé F de L2 (Ω, A, P) est un espace gaussien si ses


éléments sont des v.a. gaussiennes centrées. Étant donné X une f.a.r. gaussienne, on note
L2
H X = vect X − E (X) l’espace gaussien associé à X.
(H X , < . >) est un espace de Hilbert (car c’est un fermé inclus dans un complet, donc
il est complet). Si X est continue, alors H X est séparable. Soit (ζn )n une base orthonormée
de H X . Développons Xt − E (Xt ) sur cette base (formule de Karhunen – Loeve) :

X
X(t) = E (X(t)) + cn (t) ζn (ω)
n

avec

cn (t) = < Xt − E (X(t)), ζn >


  
= E ζn Xt − E (Xt )
= E (ζn Xt ) .

7.2 Mouvement brownien

Définition 7.3 — Un mouvement brownien est une f.a.r.c. B(t, ω) à accroisse-


ments indépendants gaussiens, avec :
(i) B(t) − B(s) N (0, t − s) pour 0 6 s < t ;
(ii) B(0) = 0.

Propriété 7.1 — B est un processus gaussien centré à trajectoire continue et de


covariance 
E B(s)B(t) = min(s, t) .
La réciproque est vraie.

Propriété 7.2 — Si B est un mouvement brownien, il en est de même de


1
X(t) = B(c2 t)
c
et
1
Y (t) = tB( ) ,
t
pour c ∈ R? .

1. Sous-espace vectoriel.

Processus stochastiques 73
7. GÉNÉRALITÉS

7.3 Principe d’invariance

Soit (ζn )n des v.a. i.i.d. d’espérance nulle et de variance σ 2 finie. Soit Sn =
P
i ζi .
D’après le théorème de la limite centrale,
Sn L
√ → N (0, 1) .
σ n
Soit la marche aléatoire renormalisée
P[nt] 
(n) i=1 ζi + nt − [nt] ζ[nt]+1
Xt = √ .
σ n

(n)
Théorème 7.1 (Donsker) — La suite de processus Xt converge en loi vers B quand
n tend vers l’infini.

7.4 Propriétés du brownien

7.4.1 Variation quadratique

Nous savons que :


(i) B(t + h) − B(t) N (0, h) ;

(ii) B(t+h)−B(t) /h N (0, h×(1/h2 ) = 1/h), qui n’a pas de limite quand h décroı̂t
vers 0.
Par conséquent, nous avons le résultat suivant.

Proposition 7.1 — Le brownien n’est pas dérivable.

Partitionnons [0, T ] : 0 = t0 < t1 < . . . < tn = T . Le pas de cette partition est


∆ = max (ti − ti−1 ) .
16i6n

Définition 7.4 — La variation totale est définie comme étant


X
lim B(ti ) − B(ti−1 ) .
∆→0
i

et elle est infinie.

Définition 7.5 — La variation quadratique est


X 2
lim B(ti ) − B(ti−1 )
∆→0
i

et elle est finie. On la note < Bt > ou < B >t .

Processus stochastiques 74
7. GÉNÉRALITÉS

Théorème 7.2 — La variation quadratique de B existe dans L2 et vaut p.s. T .

Proposition 7.2 — Pour presque tout ω,


(i) t → B(t, ω) n’est dérivable en aucun t ;
(ii) ∀α < 1/2, |B(t) − B(s)| 6 c|t − s|α , quels que soient s et t dans [0, T ] — par ailleurs,
c = c(α, ω, T ) < ∞.

7.4.2 Martingales

Définition 7.6 — Soit (Ω, A, P), t ∈ N ou R+ . Une filtration est une famille Ft de
tribus, t ∈ N ou R+ , telle que
Fs ⊂ Ft ⊂ A
∀s 6 t.

Définition 7.7 — Soient (Ω, A, P) et Ft une filtration. Un processus X = X(t, ω) est


dit Ft –adapté si ∀t, Xt est Ft -mesurable.

Définition 7.8 — Soit (Ω, A, P). Soit (Mt )t , t ∈ N ou R+ , un processus réel défini
sur Ω. Soit (Ft )t une filtration sur Ω. (Mt )t est une Ft –martingale si :
(i) ∀t, Mt est Ft –adaptée et Mt ∈ L1 ;
(ii) pour 0 6 s 6 t, E (Mt |Fs ) = Ms p.s.

Conséquence — E (Mt ) = E (Ms ) = E (M0 ).

Exemples — Nous donnons quelques exemples de martingales.


Pn
1) Marche aléatoire : soit Fn = σ(ζ1 , . . . , ζn ). Soit Sn = i=1 ζi , avec les ζi i.i.d.
centrées. Alors Sn est une Fn –martingale : ζi ∈ L1 ⇒ Sn ∈ L1 . Sn est Fn –
mesurable.

E (Sn | Fn−1 ) = E (Sn−1 + ζn | Fn−1 )


= Sn−1
h i
E (Sn | Fn−2 ) = E E (Sn | Fn−1 ) | Fn−2
= E (Sn−1 | Fn−2 )
= Sn−2 .
2) Brownien : soit Ft = σ(Bu , u 6 t). B est une Ft –martingale ; soit s 6 t :
E (Bt | Fs ) = E (Bt − Bs + Bs | Fs )
= E (Bt − Bs | Fs ) + Bs
= E (Bt − Bs ) + Bs
= Bs ,
car (Bt − Bs ) ⊥ Bu , u 6 s.

Processus stochastiques 75
7. GÉNÉRALITÉS

Pn
3) Soit Fn = σ(ζ1 , . . . , ζn ). Soit Sn = i=1 ζi , avec les ζi i.i.d. centrées de variance σ 2 .
Alors Xn = Sn − nσ 2 est une Fn –martingale.
4) Soit Ft = σ(Bu , u 6 t). Alors
Mt = Bt2 − t
est une Ft –martingale.
5) Soit Ft = σ(Bu , u 6 t). Alors

λ2 t
 
Yt = exp λBt − ,
2

pour λ ∈ C, est une Ft –martingale.

2 
Remarque — Soit X(t) une f.a.r.c. telle que X(0) = 0 et telle que exp λXt − λ2 t


soit une Ft –martingale, avec Ft = σ(Xs , s 6 t), λ ∈ R (ou λ ∈ iR). Alors X est un
brownien.

Définition 7.9 — X est une Ft –sous-martingale (respectivement une Ft –sur-


martingale) si :
(i) ∀t, Xt est Ft –mesurable ;
(ii) E (Xt |Fs ) > Xs p.s. (resp. E (Xt |Fs ) 6 Xs p.s.), ∀0 6 s 6 t.

Proposition 7.3 — Soit M une martingale et φ : R → R convexe. Alors Xt = φ(Mt )


est une sous-martingale.

En particulier, le résultat précédant, pour φ(x) = x2 , nous indique que le carré d’une
martingale est une martingale.

Proposition 7.4 — Soit M une martingale continue et < M >t sa variation quadra-
tique. Alors
Xt = Mt2 − < M >t .
est une martingale.

7.4.3 Théorème d’arrêt — Inégalité de Doob

Définition 7.10 — Soient (Ω, A, P) et (Ft )t>0 une filtration. On appelle temps
d’arrêt une v.a. T : Ω → [0, ∞] telle que ∀t > 0, {T 6 t} ∈ Ft .

Exemples — Voici quelques exemples.


1) T = t0 , ∀ω, avec t0 > 0, est un temps d’arrêt.
2) X processus Ft –adapté, A ∈ B(R). Le temps d’entrée dans A est

TA = inf t > 0, Xt ∈ A .

Processus stochastiques 76
7. GÉNÉRALITÉS

3) Si A est un ouvert et si X est continue à droite, alors TA est un Ft+ –temps d’arrêt,
où Ft+ = ∩ Fs .
s>t
4) Si B est un fermé et si X est continue, alors TB est un Ft –temps d’arrêt.
5) T ∧ T 0 est un temps d’arrêt si T et T 0 en sont.

Théorème 7.3 (Théorème d’arrêt) — Soient (Mt )t une Ft –martingale et T un


Ft –temps d’arrêt p.s. borné (i.e. T 6 cte p.s.). On suppose que (Mt )t est continue à droite.
Soit 0 6 s 6 T . Alors
E (MT | Fs ) = Ms p.s.
Le résultat demeure :
— pour une sous-martingale, avec la relation E (MT | Fs ) > Ms p.s. ;
— pour une sur-martingale, avec la relation E (MT | Fs ) 6 Ms p.s.

Corollaire 7.1 — Nous avons :

E (MT ) = E (Ms ) = E (M0 ) .

Proposition 7.5 (Inégalité de Doob) — Soit Xt une Ft –martingale de carré inté-


grable et continue à droite. Alors ∀T > 0, ∀λ > 0,
1
E (XT2 ) .

P sup |Xt | > λ 6
06t6T λ2

Théorème 7.4 — Nous avons :


Bt
lim
= 0 p.s.
t→∞ t

Proposition 7.6 — Soient s > 0 et X(t) = B(t + s) − B(s). Alors X est un brownien
et est indépendant de Fs = σ(Bu , u 6 s).

Proposition 7.7 — Si T est un temps d’arrêt pour la filtration du brownien, alors


X(t) = B(t + T ) − B(T ) est aussi un brownien.

Processus stochastiques 77
7. GÉNÉRALITÉS

7.4.4 Intégrale de Wiener

L2 (Ω) est muniR du p.s. produit scalaire E (XY ). L2 (R+ ) est muni du p.s. produit
scalaire < f, g >= R+ f (t)g(t) dt. On veut définir
Z
1]u, v] (s) dB(s) = B(v) − B(u)
R+

pour 0 6 u < v.

Définition 7.11 — Soient 0 = t0 6 t1 < . . . < tn . Alors


Z n
nX o n
X 
ak 1]tk−1 , tk ] (s) dB(s) = ak B(tk ) − B(tk−1 ) (7.1)
R+ k=1 k=1
 Pn
sur F = fonctions en escalier : f (s) = k=1 ak 1]tk−1 , tk ] (s) .

Remarque — Cette définition ne dépend pas du choix de la fonction étagée.

L’équation (7.1) s’écrit T f , avec T : F → H B (espace gaussien engendré par le brow-


nien) ; F ⊂ L2 (R), H B ⊂ L2 (Ω). Cette application linéaire est de norme 1.

Théorème 7.5 — Soit B un brownien sur (Ω, A, P). On peut associer à toute
fonction f de L2 (R) une v.a. centrée, intégrable et gaussienne de H B , notée R+ f (t) dB(t)
R

et appelée intégrale de Wiener telle que :


R
(i) R+ 1]u, v] (t) dB(t) = B(v) − B(u) pour u < v ;
R
(ii) f 7→ R+ f (t) dB(t) est linéaire et isométrique ;
(iii) on a les propriétées suivantes :
hZ Z i Z
E f (t) dB(t) × g(t) dB(t) = f (t) g(t) dt .
R+ R+ R+
hZ i Z s
E f (t) dB(t) × B(s) = f (t) dt ,
R+ 0
nZ o
f dB , f ∈ L2 (R+ ) = HB .
R+

Proposition 7.8 (Intégration par parties) — Si f ∈ C1 (R+ ), alors p.s.


Z t Z t
f (s) dB(s) = f (t) B(t) − f 0 (s) B(s) ds .
0 0

Processus stochastiques 78
7. GÉNÉRALITÉS

7.4.5 Équation de Langevin

A. Cas unidimensionnel

Définition 7.12 — L’équation de Langevin est

dV (t) = −bV (t) dt + σ dB(t)

ce qui équivaut à
Z t
V (t) = V (0) − bV (s) ds + σB(t) .
0

Proposition 7.9 — La solution de l’équation de Langevin est donnée par


Z t
−bt
V (t) = e V (0) + σ e−b(t−s) dB(s) .
0

Définition 7.13 — V s’appelle le processus d’Ornstein-Uhlenbeck.

Proposition 7.10 — On suppose que V (0) est indépendant de B et qu’il suit une loi
normale centrée de variance σ 2 /(2b). Alors V (t) est un processus gaussien stationnaire.

B. Cas multidimensionnel

Soit
dV (t) = −bV (t) dt + σ dB(t)
avec V ∈ R , b ∈ Md×d , σ ∈ Md×d , b ∈ Rd et B = (B1 , . . . , Bd )t brownien de dimension
d

d.

Proposition 7.11 — On suppose que :


(i) V (0) est indépendant de B ;

(ii) E V (0) = 0 ;

(iii) V V (0) = σ 2 /(2b) ;

(iv) V (0) N 0, σ 2 /(2b) .
Alors V (t) est un processus gaussien stationnaire.

Processus stochastiques 79
8

Calcul stochastique

8.1 Intégrale stochastique d’Ito

8.1.1 Filtration

Définition 8.1 — Une f.a. φ(t, ω) définie sur R+ × Ω (respectivement sur [0, T ] × Ω)
est dite progressivement mesurable par rapport à la filtration F = (Ft , t > 0) si ∀t ∈ R+
(resp. t 6 T ), la restriction de φ suivante :

φ : [0, t] × Ω → R
(s, ω) 7→ φ(s, ω)

est mesurable par rapport à B [0, t] ⊗ Ft .

Remarque — B([0, t]) ⊗ Ft est engendré par les B × A, ∀B ∈ B([0, t]), ∀A ∈ Ft .


On note M 2 (R+ ) (resp. M 2 [0, t] ) l’ensemble des fonctions φ progressivement mesu-
rables et telles que Z 
E φ2 (t, ω) dt < ∞ .
R+

(resp. intégrale sur [0, T ]), et l’on considèrera par la suite


\
M2 = M 2 [0, t] .


Nota — Soient φ progressivement mesurable et t fixé. ω 7→ φ(t, ω) est Ft –mesurable,


donc φ est adaptée.

80
8. CALCUL STOCHASTIQUE

Par lasuite, nous travaillerons sur R+ , mais les résultats seront également valables pour
2
M [0, t] .
M 2 (R+ ) est un espace de Hilbert : on a le produit scalaire
Z 
2
< φ, ψ >M 2 (R+ ) = E φ (t, ω) ψ(t, ω) dt .
R+

8.1.2 Fonctions en escalier

Soit 0 = t0 < t1 < . . . < tn . On définit


n−1
X
φ(t, ω) = Xi (ω) 1]ti , ti+1 ] (t) ,
i=0

avec Xi Fti –mesurable et Xi ∈ L2 (Fti ).


 −1 [
Xi−1 (I) × ]ti , ti+1 ] ∩ [0, t]

φ [0, T ]×Ω
(I) =
i : ti 6t

appartient à B([0, t]) ⊗ Ft . Par conséquent, φ est mesurable.

Définition 8.2 — Pour φ en escalier, on définit


Z n−1
X  
φ(t) dB(t) = Xi B(ti+1 ) − B(ti ) .
R+ i=0

Proposition 8.1 — Nous avons :


Z  n−1
X h i
E φ(t) dB(t) = E Xi B(ti+1 ) − B(ti )
R+ i=0

et
Z 2 n−1
X
E φ(t) dB(t) = E (Xi2 ) (ti+1 − ti ) .
R+ i=0

Corollaire 8.1 — L’intégrale stochastique est une isométrie.

En effet,
Z 2 Z 
E φ(t) dB(t) = E φ2 (t) dt .
R+ R+

L’isométrie est (IS) : M 2 (R+ ) → L2 (Ω, A, P) et


k IS (φ)kL2 (Ω, A, P) = kφkM 2 (R+ ) .

Processus stochastiques 81
8. CALCUL STOCHASTIQUE

8.1.3 Densité des fonctions en escaliers dans M 2 (R+ )

Soit le processus d’approximation

Pn : L2 (R+ ) → L2 (R+ )
2
n Z 1
X n 
f 7→ Pn f (t) = n f (s)ds 1] i , i+1 (t) .
i−1 n n ]
i=1 n

Alors
kPn f k2 6 kf k2 ,
L2 (R+ )
Pn f −→ f, ∀f ∈ L2 (R+ )
et
M2 (R+ )
Pn φ −→ φ, ∀φ ∈ M2 (R+ ) .

8.1.4 Intégrale stochastique

On prolonge (IS) à M2 (R+ ) par


Z Z
φ(t) dB(t) = lim Pn φ(t) dB(t)
n→∞
2
n Z 1
X n h i
= lim n φ(s, ω) ds B(ti+1 ) − B(ti ) .
n→∞ i−1
i=1 n

qui appartient à L2 (Ω, A, P). On a :


hZ i
E φ(t) dB(t) = 0 ,
R+
hZ i2 hZ i
E φ(t) dB(t) = E φ2 (t) dt
R+ R+
et n Z on Z o hZ i
E φ(t) dB(t) ψ(t) dB(t) = E φ(t) ψ(t) dt .
R+ R+ R+

8.2 L’intégrale stochastique comme martingale

Proposition 8.2 — L’application


Z t
t → φ(s) dB(s)
0

est continue en moyenne quadratique p.s.

Processus stochastiques 82
8. CALCUL STOCHASTIQUE

Proposition 8.3 — Z t
X(t) = φ(s) dB(s)
0
est une F–martingale.

Proposition 8.4 — Z t
X 2 (t) − φ2 (s) ds
0
est une F–martingale.

8.3 Formule d’Ito

8.3.1 Introduction

Première formule d’Ito


Z t
B 2 (t) = 2 B(s) dB(s) + t .
0

Formule d’Ito pour les fonctions Cb2

Soit Cb2 = Φ : R → R, C 2 , avec Φ, Φ0 , Φ00 bornées .




Proposition 8.5 — Pour Φ ∈ Cb2 , on a P-p.s.


Z t Z t
1
Φ0 B(s) dB(s) + Φ00 B(s) ds .
   
Φ B(t) = Φ B(0) +
0 2 0

On utilisera la relation différentielle


1
dΦ B(t) = Φ0 B(t) dB(t) + Φ00 B(t) dt .
  
2

8.3.2 Formule générale

Soit Z t Z t
X(t) = X(0) + φ(s) dB(s) + ψ(s) ds ,
0 0

avec φ, ψ ∈ M 2 et X(0) ∈ L2 (F0 ).

Processus stochastiques 83
8. CALCUL STOCHASTIQUE

Proposition 8.6 (Formule générale d’Ito) — Pour Φ ∈ Cb2 ,


Z t Z t
0
Φ0 X(s) ψ(s) ds
   
Φ X(t) = Φ X(0) + Φ X(s) φ(s) dB(s) +
0 0
1 t 00
Z
 2
+ Φ X(s) φ (s) ds .
2 0

Cette formule s’écrit :


1
Φ0 X(t) dX(t) + Φ00 X(t) φ2 (t) dt .
  
dΦ X(t) =
2
ou encore
1
Φ0 X dX + Φ00 X < dX, dX > ,
  
dΦ X =
2
avec

< φ dB + ψ dt, φ dB + ψ dt > = φ2 < dB, dB > +2φψ < dB, dt > +ψ 2 < dt, dt >

où 
 < dB, dB > = dt,
< dB, dt > = 0,
< dt, dt > = 0.

Exemple — Soit
Z t Z t 
1 2
M (t) = exp φ(s) dB(s) − φ (s)ds .
0 2 0

C’est une martingale.

8.3.3 Localisation

2
Définition 8.3 — φ ∈ Mloc ([0, T ]) si :
(i) φ est progressivement mesurable ;
RT
(ii) 0 φ2 (t) dt < ∞ p.s.

Nous définissons \
2 2

Mloc = Mloc [0, T ] .
T >0

2
Définition 8.4 — Si φ ∈ Mloc , on définit le temps d’arrêt par :
 n o
 inf t > 0 : t φ2 (s) ds > n ,
R
0
τn = n o
 +∞ si t > 0 : t φ2 (s) ds > n = ∅.
R
0

Processus stochastiques 84
8. CALCUL STOCHASTIQUE

Proposition 8.7 — Si n croı̂t vers +∞, alors τn croı̂t vers +∞ p.s. Par ailleurs,
1[0, τn ] (t) φ(t) ∈ M 2 .

On peut alors définir Z t


1[0, τn ] (s) φ(s) dB(s) .
0
On vérifie que cette intégrale converge p.s. quand n → ∞. On définit
Z t Z t
p.s.
φ(s) dB(s) = lim 1[0, τn ] (s) φ(s) dB(s) .
0 0

2
pour φ ∈ Mloc .

Rt 2
Définition 8.5 — X(t) = 0 φ(s) dB(s), avec φ ∈ Mloc , est une martingale locale
s’il existe une suite (τn )n de F–temps d’arrêt telle que :
(i) τn croı̂t vers +∞ p.s. ;
(ii) Yn (t) = X(t ∧ τn ) est une F–martingale pour tout n.

Remarque — X(t) n’est pas forcément intégrable.

8.3.4 Cas vectoriel

Soit B un brownien dans Rk , φij ∈ Mloc


2
, 1 6 i 6 d, 1 6 j 6 k.
k Z
X t  Z t
φij (s) dBj (s) = φ(s) dB(s) .
j=1 0 i6d 0

2 d×k
Nous avons que φ ∈ (Mloc ) et
hZ t i
E φ(s) dB(s) = 0,
0

h Z t Z t t i hZ t i
φ(s) ψ(s)t ds ,

E φ(s) dB(s) ψ(s) dB(s) = E
0 0 0

h Z t t
Z t i hZ t  i
E φ(s) dB(s) ψ(s) dB(s) = E tr φ(s) ψ(s)t ds .
0 0 0

Soit Φ ∈ C 1,2 :

Φ : R+ × Rd → R
 
t, B1 (t), . . . , Bd (t) 7 → Φ t, B1 (t), . . . , Bd (t) .

Processus stochastiques 85
8. CALCUL STOCHASTIQUE

Soit X ∈ Rd :
dX(t) = ψ(t) dt + φ(t) dB(t) .
|{z} |{z}
∈Rd ∈Md×k

Formule d’Ito

Z t d Z t
∂ X ∂
Φ(t, Xt ) = Φ(0, X0 ) + Φ(s, Xs ) ds + Φ(s, Xs ) ψi (s) ds
0 ∂t i=1 0
∂xi
d Z t k
X ∂ X
+ Φ(s, Xs ) φij (s) dBj (s)
i=1 0 ∂xi j=1
d Z t k
1 X ∂2 X
+ 0 Φ(s, X s ) φij (s) φi0 j (s) ds .
2 0 0 ∂xi ∂xi j=1
i, i =1

Cette formule s’écrit


∂ 1
dΦ(t, Xt ) = · Φ dt + ∇x φ · dXt + < dX, D2 Φ · dX > ,
∂t 2
où  
∂x1 Φ
∇x φ · dXt =  ...  × (ψ dt + φ dB) .
 

∂xd Φ

Nous rappellons que nous avons



dt si i = j,
< dBi , dBj > =
0 sinon
et
< dt, dt > = 0 .

k d k
X X ∂2Φ X
< dX, D2 Φ · dX > = < φij 0 dBj 0 , φi0 j dBj >
∂xi ∂xi0 j=1
j 0 =1 i0 =1
2
X ∂ Φ
= φij 0 φi0 j < dBj 0 , dBj >
∂xi ∂xi0
i, i0 , j, j 0
X ∂2Φ
= φij 0 φi0 j dt .
∂xi ∂xi0
i, i0 , j, j 0

1
dΦ(t, Xt ) = ∂t Φ · dt + ∇x Φ · dX + tr(D2 Φ φ φt ) dt .
2

Processus stochastiques 86
8. CALCUL STOCHASTIQUE

8.3.5 Intégration par parties

Soient B, X, Y ∈ R :

dX = φ dB + ψ dt ,
dY = λ dB + µ dt ,
2
avec φ, ψ, λ, µ ∈ Mloc .

dXY = X dY + Y dX+ < dX, dY > .

On a donc :
Z t h i
X(t) Y (t) − X(0) Y (0) = X(s) λ(s) dB(s) + µ(s) ds
0
Z t h i Z t
+ Y (s) φ(s) dB(s) + ψ(s) ds + φ(s) λ(s) ds .
0 0

8.4 Formule de Girsanov

8.4.1 Formule de Cameron-Martin

Théorème 8.1 (Cameron-Martin) — Soit X(t), pour t > 0, unef.a.r.c. gaussienne


centrée, et soit m : R+ → R une fonction de la forme m(t) = E X(t) Y , t > 0, Y ∈ H X .
Alors  i
  h 1
E F (X + m) = E F (X) · exp Y − E (Y 2 ) .
2

8.4.2 Théorème de Girsanov

2
Soit φ ∈ Mloc . Soit
Z t Z t 
1 2
Z(t) = exp φ(s) dB(s) − φ (s) ds .
0 2 0

Z(t) est une martingale locale.

Processus stochastiques 87
8. CALCUL STOCHASTIQUE


Théorème 8.2 (Girsanov) — Supposons que E Z(t) = 1, ∀t. Alors il existe une
proba. Q définie sur F∞ par
Z
Q(A) = Z(t) dP pour A ∈ Ft
A

et telle que
Z t
B(t) = B(t) − φ(s) ds
0

soit, sous Q, un mouvement brownien.

Lemme 8.1 — Nous avons :


Z t  
E Z(t)  = 1,
φ2 (s) ds 6 c ⇒
0 E Z 2 (t) < ∞ .

Lemme 8.2 (Gronwall) — Soit t 7→ x(t) telle que


Z t
x(t) 6 a + b x(s) ds ∀t, a, b > 0 .
0

Alors

x(t) 6 aebt .

8.4.3 Critères

Proposition 8.8 (Critère de Novikov) — Nous avons :


 1 Z t   
E Z(t) = 1,
E exp φ2 (s) ds < ∞ ⇒
2 0 Z martingale .

Proposition 8.9 — S’il existe a, c > 0 tels que


h i
E exp aφ2 (s) < c ∀s 6 t ,

alors

E Z(t) = 1 .

Processus stochastiques 88
9

Processus de comptage

9.1 Rappels concernant les martingales

Théorème 9.1 (Formule de décomposition de Doob-Meyer) — Si X(t) est une


sous-martingale, alors il existe un processus cadlag 1 , prévisible et croissant Λ(t) tel que
M (t) = X(t) − Λ(t)
soit une martingale uniformément intégrable.

Remarque — Λ est la somme des espérances conditionnelles (par rapport au passé)


des accroı̂ssements de X (qui ne peut décroı̂tre puisque il est une sous-martingale). M , elle,
est la somme des accroı̂ssements moins leurs espérances conditionnelles. Cette orthogonalité
entre processus prévisibles (à variation finie) et martingales assure à cette décomposition
de Doob-Meyer son unicité.

9.2 Processus à variation prévisible

Proposition 9.1 — Si M (t) est une martingale, alors M 2 (t) est une sous-martingale.

Proposition 9.2 — Soit M (t) une martingale. Alors


M 2 (t) = Mt + < M >t ,
avec Mt martingale et < M >t processus prévisible croissant défini par
X 
E (Mti+1 − Mti )2 | Fti

< M >t = lim
|δ|→0
i

et appelé processus prévisible croissant associé à M (t).


1. Continu à droite avec une limite à gauche.

89
9. PROCESSUS DE COMPTAGE

Proposition 9.3 — Soit M (t) une martingale. Alors



V dM (t) | Ft− = d < M > (t) .

Proposition 9.4 — Si M1 et M2 sont deux martingales (localement) de carré inté-


grable, il existe un processus prévisible unique (localement) intégrable et à variation bornée,
noté < M1 , M2 >, tel que M1 M2 − < M1 , M2 > soit une martingale (locale), nulle à
l’instant 0. < M1 , M2 > est appelé le processus prévisible de covariation de M1 et
M2 .
Nous avons :

Cov dM1 (t), dM2 (t) | Ft− = d < M1 , M2 > (t) .

Proposition 9.5 — Le processus prévisible de covariation est bilinéaire et symétrique,


tout comme une covariance ordinaire :

< aM1 + bM2 , M3 > = a < M1 , M3 > +b < M2 , M3 > ,


< M1 , M2 > = < M2 , M1 > .

M1 et M2 sont dites orthogonales ssi < M1 , M2 >= 0.

Définition 9.1 — À tout processus cadlag X, on peut associer un processus de saut


∆X, défini par
∆X(t) = X(t) − X(t− ) .

Proposition 9.6 — Si M1 et M2 sont deux martingales (localement) de carré inté-


grable telles que

∆M1 · ∆M2 = 0

(i.e. n’ayant aucun temps de saut en commun), alors

< M1 , M2 > = 0 .

9.3 Processus de comptage

9.3.1 Cas univarié

Définition 9.2 — Un processus de comptage N est un processus cadlag, adapté,


nul en zéro, croissant et ayant des sauts d’amplitude 1.

Processus stochastiques 90
9. PROCESSUS DE COMPTAGE

Définition 9.3 — Soit N (t) un processus de comptage. C’est (par définition) une sous-
martingale locale. Par conséquent, il existe un processus Λ(t) prévisible, croissant, continu
à droite et nul en zéro tel que
M (t) = N (t) − Λ(t)
soit une martingale.
Λ(t) s’appelle le compensateur de N (t), ou encore sa projection prévisible.

Proposition 9.7 — Soient N un processus ponctuel de dimension 1, et Λ son com-


pensateur. Si N est absolument continu, alors N possède une intensité λ, i.e. il existe un
processus prévisible λ tel que Z t
Λ(t) = λ(s) ds
0
pour tout t. L’intensité est définie par :
1 
λ(s) = lim P N (s + ) − N (s) ≥ 1 | Fs .
→0 

Proposition 9.8 — Soit N un processus de comptage et Λ son compensateur. Le


processus prévisible associé à la martingale locale de carré intégrable M = N − Λ (ou
encore le compensateur de M 2 ) vaut
Z
< M > = Λ − ∆Λ dΛ
Z
= (1 − ∆Λ) dΛ

et en particulier, si Λ est continu,

<M >= Λ.

Théorème 9.2 (Théorème de l’innovation) — Soit N un processus de comptage


adapté par rapport à deux filtrations (Ft )t et (Gt )t telles que Ft ⊆ Gt . N a pour intensité λ
par rapport à (Gt )t . Alors il existe un processus λ̃ prévisible par rapport à (Ft )t et tel que :
 
λ̃(t) = E λ(t) | Ft− .

Remarque — λ̃ est le processus d’intensité de N par rapport à (Ft )t .

9.3.2 Cas multivarié

Définition 9.4 — Un processus de comptage r-dimensionnel N = {Ni : i = 1, . . . , r}


est appelé processus de comptage multivarié si chacune de ses composantes est un
processus de comptage univarié et s’il ne peut y avoir simultanéité des sauts de deux (ou
plus) de ses composantes.

Processus stochastiques 91
9. PROCESSUS DE COMPTAGE

Proposition 9.9 — Soit N = {Ni : i = 1, . . . , r} un processus de comptage multivarié.


Alors :
1. il existe des processus prévisibles Λi continus à droite, croissants, nuls à l’instant
t = 0, tels que les Ni − Λi soient des martingales localement de carré intégrable ;
Pr Pr
2. N. = i=1 Ni est un processus de comptage de compensateur Λ. = i=1 Λi .

Proposition 9.10 — Soit N un processus de comptage multivarié et Λ son compensa-


teur. Le processus prévisible associé à la martingale locale de carré intégrable M = N − Λ
(ou encore le compensateur de M 2 ) vaut
Z
< Mi > = Λi − ∆Λi dΛi
Z
= (1 − ∆Λi ) dΛi ,

Z
< Mi , Mj > = − ∆Λi dΛj (i 6= j) .

En particulier, si Λ est continu,

< Mi > = Λi ,
< Mi , Mj > = 0 (i 6= j) .

9.4 Théorème de la limite centrale

Théorème 9.3 (Théorème de Rebolledo) — Si Mn est une suite de martingales,


et si :
(i) < Mn >t converge en probabilité vers vt déterministe ;
(ii) ∀, ∃Mn, suite de martingales telles que Mn − Mn, n’ait aucune amplitude supé-
rieure à ,
alors Mn (t) a une limite M (t) de processus croissant vt , donc M (t) est un processus
gaussien :
Mn (t) L
−→ N (0, 1) .
vt

9.5 Résidus

Proposition 9.11 — Soit le processus martingale


Z t Z t
Mi (t) = dNi (s) − λi (s) ds ,
0 0

Processus stochastiques 92
9. PROCESSUS DE COMPTAGE

et Hi (t) un processus prévisible et localement borné. Alors :


Z t
Ri (t) = Hi (s) dMi (s) .
0

est une martingale de moyenne nulle vérifiant


 
Cov Ri (s), Rj (t) = 0

pour i 6= j, et ceci bien que Ri et Rj ne soient pas indépendants (à moins que Hi et Hj ne
le soient).
De plus,
 Z t t  Z t 
 
V Ri (t) = E Hi (u) λi (u) du Hi (u) λi (u) du .
0 0

9.6 Théorie du produit intégral (ou produit infini)

Théorème 9.4 — Soit X(s) un processus cadlag, nul en 0, et à variation bornée. On


obtient une mesure additive en posant

X ]s,t] = X(t) − X(s) .

Définition 9.5 — Soit une partition t0 = s < t1 < . . . < tn = t. Son pas est

|δ| = sup |ti − ti−1 | .


i

Définition 9.6 — On appelle produit intégral (ou produit infini)


t
Ps (1 + dX) = P (1 + dX)
]s,t]
n h
Y i
= lim 1 + X ]ti−1 , ti ]
|δ|→0
1=1

qui est indépendante de la suite des (δ).

Propriété 9.1 — Pour s 6 u 6 t,

P (1 + dX) = P (1 + dX) · P (1 + dX) .


]s,t] ]s,u] ]u,t]

Propriété 9.2 — P ]s,t] est une fonction de t continue à droite.

Processus stochastiques 93
9. PROCESSUS DE COMPTAGE

Propriété 9.3 — P ]s,s] (1 + dX) = 1 et P ]s,t] (1 + dX) −→ 1 (t → s).

Propriété 9.4 — Si X(t) est continu, alors

P (1 + dX) = eX(t) .
]0,t]

Théorème 9.5 — On suppose que P (1 + dX) existe et est une fonction cadlag à
variation localement bornée. Alors c’est l’unique solution de l’équation–intégrale
Z
Y (t) = 1 + Y (s−) X(ds) .
s∈[0,t]

Théorème 9.6 (Duhamel) — Soient Y = P (1 + dX) et Y 0 = P (1 + dX 0 ). Alors


Z
Y (t) − Y 0 (t) = P (1 + dX) · X(ds) − X 0 (ds) · P (1 + dX 0 ) .
 
s∈[0,t] [0,s) (s,t]

Si Y 0 (t) est non singulière, alors

Y (t)
Z
 h i−1
P (1 + dX) · X(ds) − X 0 (ds) · P (1 + dX 0 )

0
− 1 =
Y (t) s∈[0,t] [0,s) [0,s]
Z t
Y (s−) 
X(ds) − X 0 (ds) .

= 0
0 Y (s)

Théorème 9.7 (Équation de Voltera) — Soient Z et W des fonctions cadlag. À


W donné, l’unique solution Z de l’équation de Volterra
Z t
Z(t) = W (t) + Z(s−) X(ds)
0

est
Z t
Z(t) = W (t) + W (s−) X(ds) · P (1 + dX)
0 (s,t]
Z t
= W (0) · P (1 + dX) + W (ds) · P (1 + dX) .
[0,t] 0 (s,t]

9.7 Entr’aperçu d’une approche markovienne des pro-


cessus de comptage

Proposition 9.12 — Soit X(t), t ∈ [0,1] un processus de Markov continu à droite et


d’espace d’états fini. Soit N (hj) (t) le nombre de transitions directes de l’état h à l’état j

Processus stochastiques 94
9. PROCESSUS DE COMPTAGE

(h 6= j) dans l’intervalle [0, t]. On suppose que des intensités de transition (de l’état h à
l’état j, h 6= j) localement intégrables existent : soient α(hj) (t) ces intensités. 
Alors le processus d’intensité de N par rapport à Ft = σ X(0), N (s), s 6 t est

α(hj) (t) Yh (t)

où Yh (t) = 1 .
X(t−)=h


Remarque — Le processus de comptage N = N (hj) (.), h 6= j et X(0) sont
« équivalents », dans le sens que l’observation de X(u) pour 0 6 u 6 t fournit la même
information que l’observation conjointe de X(0) et de N (u) pour 0 6 u 6 t.

Processus stochastiques 95
Quatrième partie

ÉQUATIONS
DIFFÉRENTIELLES
STOCHASTIQUES

96
10

Introduction

10.1 Existence et unicité de solutions fortes


Équation différentielle stochastique (EDS) :

dX = f (X) dt + g(X) dB(t)
X0 condition initiale

Ceci s’écrit encore


Z t 
Z t 
X(t) = X0 + f X(s) ds + g X(s) dB(s) .
0 0

f (t, x) est appelée dérive (drift)de l’EDS, et g(t, x) coefficient de diffusionde l’EDS.

Théorème 10.1 — Soient (Ω, A, P), (Bt , t > 0) un (Ft )t -brownien sur Ω, X0
indépendant de (Bt , t > 0). On suppose que
|f (t, x) − f (t, y)| + |g(t, x) − g(t, y)| 6 K|x − y| ∀t, x, y .
Alors il existe une unique solution X de l’EDS — et X ∈ M 2 . C’est une solution forte au
sens où X est une fonction mesurable de X0 et de B.

10.2 Exemples
Ornstein-Uhlenbeck
dVt = −αVt dt + Bt ,
dX = αX dt + σdB
dont la solution est h σ2 i
X(t) = X0 exp σB(t) + (α − )t .
2

97
10. INTRODUCTION

EDS  p p
1 + Xt2 + 12 Xt dt

dXt = 1 + Xt2 dBt +
X(0) = X0

q
(shy)0 = chy = 1 + sh2 y
Yt = sh(Bt )
1
Ito : dYt = ch(Bt ) + sh(Bt ) dt
2
1
q
= 2
1 + Yt dBt + Yt dt
2

Xt = sh(Bt + t + ArgshX0 )

Vérification :
1
dXt = ch(Bt + t + ArgshX0 )[ dBt + dt] + sh(Bt + t + ArgshX0 ) dt
2
1
q
= 1 + Xt2 (dBt + dt) + Xt dt .
2

Autre EDS Soit

dx = x2 dt .

Une solution est


x0
x(t) = .
1 − x0 t

Soit
1
X(t) = .
1 − B(t)
 1 2 2  1 3
Ito : dXt = dBt + dt
1 − Bt 2 1 − Bt

dXt = Xt2 dBt + Xt3 dt .

10.3 Solutions faibles d’EDS



Une solution faible d’EDS est un triplet (X, B), (Ω, F, P), (Ft )t tel que ∀t,
Z t Z t
Xt = X0 + f (Xs ) ds + g(Xs ) dBs p.s.
0 0

Processus stochastiques 98
10. INTRODUCTION

Proposition 10.1 — Soit b borélienne de R+ × Rd dans Rd telle que |b(t, x)| 6


K(1 + |x|). Soit µ une proba sur Rd . Soit l’EDS dXt = b(t, Xt ) dt + dBt . Alors l’EDS a
une solution faible X de loi initiale µ.

10.3.1 Modèle de Cox – Ingersoll – Ross


 √
dXt = c(θ − Xt ) dt + σ Xt dBt
X(0) = x0 > 0
avec c, θ, σ constantes.
Dans le cas où 4cθ = σ 2 , alors X = Y 2 avec
dYt = σ2 dBt − 2c Yt dt


Y (0) = x0
qui est un processus d’Ornstein-Uhlenbeck. En effet, d’après Ito,
1
dXt = 2Yt dYt + 2 hdYt , dYt i
2
σ c  σ2
= 2Yt dBt − Yt dt + dt
2 2 4
p σ2
= σ Xt + ( − cXt ) dt .
| 4 {z }
c(θ−Xt )

10.3.2 Absolue continuité de la loi de diffusions sous changement


de dérive
On considère 2 EDS :

 dXt = σ(Xt ) dBt + b1 (Xt ) dt (EDS 1)
dYt = σ(Yt ) dBt + b0 (Yt ) dt (EDS 0)
X(0) = Y (0) .

e1 = X ◦ P la loi de X sous P, et P
Soit P e0 = Y ◦ P la loi de Y sous P. On va montrer
que P
e1 << P e0 (et même équivalentes) et calculer

dP
e1
(y) ,
dP
e0

où y = (yt , t 6 T ) ∈ C [0, T ], R .

Soit
hZ T Z T
1 i
Z(T ) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
avec
b1 − b0
h(y) = y.
σ

On définit Q par dQ = Z dP sur Ft (Girsanov). On fait les deux hypothèses suivantes :

Processus stochastiques 99
10. INTRODUCTION

— σ > 0;

— E Z(T ) = 1 (i.e. vrai si martingale).
Sous Q,
Z t
B(t) = B(t) − h(Ys ) ds est un brownien
0

dYt = σ(Yt ) dBt + b0 (Yt ) dt


= σ(Yt ) dB t + b1 (Yt ) dt .

On fait l’hypothèse supplémentaire qu’il existe une unique solution en loi de (EDS 1).
Alors X ◦ P = Y ◦ Q.
D’autre part, Y est  sous Q solution de (EDS 1).
Soit ψ : C [0,T ], R → R continue bornée.
Z

ψ dP
e1 = E P ψ(X)
C

= E Q ψ(Y )

= E P ψ(Y )Z
 
= E P ψ(Y )E P (Z | Y ) .

D’où
hZ T Z T
1 i
Z(t) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
T
hZ dYs − b0 (Ys ) ds 1 T 2
Z i
= exp h(Ys ) − h (Ys ) ds
0 σ(Ys ) 2 0
hZ T Z T
h(Ys )  h(Ys )b0 (Ys ) 1 2  i
= exp dYs − + h (Ys ) ds
0 σ(Ys ) 0 σ(Ys ) 2
. . .et
h(Ys ) b0 (Ys ) 1 2
+ h (Ys )
σ(Ys ) 2
 
b1 (Ys ) − b0 (Ys ) b0 (Ys ) b1 (ys ) − b0 (Ys )
= +
σ(Ys ) 2 2σ(Ys )
b21 (Ys ) − b20 (Ys )
= .
2σ 2

D’où
T T
b1 (Ys ) − b0 (Ys ) b21 (Ys ) − b20 (Ys ) i
Z Z
  h 1
E P Z | Y = exp 2
dYs − ds .
0 σ (Ys ) 2 0 σ 2 (Ys )

Remarque — Si on a des coefficients de diffusion différents, i.e.



 dXt = σ(Xt ) dBt + b(Xt ) dt ,
dYt = τ (Yt ) dBt + b(Yt ) dt ,
X(0) = Y (0) ,

Processus stochastiques 100


10. INTRODUCTION

alors on perd l’absolue continuité — les probabilités deviennent même étrangères.

10.3.3 Équations linéaires


Le premier exemple est le suivant :

dXt = (At Xt + at ) dt + σt dBt
(EDSL)
X(0) = ζ ,
avec X,a ∈ Rd — A, σ ∈ Md×d et B ∈ Rk .

Le deuxième exemple est l’équation différentielle ordinaire linéaire (EDOL) :


dζt = (At ζt + at ) dt .
Une solution fondamentale de l’EDOL est φ ∈ Md×d telle que

φ̇t = At φt
φ0 = Id
On a alors Z t
h i
ζt = φt ζ + φ−1
s as ds .
0
La solution de l’EDSL est
h Z t Z t i
−1
Xt = φ(t) X0 + φ (s)a(s) ds + φ−1 (s)σ(s) dBs .
0 0

D’après Ito :
h Z t Z t i
dXt = φ̇(t) X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs dt
0 0
h Z t Z t i
−1
+φ(t) d X0 + φ (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
h Z t Z t i
= At φt X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
+φt [φ−1 −1
t at dt + φt σt dBt ]
= At Xt dt + at dt + σt dBt
= EDSL .

10.3.4 Autre EDS



dXt = At Xt dt + σt Xt dBt ,
X(0) .
La solution est
t t
hZ σs2
Z i
Xt = X0 exp σs dBs + (As − ) ds .
0 0 2

Processus stochastiques 101


10. INTRODUCTION

10.3.5 Pont brownien


Le brownien est conditionné pour revenir à l’origine à l’instant 1. Notons B(t) = [B(t)−
tB(1)] + tB(1). On a

cov B(1), B(t) − tB(1) = E B(1) · B(t) − E t B 2 (1)


  

= t−t×1
= 0 .

D’où B(t) est une somme de 2 processus indépendants.


Définition 10.1 — Le processus B(t) − t B(1) 06t61 est appelé pont brownien.


Il est indépendant de B(1) et est noté B10→0 (t) 06t61 . C’est un processus gaussien
centré de covariance
ρ(s, t) = s ∧ t − st .

Illustration — On va regarder BTa→b (t), i.e. le brownien qui part de a et parvient en


b au temps T . Soit
dXt = b−X

T −t dt + dBt ,
t

X(0) = a .
C’est une EDSL ; posons φt = 1 − t/T . La solution est
Z t
t t dBs
Xt = a(1 − ) + b + (T − t) .
T T T −s
| {z0 }
a→b (t)
BT

BTa→b (t) est un processus gaussien centré de covariance


st
ρ(s, t) = s ∧ t − .
T

Processus stochastiques 102


11

Propriétés des EDS

11.1 Caractère markovien des équations différentielles


stochastiques

11.1.1 Propriété de Markov des solutions des EDS


Introduction Soient (Ω, A, P), (Ft , t > 0) une filtration, Xt , t > 0 un processus adapté
dans Rd .

Définition 11.1 — Le processus X est un processus de Markov par rapport à


(Ft , t > 0) si ∀t > 0, ∀h > 0, ∀A ∈ B(Rd ),
 
P X(t + h) ∈ A | Ft = P X(t + h) ∈ A | X(t) p.s.

c.-à-d. que la loi du futur, sachant le passé, ne dépend que du présent.

Définition 11.2 — Le processus X est un processus de Markov homogène si la loi


conditionnelle ne dépend que de h (et pas de t). On note Q(h, x; dy) la loi conditionnelle :

P X(t + h) ∈ A | X(t) = x = Q(h, x; A) .

Q : R+ × Rd × B(Rd ) → [0,1]⊗d telle que :


(i) ∀A, (h, x) 7→ Q(h, x; A) est mesurable ;
(ii) ∀h, x, A 7→ Q(h, x; A) est une proba sur Rd .
Z
Q(h x; A) = Q(h, x; dy)
y∈A

Q(h ,x; dy) est une probabilité de transition. Soit 0 = t0 < t1 < . . . < tk . La loi de
X(t1 ), X(t2 ), . . . , X(tk ) partant de X(0) = x est

Q(t1 , x; dx1 ) × Q(t2 − t1 , x1 ; dx2 ) × · · · × Q(tk − tk−1 , xk−1 ; dxk ) .

103
11. PROPRIÉTÉS DES EDS

Proposition 11.1 (Équation de Chapman-Kolmogorov) —


Z
Q(s + t, x; A) = Q(s, x; dy) · Q(t, y; A) .
y∈Rd

En effet,

Q(s + t, x; A) = P X(s + t) ∈ A | X(0) = x
h  i
= E P X(s + t) ∈ A | Fs | X(0) = x
h  i
= E P X(s + t) ∈ A | Xs | X(0) = x
Z
= Q(t, y; A) · Q(s, x; dy) .
y∈Rd

Proposition 11.2 — Un F-mouvement brownien est un F-processus de Markov.

Proposition 11.3 — Soit T un F-temps d’arrêt.

W (t) = B(t + T ) − B(T ) , t>0

est un mouvement brownien.

Équations progressive et rétrograde de Kolmogorov Soit



dXt = f (Xt ) dt + g(Xt ) dBt
(EDS)
X 0 ∈ F0 ,

avec f et g globalement lipschitziennes, X ∈ Rd , B ∈ Rk , g = (gij )i6d, l6k . L’unique


solution X de (EDS) est un F-processus de Markov.

Soit l’EDS
 0 1
φ (Xt )f (Xt ) + φ00 (Xt )g 2 (Xt ) dt + φ0 (Xt )g(Xt ) dBt .

dφ(Xt ) =
2
Soit
1
Lφ(x) = φ0 (x) f (x) + φ00 (x) g(x)2 .
2
L est l’opérateur différentiel linéaire du second ordre ; c’est le générateur infinitési-
mal de (Xt )t . Dans la cas (général) vectoriel :
Z t k
Z tX
φ(Xt ) = φ(X0 ) + Lφ(Xs ) ds + φ(Xs ) dBl (s) ,
0 0 l=1

avec
d d
1 X ∂2φ X ∂
Lφ(x) = aij (x) + fi (x) φ(x)
2 i,j=1 ∂xi ∂xj i=1
∂x i

Processus stochastiques 104


11. PROPRIÉTÉS DES EDS

où
gg ? = a,

d
X ∂
Ml = gil (x) .
i=1
∂xi

Rt
φ(Xt ) − 0
Lφ(Xs ) ds est :
— une martingale locale si φ ∈ C 2 (Rd , R) ;
— une martingale si φ ∈ Cc∞ (Rd , R).


Z t 
Ex φ(Xt ) = φ(x) + E x Lφ(Xs ) ds
0
= Q(t, x; φ)

Z t 
Z t
E x Lφ(Xs ) ds = Q(s, x; Lφ) ds
0 0
car
Z
Q(t, x; A) = Q(t, x; dy)
y∈A
Z
φ(y)Q(t, x; dy) = Q(t, x; φ) .

∂t Q(t, x; φ) = Q(t, x; Lφ)



Q(t, x; dy) = L?y Q(t, x; dy)
∂t
où Ly est l’opérateur L pour la variable y et L? l’adjoint de L (transposition).
Z
Q(h, x; Lφ) = Q(t, x; dy) (Lφ)(y) .

d
1 X ∂2  X ∂ 
L? φ(x) =

aij (x)φ(x) − fi (x)φ(x) .
2 i, j ∂xi ∂xj i=1
∂xi

Prendre l’adjoint est une opération linéaire : si



Kφ(x) = fi (x) φ(x) ,
∂xi
alors K ? ψ est défini par :
Z Z
ψ · Kφ = K ?ψ · φ

k
Z Z
∂ ∂ 
fi (x) φ(x) · ψ(x) dx = − φ(x) fi (x)ψ(x) dx .
∂xi ∂xi

Processus stochastiques 105


11. PROPRIÉTÉS DES EDS

D’où

K ?ψ = −

fi (x) ψ(x) .
∂xi

On a donc l’équation progressive (forward ) de Kolmogorov :


Q(t, x; dy) = L?y Q(t, x; dy) .
∂t

D’autre part, Q(t, x, dy) → δx quand t & 0.

hZ i  
∂t Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)
Z i
L?y Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)
 

Z
 
⇔ Q(t, x; dy) Ly Q(s, y; dz) = ∂t Q(s + t, x; dz) .

On a donc l’équation rétrograde (backward ) de Kolmogorov (pour t = 0) :


Q(t, x; dz) = Lx Q(t, x; dz) .
∂t

11.1.2 Générateurs et EDS

Z t Z t
Xt = X0 + σ(s, Xs ) dBs + b(s, Xs ) ds . (11.1)
0 0

∂φ  X h X ∂φ  i
dφ(t, Xt ) = + Lt φ (t, Xt ) dt + σil dBl .
∂t i
∂xi
l

d
1X ∂2 X ∂
Lt φ(x) = aij (t, x) φ(x) + bi (t, x) φ(xi ) ,
2 i, j ∂xi ∂xj i=1
∂xi

où a = σσ ? .

Problème de Cauchy


∂t v = −Lt v − kv + g
(Cauchy)
v(T, x) = f (x) (condition finale),

avec v = v(t, x), t ∈ [0, T ], x ∈ Rd , k = k(t, x), g = g(t, x), k > 0.


On fait les hypothèses suivantes :

Processus stochastiques 106


11. PROPRIÉTÉS DES EDS

— b,σ continues sur [0, T ] × Rd et sous-linéaires 1 ;


— l’EDS (11.1) a une unique solution faible ;
— f (x), g(t, x) et k(t, x) sont continues, f et g à croissance sous-polynômiale, i.e.
f (x) + g(t, x) 6 K 1 + |X|λ ;


— a, b et k sont bornées ;
— Lt est uniformément elliptique : ∃δ > 0, ∀t, x,
X
aij (t, x)ζi ζj > δ|ζ|2 .

La solution est la formule de Feynman-Kac


 h Z T i Z T h Z s i

v(t, x) = E t, x f (XT ) exp − k(u, Xu ) du + g(s, Xs ) exp − k(u, Xu ) du ds .
t t t


Le problème de Cauchy a une unique solution v telle que v(t, x) 6 c 1 + |x|µ , qui est
donée par la représentation de Feynman-Kac.

Problème de Dirichlet Soient D un ouvert de Rd , b,σ indépendants de t. On cherche


u ∈ C(D) solution de 
Lu − ku = −g sur D
u|∂D = f
où f : ∂D → R, g : D → R et k : D → R+ .

On fait les hypothèses suivantes :


— les trois premières parmi celles du problème précédent ;
— a, b, k et g sont hölderiennes ;
— L uniformément elliptique.
Le problème de Dirichlet a une unique solution :
 h Z τ i Z τh Z t
i

u(x) = E x f (Xτ ) exp − k(Xs ) ds + g(Xt ) exp − k(Xs ) ds dt ,
0 0 0
c
avec τ = inf{t > 0 : Xt ∈ D }.

Atteignabilité de points Soit


 √
dXt = c(θ − Xt ) dt + σ Xt dBt ,
X0 = x > 0 .

Proposition 11.4 — Si 2cθ > σ 2 , alors Xt n’atteind pas 0.

˛ ˛ ` ´
1. Ceci signifie que ˛b(t, x)˛ < K 1 + |x| .

Processus stochastiques 107


11. PROPRIÉTÉS DES EDS

11.2 Équations différentielles stochastiques rétrogrades


Notations — Nous notons :
— | · · · | la norme dans R ;
— k · · · k la norme dans Rd×n .
Les données sont les suivantes :
— B = (Bt )t>0 = (Bt1 , . . . , Btd ) mouvement brownien d-dimensionnel défini sur
(Ω, F, P) ;
— Ft = σ(Bs , s > t) ;
— T temps terminal ;
— la condition finale ζ ∈ L2 (Ω,FT ) est à valeurs dans Rk ;
— la dérive f (ω, t, y, z) de Ω × [0, T ] × Rk × Rk×d est dans Rk .
On fait l’hypothèse que f est lipschitzienne : f ∈ M 2 (0, T ) et ∃K, ∀y, y 0 , z, z 0 , t,

f (t, y, z) − f (t, y 0 , z 0 ) − f (t, y 0 , z 0 ) 6 K |y − y 0 | + kz − z 0 k .


 

Définition 11.3 — Une équation différentielle stochastique rétrograde


(EDSR) est de la forme
Z T Z T
Yt = ζ + f (s, Ys , Zs ) ds − Zs dBs .
t t

Définition 11.4 — Une solution d’une EDSR(ζ, f ) est un couple (Y, Z) de processus
progressivement mesurables à valeurs dans Rk × Rk×d et vérifiant :
hZ T i
E kZs k2 ds < ∞
0

et
Z T Z T
Yt = ζt + f (s, Ys , Zs ) ds − Zs dBs . (11.2)
t t

On a donc 
dYt = −f (t, Yt , Zt ) dt + Zt dBt ,
YT = ζ ,
et donc
Z t Z t
Yt = Y0 − f (s, Ys , Zs ) ds + Zs dBs . (11.3)
0 0

Processus stochastiques 108


11. PROPRIÉTÉS DES EDS

Définition 11.5 — L’équation (11.2) s’appelle l’équation différentielle stochas-


tique rétrograde (backward), tandis que (11.3) est l’équation différentielle stochas-
tique progressive (forward).
De plus,
1) Y0 est déterministe ;
2) Yt est Ft -adapté ;
3) on a :
Z T Z T h Z T i
Zs dBs = ζ + f (s, Ys , Zs ) ds − E ζ + f (s, Ys , Zs ) ds .
0 0 0

Proposition 11.5 (Majoration a priori fondamentale) — Soit (Y, Z) solution


de l’EDSR(ζ, f ). Alors il existe une constante positive c (ne dépendant que de T et k) telle
que
h Z T i  Z T
i
E sup |Yt |2 + kZt k2 dt 6 c E |ζ|2 + E f 2 (t, 0, 0) dt . (11.4)
[0, T ] 0 0

Proposition 11.6 — Soit


Z u
Mt = us dBs , t ∈ [0, T ]
0

une martingale locale telle que


Z T
u2s ds < ∞ p.s.
0

On note Mt? = sup[0, T ] |Ms |. Alors, ∀p > 0, il existe une constante cp > 0 telle que
h i h Z t p
i
E (Mt? )p 6 cp E ( u2s ds) 2 .
0

Théorème 11.1 — Sous les mêmes hypothèses que précédemment, il existe une unique
solution à l’EDSR(ζ, f ) vérifiant (11.4).

Proposition 11.7 — (Y, Z) est solution de l’EDSR(ζ, f ) ⇔ (Y, Z) = φ(Y, Z),


2 2
k 2
k×d
où φ est l’application de B = M ([0, T ]) × M ([0, T ]) dans lui-même, qui à
(U, V ) associe φ(U, V ) = (Y, Z) — il s’agit d’un théorème du point fixe.

Théorème 11.2 — Il existe une norme sur B 2 (hilbertienne) telle que φ soit une
contraction stricte : ∀γ > 0,
 hZ T 1
γt 2 2
 i 2
(Y, Z) γ = E e |Yt | + kZt k dt .
0

Processus stochastiques 109


11. PROPRIÉTÉS DES EDS

Théorème 11.3 (Comparaison) — Soient k = d = 1. Soient (ζ, f ) et (ζ 0 , f 0 )


vérifiant les hypothèses originelles. Supposons que ζ 6 ζ 0 p.s., et que ∀Y, Z ∈ R,

f (t, y, z) 6 f 0 (t, y, z) dt ⊗ dP p.s.

Soient (Y, Z) solution de l’EDSR(ζ, f ) et (Y 0 , Z 0 ) solution de (ζ 0 , f 0 ). Alors

Yt 6 Yt0 t ∈ [0, T ] , p.s.

Proposition 11.8 — Soit (Y, Z) solution de l’EDSR(ζ, f ) sous les hypothèses origi-
nelles. Supposons qu’il existe un temps d’arrêt τ 6 T tel que :
a) ζ soit Fτ mesurable ;
b) f (t,y,z) = 0 sur [τ,T ].
Alors

Yt = Yt∧τ

et

Zt = 0 sur [τ, T ] .

Proposition 11.9 — Soient, sous les hypothèses originelles, (Y, Z) solution de


l’EDSR(ζ, f ) et (Y 0 , Z 0 ) solution de (ζ 0 , f 0 ). Alors
h Z T i  Z T i
2
E sup |Yt − Yt0 |2 + kZt − Zt0 k2 dt 6 c 0 2
E |ζ − ζ | + E f (t, Yt , Zt ) − f 0 (t, Yt , Zt ) dt .
[0, T ] 0 0

11.3 Lien avec les équations aux dérivées partielles


semi-linéaires

11.3.1 Rappel sur la formule de feynman-Kac

Soit ζ = g(XT ), X diffusion construite sur B. Soient :


— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → Rd×d ;
— b et σ sont supposées continues en (t, x) ∈ [0, T ] × Rd ;
— K tel que ∀t, x, y,

|b(t, y) − b(t, x)| + kσ(t, y) − σ(t, x)k 6 K|y − x| .

Processus stochastiques 110


11. PROPRIÉTÉS DES EDS

On considère l’EDS associée :



EDS dXt = b(t, Xt ) dt + σ(t, Xt ) dBt

Soit X.t, x la solution de (EDS) partant de x à l’instant t :


Z s Z s
t, x
Xs = x+ b(u, Xu ) du + σ(u, Xu ) dBu .
t t

Propriété 11.1 — (i) Il y a existence et unicité de X.t,x .


(ii) X.t, x est Fst = σ(Bu − Bt , t 6 u 6 s)-mesurable.
t, x
u, Xu
(iii) Xst, x = Xs , t 6 u 6 s 6 T.

À X on associe un générateur différentiel


d
1X ∂2 X ∂
Lt = (σσ t )ij (t, x) + bi (t, x)
2 i, j ∂xi ∂xj i=1
∂xi

et

Pt, s f (x) = E f (Xst, x ) .


 

Proposition 11.10 —
1 
Pt, s f (x) − f (x) −→ Lt f (x) .
s s→t

Problème de Cauchy
 ∂
∂t u(t, x) + a(t, x) = r(t, x)u(t, x) t ∈ [0, T ], x ∈ Rd
(Cauchy)
u(T, x) = φ(x) .
On a :
— φ : Rd → R continue ;
— a, r : [0, T ] × Rd → R continues.
On cherche une solution dans C 1,2 ([0, T ] × Rd ) vérifiant (Cauchy).

On suppose qu’un tel u existe et vérifie l’hypothèse


∂u
| (t, x)| 6 KT 1 + |x|m

(H) m>1.
∂t

On suppose que u vérifie (Cauchy) avec l’hypothèse (H). Alors


 h Z T i Z Th Z s i

u(t, x) = E φ(XTt, x ) exp − r(s, Xst, x ) ds + a(s, Xst, x ) exp − r(u, Xut, x )du ds .
t t t

Processus stochastiques 111


11. PROPRIÉTÉS DES EDS

Autre résolution Soient :


— x ∈ Rd ;
— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → R continue par rapport à t et x.
On suppose que

b(t, x) − b(t, y) + σ(t, x) − σ(t, y) 6 K · |x − y| .

Soit (Xst,x )s∈[t, T ] la solution partant de x à l’instant t de l’EDS (?) :

dXst,x = b(s, Xst,x ) ds + σ(s, Xst,x )dBs



(?)
Xtt,x = x

Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p

p> ;
2

— f : [0, T ] × Rd × Rk × Rk×d → Rk déterministe et vérifiant

f (s, x, y, z) − f (s, x, y 0 , z 0 ) 6 K |y − y 0 | + kz − z 0 k


et

f (t, x, y, z) 6 K 1 + |x|p + |y| + kzk .




Soit l’EDSR
ζ = g(XTt,x )

(??)
f˜(ω, u, y, z) = f (u, Xut,x , y, z)
i.e Z T Z T
Yst,x = g(XTt,x ) + f (u, Xut,x , Yut,x , Zut,x ) du − Zut,x dBu .
s s

Proposition 11.11 — L’EDSR (??) admet une unique solution (Yut,x , Zut,x ), u ∈
[0, T ] pour tout t dans [0,T ].

Proposition 11.12 — Soit (Y t,x , Z t,x ) solution de (??). Alors :


(1) Yst,x est Fst = σ(Br − Bt , t 6 r 6 s)-mesurable ;
(2) Ytt,x est déterministe ;
t,x
t,x t+h, Xt+h
(3) ∀h > 0, Yt+h = Yt+h ;
(4) Soit u(t, x) = Ytt,x : c’est une fonction continue de (t, x) sur [0, T ] × Rd .

Processus stochastiques 112


11. PROPRIÉTÉS DES EDS

Théorème 11.4 (Kolmogorov) — S’il existe q > 1 et γ > 1+1+d (i.e. supérieur
à la dimension des paramètres) tels que
0 0 γ
E |Xst,x − Xst0 ,x |q 6 K |t − t0 | + |s − s0 | + kx − x0 k2d ,
  

alors il existe une version continue de (t, s, x) 7→ Xst,x . Pour tout p > 1,
0 0
E |Xst,x − Xst0 ,x |2p 6 K |t − t0 |p + |s − s0 |p + kx − x0 k2p
   
d .

11.3.2 Généralisation de la formule de Feynman-Kac


Théorème 11.5 — Soit w une fonction de classe C 1,2 sur [0, T ] × Rd et à valeurs
dans [0, T ] × Rk telle que w soit solution de
 
∂t w(t, x) + Lt w(t, x) + f t, x, w(t, x),∇x w(t, x, σ(t, x) = 0 ,
(1)
w(T, x) = g(x) ,

où ∇x est la Jacobienne, i.e. la matrice ∂/∂xi . On suppose que



w(t, x) + ∇x w(t, x)σ(t, x) 6 K 1 + |x| .
Alors
w(t, x) = Ytt,x
h Z T i
= E g(XTt,x ) + f (s, Xst,x , Yst,x , Zst,x ) ds ,
t
t,x t,x
où (Y ,Z ) est la solution de (??). De plus,
Zut,x = ∇x w(u, Xut,x ) σ(u, Xut,x ) .

Nota — L’équation

+ Lt + f (t, x, u, ∇u ) = 0
∂t
est appelée équation semi-linéaire.

11.4 Applications des équations différentielles sto-


chastiques rétrogrades aux solutions de viscosité
d’une famille d’équations aux dérivées partielles non
linéaires du second ordre

11.4.1 Équation projective (forward )

Soient les deux fonctions continues en (t, x) et lipschitziennes en x uniformément en


t suivantes :

Processus stochastiques 113


11. PROPRIÉTÉS DES EDS

— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → Rd×d .
Soit (Bt )t un mouvement brownien de dimension d. Pour tout x ∈ Rd , t ∈ (0, T ],
(X.t,x ) est la solution de (1) partant de x à l’instant t :
Z s Z s
Xst,x = x + b(u, Xut,x ) du + σ(u, Xut,x ) dBu .
t t

11.4.2 Équation rétrogradee (backward )

Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p

p> ;
2

— f : [0, T ] × Rd × Rk × Rk×d → Rk continue et vérifiant

f (s, x, y, z) − f (s, x, y 0 , z 0 )| 6 K |y − y 0 | + kz − z 0 k


et

f (t, x, y, z) 6 K 1 + |x|p + |y| + kzk .




Soit ζ = g(XTt,x ) où le X.t,x est celui solution de (1). Soit


Z T Z T
Yst,x = g(XTt,x ) + f (u, Xut,x , Yut,x , Zut,x ) du − Zut,x dBu .
s s

On considère l’EDP
 ∂u 
∂t (t, x) + Lt ui (t, x) + fi t, x, u(t, x),(∇uσ)(t, x) = 0,
i

u(T, x) = g(x) , x ∈ Rd ,

où les notations sont les mêmes qu’en page 111 et où u est une fonction de [0, T ]×Rd
dans Rk .

On a donc ∂ 
+ Lt = −fi ,
∂t
avec fi non linéaire.
On fait l’hypothèse « technique » que fi (t, x, y, z) ne dépend que de la ie ligne de
la matrice z :
 
| {z }) · (t, x) .
fi t, x, u(t, x),(∇uσ)(t, x) = fi t, x, u(t, x),(∇uσ
∇ui σ

Définition 11.6 — Nous avons :

Processus stochastiques 114


11. PROPRIÉTÉS DES EDS

a) u ∈ C([0, T ] × Rd , Rk ) est une sous-solution de viscosité de l’équation (?)


suivante : (  

∂t + L t = −fi
(?)
u(T, x) = g(x)
si
— ui (T, x) 6 gi (x), x ∈ Rd , 1 6 i 6 d,

— ∀i = 1, . . . , k, φ : C 1,2 ([0, T ] × Rd ) → R, pour (t, x) ∈ [0, T ] × Rd


maximum local de ui − φ,
on a
∂φ 
− (t, x) − Lt φ(t, x) − fi t,x,u(t,x),(∇φσ)(t, x) 6 0 ;
∂t
b) u ∈ C([0, T ] × Rd ,Rk ) est une sur-solution de viscosité de l’équation (?)
si :
— ui (T, x) > gi (x), x ∈ Rd , 1 6 i 6 d,
— ∀i = 1, . . . , k, φ : C 1,2 ([0, T ] × Rd ) → R, pour (t, x) ∈ [0, T ] × Rd
minimum local de ui − φ,
on a
∂φ 
− (t, x) − Lt φ(t, x) − fi t, x, u(t, x),(∇φσ)(t, x) > 0 ;
∂t

b) u ∈ C([0, T ] × Rd ,Rk ) est une solution de viscosité de (?) si c’est une


sur-solution et une sous-solution de viscosité de (?).

Théorème 11.6 — u(t,x) = Ytt,x est une solution de viscosité de (?). Ytt,x est
déterministe et est une fonction continue de (t,x).

Processus stochastiques 115


12

Statistique des diffusions

12.1 Introduction
Soit 
dζt = b(t, ζt ) dt + σ(t, ζt ) dBt ,
ζ0 = η
sur (Ω, A, P).

Théorème 12.1 (A) — Soient les hypothèses suivantes :


(i) b(t, x) et σ(t, x) sont continues sur [0, + ∞[×R ;

(ii) η est une v.a. F0 -mesurable et P |η| < ∞ = 1 ;
(iii) conditions de Lipschitz locales : ∀T > 0, ∀N > 0, ∃LT, N tq ∀t ∈ [0, T ], ∀x, ∀y,

b(t, x) − b(t, y) 6 LT, N |x − y|
|x| 6 N et |y| 6 N =⇒
|σ(t,x) − σ(t,y)| 6 LT, N |x − y| ;

(iv) croissance sous-linéaire : ∀T > 0, ∃KT , ∀t ∈ [0, T ], ∀x ∈ R,



b(t, x) + σ(t, x) 6 KT 1 + |x| ;

(v) E (η 2m ) < ∞ pour un m > 1.


Sous les conditions (ii), (iii) et (iv), l’EDS admet un processus solution (ζt , t > 0)
défini sur Ω et tel que :
a) ζ0 = η et la trajectoire (ζt , t > 0) est p.s. continue ;
b) (ζt )t est Ft −adapté (i.e. est solution forte) ;
c) si ζ 1 et ζ 2 sont deux processus solutions vérifiant a) et b), alors

P(∀t > 0, ζt1 = ζt2 ) = 1 .

Si, de plus, (v) est vérifiée, alors ∀t > 0, E (ζt2m ) < ∞.

116
12. STATISTIQUE DES DIFFUSIONS

Théorème 12.2 (B) — Soit l’EDS unidimensionnelle réelle



dζt = b(ζt ) dt + σ(ζt ) dBt ,
ζ0 = η .

Soient les hytpothèses suivantes :


(i) η est F0 -mesurable et |η| < ∞ p.s. ;
(ii) b est lipschitzienne sur R, σ est hölderienne d’exposant α ∈ [ 12 , 1] : ∃K >
0,∀x, y ∈ R, 
b(x) − b(y) 6 K · |x − y|
|σ(x) − σ(y)| 6 |x − y|α ;

(iii) E (η 2 ) < ∞.
Alors on a le même résultat qu’au théorème précédant (et sous (iv), E (ζt2 ) <
∞, ∀t).

Théorème 12.3 — Sous les hypothèses des théorèmes A et B, la loi de probabilité


PT du processus solution (ζt , t > 0) ne dépend que des fonctions b(t, x),σ(t, x) et de
la loi µ de la v.a. η.

Théorème 12.4 — Soient les hytpothèses suivantes :


(i) ∀θ, les fonctions (t, x) → b(t, x) et (t, x) → σ(t, x) satisfont les hypothèses
des théorèmes A et B ;

(ii) P σ(t, ζtθ ) > 0, ∀t ∈ [0, T ] = 1, ∀θ ∈ Θ.
Alors ∀θ,θ0 ∈ Θ, les lois PTθ et PTθ0 sont équivalentes et
"Z #
T
dPTθ b(t, Xt , θ) − b(t, Xt , θ0 ) 1 T b2 (t, Xt , θ) − b2 (t, Xt , θ0 )
Z
(x) = exp dXt − dt .
dPTθ0 0 σ 2 (t, Xt ) 2 0 σ 2 (t, Xt )

La fonction de vraisemblance associée à l’observation (ζt , t > 0) est


"Z #
T
1 T b2 (s, ζs , θ)
Z
b(s, ζs , θ)
θ 7−→ LT (θ) = exp dζs − ds .
0 σ 2 (s, ζs ) 2 0 σ 2 (s, ζs )

Définition 12.1 — L’estimateur θb de θ0 est dit faiblement consistant si


P
θb −→ θ0 (T → +∞) .

Définition 12.2 — L’estimateur θb de θ0 est dit fortement consistant si


p.s.
θb −→ θ0 (T → +∞) .

Processus stochastiques 117


12. STATISTIQUE DES DIFFUSIONS

Théorème 12.5 — Soit Z t


Mt = Hs dBs
0

avec (Ht )t processus progressivement mesurable. Alors :


(i) si
Z ∞
hM i∞ = Hs2 ds
0
= +∞ p.s.

alors
Mt p.s.
−→ 0 (t → +∞) ;
< M >t
(ii) si
hM iT P
−→ σ 2 (T → +∞) ,
φ(T )
où φ est une fonction déterministe, croı̂ssante, tendant vers +∞ quand T
tend vers +∞, alors
M L
p T −→ N (0 , σ 2 ) (T → +∞) .
φ(T )

P
(Si σ 2 = 0, alors √MT −→ 0).
φ(T )

Remarque — Ce résultat reste valable pour le cas multidimensionnel.

12.2 Processus d’Ornstein-Uhlenbeck


Soit 
dζt = θ0 ζt dt + dBt ,
ζ0 = x0 .
L’estimateur du maximum de vraisemblance (EMV) est
RT
ζs dζs
θbT = R0T
ζ 2 ds
0 s
RT
ζs dBs
= θ0 + R0 T .
0 s
ζ 2 ds

Proposition 12.1 — Si θ0 < 0, alors

1 T 2
Z
L2 1
ζs ds −→ (T → +∞) .
T 0 2|θ0 |

Processus stochastiques 118


12. STATISTIQUE DES DIFFUSIONS

Corollaire 12.1 — θbT est fortement consistant et


√  L 
T θbT − θ0 −→ N 0, 2|θ0 | (T → +∞) .

Proposition 12.2 — Nous avons :


1) si θ0 = 0,
R1
L Bu dBu
T · θbT −→ R0 1 ,
0
Bu2 du
où (Bu )u est le brownien ;
2) si θ0 > 0, on pose

e2θ0 − 1
mT (θ0 ) =
2θ0

et
Z +∞
Z = x0 + e−θ0 s dBs ;
0

alors
Z T
1 L1
ζs2 ds −→ Z 2 (T → +∞)
mT (θ0 ) 0

1  L U
mT (θ0 ) 2 θbT − θ0 −→
Z

et
Z T
1 L
ζs2 ds) 2 θbT − θ0

( −→ N (0, 1) ,
0

1
où (U, Z) N (0, 1) ⊗ N (x0 , 2θ0 ).

12.3 Markov et les diffusions


On étudie 
dζt = b(ζt ) dt + σ(ζt ) dBt ,
ζ0 = η ,
avec :
— b et σ de classe C 1 sur R ;
— ∃K > 0, ∀x ∈ R, b2 (x) + σ 2 (x) 6 K(1 + x2 ).

Théorème 12.6 — (ζt , t > 0) est un processus de Markov de probabilité de


transition homogène dans le temps, ne dépendant que de b et σ, i.e. :

Processus stochastiques 119


12. STATISTIQUE DES DIFFUSIONS

(i) propriété de Markov : ∀A ∈ B(R), 0 6 s < t,

P(ζt ∈ A | Fs ) = P(ζt ∈ A | ζs ) ;

(ii) propriété d’homogénéité :

P(ζt ∈ A | ζs = x) = Pt−s (x; A) ,

où Pt (x; dy) est la probabilité de transition.

Notation — Nous notons :

Pt (x; dy) = pt (x, y) dy .

pt (x, y) est la densité de transition.

Proposition 12.3 — Nous avons :


Z
1   1
lim E ζt+h − ζt | ζt = x = lim (y − x) ph (x, y) dy
h→0 h h→0 h
= b(x) .

Cette quantité est appelée moyenne infinitésimale .

Proposition 12.4 — Nous avons :


Z
1  1
E (ζt+h − ζt )2 | ζt = x = lim (y − x)2 ph (x, y) dy

lim
h→0 h h→0 h

= σ 2 (x) .

Cette quantité est appelée variance infinitésimale .

Définition 12.3 — Soit f ∈ Cb (R).

= E f (ζtx )
 
Pt f (x)
 
= E f (ζt ) | ζ0 = x .

On appelle générateur infinitésimal du processus (ζt )t l’opérateur


1  
Lf (x) = lim Pt f (x) − f (x)
t→0 t
lorsque cette limite existe.

2
Théorème 12.7 — Si f ∈ CK (R), alors

1 2
Lf (x) = σ (x) f 00 (x) + b(x) f 0 (x) .
2

Processus stochastiques 120


12. STATISTIQUE DES DIFFUSIONS

Définition 12.4 — µ, loi de probabilité sur R, est une distribution stationnaire


pour (ζt )t si
ζ0 µ =⇒ ∀t, ζt µ.

Théorème 12.8 — Nous avons :


Z
2
µ distribution stationnaire =⇒ ∀f ∈ CK (R), Lf (x) dµ(x) = 0 .

Théorème 12.9 — On suppose σ 2 (x) > 0, ∀x ∈ R,R σ de classe C 2 , b de classe


C 1 . Soit h : R → R de classe C 2 , positive et telle que R h(x) dx = 1. Alors

h(x) dx = µ(x) dx

est une distribution stationnaire pour (ζt )t ssi


1 2 00
hσ − (hb)0 = 0 .
2

Définition 12.5 — Le facteur intégrant du processus est


Z x
h b(u) i
s(x) = exp − 2 du .
σ 2 (u)

Définition 12.6 — Le facteur d’échelle du processus est


Z x
S(x) = s(u) du .

Théorème 12.10 — Si

lim S(x) = +∞ ,
x→+∞

lim S(x) = −∞
x→−∞

et si
Z
dx
M = < ∞,
σ 2 (x)s(x)

alors
dx
µ(x) =
M σ 2 (x)s(x)
est une distribution stationnaire.

Processus stochastiques 121


12. STATISTIQUE DES DIFFUSIONS

Soit I = (l, r), − ∞ 6 l < r 6 +∞, tel que :


— σ 2 (x) > 0, ∀x ∈ I ;
— b de classe C 1 sur I ;
— σ de classe C 2 sur I.

Définition 12.7 — Soient x, y ∈ I. Le temps d’atteinte de y est défini par

Tx, y = inf{ t > 0, ζtx = y } .

Le temps d’explosion est défini par

ex = inf{ t > 0, ζ ∈
/ (l, r) } .

Proposition 12.5 —

∀x, y ∈ I, P(Tx, y < ∞) > 0 .

Théorème 12.11 — Soient l < a < x < b < r et

T = inf{ t > 0, ζtx = a ou b }


= Tx, a ∧ Tx, b .

Alors

P(T < ∞) = 1

P(ζTx = a) = P(Tx, a < Tx, b )


S(b) − S(x)
=
S(b) − S(a)

P(ζTx = b) = P(Tx, b < Tx, a )


S(x) − S(a)
= .
S(b) − S(a)

Théorème 12.12 — Nous avons :


S(l+ ) = −∞

=⇒ ∀x, y ∈ I, P(Tx, y < ∞) = 1 .
S(r− ) = +∞

Le processus est alors dit récurrent sur I. De plus,

P(ex = +∞) = 1 .

Processus stochastiques 122


12. STATISTIQUE DES DIFFUSIONS

Remarque — Nous avons :


Z r
+
S(l ) = −∞ ⇐⇒ s(u) du = −∞ ,
Z
S(r− ) = +∞ ⇐⇒ s(u) du = +∞ .
l

Théorème 12.13 — Soient l < a < x < b < r et T = Tx, a ∧ Tx, b . Soit u la
fonction de classe C 2 et définie sur I par

Lu = −1 ,
u(a) = u(b) = 0 .

Alors

u(x) = E (T )
( Z b Z x )
S(x) − S(a) S(b) − S(u) S(b) − S(x) S(u) − S(a)
= 2 du + du .
S(b) − S(a) x σ 2 (u)s(u) S(b) − S(a) a σ 2 (u)s(u)

Théorème 12.14 — Si

S(l+ ) = −∞ ,
S(r− ) = +∞

et si
Z r
du
M = < ∞,
l σ 2 (u)s(u)

alors ∀x, y ∈ I
E (Tx, y ) < ∞ .
Le processus est alors dit récurrent positif sur I.

du
m(u) du =
σ 2 (u)s(u)
est appelée mesure de vitesse.

Théorème 12.15 — Si un processus est récurrent positif, alors il admet une unique
distribution stationnaire, qui est donnée par

m(x)
π(x) dx = 1l1{x∈I} dx .
M

Théorème 12.16 — Nous avons :

Processus stochastiques 123


12. STATISTIQUE DES DIFFUSIONS

1) quelle que soit la loi initiale pour (ζt , t > 0),


L
ζt −→ π (t → +∞) ;

2) quelle que soit la loi initiale pour (ζt , t > 0),


Z T Z
1 p.s.
f (ζs ) ds −→ f (x) π(x) dx (T → +∞)
T 0 I
R
dès que I
f (x) π(x) dx < ∞.

12.3.1 Étude des estimateurs du maximum de vraisemblance

On étudie les solutions de l’équation

lT (θbT ) = sup lT (θ) .


θ∈Θ

Tout d’abord, on cherche les hypothèses pour que



P |θbT − θ0 | > h −→ 0 (T → +∞) .

On note K(.) les hypothèses suivantes :


(K1) Θ est un compact de Rp ;
(K2) θ 7→ lT (θ) admet une version continue sur Θ ;
(K3) il existe une v.a. ZT et une fonction β(η) telle que ∀θ, θ0 ∈ Θ,
1
|θ − θ0 | 6 η ⇒ lT (θ) − lT (θ0 ) 6 β(η) ZT ,
T
avec β(η) → 0 (η → θ) et ZT convergeant en proba quand T tend vers
l’infini ;
(K4) soit Z r  b(u, θ ) − b(u, θ) 2
0
K(θ0 , θ) = πθ0 (u) du ;
l σ(u)
alors
θ 6= θ0 ⇔ K(θ0 , θ) < ∞ (hypothèse d’identifiabilité) ;
(K5) θ 7→ K(θ0 , θ) est continue.

Proposition 12.6 — On a, sous (K4),


1   p.s. 1
lT (θ0 ) − lT (θ) −→ K(θ0 , θ) (T → ∞) .
T 2

Nota — La fonction θ 7→ − T1 lT (θ) est une fonction de contraste.

Processus stochastiques 124


12. STATISTIQUE DES DIFFUSIONS

Théorème 12.17 — Sous les hypothèses K(i), i = 1, . . . , 5, on a ∀h > 0,



P |θbT − θ0 | > h −→ 0 (T → ∞) .

Problématique — Il s’agit de vérifier que θ 7→ lT (θ) admet une version continue en


θ.
T T
b2 (θ, ζs )
Z Z
b(θ, ζs ) 1
θ 7→ dζs − ds .
0 σ 2 (ζs ) 2 0 σ 2 (ζs )

Le second terme peut être traité par le théorème classique de Lebesgue. Le premier vaut
Z T
b(θ, ζs ) h i
2
b(θ0 , ζs ) ds + σ(ζs ) dWs .
0 σ (ζs )

Question :
Z T
θ 7→ MT (θ) = φ(θ, t, ζt ) dWt
0
admet-elle une version continue ?

Théorème 12.18 (Kolmogorov) — ∃γ > 0,  > 0, c > 0 tels que ∀θ, θ0 ,


 
γ
E MT (θ) − MT (θ0 ) 6 c · |θ − θ0 |p+ ,

où Θ ⊂ Rp . Par conséquent, θ 7→ MT (θ) admet une version continue en θ.

On fait les hypothèses supplémentaires suivantes :



(K6) θ0 , vraie valeur du paramètre, appartient à Θ ;

(K7) les fonctions b0θi (x, θ) et b00θi θj (x, θ) sont définies et continues sur (l, r) × Θ et
T b0θi (ζs , θ0 ) 
Z
∂lT 
(θ0 ) = dζs − b(ζs , θ0 ) ds ,
∂θi 0 σ 2 (ζs )
T b0 T b0θi (ζs , θ0 )b0θj (ζs , θ0 )
∂ 2 lT θi θj (ζs , θ0 )
Z Z
 
(θ0 ) = dζs −b(ζs , θ0 ) ds − ds ;
∂θi ∂θj 0 σ 2 (ζs ) 0 σ 2 (ζs )

(K8) l’information de Fischer est I(θ0 ) = Iij (θ0 ) ij avec
Z r b0θi (u, θ0 )b0θj (u, θ0 )
Iij (θ0 ) = πθ0 (u) du ;
l σ 2 (u)

I(θ0 ) est bien définie et inversible ;


(K9) soit
Z r b00θi θj (u, θ0 )
Jij (θ0 ) = πθ0 (u) du ;
l σ 2 (u)

Processus stochastiques 125


12. STATISTIQUE DES DIFFUSIONS

(K10) on a
1 00 00 P
sup |l (θ0 ) − lT,θ (θ0 + α)| −→ 0 (T → ∞) .
|α| T T,θi , θj i , θj

Remarque — Si Θ ⊂ R, (K8) équivaut à


r 2
b0θ (u, θ0 )
Z
I(θ0 ) = πθ0 (u) du .
l σ 2 (u)

Proposition 12.7 — On a :
1)  
1 ∂ L 
√ lT (θ0 ) −→ Np 0, I(θ0 ) (T → ∞) ;
T ∂θi i=1,..., p

2)
∂2
 
1 P
√ lT (θ0 ) −→ −I(θ0 ) (T → ∞) .
T ∂θi ∂θj 1<i, j<p

Théorème 12.19 — Sous K(i), i= 1 . . . , 10,


√ L 
T (θb − θ0 ) −→ Np 0, I(θ0 ) (T → ∞) .

12.4 Estimateurs empiriques


On suppose (ζt , t > 0) récurrent positif.

R
Théorème 12.20 (Ergodicité) — Si f : (l, r) → R, borélienne et telle que I
|f | dπ <
∞, alors
Z T Z
1 p.s.
f (ζs ) ds −→ f (x) π(x,θ0 ) dx ,
T 0 I
quelle que soit la loi de ζ0 .

Théorème
R 12.21 (Convergence Ren loi) — Si f : (l, r) → R, borélienne et telle que
d’une part I |f | dπ < ∞, d’autre part I f dπ = 0 , alors
Z T
1 L 
√ f (ζs ) ds −→ N 0, Vθ0 (f ) ,
T 0

à condition que Vθ0 (f ) soit finie.

Processus stochastiques 126


12. STATISTIQUE DES DIFFUSIONS

Soit
Z x
Af (x, θ0 ) = f (u) π(u, θ0 ) du .
l

Alors
Z
Vθ0 (f ) = 4M (θ0 ) s(x, θ0 ) A2 f (x, θ0 ) dx
I

avec
Z
M (θ0 ) = m(x, θ0 ) dx ,
I

1
m(x, θ0 ) =
σ 2 (x)s(x, θ0 )

et
 Z x 
b(u, θ0 )
s(x, θ0 ) = exp − 2 du .
x0 σ 2 (u)

R Corollaire 12.2 — Soient R f1 , . . . , fk : I → R, continues et telles que d’une part


I
|fi |π < ∞, d’autre part I fi dπ = 0. Alors
 Z T 
1 L
  
√ fi (ζs ) ds −→ N 0, Vθ0 (fi , fj ) 16i, j6k ,
T 0 i=1,..., k

à condition que Vθ0 (fi ) soit finie, pour i = 1, . . . , k.


Théorème 12.22 — Soit f : I → R, continue et telle que f (x) 6 K 1 + |x|γ avec
Z
|x|γ πθ0 (x) dx < ∞ .
I

Si Z Z x 2
1 + |u|γ πθ0 (u) du

s(x, θ0 ) dx < ∞
l l
et si Z r Z r 2
1 + |u|γ πθ0 (u) du

s(x, θ0 ) dx < ∞,
x
alors
Vθ0 (f ) < ∞ .

Soit θbT l’EMV et θe un autre estimateur de θ. Posons

l0 (θ)
e
θT = θeT −
bb
l00 (θ)
e

(méthode de Newton au premier pas). Si θbT est consistant et si :

Processus stochastiques 127


12. STATISTIQUE DES DIFFUSIONS

1. √ L
N 0, I −1 (θ0 )
 
T θbT − θ0 −→ ;

2. θbT −→ θ0 ;
√ 
3. T θeT − θ0 converge en loi,
alors √  P
T θbT − θbT −→ 0 (T → ∞)
b

et donc √ L
N 0, I −1 (θ0 )
 
T θbT − θ0 −→ .
b

Processus stochastiques 128


Cinquième partie

MODÈLE LINÉAIRE
GÉNÉRALISÉ

129
13

Introduction

13.1 Modèle linéaire classique

Le vecteur Y des observations a n composantes qui sont indépendamment distribuées,


et de moyenne µ. La part systématique du modèle est la spécification de µ en fonction de
paramètres β1 , . . . ,βp :
Xp
µ= xj βj .
j=1

i.e.

E(yi ) = µi
Xp
= xij βj ,
j=1

où xij est la valeur de la j e covariable pour l’observation i. L’erreur du modèle suit une
N (0,σ 2 ).
Le vocabulaire est le suivant :
— la composante aléatoire : les composantes de Y ont des distributions normales
indépendantes d’espérances µi et de variance commune σ 2 ;
— la composante systématique : les covariables x1 , . . . ,xp engendrent un prédicteur
linéaire η donné par :
X p
η= xj βj
j=1

— le lien entre composantes aléatoires et systématique est

η=µ.

130
13. INTRODUCTION

13.2 Modèle linéaire général


Soit yij , j = 1, . . . ,n les n observations faites sur le ie sujet ; est associé au vecteur des
observations un vecteur de p covariables xijk , k = 1, . . . ,p. On suppose que les yij sont les
réalisations de v.a. Yij , suivant le modèle
Yij = β1 xij1 + .. + βp xijp + ij .
Les erreurs sont ici corrélées. Si l’on note σ 2 V la matrice bloc-diagonale composée de
n × n blocs σ 2 V0 , chacun représentant la matrice de variance-covariance du vecteur de
mesures chez un sujet, le modèle s’écrit
Y N (Xβ , σ 2 V ) . (13.1)

13.2.1 Estimation par les moindres carrés ordinaires


L’estimateur des moindres carrés ordinaire β̂ minimise la forme quadratique
(y − Xβ)t (y − Xβ) .
Il est égal à
β̂ = (X t X)−1 X t y
et
Var(β̂) = σ 2 (X t X)−1 X t V X(X t X)−1 .

13.2.2 Estimation par les moindres carrés pondérés


L’estimateur des moindres carrés pondérés (weighted least-squares estimator) de
β, qui utilise une matrice symétrique de pondération W , est la valeur βeW qui minimise la
forme quadratique
(y − Xβ)t W (y − Xβ) .
Le résultat explicite est
βeW = (X t W X)−1 X t W y . (13.2)
Cet estimateur est sans biais, quel que soit le choix de W . Sa variance vaut
Var(βeW ) = σ 2 (X t W X)−1 X t W V W X(X t W X)−1 .
 
(13.3)
Si W = I, matrice d’identité, alors on retrouve l’estimation par les moindres carrés
ordinaires. Si W = V −1 , l’estimateur devient
βb = (X t V −1 X)−1 X t V −1 y (13.4)
et
b = σ 2 (X t V −1 X)−1 .
Var(β)
La notation « chapeau » anticipe sur le fait que βb est l’estimateur du maximum de
vraisemblance de β sous l’hypothèse de normalité du modèle (13.1). Cette remarque laisse
suggérer que l’estimateur des moindres carrés pondérés le plus efficace est celui pour lequel
W = V −1 .

Processus stochastiques 131


13. INTRODUCTION

13.2.3 Estimation par le maximum de vraisemblance sous l’hypo-


thèse de normalité
On estime simultanément les paramètres d’intérêt, soient β,σ 2 et V0 . Sous l’hypothèse
de normalité (cf. (13.1)), la log-vraisemblance vaut
1n 1 o
L(β, σ 2 ,V0 ) = − nm log(σ 2 ) + m log |V0 | + 2 (y − Xβ)t V −1 (y − Xβ) .

(13.5)
2 σ
Pour une matrice V0 donnée, l’estimateur du maximum de vraisemblance de β est
l’estimateur des moindres carrés pondérés vu en (13.4), soit

b 0 ) = (X t V −1 X)−1 X t V −1 y .
β(V (13.6)

Son expression insérée dans (13.5), on obtient

b 0 ), σ 2 ,V0 ) = − 1n 1 o
nm log(σ 2 ) + m log |V0 | + 2 RSS(V0 ) ,

L(β(V
2 σ
où
RSS(V0 ) = (y − Xβ)t V −1 (y − Xβ) .
La dérivation de (13.6) par rapport à σ 2 donne l’estimateur du maximum de vraisem-
blance de σ 2 , toujours à V0 fixé :

RSS(V0 )
b2 (V0 ) =
σ . (13.7)
nm
L’introduction de (13.6) et (13.7) dans (13.5) donne une log-vraisemblance réduite pour
V0 qui, à un terme constant près, vaut

b2 (V0 ),V0

Lr (V0 ) = L β(V b 0 ), σ
1n  o
= − n log RSS(V0 ) + log |V0 | . (13.8)
2

Finalement, la maximisation de Lr (V0 ) donne Vb0 et par suite, au travers de (13.6) et


(13.7), on obtient également βb ≡ β( b2 ≡ σ
b Vb0 ) et σ b2 (Vb0 ).
En utilisant la vraisemblance pour les estimations simultanées de β,σ 2 et V0 , la forme
de la matrice X intervient explicitement dans l’estimation de σ 2 et V0 . Une conséquence
de ceci est que, si nous supposons une forme incorrecte pour X, nous n’obtiendrons pas
d’estimateurs consistants pour σ 2 et V0 . Aussi, une stratégie est d’élaborer un modèle com-
plet pour les profils des réponses moyennes qui incorpore la structure de covariance des
données. Quand, par exemple, les données proviennent d’une expérimentation planifiée (de-
signed experiment), et qu’il n’y a pas de covariable continue, il est recommandé d’introduire
un paramètre séparé pour la réponse moyenne à chaque temps de contrôle du traitement,
ce qui s’appelle un modèle saturé pour les profils de réponse moyenne. Ceci garantit des
estimateurs consistants de la structure de covariance.
Cette stratégie n’est pas toujours praticable. En particulier, lorsqu’il existe une ou
plusieurs covariables continues, nous devons décider d’introduire cette (ces) covariable(s)
sous forme d’un effet linéaire, ou quadratique, ou sous une autre forme non-linéaire. Dans
ce cas, le concept de modèle saturé ne tient plus.
Même s’il est praticable, le modèle saturé pose un autre problème. Pour g traitements
et n temps d’observations, il requiert p = n × g paramètres, et si ce nombre est relativement
important, les estimateurs du maximum de vraisemblance pour σ 2 et V0 seront sérieusement
biaisés. Par exemple, nous savons que lorsque V0 = I, un estimateur sans biais de σ 2 exige

Processus stochastiques 132


13. INTRODUCTION

un diviseur égal à (nm − p), plutôt que le diviseur nm vu en (13.7) — ce problème étant
encore davantage exacerbé par la structure d’autocorrélation des données.
Aussi est-il nécessaire d’utiliser une matrice X présentant un grand nombre de colonnes
pour obtenir des estimateurs consistants de la structure de covariance, alors même qu’une
estimation non biaisée exige un faible nombre de colonnes pour X.
Pour remédier à ce problème, nous devons considérer d’autres méthodes d’estimation.
Parmi elles, la méthode du maximum de vraisemblance restreint.

[Link] Estimation par le maximum de vraisemblance restreint


La méthode du maximum de vraisemblance produit des estimateurs biaisés ; par
exemple, dans le modèle le plus classique, soit

Y N (Xβ , σ 2 I) , (13.9)

l’estimateur du maximum de vraisemblance de σ 2 est


RSS
b2 =
σ ,
nm
où RSS est le somme des carrés résiduelle. Cet estimateur est biaisé ; l’estimateur usuel
sans biais est
RSS
σe2 = ,
nm − p
où p est le nombre d’éléments de β.
Dans cet exemple, σ e2 est l’estimateur du maximum de vraisemblance restreint
(REML) (restricted maximum likelihood estimation) de σ 2 concernant le modèle (13.9).
Dans le cadre plus général d’un modèle

Y N (Xβ , σ 2 V ) , (13.10)

l’estimateur REML est défini comme étant l’estimateur du maximum de vraisemblance


basé sur une transformation linéaire du jeu de donnée : soit

Y ? = AY ,

de telle sorte que la distribution de Y ? ne dépende pas de β. Un moyen est de choisir pour
A la matrice qui transforme Y en résidus des moindres carrés ordinaires :

A = I − X(X t X)−1 X t . (13.11)

Alors Y ? a une distribution normale multivariée, centrée et singulière, quelle que soit
la valeur de β. Pour obtenir une distribution normale centrée régulière, on peut utiliser
uniquement mn − p lignes de la matrice A définie en (13.11).
Les estimateurs résultant pour σ 2 et V0 ne dépendent cependant pas du choix des
lignes retenues, ni non plus du choix particulier de la matrice A : toute matrice telle que
E(Y ? ) = 0 pour tout β donnera la même solution.
Pour les calculs, on réabsorbe σ 2 dans V , si bien que le modèle se réécrit

Y N (Xβ , H) , (13.12)

où H ≡ H(α), avec α vecteur de paramètres. Soit A telle qu’en (13.11) et B la matrice
nm × (nm − p) telle que
BtB = I ,

Processus stochastiques 133


13. INTRODUCTION

où I est la matrice identité de dimension (nm − p) × (nm − p). Finalement, soit
Z = BtY .
À α fixé, l’estimateur du maximum de vraisemblance de β est l’estimateur des moindres
carrés généralisés
βb = (X t H −1 X)−1 X t H −1 Y
= GY .
Les densités de probabilité de Y et βb sont respectivement
1 1 n 1 o
f (y) = √ p exp − (y − Xβ)t H −1 (y − Xβ)
( 2π)nm |H| 2

et

b = √1
p n 1 o
g(β) |X t H −1 X| exp − (βb − β)t (X t H −1 X)(βb − β) .
( 2π)p 2

On a E(Z) = 0 ; de plus, Z et βb sont indépendants, quelle que soit la valeur de β. On


démontre que l’estimateur REML α e maximise la log-vraisemblance
1 1 1
L? (α) = − log |H| − log |X t H −1 X| − (y − X β)
b t H −1 (y − X β)
b ,
2 2 2
tandis que l’estimateur du maximum de vraisemblance α
b maximise la log-vraisemblance
1 1 b t H −1 (y − X β)
L(α) = − log |H| − (y − X β) b .
2 2
Ainsi, l’algorithme du REML incorpore uniquement une modification de celui du maxi-
mum de vraisemblance.
Revenons un instant au modèle de la section précédante. Si l’on considère m unités et
n observations par unité, et si σ 2 V est une matrice bloc-diagonale faite de n × n blocs non
nuls σ 2 V0 (représentant chacun la matrice de variance-covariance des mesures faites sur une
unité), alors à V0 donnée,
b 0 ) = (X t V −1 X)−1 X t V −1 y
β(V (13.13)
b 0 ))t V −1 (y − X β(V
RSS(V0 ) = (y − X β(V b 0 ))

et l’estimateur REML de σ 2 est


RSS(V0 )
σ
e(V0 ) = , (13.14)
nm − p
où p est le nombre d’éléments de β.

L’estimateur REML de V0 maximise la vraisemblance


1 n o 1
L? (V0 ) = − m n log RSS(V0 ) + log |V0 | − log |X t V −1 X| .

(13.15)
2 2

Finalement, en insérant dans (13.13) et (13.14) le résultat V


f0 obtenu par (13.15), on
obtient les estimateurs REML
βe = β(
bV f0 )

Processus stochastiques 134


13. INTRODUCTION

et

e2 = σ
σ b2 (V
f0 ) .

Nota — La différence entre L(V0 ) et L? (V0 ) réside dans l’addition du terme
1
2log |X t V −1 X| . La matrice X t V −1 X est une matrice p × p. Aussi la différence entre
maximum de vraisemblance ordinaire et REML est-elle importante quand p est grand.

13.2.4 Estimation robuste des écarts-types


L’idée essentielle de l’approche robuste de l’inférence concernant β est d’utiliser l’esti-
mateur des moindres carrés généralisé βe défini en (13.2) par

βe = (X t W X)−1 X t W y , (13.16)
en conjonction avec une matrice de variance-covariance estimée
o n
bW = (X t W X)−1 X t W Vb W X(X t W X)−1 ,

R (13.17)

où Vb est consistante pour V , quelle que soit la vraie structure de covariance. Notons que
dans (13.17), σ 2 a été réabsorbé dans V .
Pour l’inférence, nous procédons comme si
βe N (β , R
bW ) . (13.18)
Dans cette approche, on appelle W −1 la matrice de covariance de travail, afin de
la distinguer de la vraie matrice de covariance V . Typiquement, nous pouvons utiliser une
forme simple pour W −1 qui « capture » la structure qualitative de V .
Quoi qu’il en soit, un choix quelconque pour W affectera seulement l’efficacité de nos
inférences concernant β, mais pas leur validité. En particulier, les intervalles de confiance
et les tests d’hypothèses issus de (13.18) seront asymptotiquement corrects, quelle que soit
la vraie forme de V .
Notons que les équations (13.2) et (13.3) ne changent pas si les éléments de W sont
multipliés par une constante, si bien qu’il serait strictement correct de dire que W −1 est
proportionnel à la matrice de covariance de travail.
Quand le modèle saturé n’est pas envisageable (présence d’une covariable continue), il
n’est pas possible d’obtenir une expression explicite de l’estimateur REML de V0 . Dans
ce cas, on ne fait aucune hypothèse au sujet de la forme de V0 ; on utilise une matrice X
correspondant au modèle le plus élaboré que nous avons pu préparer concernant la réponse
moyenne ; enfin l’on obtient l’estimateur REML Vb0 via une maximisation numérique qui est
en (13.15).
Pour des inférences robustes concernant β, on substitue dans (13.17) Vb et on utilise
(13.18). Si l’on désire tester des hypothèses linéaires concernant β, on peut utiliser l’ap-
proche standard du modèle linéaire général. Ainsi, si l’on désire tester l’hypothèse Qβ = 0,
où Q est une matrice q × p avec q < p, on déduit de (13.18) que

QβbW bW Qt ) .
N (Qβ , QR
Une statistique est alors
t
T = βbW bW Qt )−1 QβbW ,
Qt (QR (13.19)
qui suit un χ2 (q).

Processus stochastiques 135


14

Modèle linéaire généralisé

14.1 Présentation
La généralisation consiste en deux points :
— la distribution de la composante aléatoire n’est plus nécessairement normale — elle
est cependant issue de la famille exponentielle — ;
— le lien devient une fonction de lien, i.e.

η = g(µ) ,

avec g monotone et différentiable.


L’expression générale est
n y θ − b(θ ) o
i i i
fY (yi ; θi ,φ) = exp + c(yi ,φ)
a(φ)
pour des fonctions spécifiques a, b et c.
Notons l(θi ,φ; yi ) = log f (yi ; θi ,φ) = li la contribution de la ie observation à la log-
vraisemblance. On a :
yi θi − b(θi )
l(θi ,φ; yi ) = + c(yi ,φ)
a(φ)
∂li yi − b0 (θi )
⇒ = (14.1)
∂θi a(φ)
00
∂ 2 li b (θi )
et = − . (14.2)
∂θi2 a(φ)

Théorème 14.1 —
∂l
E( ) = 0, (14.3)
∂θ0
∂l 2 ∂2l
E[( ) ] = −E( 2 ) . (14.4)
∂θ0 ∂θ0
où θ0 est la vraie valeur du paramètre.

136
14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Démonstration
–1–

Z
f (y; θ)dy = 1
Z
∂f (y; θ)
⇒ 0 = dy
∂θ
Z
∂ log f (y; θ)
= f (y; θ)dy
∂θ
∂l
= E( ) .
∂θ
–2–
D’après (14.1),

∂l ∂l
Var( ) = E[( )2 ] .
∂θ ∂θ
D’autre part, en dérivant l’équation du 1,
Z 2 Z
∂ log f (y; θ) ∂ log f (y; θ) ∂f (y; θ)
0 = 2
f (y; θ)dy + dy
∂θ ∂θ ∂θ
∂l ∂2l
⇒ E[( )2 ] = −E( 2 )
∂θ ∂θ
= A(θ) (notation) .

A(θ) est la matrice d’information de Fisher.

D’après (14.1) et (14.3),

E(yi ) = b0 (θi )
= µi (notation) . (14.5)

D’après (14.2) et (14.4),

Var(yi ) = b00 (θi )a(φ) . (14.6)

La variance se décompose en une partie ne dépendant que de θ (et donc de la moyenne),


que l’on nommera fonction de variance et que l’on notera V (µ), et une partie dépendant
uniquement de φ. La fonction a(φ) est souvent de la forme

φ
a(φ) = ,
w
où φ, noté encore σ 2 et appelé paramètre de dispersion, est constant sur les observa-
tions, et w un poids a priori, connu donc, et qui varie d’une observation à l’autre.
θi est une fonction de µ :
−1
θ i = b0 [g −1 (ηi )] = h(ηi ) = h0 (µi ) .

Une fonction de lien pour laquelle θ = η est appelée fonction de lien canonique.

Processus stochastiques 137


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Table 14.1 — Quelques lois.

Nom Normale Poisson Binomiale Gamma Inverse Gaussienne

1
Notation N (µ,σ 2 ) P(µ) B(m,π) G(µ,ν) IG(µ,σ 2 )
m

1
φ σ2 1 ν −1 σ2
m

θ2 √
b(θ) eθ log(1 + eθ ) − log(−θ) − −2θ
2

eθ 1 1
µ(θ) = E(Y ; θ) θ eθ − √
1 + eθ θ −2θ

1 1
θ(µ) µ log(µ) logit(µ)
µ µ2

V (µ) 1 µ µ(1 − µ) µ2 µ3

14.1.1 Les équations de vraisemblance

Si l’échantillon est composé de n observations indépendantes, alors la log-vraisemblance


de l’échantillon est égale à
n
X
L(β) = log f (yi ; θi ,φ)
i=1
Xn
= li .
i=1

Pour obtenir les équations de vraisemblance, nous calculons


∂li ∂li dθi dµi ∂ηi
= .
∂βr ∂θi dµi dηi ∂βr

En utilisant (14.1), (14.4), (14.5) et (14.6), on obtient


∂li (yi − µi )xir ∂µi
= . (14.7)
∂βr Var(yi ) ∂ηi

Processus stochastiques 138


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Pour maximiser la log-vraisemblance, on annule le système des p équations de vraisem-


blance égal à  n
 X (yi − µi )xi1 ∂µi = 0


Var(yi ) ∂ηi



 i=1

..
.
n




 X (y i µ i )xip ∂µi

 = 0
Var(yi ) ∂ηi


i=1

Ces équations n’étant en général pas des fonctions linéaires de β, il est nécessaire d’uti-
liser des méthodes itératives afin d’estimer β̂.
Déterminons maintenant les termes de la matrice d’information de Fisher :
 ∂2l  
∂li  ∂li 

i
E = −E
∂βr ∂βs ∂βr ∂βs
 
(yi − µi )xir ∂µi (yi − µi )xis ∂µi
= −E (14.8)
Var(yi ) ∂ηi Var(yi ) ∂ηi
xir xis  ∂µi 2
= .
Var(yi ) ∂ηi

En généralisant ce résultat à l’échantillon, on obtient :


 ∂ 2 L(β) 
ars = −E
∂βr ∂βs
n
X xir xis  ∂µi 2
= . (14.9)
i=1
Var(yi ) ∂ηi

La matrice d’information de Fisher est donc de la forme

A = X 0W X , (14.10)

où W est une matrice diagonale d’éléments


1  ∂µi 2
wi = . (14.11)
Var(yi ) ∂ηi

14.1.2 Algorithmes

[Link] Algorithme de Newton-Raphson


Cet algorithme est basé sur le développement de Taylor, au second ordre et par rapport
à β, du gradiant de la log-vraisemblance. Soit β (a) la ae approximation de β̂ et considérons
le développement de Taylor
∂L
0 =
∂β β (a)
∂L ∂2L
≈ + (β̂ − β (a) ) .
∂β β (a) ∂β∂β 0 β (a)

Processus stochastiques 139


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

alors
∂ 2 L −1 ∂L
 
β̂ − β (a) ≈ −
∂β∂β 0 ∂β β (a)
(a)
= δ (notation).

On peut ainsi construire une nouvelle valeur estimée

β (a+1) = β (a) + δ (a) .

δ (a) peut constituer un critère d’arrêt en stoppant l’algorithme quand δ (a) est suffisam-
ment petit. Si l’on note u(a) le vecteur gradiant et H (a) la matrice Hessienne calculés à la
ae itérations, on obtient la relation

β (a+1) = β (a) − (H (a) )−1 u(a) .

[Link] Relation entre la méthode du scoring de Fisher et la méthode des


moindres carrés pondérés itératifs (IRLS)
Dans l’algorithme de Fisher, la matrice Hessienne H (a) est remplacée par moins la
matrice d’information de Fisher A(a) :

β (a+1) = β (a) + (A(a) )−1 u(a) .

En multipliant les deux termes de l’équation par A(a) , on obtient

A(a) β (a+1) = A(a) β (a) + u(a) . (14.12)

En utilisant (14.9), la partie de droite de (14.12) devient


p n 2 n (a)
X X xir xis  ∂µi (a)  (a) X (yi − µi )xir  ∂µi (a)
βs + ,r = 1, . . . ,p.
i=1 i=1
Var(yi ) ∂ηi i=1
Var(yi ) ∂ηi

ce qui peut s’exprimer sous la forme

A(a) β (a) + u(a) = X t W (a) z (a) ,

où W (a) est W en (14.10) évalué en β (a) , et z (a) est constitué des éléments
p  ∂η (a)
(a) (a)(a) i
X
zi = + (yi − µi )
xij βj
i=1
∂µ i
 ∂η (a)
(a) (a) i
= ηi + (yi − µi ) ,i = 1, . . . ,n. (14.13)
∂µi

En utilisant (14.10) pour A(a) , (14.12) peut s’exprimer par

(X t W (a) X)β (a+1) = X t W (a) z (a) .

Ce sont les équations normales de la méthode des moindres carrés pondérés


pour résoudre un modèle linéaire ayant comme variable dépendante z (a) , comme variable
indépendante la matrice X, et une matrice des poids W (a) . La solution des équations est

β (a+1) = (X t W (a) X)−1 X t W (a) z (a) . (14.14)

Processus stochastiques 140


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

z est une forme généralisée de la fonction de lien g(µ) évaluée en y :


g(yi ) ≈ g(µi ) + (yi − µi )g 0 (µi )
∂ηi 
= ηi + (yi − µi )
∂µi
= zi .
Ainsi, à chaque itération on calcule z (a) et W (a) pour obtenir une nouvelle estimation
(a+1)
β de β. Cette estimation permet de calculer un nouveau prédicteur linéaire η (a+1) , et
donc une nouvelle variable dépendante ajustée, ainsi que de nouveaux poids. D’où le nom
de méthode des moindres carrés pondérés itératifs.
Asymptotiquement, l’inverse de la matrice d’information de Fisher constitue une esti-
mation de la matrice de variance-covariance de β̂, et par suite
Cov (β̂) = (X t Ŵ X)−1 .

14.1.3 Simplification lors de l’utilisation d’un lien canonique


n
X
θi = g(µi ) = βj xij .
j=1

En utilisant le fait que η = Xβ, on obtient


∂µi ∂µi
=
∂ηi ∂θi
∂b0 (θi )
=
∂θi
= b00 (θi )
Var(yi )
= .
a(φ)
(14.7) devient
∂li (yi − µi )xij
= .
∂βj a(φ)
De plus, la matrice hessienne H est égale à moins la matrice d’information de Fisher :
en effet, en utilisant (14.8),
∂ 2 li (yi − µi )xir (yi − µi )xis
=
∂βr ∂βs a(φ) a(φ)
Var(yi )xir xis
=
a(φ)2
et
2
∂ li xir xis Var(yi ) 2
−E( ) = ( )
∂βr ∂βs Var(yi ) a(φ)
Var(yi )xir xis
= .
a(φ)2

Ceci implique que les algorithmes de Newton-Raphson et du scoring de Fisher sont


identiques.

Processus stochastiques 141


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

14.1.4 Ajustement
— La log-vraisemblance vaut l(µ,y) = log f (y,θ) ; le critère d’ajustement est la dé-
viance pondérée
D? (y,µ) = −2[l(µ,y) − l(y,y)] ,
qui suit un χ2 ;
— la statistique de Pearson :
P
2 (y − µ̂)
X = ,
V (µ̂)

qui est la mesure d’ajustement de Pearson.

14.1.5 Étude des résidus


Deux types de résidus sont particulièrement utilisés :
— le résidu de Pearson, défini par
y − µ̂i
rp i = p ;
V (µ̂i )

la somme des carrés des résidus de Pearson est égale au χ2 d’ajustement de Pearson ;
— le résidu de la déviance, défini par
p
rD i = signe(yi − µ̂i ) di .

14.2 Données binaires


On note
P(Yi = 1−) = πi .
L’objectif est de rechercher la relation entre la probabilité de réponse π = π(x), et les
covariables x = (x1 , . . . ,xp ). On suppose que cette dépendance de π vis-à-vis des xi est
contenue dans la combinaison linéaire
p
X
η = g(π) = xj βj .
j=1

À moins que des restrictions ne soient faites sur β, on a −∞ < η < +∞. Aussi, étant
donné que π est une probabilié, il faut une transformation g(π) qui transforme l’intervalle
[0,1] en ] − ∞, + ∞[. Trois fonctions sont usuellement employées :
— la fonction logistique :
π 
g(π) = log ;
1−π
— la fonction probit ou fonction inverse normale :

g(π) = Φ−1 (π) ;

Processus stochastiques 142


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

— la fonction log-log complémentaire :



g(π) = log − log(1 − π) .

Nota — Dans la cas du modèle logistique, on a bien que


P 
exp j xj βj
π= P .
1 + exp( j xj βj )

La log-vraisemblance vaut
n h
X πi i
l(π; y) = yi log( ) + mi log(1 − πi ) ,
i=1
1 − πi

où mi est le nombre d’individus dans le groupe i.

n
∂l X yi − mi πi dπi
= xir
∂βr π (1 − πi ) dηi
i=1 i
∂l
= X t (Y − µ) .
∂β
L’information de Fisher pour β vaut
 ∂2l  X mi ∂πi ∂πi
−E =
∂βr ∂βs i
πi (1 − πi ) ∂βr ∂βs
n  ∂π 2
X mi i
= xir xis
i=1
πi (1 − πi ) ∂ηi
= {X t W X}rs ,

en utilisant la forme matricielle vue en (14.10), avec

mi  ∂π 2
i
wi =
πi (1 − πi ) ∂ηi
= mi πi (1 − πi ) .

car
∂πi ∂πi ∂ηi
xir =
∂ηi ∂ηi ∂βr
∂πi
=
∂βr
Pp 
exp j=1 xij βj
= xir Pp 
2
[1 + exp j=1 xij βj ]

= xir πi (1 − πi ) .

Processus stochastiques 143


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

14.2.1 Méthode itérative de Newton-Raphson


On se donne β̂0 , et l’on calcule π̂0 et η̂0 . On calcule alors, à partir de ces variables,
yi − mi π̂i dηi
zi = η̂i + .
mi dπi

Les estimateurs du maximum de vraisemblance vérifient

X t W X β̂ = X t W Z ,

que l’on peut résoudre par itérations en utilisant la méthode standard des moindres carrés.
On obtient
−1
β̂1 = (X t W X) X t W Z .

Propriétés 14.1 —

E(β̂ − β) −→ 0 (n → ∞) ,
−1
Cov (β̂) −→ (X t W X) (n → ∞) .

La fonction de déviance vaut


 
D(y,π̂) = 2 l(π̃; y) − l(π̂; y)
Xn yi mi − yi o
= 2 yi log( ) + (mi − yi ) log( ) .
i
µ̂i mi − µ̂i

14.2.2 Méthode du scoring de Fisher


On constitue la variable dépendante ajustée (14.13)
 ∂η (a)
(a) (a) (a) i
zi = ηi + (yi − µi )
∂µi
(a)
(a) yi − mi πi
= ηi + (a) (a)
.
mi πi (1 − πi )

Le système peut alors être résolu en utilisant (14.14).

14.3 Modèle linéaire généralisé à effets mixtes

14.3.1 Définition
Un GLM à effets mixtes peut se définir à partir d’un GLM de la façon suivante. Sup-
posons que l’on ait K observations (y1 , . . . ,yK ) de Y, telles que

Y =µ+e,

Processus stochastiques 144


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

où e est un vecteur de termes d’erreur de moyenne nulle et de matrice de variance-covariance


V . Considérons la part systématique η = g(µ) du GLM, et définissons-la comme étant égale

η = Xβ + B1 b1 + · · · + Bn bn , (14.15)

où :
— η est un vecteur de dimension K × 1 ;
— X est la matrice de dimension K × p des covariables dont les valeurs sont connues ;
— β est un vecteur inconnu d’effets fixes, de dimension p × 1 ;
— Bi , i=1,. . .,n, est une matrice connue de dimension K × qi ;
— bi , i=1,. . .,n, est un vecteur inconnu d’effets aléatoires et de dimension qi × 1.

14.3.2 Estimation des paramètres


Contrairement aux GLM traditionnels ou aux modèles à effets mixtes linéaires, il
n’existe pas de méthode « standard » dans ce contexte. Nous détaillerons l’approche de
Anderson et Aitkin.
Considérons le modèle (14.15) où les Bi sont
P des vecteurs deP dimension K × 1 dont
e e
toutes les composantes sont nulles sauf Pnde la ( ki−1 + 1) à la ( ki ) composante, et les
bi sont des scalaires. Il est clair que i=1 ki = K. Dans le contexte des mesures répétées,
en utilisant les mêmes notations que dans la partie 3, le prédicteur ηit , c’est-à-dire du ie
sujet au temps t s’écrit
p
X 
ηit = xitj βj + bi .
j=1

Il est clair que ce modèle comporte un seul effet aléatoire qui est constant pour un
individu donné. La conséquence est que, conditionnellement à bi , les observations yit sont
indépendantes. Ces modèles sont dénommés modèles avec ordonnée à l’origine aléa-
toire.
On peut remarquer que si b est distribué suivant une loi normale N (0,σ 2 ) où σ 2 re-
présente la composante de variance associée à b, alors le coefficient de corrélation
intra-classe ρ est
σ2
ρ= .
1 + σ2
La matrice D est alors bloc-diagonale avec des sous-matrices Di de type exchangeable
correlation. Notons de plus que bi = σai où a est distribué suivant une loi normale centrée
réduite. Dans ce cas, le prédicteur du ie sujet au temps t s’écrit
p
X 
ηit = xitj βj + σai .
j=1

La log-vraisemblance du modèle s’exprime alors comme suit :


n
X nZ +∞ ki o
Y
˜l(β,σ)

= log f (yit ; β,σ) v(ai )dai , (14.16)
i=1 −∞ t=1

où v(ai ) est la fonction de densité d’une loi normale centrée réduite.

Processus stochastiques 145


14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Anderson et Aitkin montrent que les paramètres β et σ peuvent être estimés par l’EM
algorithm. Pour utiliser cet algorithme, il est nécessaire de définir la log-vraisemblance
complète, c’est-à-dire en supposant que a est connu. La log-vraisemblance complète est
alors
ki
n X
X  
l(β,σ) = log f (yit ; β,σ)v(ai ) . (14.17)
i=1 t=1

L’EM algorithm est un algorithme itératif constitué de deux phases exécutées alternati-
vement :
— la première phase est la phase d’estimation de l’algorithme (E-step) où est esti-
mée non pas la vraisemblance complète, mais l’espérance de celle-ci, et condition-
nellement aux données observées et aux estimations courantes des paramètres du
modèle ;
— la seconde est la phase de maximisation de l’algorithme (M-step) qui consiste à
trouver les quantités β̂ et σ̂ qui maximisent l’espérance de l(β,σ).
R +∞
En pratique, l’algorithme nécessite de résoudre des intégrales du type −∞ f (.)v(a)da.
Anderson et Aitkin proposent d’utiliser une procédure d’intégration numérique par quadra-
ture de Gauss. La procédure nécessite de se fixer un nombre q de points d’intégration. On
peut alors obtenir à partir de tables ou de routines les coordonnées aq et les pondérations
Aq utilisées dans l’intégration numérique.

Processus stochastiques 146


Sixième partie

ÉQUATIONS D’ESTIMATION
GÉNÉRALISÉES

147
15

Quasi-vraisemblance

15.1 Vraisemblance marginale


Il s’agit d’éliminer les paramètres de nuisance. Si θ est le paramètre d’intérêt et β celui
de nuisance, on élimine β de la vraisemblance en travaillant avec l’ensemble de contrastes

R = (I − PX )Y
−1
I − X(X t X) Xt Y ,

=

de moyenne nulle et dont la distribution ne dépend pas de β.

15.2 Vraisemblance conditionnelle


On utilise la densité conditionnelle de Y sachant le paramètre d’intérêt.

15.3 Quasi-vraisemblance
On suppose que les composantes du vecteur Y sont indépendantes, de moyenne µ et de
matrice de covariance σ 2 V (µ), où σ 2 est inconnu et V (µ) connue. Le paramètre d’intérêt β
se rattache à la dépendance de µ vis-à-vis des covariables x. Peu importe la nature de cette
relation : nous noterons simplement µ(β). σ 2 est supposé constant — i.e. ne dépendant pas
de β. Puisque les composantes de Y sont supposées indépendantes, la matrice V (µ) doit
être diagonale : 
V (µ) = diag V1 (µ), . . . ,Vn (µ) .
On suppose de plus que Vi (µ) ne dépend que de la ie composante de µ :

V (µ) = diag V1 (µ1 ), . . . ,Vn (µn ) .

148
15. QUASI-VRAISEMBLANCE

On considère une unique composante de Y . D’après ce qui précède, la fonction

U = u(µ; Y )
Y −µ
=
σ 2 V (µ)
n
X yi − µi
= 2 V (µ )
.
i=1
σ i

a les propriétés de log-vraisemblance (14.3) et (14.4) :

E(U ) = 0,
1
Var(U ) = ,
σ 2 V (µ)
 ∂U  1
−E = 2
.
∂µ σ V (µ)

Définition 15.1 — L’intégrale


µ
y−t
Z
Q(µ; y) = dt ,
y σ 2 V (t)

si elle existe, est la fonction de quasi-vraisemblance de µ, basée sur la donnée y. C’est


en réalité la fonction de log-quasi-vraisemblance.
Puisque les composantes de Y sont indépendantes, la quasi-vraisemblance complète vaut
n
X
Q(µ; y) = Qi (µi ; yi ) .
i=1

Définition 15.2 — La fonction de quasi-déviance est

D(y; µ) = −2σ 2 [Q(µ; y) − Q(y; y)]


Z µ
y−t
= −2 dt ,
y V (t)

qui est indépendante de σ 2 .

L’objectif est de maximiser Q, ou encore d’annuler les dérivées premières U (β) de Q


par rapport à β. Il est nécessaire de calculer
∂Qi ∂Qi ∂µi
=
∂βr ∂µi ∂βr
= Ui Dir ,
∂µi
avec D matrice n × p, d’éléments Dir = .
∂βr
Exprimé sous forme matricielle, le système à résoudre est de la forme
1 t
U (β) = D V (µ)−1 (Y − µ) , (15.1)
σ2

Processus stochastiques 149


15. QUASI-VRAISEMBLANCE

qui est appelée fonction de quasi-score.


 ∂U (β) 
La matrice de covariance de U (β), qui est aussi E , est
∂β
1 t −1
iβ = DV D. (15.2)
σ2

Pour les fonctions de quasi-vraisemblance, cette matrice joue le même rôle que l’infor-
mation de Fisher pour les fonctions de vraisemblance ordinaire.

Théorème 15.1 — On suppose que :


(i) la dérivée troisième de µ(β) existe ;
(ii) les 3 premiers moments de la distribution de Y existent ;
(iii) iβ /n converge vers une matrice définie positive quand n tend vers l’infini.
Alors
L
 1
β̂ −→ N β , .

Théorème 15.2 — Soient deux hypothèses HA et HB emboı̂tées, avec dimA < dimB.
Alors, sous HA , la différence en déviance

D(µ̂B ,µ̂A ) = D(y,µ̂A ) − D(y,µ̂B )

suit asymptotiquement une loi du χ2 à B − A degrés de liberté.

15.4 Méthode de Newton-Raphson


Commençant avec une valeur arbitraire β̂0 suffisamment proche de β̂, la méthode de
Newton-Raphson conduit à
−1
β̂1 = β̂0 + (D̂0t V̂0−1 D̂0 ) D̂0t V̂0−1 (y − µ̂0 ) .

15.5 Méthode de Fisher


Pour estimer les β̂, on utilise l’algorithme de Fisher, ce qui donne l’expression
1
β (a+1) = β (a) + (a)
iβ u(a)
= β (a) + (D(a)t V (a)−1 D(a) )−1 D(a)t V (a)−1 (y − µ(a) ) , (15.3)

laquelle peut s’exprimer sous la forme

(D(a)t W (a) D(a) )β (a+1) = (D(a)t W (a) Z (a) ) , (15.4)

Processus stochastiques 150


15. QUASI-VRAISEMBLANCE

où W (a) = V (a)−1 et Z (a) est une variable dépendante ajustée égale à

D(a) β (a) + (y − µ(a) ) .

On peut remarquer que σ 2 n’intervient pas dans l’estimation des β̂. L’estimation de σ 2
ne peut se faire par un calcul de vraisemblance ; il est généralement estimé directement sur
l’échantillon à partir de la statistique de Pearson généralisée
n
2 1 X yi − µ̂i
σ̃ = . (15.5)
n − p i=1 Vi (µ̂i )

15.6 Conditions d’application


Le concept de quasi-vraisemblance est utilisé dans deux types de situation :
— l’étude de modèles pour lesquels la connaissance de la distribution de Y se limite
aux deux premiers moments (en particulier lorsque V (µ) = 1 – variance constante –
ou lorsque V (µ) = µ2 – coefficient de variation constant) ;
— l’extension de la famille exponentielle naturelle par l’introduction d’un paramètre
de supra-dispersion.
Mais le concept de quasi-vraisemblance exclue la prise en compte de corrélation entre
les observations. D’où l’introduction, par Liang et Zeger (1986), du concept d’équations
d’estimation généralisées (GEE), qui sont la généralisation de la notion de quasi-
vraisemblance à des observations dépendantes.
Une autre limitation de la méthode de quasi-vraisemblance est que la forme de la
fonction de variance est supposée connue. Une extension, appelée quasi-vraisemblance
étendue (extended quasi-likelihood ), a été proposée par Nelder (1987). Dans ce modèle,
la fonction de variance est paramétrée. Les propriétés de cette méthode ont été récemment
étudiées par simulation (Nelder, 1992).

Processus stochastiques 151


16

Équations d’estimation généralisées

16.1 Modèle
On note yit la réponse observée chez le ie sujet au temps t, et xitj la valeur de la
j covariable mesurée chez le ie sujet au temps t. Nous supposerons que l’échantillon est
e

constitué de n sujets
P et que l’on observe p covariables aux temps ki . La dimension de Y est
donc égale à K = i ki , et celle de X est égale à K × p.
Les équations d’estimation généralisées (GEE) permettent de modéliser l’espé-
rance marginale de yit , soit E(yit ) = µit . C’est une méthode qui fournit des estimations
« moyennées » sur la population. En utilisant le même raisonnement que pour la quasi-
vraisemblance, définissons la variance de yit et la fonction de lien reliant µit aux cova-
riables :

Var(yit ) = φν ∗ (µit )
g ∗ (µit ) = X tβ∗ .

β ∗ mesure l’effet d’une covariable sur la réponse moyenne au niveau de la population,


et non un effet individuel.
Notons 0 0 t
µi = g ∗ −1 (xi1 β ∗ ), · · · ,g ∗ −1 (xiki β ∗ )


et notons Ai une matrice diagonale de dimension ki × ki dont les éléments diagonaux sont
constitués par les ν ∗ (µi ). Sous l’hypothèse d’indépendance des observations chez le même
sujet,
Cov (yi ) = φ Ai .
Le plus souvent, cette hypothèse n’est guère soutenable ; on définit alors une matrice de
corrélation, dite « de travail » Ri α dépendant d’un vecteur α de paramètres inconnus.
Pour estimer β ∗ , Liang et Zeger proposent de résoudre un système d’équations analogues
aux équations de quasi-vraisemblance (15.1) :
n
X
U (β ∗ ) = Di Vi−1 (α)(yi − µi ) = 0 (16.1)
i=1

152
16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

où
0
∂µi
Di =
∂β ∗
et
p p
Vi (α) = φ Ai Ri (α) Ai .
Liang et Zeger montrent que, sous les conditions d’une spécification correcte de µi et
les conditions usuelles de régularité, βˆ∗ est un estimateur consistant et asymptotique-
ment gaussien de β ∗ (n → ∞). En particulier, ces propriétés sont respectées même en
cas de mauvaise spécification de Vi .

16.2 Estimation des paramètres


Pour estimer les paramètres, on alterne une phase d’estimation de β ∗ fondé sur l’algo-
rithme de Fischer, et une phase d’estimation de α et φ par la méthode des moments.

16.2.1 Estimation de β ∗
En utilisant les valeurs courantes des estimations α(a) et φ(a) , on en déduit en utilisant
une démarche analogue à (15.2) que
X n  X n 
∗(a+1) ∗(a) (a) t (a) −1 (a) (a) t (a) −1 (a)
β =β + Di [Vi (α)] Di Di [Vi (α)] (yi − µi ) . (16.2)
i=1 i=1

Dans le cas où k1 = · · · = kn = k, en s’inspirant de (15.3), l’équation ci-dessus peut


s’exprimer sous forme matricielle
t t
∆(a) W (a) ∆(a) β (a+1) = ∆(a) W (a) Z (a) .

(16.3)

16.2.2 Estimations de α et φ
Pour estimer α et φ, on utilise, comme dans le cas de la quasi-vraisemblance, les résidus
de Pearson définis pour le ie individu par
yi − µ̂i
r̂i = √ . (16.4)
Ai
φ se définit de façon analogue à (15.4) par
Pn 0
r̂i r̂i
φ̂ = Pi=1 n . (16.5)
i=1 ki

Pour estimer α, l’approche générale consiste consiste à utiliser des fonctions simples
concernant les termes de covariance des résidus, de la forme
n
X r̂iu r̂iv
R̂uv = .
i=1
n−p

Processus stochastiques 153


16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

Plusieurs formes de matrices de variance-covariance peuvent être spécifiées, la plus


simple étant la matrice identité (dans ce dernier cas, l’estimation de β est identique à celle
de l’estimation sous hypothèse d’indépendance des observations, à l’exception toutefois de
la variance. . . ceci sera vu un peu plus loin). Une autre possibilité est de supposer la matrice
de corrélation connue et d’en spécifier les coefficients. À l’opposé, on peut considérer la
matrice de corrélation comme inconnue et estimer ses composantes qui sont de la forme
R̂uv
R̂uv (α) = .
φ̂
Nous verrons plus loin quelques formes courantes de matrices de corrélation.

16.2.3 Estimation de la variance de βˆ∗


En utilisant (15.2), une estimation naı̈ve de la variance de β ∗ est fournie par
φ̂
Cov (β̂ ∗ ) = P .
n (a) t  (a) −1 (a)
i=1 ∆i Vi (α) ∆i
Liang et Zeger montrent que
Vβ̂ ∗ = M0−1 M1 M0−1 , (16.6)
où
n
X
M0 = ˆ t V̂ −1 ∆
∆ ˆi ,
i i
i=1
n
X
M1 = ˆ ti V̂ −1 (yi − µ̂i )(yi − µ̂i )t V̂ −1 ∆
∆ ˆi .
i i
i=1

Vβ̂ ∗ est consistante même lorsque Cov (yi ) 6= Vi .

16.3 Différentes matrices de travail R(α)


Quelques matrices de corrélation sont présentées en fin de chapitre.
I La première famille est la famille des matrices de corrélation non stationnaire d’ordre
m. Elles s’écrivent 
 1 si u = v
R(α)uv = αuv si |u − v| ≤ m
0 si |u − v| > m

Chaque α̂ij peut s’exprimer par


n
X r̂iu r̂iv
α̂ij = .
i=1 φ̂(n − p)

I La deuxième famille est celle des matrices de corrélation stationnaires d’ordre m.


Notons t = |u − v|. La matrice de corrélation est ici égale à

 1 si t = 0
R(α)uv = αt si t ≤ m
0 si t > m

Processus stochastiques 154


16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

et une estimation de α̂ij peut s’exprimer par


k−t
X α̂u,u+t
α̂t = .
u=1
k−t

I Une autre possibilité est de considérer α comme étant le même pour tout couple
(u,v), u 6= v (cas d’une exchangeable correlation). Liang et Zeger proposent d’estimer α par
Pn P
r̂iu r̂iv
α̂ = Pni=1 1 u>v .
φ i=1 2 ki (ki − 1) − p

Toutes ces matrices peuvent s’exprimer sous la forme

T (α̂)
R(α̂) = , (16.7)
φ̂

où T (α) est une matrice qui ne dépend pas de φ. La conséquence en est alors que le terme
φ disparaı̂t dans l’expression de Vi , ce qui entraı̂ne que les estimations de β̂ ∗ et Var(β̂ ∗ ) ne
dépendent plus de φ.

I La dernière famille de matrices de corrélation est constituée par les matrices tradui-
sant une corrélation autorégressive d’ordre 1. La corrélation entre deux mesures est alors
de la forme
α|u−v| .
On peut estimer α par la moyenne des coefficients de corrélation calculés sur chaque
série. Il faut noter que dans cette situation, R(α̂) n’est pas décomposable suivant (16.7), car
il fait intervenir φ̂ à la puissance −|u − v|. En revanche, cette situation s’accommode bien
d’un nombre variable de mesures, ainsi que d’intervalles non constants entre les mesures.

   
1 0 0 0 0 1 α12 α13 α14 α15

 0 1 0 0 0 


 α12 1 α23 α24 α25 


 0 0 1 0 0 


 α13 α23 1 α34 α35 

 0 0 0 1 0   α14 α24 α34 1 α45 
0 0 0 0 1 α15 α25 α35 α45 1

independance unstructured

   
1 α12 α13 0 0 1 α1 α2 0 0

 α12 1 α23 α24 0 


 α1 1 α1 α2 0 


 α13 α23 1 α34 α35 


 α2 α1 1 α1 α2 

 0 α24 α34 1 α45   0 α2 α1 1 α1 
0 0 α35 α45 1 0 0 α2 α1 1

not stationnary (order 2) stationnary (order 2)

Processus stochastiques 155


16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

α2 α3 α4
   
1 α α α α 1 α

 α 1 α α α 


 α 1 α α2 α3 


 α α 1 α α 


 α2 α 1 α α2 

 α α α 1 α   α3 α2 α 1 α 
α α α α 1 α4 α3 α2 α 1

exchangeable correlation autoregressive (order 1)

Figure 16.1 — Quelques matrices de travail.

16.4 Extensions des GEE


Plusieurs développements autour de la méthodologie GEE ont été proposés. Thall et
Vail (1990) et Paik (1992) ont développé des modèles où la matrice de variance-covariance
peut être paramétrée par des covariables. Paik montre que l’ignorance d’une hétérogénéité
de la variance (par exemple un phénomène d’hétéroscédasticité en fonction du temps) se
traduit par une perte d’efficacité pour l’estimation des β.
Rotnitzky et Jewell (1990) construisent des tests de signification de type test du score
ou test de Wald dans le contexte des GEE. Ils proposent également un test ajusté basé sur
la déviance calculée sous l’hypothèse d’indépendance des observations.
Citons enfin l’article de Zeger, Liang et Albert (1988) qui expose un modèle de type
subject-specific à partir de la méthodologie des GEE.

Processus stochastiques 156

Vous aimerez peut-être aussi