0% ont trouvé ce document utile (0 vote)

49 vues156 pages

Probastat 82

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

49 vues156 pages

Probastat 82

Transféré par

Esdra Alexis

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Tristan Lorino

PROCESSUS STOCHASTIQUES

Février 2005
«
On appelle ça , un peu obscurément, la loi des
grands nombres. Par quoi l’on peut dire à peu près
que, si un homme se tue pour telle raison et un autre pour
telle autre, dès qu’on a affaire à un très grand nombre, le
caractère arbitraire et personnel de ces motifs disparaı̂t, et
il ne demeure... précisément, qu’est-ce qui demeure ? Voilà
ce que j’aimerais vous entendre dire. Ce qui reste, en effet,
vous le voyez vous-même, c’est ce que nous autres profanes
appelons tout bonnement la moyenne, c’est-à-dire quelque
chose dont on ne sait absolument pas ce que c’est. Permettez-
moi d’ajouter que l’on a tenté d’expliquer logiquement cette
loi des grands nombres en la considérant comme une sorte
d’évidence. On a prétendu, au contraire, que cette régularité
dans des phénomènes qu’aucune causalité ne régit ne pouvait
s’expliquer dans le cadre de la pensée traditionnelle ; sans
parler de mainte autre analyse, on a aussi défendu l’idée
qu’il ne s’agissait pas seulement d’événements isolés, mais de
lois, encore inconnues, régissant la totalité. Je ne veux pas
vous ennuyer avec les détails, d’autant que je ne les ai plus
présents à l’esprit, mais personnellement, il m’importerait
beaucoup de savoir s’il faut chercher là-derrière quelque
mystérieuse loi de la totalité ou si tout simplement, par une
ironie de la Nature, l’exceptionnel provient de ce qu’il ne se
produit rien d’exceptionnel, et si le sens ultime du monde
peut être découvert en faisant la moyenne de tout ce qui
n’a pas de sens ! L’une ou l’autre de ces deux conceptions
ne devrait-elle pas avoir une influence décisive sur notre
sentiment de la vie ? Quoi qu’il en soit, en effet, la possibilité
d’une vie ordonnée repose toute entière sur cette loi des
grands nombres ; si cette loi de compensation n’existait pas,
il y aurait des années où il ne se produirait rien, et d’autres
où plus rien ne serait sûr ; les famines alterneraient avec
l’abondance, les enfants seraient en défaut ou en excès et
l’humanité voletterait de côté et d’autre entre ses possibilités
célestes et ses possibilités infernales comme les petits oiseaux
quand on s’approche de leur cage. »

Musil, L’homme sans qualités.

Processus stochastiques 2
Sommaire

I SÉRIES CHRONOLOGIQUES 7
1 Introduction 8
1.1 Mesures spectrales — processus ARMA . . . . . . . . . . . . . . . . . . . . 10
1.2 Prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Prédiction sur le passé infini . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.3 Modélisation par les MA . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Théorème spectral et applications . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Équations ARMA canoniques . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7 Covariance et auto-corrélation des ARMA . . . . . . . . . . . . . . . . . . . 27

2 Modélisation 30
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Modélisations AR et MA — Estimations préliminaires . . . . . . . . . . . . 31
2.2.1 AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Estimation efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Modèles multiplicatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6 Envoi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.1 Critères de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.2 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

3 Modèles autorégressifs non linéaires 44

3.1 Rappels sur les modèles autorégressifs linéaires . . . . . . . . . . . . . . . . 44
3.1.1 Cadre univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
3.1.2 Cadre multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
3.1.3 Retour au cadre univarié . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2 Modèles autorégressifs non linéaires lipschitziens . . . . . . . . . . . . . . . 47
3.2.1 Modèles hétéroscédastiques . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.2 Modèle autorégressif non linéaire à coefficients aléatoires . . . . . . . 49
3.3 Ergodicité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
3.4 Chaı̂nes de Markov et stabilité . . . . . . . . . . . . . . . . . . . . . . . . . 52
3.5 Modèles ARCH et GARCH . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.6 Modèles de diffusions limites des modèles GARCH . . . . . . . . . . . . . . 56

II THÓRIE DE MARKOV 58

3
SOMMAIRE

4 Introduction 59

5 Ergodicité 66

6 Entropie 69

III PROCESSUS STOCHASTIQUES 71

7 Généralités 72
7.1 Espaces gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.2 Mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
7.3 Principe d’invariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4 Propriétés du brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.1 Variation quadratique . . . . . . . . . . . . . . . . . . . . . . . . . . 74
7.4.2 Martingales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
7.4.3 Théorème d’arrêt — Inégalité de Doob . . . . . . . . . . . . . . . . . 76
7.4.4 Intégrale de Wiener . . . . . . . . . . . . . . . . . . . . . . . . . . . 78
7.4.5 Équation de Langevin . . . . . . . . . . . . . . . . . . . . . . . . . . 79

8 Calcul stochastique 80
8.1 Intégrale stochastique d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.1 Filtration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.2 Fonctions en escalier . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.1.3 Densité des fonctions en escaliers dans M 2 (R+ ) . . . . . . . . . . . . 82
8.1.4 Intégrale stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.2 L’intégrale stochastique comme martingale . . . . . . . . . . . . . . . . . . 82
8.3 Formule d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.2 Formule générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.3 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.4 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.3.5 Intégration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4 Formule de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.1 Formule de Cameron-Martin . . . . . . . . . . . . . . . . . . . . . . 87
8.4.2 Théorème de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.3 Critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88

9 Processus de comptage 89
9.1 Rappels concernant les martingales . . . . . . . . . . . . . . . . . . . . . . . 89
9.2 Processus à variation prévisible . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.3 Processus de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.1 Cas univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.2 Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.4 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.5 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.6 Théorie du produit intégral (ou produit infini) . . . . . . . . . . . . . . . . 93
9.7 Approche markovienne des processus de comptage . . . . . . . . . . . . . . 94

IV ÉQUATIONS DIFFÉRENTIELLES STOCHASTIQUES 96

Processus stochastiques 4
SOMMAIRE

10 Introduction 97
10.1 Existence et unicité de solutions fortes . . . . . . . . . . . . . . . . . . . . . 97
10.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.3 Solutions faibles d’EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.3.1 Modèle de Cox – Ingersoll – Ross . . . . . . . . . . . . . . . . . . . . 99
10.3.2 Absolue continuité de la loi de diffusions sous changement de dérive 99
10.3.3 Équations linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.4 Autre EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.5 Pont brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

11 Propriétés des EDS 103

11.1 Caractère markovien des EDS . . . . . . . . . . . . . . . . . . . . . . . . . . 103
11.1.1 Propriété de Markov des solutions des EDS . . . . . . . . . . . . . . 103
11.1.2 Générateurs et EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
11.2 Équations différentielles stochastiques rétrogrades . . . . . . . . . . . . . . . 108
11.3 Lien avec les EDP semi-linéaires . . . . . . . . . . . . . . . . . . . . . . . . 110
11.3.1 Rappel sur la formule de feynman-Kac . . . . . . . . . . . . . . . . . 110
11.3.2 Généralisation de la formule de Feynman-Kac . . . . . . . . . . . . . 113
11.4 Applications des EDSR aux solutions de viscosité d’une famille d’EDP non
linéaires du second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
11.4.1 Équation projective (forward ) . . . . . . . . . . . . . . . . . . . . . 113
11.4.2 Équation rétrogradee (backward ) . . . . . . . . . . . . . . . . . . . . 114

12 Statistique des diffusions 116

12.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 116
12.2 Processus d’Ornstein-Uhlenbeck . . . . . . . . . . . . . . . . . . . . . . . . . 118
12.3 Markov et les diffusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119
12.3.1 Étude des estimateurs du maximum de vraisemblance . . . . . . . . 124
12.4 Estimateurs empiriques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126

V MODÈLE LINÉAIRE GÉNÉRALISÉ 129

13 Introduction 130
13.1 Modèle linéaire classique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
13.2 Modèle linéaire général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
13.2.1 Estimation par les moindres carrés ordinaires . . . . . . . . . . . . . 131
13.2.2 Estimation par les moindres carrés pondérés . . . . . . . . . . . . . . 131
13.2.3 Estimation par le maximum de vraisemblance sous l’hypothèse de
normalité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 132
13.2.4 Estimation robuste des écarts-types . . . . . . . . . . . . . . . . . . 135

14 Modèle linéaire généralisé 136

14.1 Présentation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136
14.1.1 Les équations de vraisemblance . . . . . . . . . . . . . . . . . . . . . 138
14.1.2 Algorithmes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
14.1.3 Simplification lors de l’utilisation d’un lien canonique . . . . . . . . 141
14.1.4 Ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.1.5 Étude des résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.2 Données binaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142
14.2.1 Méthode itérative de Newton-Raphson . . . . . . . . . . . . . . . . . 144
14.2.2 Méthode du scoring de Fisher . . . . . . . . . . . . . . . . . . . . . . 144
14.3 Modèle linéaire généralisé à effets mixtes . . . . . . . . . . . . . . . . . . . . 144

Processus stochastiques 5
SOMMAIRE

14.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 144

14.3.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . 145

VI ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES 147

15 Quasi-vraisemblance 148
15.1 Vraisemblance marginale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.2 Vraisemblance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.3 Quasi-vraisemblance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148
15.4 Méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . . . . . . . . . 150
15.5 Méthode de Fisher . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150
15.6 Conditions d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151

16 Équations d’estimation généralisées 152

16.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 152
16.2 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.1 Estimation de β ∗ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.2 Estimations de α et φ . . . . . . . . . . . . . . . . . . . . . . . . . . 153
16.2.3 Estimation de la variance de βˆ∗ . . . . . . . . . . . . . . . . . . . . . 154
16.3 Différentes matrices de travail R(α) . . . . . . . . . . . . . . . . . . . . . . . 154
16.4 Extensions des GEE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

Processus stochastiques 6
Première partie

SÉRIES CHRONOLOGIQUES

7
1

Introduction

Définition 1.1 — On appelle processus une suite (Xn )n de variables aléatoires.

Définition 1.2 — Un processus (Xt )t à valeurs réelles ou complexes est dit du second
ordre si
E |Xt |2 < ∞

∀t ∈ T .
Pour un processus de second ordre, on appelle covariance la fonction Γ définie sur
T × T par
Γ(s, t) = E (Xs − E(Xs ))(Xt − E(Xt )) .

Remarques — Il est utile de noter que :

1. L2 (P) ⊂ L1 (P) ;
2. si X est réelle, alors Γ est réelle, symétrique et semi-définie positive : ∀t1 , . . . , tn ∈
T, ∀a ∈ Cn ,
X
ai Γ(ti , tj )a¯j > 0 ;
i,j

3. Γ semi-définie positive au sens complexe ⇒ Γ hermitienne, i.e. Γ(s, t) = Γ(t, s) ;

4. Γ réelle et semi-définie positive ⇒ Γ symétrique, i.e. Γ(s, t) = Γ(t, s).

Théorème 1.1 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T réel du second ordre de covariance Γ.

Théorème 1.2 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T gaussien centré de covariance Γ.

Définition 1.3 — Un processus réel (Xt )t est dit gaussien si ∀n, ∀(t1 , . . . , tn ) ⊂ T ,
la variable aléatoire vectorielle (Xt1 , . . . , Xtn ) est gaussienne. Un processus gaussien est du
second ordre.

8
1. INTRODUCTION

Définition 1.4 — Un processus du second ordre est dit centré si E(Xt ) = 0 , ∀t ∈ T .

Définition 1.5 — Un processus du second ordre (Xn )n est dit stationnaire au sens
large si la moyenne E(Xn ) est constante et si la covariance Γ(n, m) ne dépend que de la
différence n − m, i.e. ∃γ : Z → C telle que
Γ(n, m) = γ(n − m)
h i
γ(n) = E Xn − E(Xn ) X0 − E(X0 )

γ(n) = E(Xn X0 ) si les variables sont centrées

E(Xn ) = E(X0 ) ∀n .

Notation — On notera SLC un processus du second ordre stationnaire au sens large

et centré.

Définition 1.6 — Le coefficient de corrélation ρ(n) est une mesure de la dépen-

dance entre l’instant 0 et l’instant n :
γ(n)
ρ(n) = .
γ(0)
Si ρ est proche de 1, la mémoire est dite « longue ».

Remarque — γ est une fonction semi-définie positive telle que :

1. γ(0) est réel, positif ou nul ;
2. γ(n) = γ(−n) ;
3. |γ(n)| 6 γ(0) , ∀n.
Si le SLC est réel, alors γ est réelle et γ(n) = γ(−n).

Proposition 1.1 — Si γ : Z −→ R est paire et semi-définie positive, alors il existe un

SLC gaussien de fonction de covariance γ.

Remarque — Le processus gaussien qui vient d’être construit a la propriété suivante :

P(Xn1 ∈ A1 , . . . , Xnk ∈ Ak ) = P(Xn1 +n ∈ A1 , . . . , Xnk +n ∈ Ak ) .

Définition 1.7 — Un processus (Xn )n est dit stationnaire au sens strict si

∀k,n1 , . . . , nk ,n,
P(Xn1 ∈ A1 , . . . , Xnk ∈ Ak ) = P(Xn1 +n ∈ A1 , . . . , Xnk +n ∈ Ak ) .

Théorème 1.3 (Ergodicité) — Soit f (X0 , . . . ,Xd ) ∈ L1 (Ω, A, P). Alors

N
1 X p.s.
f (Xi , . . . , Xi+d ) −→ E f (X0 , . . . , Xd ) .
N i=1

Processus stochastiques 9
1. INTRODUCTION

1.1 Mesures spectrales — processus ARMA

Soit Π = R/2πZ le tore. On note e1 (t) = eit , en (t) = eint et ēn (t) = e−int = e−n (t). La
mesure de Lebesgue est invariante par translation :
Z Z
f (x) dx = f (x + u) dx , ∀u ∈ Π .
Π Π

(en )n est un système orthonormé dans L2 (λ), où λ est la mesure de Lebesgue.

Z
||en ||22 = |en |2 dλ
ZΠ
= en e¯n dλ
ZΠ
= 1 dλ
Π
Z
< en ,em > = en e¯m dλ
ZΠ
= en−m dλ
Π

0 si n 6= m
=
1 si n = m .

P+∞ P+∞
−∞ an en converge dans L2 (λ) ssi −∞ |an |2 < ∞.

l2 (C) −→ L2C (Π)

P+∞
(an )n ∈ 7−→ −∞ an en : isométrie bijective

X 2 X X
an en = < an en , an en >
2
XX
= an ām < en , em >
n m
+∞
X
= |an |2 .
−∞

Rappel — Une isométrie est toujours injective ; ici, elle est de plus surjective.

{en }n est une base orthonormale de L2 (λ) : pour f ∈ L2 (λ),

+∞
X
f= an en ,
−∞

f e−n dλ, qui est le ne coefficient de Fourier de f (noté fˆ(n)). Nous avons
R
avec an =
+∞
X
< f, en > = < ak ek , en > = an .
−∞

Processus stochastiques 10
1. INTRODUCTION

f 7−→ (fˆ(n))n∈Z est la transformation de Fourier. C’est une isométrie de L2C (Π) sur
lC2 (Z). Si µ est une mesure bornée sur Π, sa transformée de Fourier est la fonction Fµ ou µ̂
définie sur Z par Z
Fµ(n) = en dµ .
Π

Propriété 1.1 — L’application µ 7−→ µ̂ est injective.

Théorème 1.4 (Herglotz) — La fonction γ sur Z est une covariance si et seulement

si il existe une mesure positive µ sur Π telle que
Z
γ(n) = en dµ .
Π

Définition 1.8 — Si X est un SLC de covariance γX , la mesure µX telle que

Z
γX (n) = en dµX

s’appelle la mesure spectrale de X. De plus, si µX a une densité par rapport à λ, i.e.

µX = fX .λ (pour fX ∈ L1+ (λ)), cette densité s’appelle la densité spectrale.

Rappel — (µn ) converge étroitement vers µ si et seulement si ∀f ∈ Cb ,

Z Z
f dµn −→ f dµ .

Proposition 1.2 — Si (Xnk ) est une suite de SLC telle que, pour tout n, lim Xnk
k→∞
existe dans L2 , si on appelle Xn cette limite, alors le processus X = (Xn ) est un SLC et
µX est la limite étroite des µXk .

+∞
X
Proposition 1.3 — Si |γX (n)|2 < ∞, alors µX est la mesure ayant pour densité
−∞
la fonction
+∞
X
γX (k)e−k .
−∞

+∞
X P
De même si |γX (n)| < ∞ (et dans ce cas, γX (k)e−k est continue).
−∞

Définition 1.9 — On appelle bruit blanc de variance σ 2 une suite de v.a. réelles,
centrées, appartenant à L2 , de variance σ 2 et 2 à 2 non corrélées. On note (Un ) ∈ BB(σ 2 ).

Nota — Un bruit blanc est un SLC.

Processus stochastiques 11
1. INTRODUCTION

Proposition 1.4 — Un SLC U est un BB(σ 2 ) si et seulement si µU = σ 2 λ.

Proposition 1.5 — Si X est un SLC et si a ∈ l1 (Z), alors le processus Y défini par

+∞
X
Yn = ak Xn−k
−∞

est un SLC dont la mesure spectrale µY est donnée par

+∞
X 2
µY = ak e−k µX .
−∞

Définition 1.10 — L’opération de passage de X à Y s’appelle une opération de

filtrage.
P On dit que Y est la transformée de X par le filtre de fonction de transfert
f = ak e−k .

Proposition 1.6 — Si U est un BB(σ 2 ) et si a ∈ l2 (Z), alors

+∞
X
Yn = ak Un−k
−∞

définit un SLC de mesure spectrale

+∞
X 2
ak e−k .σ 2 λ .
−∞

Définition 1.11 (MA) — Si dans la proposition précédente, on suppose ak = 0 pour

k < 0, le processus Y obtenu s’appelle un MA(∞) 1 . Si de plus ak = 0 pour k > q, le
processus Y s’appelle un MA(q).

Exemple — Le processus

Xn = Un + ρUn−1 + · · · + ρk Un−k + · · ·
= Un + ρ(Un−1 + ρUn−2 + · · · )
= Un + ρXn−1

est un processus autorégressif d’ordre 1.

Proposition 1.7 — Si |ρ| =

6 1 et si U est un SLC ou un BB, il existe un SLC X tel
que
Xn − ρXn−1 = Un , ∀n .

1. MA pour moving average., c.-à-d. moyenne mobile.

Processus stochastiques 12
1. INTRODUCTION

Définition 1.12 (ARMA) — On appelle processus ARMA d’ordre (p, q) un SLC

réel X satisfaisant à une équation du type
a0 Xn + a1 Xn−1 + · · · + ap Xn−p = b0 Un + b1 Un−1 + · · · + bq Unq ,
avec U ∈ BB et ai ,bj ∈ R.

Pq
Moving average MA(q) Xn = k=0 bk Un−k .

Pp
Auto-regressive AR(p) Un = k=0 bk Xn−k .

ARMA (p,q) a0 Xn + a1 Xn−1 + · · · + ap Xn−p = b0 Un + b1 Un−1 + · · · + bq Unq .

On note

P (z) = a0 + a1 z + · · · + ap z p

Q(z) = a0 + a1 z + · · · + aq z q .

Définition 1.13 — Soit B l’opérateur de retard (shift) :

(BX)n = Xn−1 et (B k X)n = Xn−k .
La définition revient donc à
P (B) · X = Q(B) · U .
Cette équation est appelée équation ARMA.

Théorème 1.5 — Si Z est un SLC et P un polynôme n’ayant pas de racines de module

1, alors il existe un SLC X tel que P (B)X = Z.

Corollaire 1.1 — Si P est un polynôme n’ayant pas de racines de module 1, il existe

des ARMA(p,q), i.e. des SLC réels X tels que P (B)X = Q(B)U .

Proposition 1.8 — Si X est un ARMA solution de P (B)X = Q(B)U où U ∈ BB(σ 2 ),

alors X a une densité spectrale égale à
|Q ◦ e−1 |2 2
σ .
|P ◦ e−1 |2

Définition 1.14 — On dit qu’un ARMA est un processus à spectre rationnel.

Processus stochastiques 13
1. INTRODUCTION

1.2 Prédiction linéaire

Soient Y,X1 , . . . ,Xn dans L2 . On cherche Ŷ = b+a1 X1 +· · ·+an Xn tel que E (Y − Ŷ )2
soit minimum.

Théorème 1.6 — La meilleure prédiction de Y par une fonction affine X =

(X1 , . . . ,Xn )t est donnée par
n
X
Ŷ = E(Y ) + ai Xi − E(Xi ) ,
i=1

i.e.

Ŷ = E(Y ) + at X − E(X)

avec a racine du système

ΓX a = cov(Xi ,Y ) .
De plus, si ΓX est inversible, on a

V ar(Y − Ŷ ) = V ar(Y ) − at ΓX a ,

où V ar(Y − Ŷ ) est la variance résiduelle.

Proposition 1.9 (Algorithme de Dubin-Levinson) — Soit X un SLC. On suppose

que γX (0) > 0. Soit X̂n+1 = Φn1 Xn + Φn2 Xn−1 + · · · + Φnn X1 la meilleure prédiction de
Xn+1 en fonction de Xn ,Xn−1 , . . . . Soit vn = ||Xn+1 − X̂n+1 ||2 l’erreur de prédiction. Alors
les Φnj et les vn sont données par les 3 équations de récurrence suivantes :

γ(n)− n−1
P
j=1 Φn−1,j γ(n−j)
 Φnn =

vn−1 ,
Φ = Φn−1,j − Φnn Φn−1,n−j ,
 nj

vn = vn−1 (1 − Φ2nn ) ,

avec les conditions initiales Φ11 = γ(1)/γ(0) et v0 = γ(0).

Définition 1.15 — On appelle fonction d’autocorrélation partielle la fonction

r(n) définie par
r(n) = φn,n , n>1.

Remarque — r(n) grand pour n grand : « mémoire longue ».

Proposition 1.10 —

r(n) = corr Xn+1 − projH (Xn+1 ) , X1 − projH(X1 )
< Xn+1 − projH (Xn+1 ) , X1 − projH (X1 ) >
= ,
kX1 − projH (X1 )[Link]+1 − projH (Xn+1 )k

avec H = ev(X2 , . . . ,Xn ).

Processus stochastiques 14
1. INTRODUCTION

Remarque —

ev(X1 , . . . ,Xn ) = H ⊕ R X1 − projH (X1 ) .

Remarque — La connaissance de r(n) entraı̂ne celle des γ(n)/γ(0).

Proposition 1.11 (Algorithme de l’innovation) — Soit X un SLC. (Xn − X̂n ) est

une suite de v.a. deux à deux non corrélées. Par conséquent, (Xk − X̂k )k=1,...,n constituent
une base de l’espace vectoriel ev(X1 , . . . ,Xn ) avec la convention X̂1 = 0. On pose
n
X
X̂n+1 = θn,j (Xn+1−j − X̂n+1−j ) .
j=1

Alors les θn,j et les vn sont données par les 3 équations de récurrence suivantes :

 v0 = Γ(1,1) ,

Γ(n+1,k+1)− k−1
P
j=0 (θk,k−j −θn,n−j θn,n−j )vj
θn,n−k = vk k = 0,1, . . . ,n − 1 ,
 Pn−1 2
vn = Γ(n + 1,n + 1) − j=0 θn,n−j vj .


1.3 Prédiction sur le passé infini

Soit X un processus du second ordre centré. Soient

HnX = ev(Xi ,i 6= n)
X
limites dans L2 de combinaisons linéaires des Xi =

= ak Xn−k .
finie

HnX est une suite croissante (HnX ⊂ Hn+1

X
).

Notations — On note
\
X
H−∞ = HnX
n
[
X
H∞ = HnX .
n

X
Définition 1.16 — H−∞ est appelé le « passé infini ».

Proposition 1.12 — On a
X
H−∞ ⊆ HnX ⊆ Hn+1
X X
⊆ H∞ .

Définition 1.17 — Un processus du second ordre est dit singulier si

X X
H∞ = H−∞ .

Processus stochastiques 15
1. INTRODUCTION

Définition 1.18 — Un processus du second ordre est dit régulier si

X
H−∞ = {0} .

Remarque — Un processus à la fois singulier et régulier est identiquement nul.

Lemme 1.1 — Si H est un espace de Hilbert et Hn une suite croissante (respectivement

décroissante) de sous-espaces fermés de H, alors pour tout x de H, la suite de projections
projHn (x) converge vers projH∞ (x), où H∞ = ∪Hn (resp. H∞ = ∩Hn ).

Théorème 1.7 (Décomposition de Wold) — Si X est un processus du second ordre

centré, il existe deux processus X r et X s , respectivement régulier et singulier, orthogonaux
entre eux et tels que
Xn = Xnr + Xns

i.e.
r s
HnX = HnX ⊕ HnX .
Cette décomposition est unique. De plus,
s
X X
H−∞ = H∞ .

Notation — On note pn = projHnX .

Remarque —
Xns = p−∞ (Xn )

Proposition 1.13 — Si X est un SLC, il existe une isométrie B de H X sur lui-même

telle que
(BX)n = Xn−1 .
De plus,
Bpn = pn−1 B .

Remarque —
pn (X) = lim p(Xn ,Xn−1 ,...,Xn−p ) (X) .
p→∞

Proposition 1.14 — Soit X un SLC. Alors le processus

Un = Xn − pn−1 (Xn )
est un BB non nul ssi X n’est pas singulier. De plus, on a
p∞ B = Bp∞ ,
2 detΓn+1
σU = lim
n→∞ detΓn

BUn = Un−1 .

Processus stochastiques 16
1. INTRODUCTION

Définition 1.19 — Ce processus s’appelle l’innovation de X.

Corollaire 1.2 — Si X est un SLC, les parties singulière et régulière de sa décompo-

sition de Wold sont des SLC.

Proposition 1.15 — Les 3 énoncés suivants sont équivalents :

1. X est régulier ;
2. il existe un BB U tel que HnX = HnU , ∀n (U est l’innovation) ;
3. il existe un BB W et une suite c ∈ l2 (N) telle que 1
∞
X
Xn = ck Wn−k .
0

Remarque Cette proposition signifie « l’identité » entre les processus réguliers et les
MA(∞).

Proposition 1.16 — Si W est un BB tel que HnW = HnX ∀n, alors il existe des
scalaires λn tels que (|λn |)n soit une suite constante et

wn = λn Un ,

où U est l’innovation de X.

Remarque — Ceci signifie l’unicité « essentielle » du bruit blanc telle que voulue en
(2) de l’avant-dernière proposition — cependant qu’il n’y a pas unicité en (3).

Proposition 1.17 — Un SLC X est un MA(q) ssi γX (n) = 0 dès que |n| > q.

Remarque — Si X est un processus gaussien, l’innovation est une suite de v.a.

gaussiennes indépendantes, centrées et de même variance.

1.4 Estimation

1.4.1 Moyenne

Soit x1 , . . . ,xn une série expérimentale qui est une réalisation de X1 , . . . ,Xn , processus
stationnaire large que l’on notera X.
1
X̄n = (X1 + · · · + Xn )
n
est un estimateur (sans biais) de la moyenne m. Est-il convergent ?

1. W n’est pas forcément l’innovation — mais on peut prendre l’innovation pour W .

Processus stochastiques 17
1. INTRODUCTION

Proposition 1.18 —
lim Var(X̄n ) = µX ({0}) .
n→∞

Théorème 1.8 — Si µX ({0}) = 0, alors X̄n converge vers m en moyenne quadratique

(i.e. dans L2 ). De plus, si X a une densité fX continue en 0, alors X̄n converge p.s. vers
m.

Théorème 1.9 — Si
+∞
X
Xn = b + aj Zn−j ,
j=−∞

où a ∈ l1 et (Zn )n est une suite de v.a. i.i.d. centrées et de variance σ 2 , et si

+∞
X
α= aj 6= a
−∞

alors

√ L
nX̄n −→ N (b , α2 σ 2 ) .

1.4.2 Covariance

Soit N la longueur de la série. On suppose qu’elle est centrée. On désire estimer la

covaraince. Soit ∀k > 0,
N −k
1 X
γ̃X = Xi Xi+k .
N − k i=1
Il est sans biais. Cependant un problème demeure : la fonction γ̃ ainsi définie n’est pas
nécessairement semi-définie positive.

Définition 1.20 — On définit

N −k
1 X
γ̂ = Xi Xi+k ,
N i=1

N
avec N > 50 et k 6 4.

Proposition 1.19 — γ̂ est un estimateur asymptotiquement sans biais.

Définition 1.21 — On définit

γ̂(k)
ρ̂(k) = .
γ̂(0)

Processus stochastiques 18
1. INTRODUCTION

P
Théorème 1.10 — Si X est un SLC gaussien tel que k∈Z < ∞, alors :
1. γ̂(k) est un estimateur p.s. convergent de γ(k) ;
2. on a ∀K ∈ N,
√ L
N γ̂N (i) − γ(i) i=0,...,K −→ N (0,Γ) ,

où
X
Γij = γ(m).γ(m + i + j) + γ(m).γ(m + i − j) .
m∈Z

De plus
h i
lim N E γ̂N (i) − γ(i) γ̂N (j) − γ(j) = Γij .
N →∞

Remarque — X
|k|γ(k) < ∞ ⇐⇒ γ ∈ l2 (Z) .
k∈Z

Théorème 1.11 — Sous les mêmes hypothèses que précédemment, on a que

L 1
ρ̂(1),ρ̂(2), . . . ,ρ̂(k) −→ N ρ(1), . . . ,ρ(k) , W ,
n

où la formule de Bartlett donne

+∞
X
Wij = ρ(k+i)ρ(k+j)+ρ(k−i)ρ(k+j)+2ρ(i)ρ(j)ρ(k)2 −2ρ(i)ρ(k)ρ(k+j)−2ρ(j)ρ(k)ρ(k+i)2 .
k=−∞

Entre autre,
+∞
X 2
Wii = ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k) .
k=1

1.4.3 Modélisation par les MA

MA(q) : γ(i) = 0 si i > q. Pour i > q,

Wii = 1 + 2ρ(1)2 + · · · + 2ρ(q)2

= ∆ii .

Proposition 1.20 — √
N ρ̂(i) N (0 , ∆ii ) .

Processus stochastiques 19
1. INTRODUCTION

Remarque — On peut faire le test de l’hypothèse H0 : le MA est d’ordre inférieur

ou égal à q. Pour le niveau α = 0,05, on rejette l’hypothèse si
√
1,96 ∆
|ρ̂(i)| > √
N
pour un i > q.
2
Remarque — Modéliser un MA, c’est déterminer q,b0 , . . . ,bq ,σU ; pour ce faire :
1. on choisira le premier q pour lequel on ne rejette pas l’hypothèse de base ;
2. on résoudra ensuite le système
q
X
2
γ̂(k) = σU bl bl−k .
l=k

Définition 1.22 — Si X est un SLC, on appelle périodogramme la fonction aléatoire

N
1 X
IN = | Xk e−k |2 .
N
k=1

Proposition 1.21 — X
IN = γ̂(k)e−k .
|k|<N

Remarque — Dans les bons cas,

+∞
X
fX = γ(k)e−k ,
−∞

d’où IN apparaı̂t comme étant un estimateur empirique de fX .

Théorème 1.12 — Les mesures (IN λ) convergent p.s. étroitement vers µX lorsque X
est stationnaire strict et ergodique.

P
Théorème 1.13 — Si X est un SLC gaussien et si |k|.|γ(k)| < ∞ pour toute
fonction borélienne bornée Φ à valeur dans Rd , on a

lim E IN (Φ) = I(Φ)

et
√ L
N IN (φ) − I(Φ) −→ N 0,Γ(Φ) ,

avec
Z
Γ(Φ) = ΦΦt fX
2
dλ .

Processus stochastiques 20
1. INTRODUCTION

1.5 Théorème spectral et applications

Soit f : Z → C , f ⊂ l2 (Z). Alors f s’écrit sous la forme

+∞
X
f (n) = fˆk e−k (n) .
−∞

On note Z
γX (n) = en dµX .

Définition 1.23 — Si (E,E,µ) est un espace mesuré σ-fini, on appelle mesure aléa-
toire de base µ sur (E,E) toute isométrie de L2C (µ) dans L2C (Ω,A,P).

Soit Eµ = {A ∈ E | µ(A) < ∞}. On note Z une mesure aléatoire. Soit A ∈ Eµ : 1A ⊂

L2C (µ). Z(1A ) = Z(A) est l’image de 1A par l’isométrie. Z est bien une mesure :
(i) Z(∅) = 0 ;
(ii) si A,B ∈ Eµ et A ∩ B = ∅, alors
Z

E Z(A)Z(B) = 1A 1B dµ
= 0,

i.e. Z est à accroissements orthogonaux ;

(iii) si A,B ∈ Eµ et A ∩ B = ∅, alors

Z(A ∪ B) = Z(A) + Z(B) ;

(iv) on a
∞
(An ) ∈ Eµ , An ∩ Am = ∅ X
P ∞ =⇒ 1An converge dans L2 (µ) vers 1∪An
1 µ(An ) < ∞ 1
∞
X
Z(∪An ) = Z(An ) .
1

Définition 1.24 — Si toutes les v.a. Z(f ) pour f ∈ L2 (µ) sont centrées, on dira que
Z est centrée.

Notation — On note

Z : L2C (µ) −→ L2C (Ω,A,P)

Z Z
f 7−→ Z(f ) = f dZ = f (u)dZ(u)

Processus stochastiques 21
1. INTRODUCTION

Réciproquement — Si Z vérifie les points (i), (ii) et (iv), on lui associe une mesure
aléatoire : pour A ∈ Eµ ,
XN XN
Z( αi 1Ai ) = αi Z(Ai ) .
i=1 i=1

Lemme 1.2 — Si I est une isométrie de E ⊂ H dans H 0 , il existe un prolongement

unique I de I dans E. On a
I(E) = I(E) .

Remarque — La mesure aléatoire est appelée processus spatial (ou champ

spectral).

Proposition 1.22 — Il existe une gaussienne centrée X indexée par Eµ telle que

E X(A)X(B) = µ(A ∩ B) .

Théorème de Karhunen Si X est un processus du second ordre centré, défini sur

(Ω,A,P), et s’il existe un espace (E,E,µ) et une fonction a tels que la covariance de X
s’écrive Z
E[Xs X t ] = a(s,u)a(t,u) dµ(u)
E

(quels que soient t et a(t,.) ∈ L2C (µ)), alors il existe une mesure aléatoire Z de base µ telle
que
Z
Xt = a(t,u) dZ(u) .
E

Remarque — On a
Z a(t,.) = Xt .

Théorème 1.14 (Représentation spectrale) — Si X est un SLC, il existe une

mesure aléatoire ZX de mesure µX telle que
Z
Xn = en dZX .
Π

Nota —
Xn = ZX (en ) .

Proposition 1.23 — Si µX est à support fini, alors il existe des v.a. Aj non corrélées
et des tj ∈ Π tels que X
Xn = Aj eintj .

Processus stochastiques 22
1. INTRODUCTION

Définition 1.25 — U est un processus spatial s’il existe une certaine mesure ν telle
que ∀A,B boréliens,
E U (A)U (B) = ν(A ∩ B) .

Proposition 1.24 — Soit X un SLC. Les quatre propositions suivantes sont équiva-
lentes :
(i) il existe un BB U et a ∈ l2 (Z) tels que
+∞
X
Xn = ak Un−k ;
k=−∞

(ii) il existe c ∈ l2 (Z) telle que

+∞
X
γX (n − m) = ck−n c̄k−m ;
k=−∞

(iii) X a une densité ;

(iv) X a une densité de la forme
+∞
X
| dk e−k |2
k=−∞
2
avec d ∈ l .

Remarque — Il n’y a pas unicité dans (ii) et (iv) (et (i)). La densité spectrale est
unique ; son écriture, non.

Proposition 1.25 — Si X est un SLC, les trois propriétés suivantes sont équivalentes :
(i) X est régulier ;
P∞
(ii) X a une densité spectrale de la forme | k=0 ak e−k |2 ;
(iii) il existe un BB U et a ∈ l2 (N) tels que
+∞
X
Xn = ak Un−k .
k=0

Théorème 1.15 (Szego - Kolmogorov) — Si X est un SLC et σ 2 est la variance

de son innovation, si µX = fX .λ + ν est la décomposition de Lebesgue de µX par rapport à
λ, alors Z
σ 2 = exp log fX dλ ,
Π

et si σ 2 > 0 (i.e. le processus n’est pas singulier), alors fX .λ et ν sont les mesures spectrales
respectivement des parties régulière et singulière de la décomposition de Wold de X.

Corollaire 1.3 — Soit X un SLC ayant une densité spectrale fX . Alors

X régulier ⇐⇒ log(fX ) ∈ L1 (λ) .

Processus stochastiques 23
1. INTRODUCTION

Théorème 1.16 — Si X est un SLC et f ∈ L2 (µX ), alors le processus Y défini par

Z
Yn = en f dZX

est un SLC de mesure spectrale

µY = |f |2 µX .

Définition 1.26 — On l’appelle l’image de X par le filtre de réponse f et on note

Y = Af X .

Remarque — On a
ZY (g) = ZX (f g)

pour tout g ∈ L2 (µY ) = L2 |f |2 µX .

Définition 1.27 — Le filtre passe-bande est le filtre

f = 1B ,

pour un ensemble B ⊂ Π.

Définition 1.28 — f est appelée fonction de transfert.

Proposition 1.26 — Si U est un BB et a ∈ l2 (Z), alors le processus

+∞
X
Xn = ak Un−k
−∞

est égal à Af U , où

+∞
X
f = ak e−k .
−∞

On obtient de cette façon tous les processus Af U pour f ∈ L2 (µ).

Proposition 1.27 — Si X est un SLC, si f ∈ L2 (µX ) et g ∈ L2 (|f |2 µX ), alors

f g ∈ L2 (µX ) et
Af g (X) = Ag Af (X) .

Lemme 1.3 — Si Y = Af X et Z = Ag X et si Yn = Zn pour un n, alors f = g dans

L2 (µX ).

Théorème 1.17 — Si Y = Ah X, il existe un filtre Ak tel que X = Ak Y ssi

µX {h = 0} = 0 ,

et dans ce cas, k = 1/h.

Processus stochastiques 24
1. INTRODUCTION

Remarques —
P+∞
1. Yn = −∞ ck Xn−k est la « convolution » sur Z. Le passage de Y à X la « décon-
volution » ;
P+∞
2. Soit Yn = −∞ ck Xn−k : si n est le temps, le filtre n’est pas réalisable (car il faut
connaı̂tre le futur) ;
P+∞
3. Soit Yn = 0 ck Xn−k : si n est le temps, le filtre est réalisable et qualifié par suite
de causal.

Notation — On considère un ARMA :

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q

P (z) = 1 + a1 + · · · + ap z p
Q(z) = 1 + b1 + · · · + bq z q
hp = P ◦ e−1
hq = q ◦ e−1
Ahp X = Ahq U .

On notera
Ap X = AQ U .

Théorème 1.18 — Si P n’a pas de racine de module 1, alors il existe un unique SLC
X tel que
Ap X = AQ U .

Théorème 1.19 (Fejer - Riesz) — F est une fraction rationnelle telle que F ◦ e−1
soit réelle positive et intégrable ssi il existe une fraction rationnelle irréductible Q/P telle
que pour tout z de module 1, on ait
2
Q
F (z) = (z) ,
P

avec P sans racine de module 1.

Lemme 1.4 — ∀u ∈ , u 6= 0, si |z| = 1, alors

1 z
(z − u)(z − ) = − |z − u|2 .
ū ū

Remarque — Soit f : Π → R définie par

2
Q
f (t) = ◦ e−1 (t) .
P

Cette écriture n’est pas unique. On peut multiplier Q/P par :

(i) des constantes de module 1 ;
(ii) z m avec m ∈ Z ;

Processus stochastiques 25
1. INTRODUCTION

(iii) |u| z−(1/ū)

z−u , avec u 6= 0.

Définition 1.29 — Un produit de fonctions d’un de ces trois types s’appelle un

produit de Blaschke.

Proposition 1.28 — Deux fractions rationnelles ont des modules égaux sur C =
{|z| = 1} ssi leur produit est un produit de Blaschke.

1.6 Équations ARMA canoniques

Rappel — Si u 6= 0,
1
|1 − ue−1 | = |u|2 .|1 − e−1 |2 .
ū

Lemme 1.5 — Si P n’a pas de racine de module 1, alors

+∞
Q X
(z) = ck z k
P −∞

pour z dans une couronne ouverte contenant {|z| = 1}. De plus, les ck tendent vers 0
exponentiellement vite lorsque z → ±∞. Enfin, si toutes les racines de P sont de module
supérieur à 1, alors ck = 0 pour k < 0.

Proposition 1.29 — Si AP X = AQ U avec P sans racine de module 1, alors

+∞
X
Xn = ck Un−k ,
−∞

les (ck )k étant ceux du lemme précédent. Si P a toutes ses racines de module supérieur à
1, alors
+∞
X
Xn = ck Un−k ,
k=0

et en particulier X est régulier.

Proposition 1.30 — Si Q a toutes ses racines de module supérieur à 1, alors il existe

(dk )k tendant exponentiellement vers 0 et telle que
+∞
X
Un = dk Xn−k ,
k=0

et en particulier X est régulier.

Processus stochastiques 26
1. INTRODUCTION

Corollaire 1.4 — Si P et Q ont toutes leurs racines de module supérieur à 1, alors

U est un multiple de l’innovation de X.

Définition 1.30 — P est dit sublime (respectivement quasi-sublime) si toutes les

racines de P sont de module supérieur à 1 (resp. supérieur ou égal à 1).

Théorème 1.20 — Si X est un ARMA, il existe deux polynômes P et Q et un bruit

blanc U tels que :
(i) AP X = AQ U ;
(ii) P est sublime et Q quasi-sublime ;
(iii) P et Q sont premiers entre eux et P (0) = Q(0) = 1.
De plus, pour toute relation AP 0 X = AQ0 W satisfaite pr X, on a d◦ P 6 d◦ P 0 et d◦ Q 6
d◦ Q0 . Si p et q sont les degrés respectivement de P et Q, on dira que X est de type
minimal (p,q). La relation AP X = AQ U avec les propriétés (ii) et (iii) est unique et
s’appelle la relation canonique de X. Toute équation AP 0 X = AQ0 W avec d◦ P = d◦ P 0
et d◦ Q = d◦ Q0 est dite de type minimal.

Proposition 1.31 — Si AP X = AQ U est la relation canonique de X, alors U est

l’innovation de X.

Proposition 1.32 — Un SLC régulier X est un AR(p) ssi r(n) = 0 pour n > p, où r
est la fonction d’autocorrélation partielle.

1.7 Covariance et auto-corrélation des ARMA

Un ARMA X peut être défini de trois manières :

(i) sa covariance (γX (n)) ;
(ii) le triplet (a,b,σ 2 ) (si a et b sont de dimensions resp. p et q, et si σ 2 = σU
2
, alors il y
a p + q + 1 paramètres) ;
P∞ 2
(iii) Xn = 0 ck Un−k , soient (ck ) et σU .

Passage de (ii) à (iii) — Les (ck ) sont les coefficients du développement en série
de Laurent de P/Q :
1 + b1 z + · · · + b q z q X
p
= ck z k .
1 + a1 z + · · · + ap z

Processus stochastiques 27
1. INTRODUCTION

Passage de (iii) à (i) —

γX (n) = E(X0 ,Xn )

X∞ ∞
X
= E ck Un−k cl Un−l
0 0
∞
X
2
= σU cl−n cl
0
∞
X
2
= σU cl−n cl .
l=n

Passage de (i) à (ii) —

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q

∀s > 0 , E (Xn + . . . )Xn−s = E (Un + . . . )Xn−s
i.e.
γ(s) + a1 γ(s − 1) + · · · + ap γ(s − p) = E[Un Xn−s ] + b1 E[Un−1 Xn−s ] + · · · + bq E[Un−q Xn−s ] ,

dites équations de Yule - Walker .

Dès que s > q,
γ(s) + a1 γ(s − 1) + · · · + ap γ(s − p) = 0
X X
(car Un−q ⊥Hn−s , Un−q+1 ⊥Hn−s , etc).
D’où les p équations suivantes :


 γ(q + 1) + a1 γ(q) + · · · + ap γ(q + 1 − p) = 0
 γ(q + 2) + a1 γ(q + 1) + · · · + ap γ(q + 2 − p) = 0

..


 .
γ(q + p) + a1 γ(q + p − 1) + · · · + ap γ(q) = 0


Posons  
γ(q) ... γ(q + 1 − p)
R(p,q) =  .. ..
 .
 
. .
γ(q + p − 1) . . . γ(q)
Alors le système équivaut à

R(p,q)a = −r(p,q) ,
t
où r(p,q) = γ(q + 1 = , . . . ,γ(q + p) . On admet que R(p,q) est inversible. Alors

a = −R−1 (p,q) · r(p,q) .

Pp
Soit Yn = 0 ak Xn−k , avec a0 = 1. Y est un MA(q).

X
γY (n) = ak al γX (n + k − l) ( et γY (n) = 0 si |n| > q )
06k,l6p
X q
2
= σU bk bk−n pour 0 6 n 6 q .
k=n

Processus stochastiques 28
1. INTRODUCTION

Nous sommes donc en présence de q + 1 équations, qui vont nous permettre de trouver
2
les bk ,bk−n et σU .

2
P
Passage de (ii) à (i) — a,b,σU et l’écriture ck Un−k permettent d’obtenir, via le
système de Yule-Walker, γ(0), . . . ,γ(q). γ est solution de l’équation de récurrence liée au
polynôme P (z), qui est sublime.

Théorème 1.21 — La covariance d’un ARMA décroı̂t exponentielement vite vers 0.

Attention — On considèrera dorénavant Q sublime et

∞
X
Un = dk Xn−k
k=0

avec |dk | & 0 exponentiellement vite.

Proposition 1.33 —

pn−1 (Xn ) = pHn−1

X (Xn )
∞
X
= − dk Xn−k .
k=1

Théorème 1.22 — La fonction d’autocorrélation partielle d’un ARMA tend exponen-

tiellement vite vers 0.

Corollaire 1.5 — kpn−1 (Xn ) − ps (Xn )k2 tend exponentiellement vite vers 0 lorsque
s → ∞ (ps est la projection sur ev(Xn−1 , . . . ,Xn−s )).

P∞Théorème
k
1.23 — Si AP X = AQ U est l’équation canonique de X, et (Q/P )(z) =
0 ck z , alors
j−1
h X P i
pn (Xn+j ) = ZX en+j 1 − ck e−k (e−1 )
Q
k=0

et l’erreur de prédiction vaut

j−1
X
σ2 c2k .

0

Processus stochastiques 29
2

Modélisation

2.1 Introduction

On se donne x1 , . . . ,xN : il s’agit alors de trouver un ARMA(p,q) tel que la série

expérimentale soit une représentation des processus

AP X = AQ U .

Nos objectifs sont la prédiction, le contrôle et l’étude scientifique. Mais ici, nous ne
nous intéresseront qu’à la prédiction. On évoquera la stationnarité. Elle peut laisser ap-
paraı̂tre des périodicités, que l’on tâchera d’éliminer. On tentera d’utiliser des modèles
linéaires de la forme
+∞
X
Xn = ck Un−k
−∞

et plus particulièrement ceux s’écrivant

+∞
X
Xn = ck Un−k .
0

Un tel processus a une densité fX . Dans la pratique, on verra essentielement des MA(q) :
q
X
ck Un−k ,
0

c-à-d qu’on approxime la densité fX par des polynômes. Or la classe des fractions ration-
nelles est plus importante que celle des polynômes ; d’où l’on utilisera aussi les fractions
rationnelles → processus ARMA(p,q). On respectera le principe de parcimonie : on
approximera toujours par un processus ayant le moins de coefficients possible.

Le plan de modélisation se compose de deux étapes :

30
2. MODÉLISATION

– la phase d’identification du modèle, qui consiste à déterminer p et q ;

– la phase d’estimation du modèle, qui consiste à déterminer a, b et σ 2 .
On commence par modéliser par un MA(T) — on peut toujours approximer un ARMA par
un MA :
ARMA → MA(−∞) → MA(T ) ou AR(S)
Puis on essaie de modéliser par un ARMA(p,q) tel que p 6 s et q 6 T (c’est le principe
de parcimonie). Enfin, c’est la phase d’estimation.

Nota — Le principe de parcimonie permet d’éviter le surajustement, qui survient

quand on cherche à ajuster trop parfaitement.

2.2 Modélisations AR et MA — Estimations prélimi-

naires

2.2.1 AR

Soit l’AR(p) avec p connu :

Xn + a1 Xn−1 + · · · + ap Xn−p = Un ,

d’où
Xn = Un − (a1 Xn−1 + · · · + ap Xn−p ) .
On note
en = −(a1 Xn−1 + · · · + ap Xn−p ) .
X
ai est le coefficient de la régression de Xn sur (Xn−1 , . . . ,Xn−p ).
On note

Γp a = γp
R(p,0)a = −r(p,0) ,

d’où

a = −Γ−1
p γp

σ 2 = γ(0) − at γp .

Les estimateurs empiriques sont :

b −1
â = −Γ p γ̂p ,

σ̂ 2 = γ̂(0) − ât γ̂p .

Processus stochastiques 31
2. MODÉLISATION

Théorème 2.1 — Si X est un AR(p) d’équation canonique AP X = U où U est i.i.d.

de moyenne nulle et de variance σ 2 , alors les estimateurs empiriques satisfont à
√ L
n(â − a) −→ N (0,σ 2 Γ−1
p )

et
P
σ̂ 2 −→ σ 2 .

Théorème 2.2 — Si U est i.i.d. et si φl est le vecteur de la régression de Xn sur

(Xn−1 , . . . ,Xn−p ), alors pour l > p,
√ L
n(â − φl ) → N (0,σ 2 Γ−1
l )

et en particulier,
√ L
n r̂(l) → N (0,1) .

b = φ − 1Xn−1 + · · · + φl Xn−l . On a que

Remarque — Soit Xn , . . . ,Xn−l et X
φl = r(l). Si AR(p) : pour p < l,

Xn = −a1 Xn−1 − · · · − ap Xn−p + Un ,

d’où −ak = φk , pour 1 6 k 6 p.

On a

Γn a = −γn

et
√
n r̂(l) → N (0,1)

(toujours si l > p).

Sur la figure 2.1, les deux lignes pointillées donnent un intervalle de confiance de 95 %
pour r̂(l).

Proposition 2.1 — Pour toute covariance, si a est solution de Γp a = −γp , alors le

polynôme 1 + a1 z + · · · + ap z p est quasi-sublime.

2.2.2 MA

1re méthode À q fixé, on résoud le système d’équations (via le procédé de Newton)

q
X
γ̂(k) = bl bl−k .
l=k

Processus stochastiques 32
2. MODÉLISATION

e
2
Pméthode (théorique) Si M A(∞) : fx = |Q ◦ e−1 |2 σ 2 . Si M A(q) : fx =
|k|6q γ(k)e−k . D’où

q
X 1
γ(0) + γ(k)(z k + z −k ) = σ 2 Q(z)Q( )
z
k=1

pour z = e−1 . On cherche Q. Le membre de gauche s’écrit R(z + z1 ) où R est un plynôme
de degré q :

1 k k k k−1
(z + ) = z + z + ...
z 1

1 k 1
= zk + k + (z k−2 + k−2 ) + . . .
z 1 z

q −q 1 q 1
z +z = (z + ) + (z q−2 + q−2 ) + . . .
z z
D’où le résultat. Finalement, l’équation est
1 1
R(z + ) = σ 2 Q(z)Q( ) .
z z
Soient α1 , . . . ,αq les racines de R :
1
Z+ = αi =⇒ xi et yi
z
et l’une des deux est de module strictement supérieur à 1 ; disons xi . Alors
Q
Q(z) = (z − xi )
Q(0) = 1

3e méthode De la série expérimentale x1 , . . . ,xN on tire γ̂(k). On trouve un polynôme

sublime tel que AP X = U (où U est l’innovation), i.e. un AR(s) avec s grand. Puis on
trouve le MA : X = A1/P U . Q est alors le début de la série 1/P . L’inconvénient de cette
méthode est qu’on ne sait pas si le polynôme trouvé est sublime (i.e. si on a abouti à la
représentation canonique).

4e méthode elle s’appuie sur la définition suivante.

Définition 2.1 — Si X est un SLC de densité spectrale f continue et positive, on
appelle fonction d’autocorrélation inverse la fonction définie par
Z
1
γi (n) = en dλ .
Π f

Si X est un MA, alors fX = σ 2 |Q ◦ e−1 |2 > 0 et γi est la covariance d’un AR :

1 1
= σ −2 .
fX |Q ◦ e−1 |2
Reste à trouver un estimateur γ̂i de γ.

Processus stochastiques 33
2. MODÉLISATION

• Soit la modélisation AR(T ) avec T grand :

T
X
P (z) = ai z i
0
σ2
AP X = U ⇒
|P ◦ e−1 |2

|P ◦ e−1 |2
Y = AP V avec V ∈ BB(σ 2 ) ⇒
σ2
et la fonction d’autocorrélation de Y est l’inverse de celle de U .

• On prend pour estimation γ̂i de γi la covariance estimée de Y :

X
γY = ai ai+k

• On fait une modélisation AR sur γ̂i .

5e méthode On fait tourner l’algorithme de l’innovation (même inconvénient qu’avec la

3e méthode). D’après Yule-Walker : R(p, q)a = −r(p, q).

Proposition 2.2 — Si X est un ARMA, alors R(p, q) est inversible.

On a

a = −R(p, q)−1 r(p, q) ,

ai = fi γ(p + q − 1), . . . , 1 6 i 6 p ,

âi = fi γ̂(p + q − 1), . . . , 1 6 i 6 p ,
b q)−1 r̂(p, q) .
â = −R(p,

Proposition 2.3 — Si X est gaussien, l’estimateur â est convergent, asymptotique-

ment normal, mais pas efficace.

Nota — Tester si Pb est sublime ; écrire AP X = AQ U : APb X doit être un MA. Puis
(x1 , . . . ,xN ) → (y1 , . . . ,yN −p ) :

 xp + â1 xp−1 + · · · + âp x1 = y1

xp+1 + . . . = y2
 ..
.


On fait une modélisation MA → b̂,σ̂ 2 .

Processus stochastiques 34
2. MODÉLISATION

2.3 Estimation efficace

Soient p et q fixés, et

ζn = (x1 , . . . ,xn )t
χn = (X1 , . . . ,Xn )t
Γn = E[χtnχn ] .

Soit θ ∈ Θ ; f (θ,ζn ) ; soit θen tel que

f (θen ,ζn ) = sup f (θ,ζn ) .

θ∈Θ

Z Z

P χn ∈ V (ζn ) = f (θ,ζ)dζ −→ f (θ,ζn )
V (ζn )
Z
1
i.e. f (θ,ζ)dζ −→ f (θ,ζn ) .
λ V (ζn ) V (ζn )

On considère un ARMA(p,q) gaussien : θ = {a,b,σ 2 } avec Θ ⊆ Rp+q × R+ et ouvert.

La fonction de vraisemblance est
1 1 1
t −1

Ln (θ,χn ) = exp − χn Γn χn ,
(2π)n/2 |det Γn |1/n | 2

d’où

1
log Ln (θ,χn ) = − n log 2π + log(det Γn ) + χtn Γ−1
n χn .
2

Définition 2.2 — On appelle log-vraisemblance approchée

1
h1n (θ,χn ) = − n log 2π + n log σ 2 + χtn Γ−1
n χn
2

det Γn+1
σ2 = lim ,
det Γn

log σ 2

= lim log det Γn+1 − log det Γn ,
n log σ 2

= log det Γn+1 .

Proposition 2.4 — Si X est un ARMA, il existe une constante c telle que

|n log σ 2 − log det Γn+1 | 6 c .

Processus stochastiques 35
2. MODÉLISATION

Définition 2.3 — L’estimateur du maximum de vraisemblance est θ,

e tel que

h1n (θen ,ζn ) = sup h1n (θn ,ζn ) .

Théorème 2.3 — L’estimateur θen est un estimateur convergent, asymptotiquement

normal et efficace. De plus,
√
N 0,J(θ)−1 ,

n(θen − θ)

où
∂f ∂f
∂θk . ∂θl
Z
Jkl (θ) = dλ ,
f (θ)2
où f est la densité spectrale.

Proposition 2.5 — Si X est un SLC régulier d’innovation U , et si l’on note U

bk la
régression de Uk sur (X1 , . . . ,Xn ), alors
n
X
σ 2 χtn Γ−1
n χn =
bk2 ,
U
−∞

où σ 2 est la variance de U . De plus, cette quantité ne dépend plus de σ 2 .

Proposition 2.6 — Si X est un ARMA(p,q) d’équation canonique (a,b,σ 2 ), il existe

un BB V ayant même futur que X et tel que
p
X q
X
Xn + ak Xn+k = Vn + bl Vn+l
k=1 l=1

i.e.

∀n, ev(Xn ,Xn+1 , . . . ) = ev(Vn ,Vn+1 , . . . ) .

ARMA
p
X q
X
ak Xn−k = bl Un−l
k=0 l=0
Xp Xq
ak Xn−k = bl Vn−l ,
k=0 l=0

d’où
p
X q
X
ak X
bn−k = bl U
bn−l
k=0 l=0
Xp Xq
ak X
bn−k = bl Vbn−l
k=0 l=0

Processus stochastiques 36
2. MODÉLISATION

U
bk = 0 si k > N
X
bk = Xk si 1 6 k 6 N
Vbk = 0 si k 6 0 .

— Étape 1 : calcul des Vbk : on se donne un vecteur α ∈ Rq et on pose

VbN −p+j = αj .

 Pp bN −p+k = VbN −p + Pq bl VbN −p+l


 n=N −p : k=0 ak X l=1 ⇒ VbN −p

 | {z } | {z }
connu connu
..



 .
n = 1 : ···

D’où on a tous les Vbk , k > 1. Or les Vbk , pour k 6 0, sont nuls. On connaı̂t donc tous les
Vbk .

— Étape 2 : calcul des Xbk , k 6 0.

re

b0 + P ak Xk = Vb0 + P bl Vbl ⇒
 de la 1 équation : X X
 b0
de la 2e équation : b−1 + · · · · · ·
X ⇒ X
b−1

 ..
.
Pour j < −q, X
X
bj + ak X
bj+k = 0

et donc X
bn = 0 pour n 6 s, avec s grand.

— Étape 3 : calcul des U

bk , k 6 N .
∞
X
U
bn = dk X
bk ⇒ U
bn = 0 pour n 6 s
0

et l’équation initiale
p
X q
X
ak X
bn−k = bl U
bn−l
0 0

donne U
bk pour k 6 N . Ensuite, on recalcule les Vbk en fonction des U
bk . . .

— Étape 4 : calcul des X

bk , k > N .
p
X
X
bn + ak X
bn−k = 0 dès que n > N + p
0

Les X
bk décroı̂ssent exponentiellement vite vers 0.

Processus stochastiques 37
2. MODÉLISATION

X
bk = 0 pour k > s0 , s0 grand

— Étape 5 : on obtient de nouvelles valeurs pour les VbN −p+j , soient Vb N −p+j (cor-
e
respondant à un nouveau vecteur Φ(α)). De la fonction

Rd −→ Rd
,
α 7−→ Φ(α)

il reste à déterminer le point fixe.

Proposition 2.7 — Si AP X = AQ U avec Q sublime, et si N est suffisamment grand,

la suite Φ(r) (α) converge exponentiellement vite vers une limite α∞ . De plus, les U
bk (r)
calculés au cycle r convergent, pour chaque k, vers U
bk . Par suite,

F (r) (a,b,χN ) → F (a,b,χN ) .

2.4 Processus ARIMA

Il s’agit d’étudier la tendance, les périodicités, la non réversibilité et la variabilité non

constante d’un processus. Pour parer à la variabilité non constante, on peut transformer la
série au moyen d’une fonction déterministe. Concernant la tendance et les périodicités, on
écrit
Xn = f (n) + Vn
avec Vn processus stationnaire, ou
Xn = p(n)
avec p périodique : p(n) = p(n + T ). Dans ce cas,
1 1
(Xn + Xn−1 + .. + Xn−T +1 ) = cte + (Vn + Vn−1 + .. + Vn−T +1 )
T T
On note B l’opérateur de retard. Soit f un polynôme de degré d − 1 :

(I − B)d f = 0 .

Si Xn = f (n) + Vn , alors

(I − B)d Xn = (I − B)d Vn .

Exemple — f (n) = cos(2nπ)/T ; alors

(I − B T )f (n) = 0 .

On va utiliser AR X, où Y
R(z) = (z − zi )si ,

Processus stochastiques 38
2. MODÉLISATION

avec |zi | = 1.

R(z) = a0 + a1 z + · · · + ad z d ,

alors

AR X = a0 Xn + a1 Xn−1 + · · · + ad Xn−d .

Définition 2.4 — Un processus du second ordre X est un SARIMA s’il existe un

polynôme R n’ayant que des racines de module 1 tel que AR X soit un ARMA.

Définition 2.5 — Un processus du second ordre X est un ARIMA(p,d,q) si (I −

B)d X est un ARMA(p,q).

X SARIMA ⇔ AR X = Y ARMA(p,q), où

R(z) = a0 + a1 z + · · · + ad z d ,
AR f = 0 ,
Xd
f = ci fi ,
i=1
1 n
fi (n) = ,
τi
avec τi racine de R.

a0 Xn + · · · + ad Xn−d = Yn .

La question qui se pose maintenant est la suivante : connaissant Y , comment déterminer

X, modélisation de la série de départ ? On cherche une solution de AR f = g, avec f,g :
Z → R.
+∞
X
φ ∗ ψ(n) = φ(k)ψ(n − k) .
k=−∞

La convolution commute les translations et la dérivation :

AR (f ∗ g) = (AR f ) ∗ g .

Si ψ est une solution de AR f = g, i.e. AR ψ = δ0 , alors

AR (ψ ∗ g) = (AR ψ) ∗ g = g .

Soient

ψ + t.q. ψ + (n) = 0 pour n < 0

ψ − t.q. ψ − (n) = 0 pour n > 0

Processus stochastiques 39
2. MODÉLISATION

Ce sont des solutions de AR ψ = δ0 .

a0 ψ + (n) + · · · + ad ψ + (n − d) = δ0 (n)


 a0 ψ + (0) = 1 ⇒ ψ + (0)


+ +
 a0 ψ (1) + a1 ψ (0) + 0 + . . . = 0 ⇒ ψ + (1)
 ..


.
 −
 ψ (n) = 0 pour n > −d
 a0 ψ − (n) + · · · + ad ψ − (n − d) = δ0 (n)



 a0 ψ − (−1) + a1 ψ + (−1) + · · · + ad ψ − (−1) = δ0 (−1) = 0

 .
 .

.
Notons g + (n) = g(n)1(n>0) et g − (n) = g(n)1(n<0) .

AR (ψ + ∗ g + ) = g+
AR (ψ − ∗ g − ) = g−

AR (ψ + ∗ g + + ψ − ∗ g − ) = g.

Proposition 2.8 — Si Y est un processus du second ordre, le processus X

e défini par

e = ψ+ ∗ Y + + ψ− ∗ Y −
X

est du second ordre et est une solution de l’équation

AR X = Y .

De plus, toutes les solutions de cette équation sont de la forme

en + c1 f1 (n) + · · · + cd fd (n) ,
X

où les fi forment une base de l’espace vectoriel des solutions de AR f = 0 et les ci sont des
v.a. de carré intégrable.

Si Y = AQ W , avec W BB, on a trouvé les solutions de

AR X = AQ W ,

i.e. l’équation ARMA générale. Si R a toutes ses racines de module 1, alors

∞
1 X
= ck z k .
R(z) 0

Soit ψ + (k) = ck : ( ak z k )( ck z k ) = 1. On fait l’hypothèse suivante :

P P

(H) : les v.a. ci sont orthogonales à H Y .

Processus stochastiques 40
2. MODÉLISATION

Proposition 2.9 — Pour n > 0,

HnX = HnY ⊕ F ,

où

F = ev(c1 , . . . ,cd )
= ev(X−1 , . . . ,X−d ) .

2.5 Modèles multiplicatifs

On a vu que si le processus se met sous la forme f (n) + Un , avec f de périodicité T ,

alors on calcule (I − B T ) — et éventuellement (I − B T )d — pour supprimer la périodicité.
Soit une suite expérimentale x1 , . . . de période T . On la découpe en T séries :

x1 , x1+T , x1+2T , . . .
x2 , x2+T , x2+2T , . . .
..
.
xT −1 , x2T −1 , x3T −1 , . . .
xT , x2T , x3T , . . .

On pose Xns = Xs+nT . On fait l’hypothèse que la structure probabiliste ne dépend pas
de s. Chacun de ces processus X s est un ARIMA(p0 ,d0 ,q 0 ). Ainsi,
0
∃R,P,Q t.q. R = (I − B)d ,
∀s, ARP X s = AQ U s .

Attention — Uns = Us+nT n’est pas un bruit blanc.

Notation — Si P est un polynôme, on note

Pe(z) = P (z T ) .

On a alors
ARePe X = AQe U ,
i.e. on a mis la saisonnalité dans les polynômes. U est un ARIMA(p,d,q), c.-à-d. qu’il existe
ρ,π,χ tels que
Aρπ U = Aχ W ,
où W BB et ρ(z) = (1 − z)d .

AρπRePe X = AQχ
e W

Processus stochastiques 41
2. MODÉLISATION

On pose
Z = AρRe X .
Alors
Aρπ Z = AQχ
e W .

À ce processus ARMA, il correspond une unique solution stationnaire si les polynômes

n’ont pas de racine de module 1. Z est stationnaire — c’est lui qu’on modélise.

Définition 2.6 — Un SARIMA(p,d,q)(p0 ,d0 ,q 0 )T est un processus X tel que

0
(I − B)d (I − B T )d X

soit un ARMA(p + p0 + T,q + q 0 + T ).

Exemple — Soit T = 12, d = d0 = 1, p = p0 = q = q 0 = 1. Nous sommes donc en

présence de 5 coefficients (4 par les polynômes et un pour la variance du BB). C’est donc
un ARMA(13,13).

0
Étape 1 : on cherche d et d0 tels que (I − B)d (I − B T )d soit « stationnaire ». On
passe donc par (I − B T ) pour obtenir x13 − x1 , x14 − x2 , . . .. Si la variance décroı̂t
rapidement vers 0, alors il s’agit d’un ARMA. Sinon, on passe par (I − B)(I − B T ) pour
obtenir (x14 − x2 ) − (x13 − x1 ) − . . ..

Étape 2 : on regarde les γ̂ :

γ̂(kT ) −→ ARMA(P,Q) .
modélisation

Étape 3 : on regarde les γ̂ :

γ̂(1) , γ̂(2) , . . . , γ̂(T − 1) −→ ARMA(π,χ)

modélisation

2.6 Envoi

2.6.1 Critères de choix

Identification de (p,q) : quel est le meilleur ? est-ce que le meilleur est bon ?

2.6.2 Tests d’ajustement

1. Exemple d’un principe de critère de choix — Soit
h 2 i
E = E Yn+1 − (â1 Yn + · · · + âp Yn−p+1 ) ,

Processus stochastiques 42
2. MODÉLISATION

Yn − a1 Yn−1 − · · · − ap Yn−p = Un
(les ai sont inconnus).

Les âi sont les coefficients estimés. D’où E est l’erreur commise quand on prend les
coefficients estimés.

h 2 i
E = E Un+1 − ((â1 − a1 )Yn + · · · + (âp − ap )Yn−p+1 )
= σ 2 +t (â − a) Γp (â − a) ,

où Γp = cov(Xn , . . . ,Xn−p+1 ).

â a été estimé à partir d’une série expérimentale x1 , . . . ,xN . Une bonne modélisation
est une modélisation pour laquelle E est petite. E est une v.a. positive. Or
√
N (â − a) −→ N (0,σ 2 Γ−1 p ).

D’où
√ √
N (â − a)t (σ 2 Γ−1
p )
−1
N (â − a) χ2 (p)
σ2 2
⇒ E σ2 +
χ (p)
N
ρ
⇒ E(E) = σ 2 (1 + ) .
N
Mais σ 2 est inconnu (il est lui aussi estimé : σ 2 = σ̂p2 , et il dépend de p). Quand p %,
1 + Np %, mais σ 2 &. Il s’agit de chercher le p pour lequel E(E) est minimum. Pour un
ARMA, on cherche à maximiser la vraisemblance. C’est le critère d’Akaike .

Exemple d’un principe de critère d’ajustement — Soit

2
AP X = AQ U , σU

Soit x1 , . . . ,xN la réalisation de ce processus.

Xn + a1 Xn−1 + · · · + ap Xn−p = Un + b1 Un−1 + · · · + bq Un−q

Alors

(wn )n=p+1,...,N = xn + a1 xn−1 + · · · + ap xn−p − (Un + b1 Un−1 + · · · + bq Un−q ) n=p+1,...,N

est la réalisation d’un bruit blanc. Il existe diverses méthodes pour montrer que wn est un
BB.

Proposition 2.10 (Test du porte-manteau) — ρ̂w (1),ρ̂w (2), . . . doivent être petits.
La quantité
XN
ρ̂2w (k)
k=1
2
suit un χ (N ).

Processus stochastiques 43
3

Modèles autorégressifs non linéaires

3.1 Rappels sur les modèles autorégressifs linéaires

3.1.1 Cadre univarié

Soit l’AR(1)
(?) Xn = aXn−1 + n
avec a ∈ R, n i.i.d. centrées et de variance σ 2 6= 0. On cherche une solution telle que pour
tout n, n soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Notation — On note
ln+ x = sup (0, ln x) .

Proposition 3.1 — On suppose que n ∈ L2 . Le modèle (?) admet une solution

stationnaire stricte dans L2 ssi |a| < 1.

Proposition 3.2 — Si |a| < 1, la solution stationnaire stricte du modèle est unique
(et appartient à L2 ).

Proposition 3.3 — Si |a| < 1 et si E ln+ |1 | < ∞, alors le modèle admet une

unique solution stationnaire stricte.

Proposition 3.4 — Soient Vn des v.a. i.i.d. positives.

1
E ln+ V1 < ∞

⇒ lim Vnn = 1 ,
1
E ln+ V1 = ∞

⇒ lim Vnn = ∞ .

44
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Lemme Soient Vn des v.a. i.i.d. positives.

1
P(Vn = 0) < 1 ⇒ lim Vnn > 1p.s. ,
1
E ln+ V1 < ∞ ⇒ lim Vnn 6 1 .

Proposition 3.5 — Si (an )n>0 est une suite à valeurs dans R et sous-additive (i.e.
an+m 6 an + am ), alors
an an
−→ inf .
n n→∞ n n

Rappels —
X
E |X| < ∞ ⇔ P |X| > n < ∞ ,
n>0
Z ∞

E |X| = P |X| > t dt .
0

3.1.2 Cadre multivarié

Soit l’AR(1)
(??) Xn = AXn−1 + n ,
avec A matrice d×d et Un une suite de vecteurs i.i.d. centrés de L2 . On cherche une solution
telle que pour tout n, Un soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Proposition 3.6 — Nous avons les résultats suivants :

1. si (??) admet une solution stationnaire stricte (Xn )n∈Z qui est dans L2 et si la
matrice de covariance K de (Xn )n∈Z est inversible, alors les valeurs propres de A
sont de modules inférieurs ou égaux à 1 ;
2. si la matrice de covariance Σ des Un est inversible, alors les valeurs propres de A
sont de modules strictement inférieurs à 1 ;
3. si les valeurs propres de A sont de modules 1, alors (??) admet une solution station-
naire stricte (X n )n dans L2 .

Rappel —
X
K = Ap Σ (Ap )t
p>0
X
= Σ + Ap Σ (Ap )t ,
p>1

et par suite,
K = Σ + AKAt .

Définition 3.1 — Soit k.k une norme sur Rd . On définit la norme matricielle
subordonnée à k.k sur Rd par
kAk = sup kAvk .
kvk=1

Processus stochastiques 45
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Définition 3.2 — Le rayon spectral d’une matrice B est

ρ(B) = sup |λi | ; λi valeurs propres de B .

Proposition 3.7 — Pour la norme

v
u d
uX
kvk2 = t |vi |2
i=1

sur Rd , la norme matricielle subordonnée est

1
kAk2 = ρ(AAt ) 2 .

Corollaire 3.1 — Si A est symétrique ou diagonale, kAk2 = ρ(A).

Corollaire 3.2 — Nous avons les résultats suivants :

a)
∀β > ρ(B), ∃α, ∀n ∈ N, kB n k 6 αβ n ;
b)
ρ(B) < 1 ⇒ Bn → 0 ;
c)
ρ(B) < 1 ⇔ ∃n t.q. kB n k < 1 ;
d)
n1
kB n k

ρ(B)
−→ <1.
βn β

Propriété 3.1 —
1 1
lim kAn k n = inf kAn k n .
n n

3.1.3 Retour au cadre univarié

Soit un AR(p) univarié :

(?) Xn = AXn−1 + Un ,
avec  
a1 ... ... ... ap  
 1 0 ... ... 0  n
.. 0
 
 .. ..   
 0
A =  . . .  et Un = 

..  .

.

 . .. .. .. ..  
 ..

. . . . 
0
0 ... 0 1 0

Processus stochastiques 46
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.8 — Si (?) admet une solution stationnaire stricte dans L2 et si

V (n ) 6= 0, alors ρ(A) < 1.

Définition 3.3 — Le modèle (?) est dit commandable si la matrice

X
Ap Σ (Ap )t
p>0

existe et est inversible.

Proposition 3.9 — Soient A et Σ des matrices d × d.

X d−1
X
Ap Σ (Ap )t inversible ⇐⇒ Ap Σ (Ap )t inversible .
p>0 p=0

Proposition 3.10 — Soit le modèle (?). Alors il existe une solution stationnaire L2
ssi ρ(A) < 1.

3.2 Modèles autorégressifs non linéaires lipschitziens

Soit le modèle
(?) Xn = F (Xn−1 ,n ) = Fn (Xn−1 ) ,
d
avec Xn à valeurs dans R et n i.i.d. On cherche une solution telle que pour tout n, n soit
l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).

Définition 3.4 — La fonction f : Rn → Rp est lipschitzienne de coefficient de

lipschitz
kf (x) − f (y)kp
cf = sup
kx − ykq
si cf < ∞.

Théorème 3.1 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
+ R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :

1) si E ln cF1 < 0, il existe une unique solution X n du modèle qui est stationnaire-
ment stricte ;

2) s’il existe k ∈ N? t.q. E ckF < 1 et si E kF1 (x) − xkk < ∞, alors la solution X n
1
stationnaire stricte a un moment d’ordre k.

Processus stochastiques 47
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Nota —

Xn = Fn (Xn−1 )
= Fn ◦ Fn−1 (Xn−2 )
= Fn ◦ . . . ◦ Fn−p+1 (Xn−p ) .

D’où
X n = lim Fn ◦ . . . ◦ Fn−p+1 (0) .
p→∞

Théorème 3.2 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
+ R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :

1) s’il existe p t.q. E ln cF1 ◦···◦Fp < 0, alors il existe une unique solution stationnaire
stricte au modèle ;

2) s’il existe k,p ∈ N t.q. E ckF ◦···◦Fp < 1 et t.q. E kF1 ◦ · · · ◦ Fp (x) − xkk < ∞,
1

alors il existe une unique solution X n stationnaire stricte, et cette solution a des
moments d’ordre k.

Notation —
Xn = F (Xn−1 , n )
Xnx =
X0 = x

?
k

Théorème
x 3.3
— S’il existe k,p ∈ N t.q. E kF 1 (x) − xk < ∞ et s’∃β < 1 t.q.
y k k
E kXp − Xp k 6 βkx − yk , ∀x, ∀y, alors il existe une solution stationnaire stricte, et
cette solution a des moments d’ordre k.

Lemme 3.1 — Sous les hypothèses du théorème précédant,

E kFn ◦ · · · ◦ Fn−r+1 kk 6 β r kx − ykk ,

ce qui équivaut à
E kXrx − Xry kk 6 β r kx − ykk .

3.2.1 Modèles hétéroscédastiques

Soit
Xn = f (Xn−1 ) + g(Xn−1 )n .

F1 (x) − F1 (y) = f (x) + g(x)1 − f (y) − g(y)1 , d’où cF1 6 cf + cg |1 |.

Nous avons que :

– si E ln cF1 6 E ln(cf + cg |1 |) < 0, alors il existe une solution strictement
stationnaire ;

Processus stochastiques 48
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

– si E cf + cg |1 | < 1 et si cf + cg E |1 | < 1, alors il existe une solution
strictement stationnaire ayant un moment d’ordre 1 ;

– si c2f + c2g E 21 + 2cf cg E |1 | < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2 ;

– si c2f + c2g E 21 < 1, alors il existe une solution strictement stationnaire ayant un
moment d’ordre 2 ;
– si E (1 ) = 0, E (2 ) = 1 et si c2f + c2g < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2.

3.2.2 Modèle autorégressif non linéaire à coefficients aléatoires

Soit
Xn = A(n )Xn−1 + B(n ) = F (Xn−1 , n ) .

Proposition 3.11 — On suppose que E ln kA(1 )k < ∞. Alors

1 1
E ln kA(1 ) × . . . × A(p )k −→ γ = inf E ln kA(1 ) × . . . × A(p )k .
p p p

Si γ < 0, ∃p t.q. E ln kA(1 ) × . . . × A(p )k < 0, et alors le modèle a une solution
+
stationnaire stricte si E ln kB(1 )k < ∞.

Définition 3.5 — γ est appelé le plus grand exposant de Lyapounov du produit

des matrices aléatoires.

Proposition 3.12 — Nous avons

1
ln kA(1 ) × . . . × A(p )k −→ γ p.s. ,
p

i.e.
1
kA(1 ) × . . . × A(p )k p −→ eγ p.s. .

3.3 Ergodicité

Définition 3.6 — On a un processus (Xn )n indexé par N ou Z, Xn : (Ω,F,P). On lui

bn ) indexé par N ou Z et défini sur E N ou Z , B(E N ou Z ) .
associe le processus canonique (X
On considère
φ : Ω → EN
ω 7→ φ(ω) = X0 (ω), . . . ,Xn (ω)
(trajectoires du processus) .

Processus stochastiques 49
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

bn ) la ne application coordonnée de E N .
On note (X

bn ) est défini sur E N , B(E N ) , P
(X b où P
b est l’image de P par φ. C’est le processus
canonique associé à (Xn )n .

On peut définir le shift θ sur E N :

θ(x0 ,x1 , . . . ,xn , . . . ) = (x1 ,x2 , . . . ,xn+1 , . . . ) ,

bn ◦ θ = X
X bn+1 ,
bn ◦ θ p = X
X bn+p .

Proposition 3.13 — (X
bn ) est stationnaire strict ssi

θP
b = P
b.

Définition 3.7 — On appelle tribu des invariants associée à (X

bn ) l’ensemble

I = A ∈ B(E N ), θ−1 (A) = A .

On appellle tribu des invariants associée à (Xn )

I = φ−1 (I) .

Définition 3.8 — Un processus (Xn ) est dit ergodique si sa tribu des invariants
associée est p.s. grossière, i.e.

∀A ∈ I, P(A) = 0 ou 1 .

Remarque — Nous avons

X
bn ergodique ⇔ Xn ergodique .

Proposition 3.14 —
n o
A∈I ⇔ ∃B ∈ B(E N ), ∀n, A = ω | Xn (ω),Xn+1 (ω), . . . ∈ B .

Définition 3.9 — La tribu asymptotique, pour un processus (Xn )n , est

\
A∞ = σ(Xn , n > p) .
p

Corollaire 3.3 —
I ⊂ A∞ .

Processus stochastiques 50
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.15 — Si (n )n est une suite de v.a. indépendantes et de même loi,
alors (n )n est stationnaire stricte et ergodique.

Proposition 3.16 — Soit (Xi )i une suite stationnaire stricte et ergodique. Soit φ :
E N → E.e On pose, ∀n ∈ E, X
ei = φ(Xi ,Xi+1 , . . . ,Xi+n , . . . ). Alors X
ei est stationnaire
stricte ergodique.

Proposition 3.17 — Si (n )n∈Z est une suite de v.a. indépendantes et de même loi,
alors (n )n∈Z est stationnaire stricte et ergodique.

Lemme 3.2 — La tribu des invariants est incluse p.s. dans la tribu asymptotique
\
σ(p , p > n) .
p

Conséquences — Elles sont au moins au nombre de 3 :

1) si les (n )n sont i.i.d., alors (n )n est stationnaire stricte ergodique ;
2) si Xn = ψ(n ,n−1 , . . . ,n−k , . . . ), alors (Xn )n est stationnaire stricte ergodique ;
|ai |2 < ∞, alors Xn = ai n−i stationnaire stricte ergodique.
P P
3) si (ai )i est t.q.

Théorème 3.4 (Birkoff ) — Soit (Xi )i∈Z un processus stationnaire strict. Alors
n−1
1X
lim Xi = E (X0 | I) p.s. .
n n i=0

Si X0 est intégrable, et si de plus le processus est ergodique, alors

n−1
1X
lim Xi = E (X0 ) p.s. .
n n i=0

Lemme 3.3 (Ergodicité maximale) — Soit (Xn )n un processus stationnaire strict

tel que E |X0 | < ∞. Soit Sn = X0 +X1 +· · ·+Xn−1 . On pose Mn = max(0,S1 , . . . ,Sn ) >
0. Alors Z
X0 dP > 0 .
{Mn >0}

Théorème 3.5 (Ergodicité sous-additive) —

Un
Un+m 6 Um + Un ◦ θn ⇒ converge p.s. .
n

Proposition 3.18 — La convergence du théorème de Birkoff a aussi lieu dans L1 .

Processus stochastiques 51
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

3.4 Chaı̂nes de Markov et stabilité

Soit (Xn )n une chaı̂ne de Markov homogène de probabilité de transition π :

∀B ∈ B(E), P(Xn+1 ∈ B | Fn ) = P(Xn+1 ∈ B | Xn )

= π(Xn , B) .

Soit ν la loi intiale de cette chaı̂ne.

Proposition 3.19 — La chaı̂ne de Markov est stationnaire stricte ssi

νπ = ν .

Proposition 3.20 — Étant données une proba de transition π et une loi initiale ν, il
existe sur E N ,B(E N ) où Xn est la ne application coordonnée, une unique loi de probabilité
Pν telle que ∀Ai ∈ B(E N ),
Z Z Z

Pν X0 ∈ A0 ,X1 ∈ A1 , . . . ,Xn ∈ An = ν(dx0 ) π(x0 , dx1 ) . . . π(xn−1 , dxn ) .
A0 A1 An

Notation — Nous notons

ν = δx =⇒ P ν = Px .

Définition 3.10 — La chaı̂ne de Markov (Xn ) est dite stable s’il existe une proba µ
telle que
n Z
1X
∀f ∈ Cb , ∀x ∈ E, f (Xi ) −→ dµ Px − p.s. .
n i=1

Définition 3.11 — La chaı̂ne de Markov (Xn ) de proba de transition π est dite

fellerienne si
∀f ∈ Cb , πf ∈ Cb .

Proposition 3.21 — Si la chaı̂ne de Markov de proba de transition π est fellerienne

et stable, la loi limite µ vérifie
µπ = µ .

Proposition 3.22 — Soit le modèle Xn = F (Xn−1 , n ). Si ce modèle admet une

solution stationnaire stricte et ergodique X n et si ∀x, Xnx − X n → 0 p.s., alors ∀f
uniformément continue, ∀x,
n Z
1X p.s.
f (Xix ) −→ f (x) dν(x) ,
n i=1

où ν est la loi de X 1 .

Processus stochastiques 52
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

On a, en plus du résultat de la propositon précédante, que ∀f continue bornée, ∀x,

Z
n
P f (x) −→ f dµ (n → ∞) .

ce qui équivaut à
étroit.
∀x, P n (x,.) −→ µ.

Corollaire 3.4 — Soit le modèle Xn = F (Xn−1 , n ) = Fn (Xn−1 ). S’il existe x tel
que :
— E ln+ kF1 (x) − xk < ∞ ;

— E ln+ cF1 < ∞ ;

— E ln cF1 < 0.
Alors il existe une solution stationnaire stricte ergodique et la chaı̂ne de Markov associée
est stable.

Définition 3.12 — Une chaı̂ne de Markov est dite récurrente positive s’il existe
une proba µ telle que ∀f bornée, ∀x ∈ Rd ,
n Z
1X p.s.
f (Xix ) −→ f (x) dµ(x) ,
n i=1

ce qui revient à dire que ∀A borélien tel que µ(A) > 0, partant de tout point x, la chaı̂ne
visite une infinité de fois A.

Proposition 3.23 — Si la chaı̂ne est stable, alors ∀O ouvert de mesure µ(O) > 0,
∀x ∈ Rd , la chaı̂ne issue de x visite p.s. une infinité de fois l’ouvert O. On dit qu’il y a
récurrence dans les ouverts chargés par la proba invariante.

Définition 3.13 — Une proba de transition P est dite fortement fellerienne si ∀f

bornée, P f est continue et bornée.

Exemple — Soit
Xn+1 = f (Xn ) + n+1 .
Si f est continue, P est fellerienne. Si f est continue et si 1 admet une densité par
raport à la mesure de Lebesgue, alors P est fortement fellerienne.

Proposition 3.24 — Si (Xn )n est stable et P fortement fellerienne, alors (Xn )n est
récurrente positive.

Proposition 3.25 (Fonction de Lyapounov) — Soit V : R→ R+ une fonction

continue telle que V (x) → ∞ quand kxk → ∞. Si νn → ν étroitement et si νn (V ) → ν(V ),
alors ∀Φ à valeurs réelles, continue et telle que |Φ| 6 αV + β,

νn (Φ) −→ ν(Φ) .

Processus stochastiques 53
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Définition 3.14 — V est appelée fonction de Lyapounov.

Application 1 — Si on sait que

n Z
1X
V (Xix ) −→ V dµ
n i=1

et que V est continue et positive, alors ∀Φ continue telle que |Φ| 6 αV + β,

n Z
1X
Φ(Xix ) −→ Φ dµ .
n i=1

Application 2 — Si le modèle Xn+1 = F (Xn , n+1 ) admet une solution stationnaire

stricte (X n )n qui a un moment d’ordre 1 et qui est ergodique, et si X n − Xnx → 0 p.s.,
alors ∀Φ à valeurs réelles, continue et telle que |Φ| 6 αV + β,
n Z
1X p.s.
Φ(Xix ) −→ Φ dν .
n i=1

Application 3 — Soit le modèle Xn = aXn−1 +Un avec ρ(A) < 1 ; si Un a un moment

d’ordre 2, alors il existe une solution stationaire stricte ergodique ayant un moment d’ordre
2.

3.5 Modèles ARCH et GARCH

Un modèle AR classique s’écrit

Xn = a1 Xn−1 + · · · + ap Xn−p + n ,

avec les n bruit blanc gaussien. Ici, il s’agit de modéliser autrement l’erreur. Soit le modèle
 p
= hn−1 .ηn
 n


ηn i.i.d., E (ηn ) = 0, E (ηn2 ) = 1
(?)
η indépendant de n−1 = σ(p , p 6= n − 1)
 n


hn−1 σ(p , p 6= n − 1) − mesurable

Nous avons que

p
E (n | n−1 ) = hn−1 .E (ηn ) = 0 ,
E (2n | n−1 ) = hn−1 .E (ηn2 ) = hn−1 .

Définition 3.15 — Le modèle est dit hétéroscédastique si E (2n | n−1 ) n’est pas
constant.

Processus stochastiques 54
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.26 — Si n solution du modèle (?) vérifie E (2n ) = cste < ∞, alors
n est un bruit blanc de L2 (i.e. bruit blanc au sens faible).

Définition 3.16 — Le modèle (?) est un ARCH(q) (autoregressive conditionally

heteroshedastical) si
Xq
hn−1 = γ + αi 2n−i ,
i=1

avec γ > 0, αi > 0 ∀i.

Définition 3.17 — Le modèle (?) est un GARCH(p,q) (generalised autoregres-

sive conditionally heteroshedastical) si
q
X p
X
hn−1 = γ + αi 2n−i + βj hn−j−1 ,
i=1 j=1

avec γ > 0, αi ,βi > 0 ∀i.

Proposition 3.27 — S’il existe une solution n du modèle ARCH(q) telle que 2n soit
stationnaire au sens large, alors 2n est un AR(q) vérifiant
q
X
2n = γ + αi 2n−i + Un ,
i=1

avec Un bruit blanc faible.

S’il existe une solution n du modèle GARCH(p,q) telle que 2n soit stationnaire au sens
large, alors 2n est un ARMA sup(p,q),q vérifiant

sup(p,q) p
X X
2n = γ + (αi + βi )2n−i − βj Un−j + Un ,
i=1 j=1

avec Un bruit blanc faible.

Proposition 3.28 — Si le modèle (?) admet une solution stationnaire faible, alors
α + β < 1.

Proposition 3.29 — Si le modèle (?) admet une solution stationnaire stricte, alors
E ln(α + βη12 ) < 0. Dans ce cas, la solution est ergodique. de plus, si la solution station-
naire stricte admet un moment d’ordre 2, alors α + β < 1.

Proposition 3.30 — Si le modèle GARCH(p,q) admet une solution stationnaire faible,

alors
sup(p,q)
X
(αi + βi ) < 1 .
i=1

Processus stochastiques 55
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

Proposition 3.31 — Soit (An )n∈Z une suite de matrices aléatoires formant un pro-
cessus stationnaire strict. Alors

E ln kA1 . . . An k
E ln kA1 k < ∞ ⇐⇒ −→ γ ,
n
où γ est le plus grand exposant de Lyapounov. De plus,

ln kA1 . . . An k p.s.
−→ γ ,
n

i.e.
1 p.s.
kA1 . . . An k n −→ eγ .

Proposition 3.32 — Si γ < 0, alors il existe une solution stationnaire stricte.

Proposition 3.33 — Le modèle GARCH(p,q) admet une solution stationaire stricte

dans L2 ssi
sup(p,q)
X
(αi + βi ) < 1 .
i=1

3.6 Modèles de diffusions limites des modèles GARCH

Soit le modèle de diffusion

dYt = b(Yt ) dt + σ(Yt ) dWt
(?)
Y0 = y0

La discrétisation d’Euler est définie par

Y(k+1)h − Ykh = b(Ykh ) × h + σ(Ykh ) W(k+1)h − Wkh
| {z }
√
h
hZk+1

Zk = Ykh est une chaı̂ne de Markov.

1
E Y(k+1)h − Ykh | Ykh = y = b(y)
h
1
V Y(k+1)h − Ykh | Ykh = y = σ 2 (y)

h

(h)
Théorème 3.6 (Stroock - Varadhan) — Soit (Yk )k une famille de chaı̂nes de
h
Markov indexées par h, à valeurs dans Rd . Y t = Ykh si t ∈ [kh,(k + 1)h[, t ∈ R.

Processus stochastiques 56
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES

C’est un processus cadlag. Supposons qu’∃a,b, aplications continues, avec a(y) matrice
d-dimensionnelle définie positive et b(y) vecteur de Rd . On suppose que

1 (h) (h) (h)

sup E Y1 − Y0 | Y0 = y − b(y) −→ 0 (h → 0) ,
|y|6r h
1 (h) (h) (h)
sup Cov Y1 − Y0 | Y0 = y − a(y) −→ 0 (h → 0) ,
|y|6r h
1 (h) (h) (h)
E |Y1 − Y0 |2+δ | Y0 = y reste borné quand h → 0 .

sup
|y|6r h1+δ/2

S’il existe σ continue telle que a(y) = σ(y)σ(y)t et si l’EDS (?) admet une solution
h
unique, alors les lois fini-dimensionnelles des processus Y t convergent vers celle de l’EDS.

Conséquence — Discrétisation d’Euler −→ solution de l’EDS.

h→0

Processus stochastiques 57
Deuxième partie

THÓRIE DE MARKOV

58
4

Introduction

Définition 4.1 — Un processus de Markov est un processus tel que, étant donné
la valeur de Xt , la valeur de Xs pour s > t ne dépend pas des valeurs prises avant t, soient
{Xu , u < t}.
Ceci s’écrit

P(Xt ∈]a,b] | Xt1 = x1 , Xt2 = x2 , . . . , Xtn = xn ) = P(Xt ∈]a,b] | Xtn = xn )

pour t1 < t2 < . . . < tn < t.

Définition 4.2 — On appelle fonction de probabilité de transition la fonction

P(x, s ; t, A) = P(Xt ∈ A | Xs = x)

pour t > s et A ⊂ R.

Définition 4.3 — Un processus de Markov ayant un espace d’états fini ou dénombrable

est
appelé chaı̂ne de Markov. Un processus de Markov pour lequel toutes les réalisations
Xt , t ∈ [0,∞[ sont des fonctions continues est appelé processus de diffusion.

Définition 4.4 — Un processus est dit stationnaire si, pour tout h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ) .

Définition 4.5 — Un processus est dit stationnaire par covariance si ses moments
du second ordre sont finis et si

Cov(Xt , Xt+h ) = E(Xt Xt+h ) − E(Xt ) · E(Xt+h )

ne dépend que de h pour tout t ∈ T .

59
4. INTRODUCTION

Proposition 4.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.

Définition 4.6 — Un processus a ses probabilités de transition stationnaires si

P(x, s ; t, A) ne dépend que de t − s.

Notation — On note

Pijn,n+m = P(Xn+m = j | Xn = i)

Pijn,n+1 = Pij
= P(Xn+1 = j | Xn = i) .

Définition 4.7 — Pijn,n+1 est appelée probabilité de transition en un pas (one-

step transition), et Pijn,n+m = Pijm est appelée probabilité de transition en m pas
(m-step transition).

Proposition 4.2 — Nous avons

P(X0 = i0 , X1 = i1 , . . . , Xn = in ) = pi0 · Pi0 ,i1 . . . Pin−2 ,in−1 · Pin−1 ,in

avec pi0 = P(X0 = i0 ).

Remarque — Une chaı̂ne de Markov est déterminée par sa matrice de probabilité

de transition et la distribution de probabilité du processus à l’instant 0.

Définition 4.8 — Une marche aléatoire uni-dimensionnelle est une chaı̂ne de Mar-
kov d’espace d’états l’ensemble (fini ou infini) {a, a + 1, . . . , b} pour lequel, si le processus
est en i à l’instant n, alors à l’instant n + 1 il ne peut être qu’en i, en i − 1 ou en i + 1. La
matrice de transition est alors de la forme
 
r0 p0 0 0 ... ... 0
 q 1 r1 p1 0 ... ... 0
 
 0 q 2 r2 p2 0 ... 0
 
 . . . . . . . . 
0 . . . . ... 0
0 . . . . . . . . . . . . 0 rb

avec pi > 0, qi > 0, ri > 0 et qi + ri + pi = 1 pour tout i ∈ {1, 2, . . .}, p0 > 0, r0 >
0, r0 + p0 = 1 et enfin, si Xn = i, i > 1,

 P(Xn+1 = i + 1 | Xn = i) = pi ,
P(Xn+1 = i | Xn = i) = ri ,
P(Xn+1 = i − 1 | Xn = i) = qi .


Processus stochastiques 60
4. INTRODUCTION

Proposition 4.3 — Si la matrice de probabilité de transition en un pas d’une chaı̂ne

de Markov est P , alors
X∞
Pijn = r
Pik · Pkjs

k=0

pour toute paire (r,s) d’entiers positifs vérifiant r + s = n, et avec la convention

0 1 si i = j ,
Pij =
0 si i 6= j .

Définition 4.9 — Un état j est dit accessible à partir d’un état i s’il existe un entier
n > 0 tel que Pijn > 0.

Définition 4.10 — Deux états i et j communiquent s’ils sont mutuellement acces-

sibles. On note cette communicabilité i ↔ j.

Proposition 4.4 — Le critère de communicabilité est une relation d’équivalence :

(i) i ↔ i (réflexivité) ;
(ii) i ↔ j ⇒ j ↔ i (symétrie) ;
(iii) i ↔ j et j ↔ k ⇒ i ↔ k (transitivité).
Il est par conséquent possible de partitionner l’ensemble des états en classes d’équiva-
lence.
Par ailleurs, s”il était possible, partant d’une classe, d’entrer dans une autre classe avec
une probabilité positive, alors il serait clairement impossible de retourner dans la classe
initiale, à moins que ces deux classes n’en forment qu’une seule.

Définition 4.11 — Une chaı̂ne de Markov est dite irréductible si la relation d’équi-
valence induit une seule classe, i.e. tous ses états communiquent entre eux.

Définition 4.12 — La période d’un état i, noté d(i), est le plus grand commun
diviseur (pgcd) de tous les entiers n > 1 pour lesquels Piin > 0. Par convention, on pose
d(i) = 0 si Piin = 0 pour tout n > 1.

Remarques — Nous avons :

1. Si, pour une marche aléatoire, ri = 0 quel que soit i, alors tous les états de cette
marche aléatoire ont pour période 2.
2. Si, pour une marche aléatoire, il existe un état i0 tel que ri0 > 0, alors tous les états
de cette marche aléatoire ont pour période 1.

Théorème 4.1 — i ↔ j ⇒ d(i) = d(j).

Processus stochastiques 61
4. INTRODUCTION

Remarque — Ceci prouve que la périodicité est une propriété de classe.

Théorème 4.2 — Si l’état i a pour période d(i), alors il existe un entier N (i) (dépen-
dant de i) tel que ∀n > N (i),
nd(i)
Pii >0.

m m+nd(i)
Corollaire 4.1 — Pji >0 ⇒ Pji >0 ∀n suffisamment grand.

Définition 4.13 — Une chaı̂ne de Markov est dite apériodique si tous ses états sont
de période 1.

Soit un état i. On définit, pour chaque entier n > 1,

fiin = P(Xn = i, Xν 6= i, ν = 1, 2, . . . , n − 1 | X0 = i)

qui est la probabilité que, partant de l’état i, le premier retour à cet état se passe au ne
pas de la transition.

Proposition 4.5 — Pour n > 1,

n
X
Piin = fiik Piin−k
k=0

avec fii0 = 0 pour tout i.

Définition 4.14 — Un état i est dit récurrent ssi

∞
X
fiin = 1 ,
n=1

i.e. ssi, partant de cet état, la probabilité d’y repasser après un temps fini vaut 1.

Définition 4.15 — Un état non récurrent est dit transient.

Théorème 4.3 — Un état i est récurrent ssi

∞
X
Piin = ∞ .
n=1

Corollaire 4.2 — Si i ↔ j et si i est récurrent, alors i l’est aussi.

Processus stochastiques 62
4. INTRODUCTION

Remarque — Ceci prouve que la récurrence, comme la périodicité, est une pro-
priété de classe : tous les états d’une même classe d’équivalence sont soit récurrents, soit
transients.

Remarque
P∞ — Le nombre attendu de (re)passages par l’état i, étant donné X0 = i,
vaut n=1 Piin . Par conséquent, le théorème ci-dessus dit que l’état i est récurrent ssi le
nombre attendu de (re)passages par cet état est infini.

Définition 4.16 — On définit

Qij = P(une chaı̂ne partant de l’état i visite infiniment souvent l’état j) .

Théorème 4.4 — L’état i est récurrent (respectivement transient) si Qii = 1 (resp.

Qii = 0).

Théorème 4.5 — Si i ↔ j et si la classe est récurrente, alors

∞
X
? n
f = fij
n=1
= 1.

Corollaire 4.3 — Si i ↔ j et si la classe est récurrente, alors Qij = 1.

Définition 4.17 — Une chaı̂ne de Markov est dite récurrente (respectivement irré-
ductible) si tous ses états sont récurrents (resp. irréductibles).

Théorème 4.6 (Théorème limite 1) — Soit une chaı̂ne de Markov récurrente,

irréductible et apériodique. Soit Piin la probabilité de repasser en i lors de la ne transition,
n = 0, 1, 2, . . ., étant donné que la chaı̂ne part de i, i.e. X(0) = i. Par convention, Pii0 = 1.
Soit fiin la probabilité que le premier (re)passage en i se fasse lors de la ne transition,
n = 0, 1, 2, . . ., avec la convention fii0 = 0. Alors
n
X 1 si n = 0 ,
Piin − fiin−k Piik =
0 si n > 0 ,
k=0

et
1
lim = P∞ .
n→∞
n=0 nfiin

Théorème 4.7 (Théorème limite 2) — Sous les mêmes conditions que celles du
théorème précédent,
n
lim Pji = lim Piin .
n→∞ n→∞

Processus stochastiques 63
4. INTRODUCTION

Proposition 4.6 — Si i appartient à une classe récurrente apériodique, alors

n
1 X m 1
lim Pii = P∞ n .
n→∞ n
m=0 n=0 nfii

Proposition 4.7 — Si i appartient à une classe récurrente périodique de période d,

alors Piim = 0 si m n’est pas un multiple de d, et de plus
d
lim Piind = P∞ .
n→∞
n=0 nfiin

∞
X
Remarque — nfiin est le temps de récurrence moyen.
n=0

Notation — On note πi = lim Piin .

n→∞

Proposition 4.8 — Si πi > 0 pour un état i d’une classe récurrente apériodique, alors
πi > 0 pour tout état j de la classe de i. Dans ce cas, cette classe est dite récurrente
positive ou fortement ergodique.

Proposition 4.9 — Si πi = 0 pour tout état i d’une classe récurrente, cette classe est
dite récurrente nulle ou faiblement ergodique.

Théorème 4.8 — Dans une classe récurrente positive et apériodique d’états j =

0, 1, 2, . . .,
n
lim Pjj = πj
n→∞
∞
X
= πi Pij
i=0

et
∞
X
πi = 1 .
i=0

Les (π)i sont déterminés de façon unique par les trois équations suivantes :

π

P∞
i > 0,

i=0 πi = 1, (4.1)
 P∞
πj = i=0 πi Pij .


Définition 4.18 — Tout ensemble (πi )i=0,1,2,... vérifiant (4.1) est appelé distribution
de probabilité stationnaire de la chaı̂ne de Markov.

Processus stochastiques 64
4. INTRODUCTION

Définition 4.19 — Soit T l’ensemble de tous les états transients, C, C1 , C2 , . . . les

classes de récurrence et i un état transient. On définit

πi (C)

comme étant la probabilité que la chaı̂ne, partant de i, soit absorbée par la classe récurrente
C (rappel : une fois que la chaı̂ne entre dans une classe récurrente, elle ne la quitte plus).

Théorème 4.9 — Soit j ∈ C (classe récurrente apériodique). Alors pour i ∈ T ,

lim Pijn n
= πi (C) · lim Pjj
n→∞ n→∞
= πi (C) · πj

Théorème 4.10 — Soit B une chaı̂ne de Markov irréductible dont l’espace d’états
est désigné par des entiers positifs. Une condition nécessaire et suffisante pour que B soit
transiente est que le système d’équations
∞
X
Pij yj = yj , i 6= 0
j=0

admette une solution bornée non constante.

Théorème 4.11 — Une condition suffisante pour qu’une chaı̂ne de Markov soit ré-
currente qu’il existe une séquence {yi } telle que
∞
X
Pij yj 6 yj pour i 6= 0 et avec yi → ∞ .
j=0

Processus stochastiques 65
5

Ergodicité

Définition 5.1 — Un processus est dit stationnaire (au sens fort) si, pour tout
h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ).

Définition 5.2 — Un processus est dit stationnaire par covariance (stationnaire

au sens faible) si ses moments du second ordre sont finis et si sa fonction de covariance
Cov(Xn , Xn+v ) = E(Xn Xn+v ) − E(Xn ) E(Xn+v )
h i
= E (Xn − m)(Xn+v − m)
= R(v) (notation)
ne dépend que de h pour tout t ∈ T — m étant la moyenne du processus.

Proposition 5.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.

Théorème 5.1 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance ayant pour fonction de covariance R(v). Alors
N −1
1 X
lim E (X̄N − m)2 = 0

lim R(v) = 0 ssi
N →∞ N N →∞
v=0

1
où X̄N = N (X1 + . . . + XN ).

Remarque — Le théorème précédent est une généralisation de la loi des grands

nombres : au lieu d’être indépendantes, les variables Xn sont asymptotiquement indé-
pendantes, dans ce sens que la covariance R(v) a une limite de Cesaro nulle quand v tend
vers l’infini.

66
5. ERGODICITÉ

Théorème 5.2 — Soit (Xn ) un processus gaussien stationnaire par covariance ayant
pour fonction de covariance R(v) et pour moyenne 0. Alors
N −1
1 X
R(v)2 = 0 lim E |R̂T (v) − R(v)|2 = 0 ,

lim =⇒
T →∞ T v=0 T →∞

où R̂T (v) est la fonction de covariance de l’échantillon, soit

T −1
1 X
R̂T (v) = Xl Xl+v .
T
l=0

Théorème 5.3 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance. Alors il existe une variable aléatoire X̄ telle que

lim kX̄N − X̄k2 = 0 .

n→∞

Théorème 5.4 (Ergodicité des carrés moyens) — Soit (Xn ) un processus (faible-
ment) stationnaire de moyenne E(Xn ) = m. Alors X̄n = n1 (X0 + . . . + Xn−1 ) converge en
probabilité vers une variable aléatoire X̂, ce qui s’écrit

P lim X̄n = X̄ = 1 .
n→∞

Définition 5.3 — On appelle opérateur de shift l’opérateur T défini par :

T x = T (x0 , x1 , x2 , . . .)
= (x1 , x2 , x3 , . . .) .

Définition 5.4 — On appelle ensemble invariant par opération de shift un

ensemble A tel que, si T est l’opérateur de shift, alors

T x est un élément de A ⇐⇒ x est dans A .

Définition 5.5 — Soit (Xn ) un processus (faiblement) stationnaire. Il est dit ergo-
dique si, pour tout ensemble A invariant par opération de shift,

P (X0 , X1 , . . .) ∈ A = 0 ou 1 .

Théorème 5.5 — Soit (Xn ) un processus stationnaire ergodique de moyenne finie

E(Xn ) = m. Alors, avec une probabilité 1,
1
lim (X1 + . . . + Xn ) = m .
n→∞ n

Processus stochastiques 67
5. ERGODICITÉ

Théorème 5.6 — Soit (Xn ) un processus stationnaire. Les conditions suivantes sont
équivalentes :
(i) (Xn ) est ergodique ;
(ii) pour tout ensemble A invariant par opération de shift,

P (X0 , X1 , . . .) ∈ A = 0 ou 1 ;

(iii) pour tout ensemble A de la forme (x0 , x1 , . . .),

n
1X
lim 1 = P (X0 , X1 , . . .) ∈ A ;
n→∞ n (Xj , Xj+1 ,...)∈A
j=1

(iv) pour tout k = 1, 2, . . . et tout ensemble A de la forme (x0 , . . . , xk ),

n
1X
lim 1 = P (X0 , . . . , Xk ) ∈ A ;
n→∞ n (Xj ,..., Xj+k )∈A
j=1

(v) pour tout k et toute fonction φ de k + 1 variables,

n
1X
lim φ(Xj , . . . , Xj+k ) = E φ(X0 , . . . , Xk ) ;
n→∞ n
j=1

à condition que cette espérance existe ;

(vi) pour toute fonction φ sur un ensemble (x0 , . . . , xk ),
n
1X
lim φ(Xj , Xj+1 , . . .) = E φ(X0 , X1 , . . .) ,
n→∞ n j=1

à condition que cette espérance existe.

Processus stochastiques 68
6

Entropie

Tandis qu’une probabilité mesure l’incertitude touchant l’occurence d’un événement,

l’entropie mesure l’incertitude touchant l’occurence d’un ensemble d’événements.

Définition 6.1 — Soit X une v.a. prenant la valeur i avec la probabilité pi , i =

1, . . . , n. L’entropie de X se définit par
n
X
H(X) = − pi log(pi )
i=1

(avec la convention 0 × log 0 = 0).

Propriété 6.1 — L’entropie vérifie les trois propriétés suivantes :

(i) l’entropie d’une variable aléatoire constante est nulle ;
(ii) l’ajout à l’entropie de la valeur i + 1, avec la probabilité correspondante pi+1 , ne
modifie pas l’entropie ;
(iii) l’entropie est maximisée, avec la valeur maximum log n, lorsque p1 = . . . = pn =
1/n.

Remarque — La propriété (iii) est conforme à l’intuition, qui veut que la v.a. X1
prenant les valeurs 0 et 1 avec les probabilités 0,001 et 0,999 est plus prévisible que la v.a.
X2 prenant les valeurs 0 et 1 avec probabilité 1/2.

Définition 6.2 — On définit l’entropie d’un couple de v.a. (X,Y ) par

X
H(X,Y ) = − pij log(pij ) .
i,j

69
6. ENTROPIE

Définition 6.3 — On définit l’entropie conditionnelle de X sachant Y par

X X
H(X | Y ) = − P(Y = j) p(i | j) log p(i | j)
j i

(avec p(i | j) = P(X = i | Y = j)).

Proposition 6.1 — H(X | Y ) = H(X, Y ) − H(Y ).

Proposition 6.2 — H(Xk | X1 , . . . , Xk−1 ) 6 H(Xk | X2 , . . . , Xk−1 ).

Définition 6.4 — On définit l’entropie d’un processus (Xn ) par

H (Xn ) = lim H(Xk | X1 , . . . , Xk−1 ) .
k→∞

Proposition 6.3 — H (Xn ) = limk→∞ k1 H(X1 , . . . , Xk ).

Proposition 6.4 — Si (Xn ) est ergodique, alors

1
H (Xn ) = lim − log p(X0 , . . . , Xn−1 ) .
n→∞ n

Proposition 6.5 — Soit (Xn ) une chaı̂ne

de Markov irréductible d’espace d’états fini.
On suppose que π(i) = P(X0 = i), où π(i) i=1,..., N est la distribution stationnaire de la
chaı̂ne. Alors X
H (Xn ) = − π(i) P (i, j) log P (i, j) .
i,j

Proposition 6.6 — Une chaı̂ne de Markov irréductible d’espace d’états fini commen-
çant avec sa distribution stationnaire est un processus stationnaire ergodique.

Théorème 6.1 — Soit (Xn ) un processus stationnaire ergodique d’espace d’états fini
{1, . . . , N }. Soient
p(i1 , . . . , im ) = P(X1 = i1 , . . . , Xm = xm )
et n
1X X
H (Xn ) = lim − p(i1 , . . . , pk ) log p(i1 , . . . , ik ) .
n→∞ n i ,..., i
k=1 1 k

Alors, avec une probabilité 1,

h 1 i
H (Xn ) = lim − log p(X1 , . . . , Xn ) .
n→∞ n

Processus stochastiques 70
Troisième partie

PROCESSUS
STOCHASTIQUES

71
7

Généralités

Définition 7.1 — On considère un espace probabilisé (Ω, A, P) où P est la mesure

de probabilité sur (Ω, A). Un processus aléatoire, ou encore une fonction aléatoire
réelle (f.a.r.) est une fonction à deux variables : t — le temps — et ω — le hasard —, et
elle est notée X(t, ω), avec t ∈ [0, ∞[ et ω ∈ Ω.

À t fixé, la fonction Xt : ω 7→ X(t, ω) est appelée

coordonnée à l’instant t (c’est donc
une v.a.). La trajectoire est ω 7→ X(t, ω), t > 0 , ordinairement continue.
Une f.a.r. à trajectoire continue (f.a.r.c.) est une application

X : [0, ∞[ × Ω → R
(t, ω) 7→ X(t, ω)

telle que :
a) pour presque tout ω, t 7→ X(t, ω) est continue ;
b) pour tout t > 0, Xt : ω 7→ X(t, ω) est une v.a.r.
La loi de X est caractérisée par la loi des (Xt1 , . . . , Xtk )k>1 , 0 6 t1 < . . . < tk < ∞. En
fait, il s’agit d’une loi marginale finie k-dimensionnelle. Soit

X : Ω → C(R+ , R)

ω 7→ X(t, ω), t > 0

où C(R+ , R) est munie de la topologie de la convergence uniforme sur les compacts.
Munissant C(R+ , R) de la tribu borélienne, X est mesurable. Par conséquent, l’image de P
par cette application mesurable est la probabilité sur C notée PX .

72
7. GÉNÉRALITÉS

7.1 Espaces gaussiens

Définition 7.2 — Un sev 1 fermé F de L2 (Ω, A, P) est un espace gaussien si ses

éléments sont des v.a. gaussiennes centrées. Étant donné X une f.a.r. gaussienne, on note
L2
H X = vect X − E (X) l’espace gaussien associé à X.
(H X , < . >) est un espace de Hilbert (car c’est un fermé inclus dans un complet, donc
il est complet). Si X est continue, alors H X est séparable. Soit (ζn )n une base orthonormée
de H X . Développons Xt − E (Xt ) sur cette base (formule de Karhunen – Loeve) :

X
X(t) = E (X(t)) + cn (t) ζn (ω)
n

avec

cn (t) = < Xt − E (X(t)), ζn >

= E ζn Xt − E (Xt )
= E (ζn Xt ) .

7.2 Mouvement brownien

Définition 7.3 — Un mouvement brownien est une f.a.r.c. B(t, ω) à accroisse-

ments indépendants gaussiens, avec :
(i) B(t) − B(s) N (0, t − s) pour 0 6 s < t ;
(ii) B(0) = 0.

Propriété 7.1 — B est un processus gaussien centré à trajectoire continue et de

covariance
E B(s)B(t) = min(s, t) .
La réciproque est vraie.

Propriété 7.2 — Si B est un mouvement brownien, il en est de même de

1
X(t) = B(c2 t)
c
et
1
Y (t) = tB( ) ,
t
pour c ∈ R? .

1. Sous-espace vectoriel.

Processus stochastiques 73
7. GÉNÉRALITÉS

7.3 Principe d’invariance

Soit (ζn )n des v.a. i.i.d. d’espérance nulle et de variance σ 2 finie. Soit Sn =
P
i ζi .
D’après le théorème de la limite centrale,
Sn L
√ → N (0, 1) .
σ n
Soit la marche aléatoire renormalisée
P[nt]
(n) i=1 ζi + nt − [nt] ζ[nt]+1
Xt = √ .
σ n

(n)
Théorème 7.1 (Donsker) — La suite de processus Xt converge en loi vers B quand
n tend vers l’infini.

7.4 Propriétés du brownien

7.4.1 Variation quadratique

Nous savons que :

(i) B(t + h) − B(t) N (0, h) ;

(ii) B(t+h)−B(t) /h N (0, h×(1/h2 ) = 1/h), qui n’a pas de limite quand h décroı̂t
vers 0.
Par conséquent, nous avons le résultat suivant.

Proposition 7.1 — Le brownien n’est pas dérivable.

Partitionnons [0, T ] : 0 = t0 < t1 < . . . < tn = T . Le pas de cette partition est

∆ = max (ti − ti−1 ) .
16i6n

Définition 7.4 — La variation totale est définie comme étant

X
lim B(ti ) − B(ti−1 ) .
∆→0
i

et elle est infinie.

Définition 7.5 — La variation quadratique est

X 2
lim B(ti ) − B(ti−1 )
∆→0
i

et elle est finie. On la note < Bt > ou < B >t .

Processus stochastiques 74
7. GÉNÉRALITÉS

Théorème 7.2 — La variation quadratique de B existe dans L2 et vaut p.s. T .

Proposition 7.2 — Pour presque tout ω,

(i) t → B(t, ω) n’est dérivable en aucun t ;
(ii) ∀α < 1/2, |B(t) − B(s)| 6 c|t − s|α , quels que soient s et t dans [0, T ] — par ailleurs,
c = c(α, ω, T ) < ∞.

7.4.2 Martingales

Définition 7.6 — Soit (Ω, A, P), t ∈ N ou R+ . Une filtration est une famille Ft de
tribus, t ∈ N ou R+ , telle que
Fs ⊂ Ft ⊂ A
∀s 6 t.

Définition 7.7 — Soient (Ω, A, P) et Ft une filtration. Un processus X = X(t, ω) est

dit Ft –adapté si ∀t, Xt est Ft -mesurable.

Définition 7.8 — Soit (Ω, A, P). Soit (Mt )t , t ∈ N ou R+ , un processus réel défini
sur Ω. Soit (Ft )t une filtration sur Ω. (Mt )t est une Ft –martingale si :
(i) ∀t, Mt est Ft –adaptée et Mt ∈ L1 ;
(ii) pour 0 6 s 6 t, E (Mt |Fs ) = Ms p.s.

Conséquence — E (Mt ) = E (Ms ) = E (M0 ).

Exemples — Nous donnons quelques exemples de martingales.

Pn
1) Marche aléatoire : soit Fn = σ(ζ1 , . . . , ζn ). Soit Sn = i=1 ζi , avec les ζi i.i.d.
centrées. Alors Sn est une Fn –martingale : ζi ∈ L1 ⇒ Sn ∈ L1 . Sn est Fn –
mesurable.

E (Sn | Fn−1 ) = E (Sn−1 + ζn | Fn−1 )

Processus stochastiques 75
7. GÉNÉRALITÉS

Pn
3) Soit Fn = σ(ζ1 , . . . , ζn ). Soit Sn = i=1 ζi , avec les ζi i.i.d. centrées de variance σ 2 .
Alors Xn = Sn − nσ 2 est une Fn –martingale.
4) Soit Ft = σ(Bu , u 6 t). Alors
Mt = Bt2 − t
est une Ft –martingale.
5) Soit Ft = σ(Bu , u 6 t). Alors

λ2 t

Yt = exp λBt − ,
2

pour λ ∈ C, est une Ft –martingale.

2
Remarque — Soit X(t) une f.a.r.c. telle que X(0) = 0 et telle que exp λXt − λ2 t

soit une Ft –martingale, avec Ft = σ(Xs , s 6 t), λ ∈ R (ou λ ∈ iR). Alors X est un
brownien.

Définition 7.9 — X est une Ft –sous-martingale (respectivement une Ft –sur-

martingale) si :
(i) ∀t, Xt est Ft –mesurable ;
(ii) E (Xt |Fs ) > Xs p.s. (resp. E (Xt |Fs ) 6 Xs p.s.), ∀0 6 s 6 t.

Proposition 7.3 — Soit M une martingale et φ : R → R convexe. Alors Xt = φ(Mt )

est une sous-martingale.

En particulier, le résultat précédant, pour φ(x) = x2 , nous indique que le carré d’une
martingale est une martingale.

Proposition 7.4 — Soit M une martingale continue et < M >t sa variation quadra-
tique. Alors
Xt = Mt2 − < M >t .
est une martingale.

7.4.3 Théorème d’arrêt — Inégalité de Doob

Définition 7.10 — Soient (Ω, A, P) et (Ft )t>0 une filtration. On appelle temps
d’arrêt une v.a. T : Ω → [0, ∞] telle que ∀t > 0, {T 6 t} ∈ Ft .

Exemples — Voici quelques exemples.

1) T = t0 , ∀ω, avec t0 > 0, est un temps d’arrêt.
2) X processus Ft –adapté, A ∈ B(R). Le temps d’entrée dans A est

TA = inf t > 0, Xt ∈ A .

Processus stochastiques 76
7. GÉNÉRALITÉS

3) Si A est un ouvert et si X est continue à droite, alors TA est un Ft+ –temps d’arrêt,
où Ft+ = ∩ Fs .
s>t
4) Si B est un fermé et si X est continue, alors TB est un Ft –temps d’arrêt.
5) T ∧ T 0 est un temps d’arrêt si T et T 0 en sont.

Théorème 7.3 (Théorème d’arrêt) — Soient (Mt )t une Ft –martingale et T un

Ft –temps d’arrêt p.s. borné (i.e. T 6 cte p.s.). On suppose que (Mt )t est continue à droite.
Soit 0 6 s 6 T . Alors
E (MT | Fs ) = Ms p.s.
Le résultat demeure :
— pour une sous-martingale, avec la relation E (MT | Fs ) > Ms p.s. ;
— pour une sur-martingale, avec la relation E (MT | Fs ) 6 Ms p.s.

Corollaire 7.1 — Nous avons :

E (MT ) = E (Ms ) = E (M0 ) .

Proposition 7.5 (Inégalité de Doob) — Soit Xt une Ft –martingale de carré inté-

grable et continue à droite. Alors ∀T > 0, ∀λ > 0,
1
E (XT2 ) .

P sup |Xt | > λ 6
06t6T λ2

Théorème 7.4 — Nous avons :

Bt
lim
= 0 p.s.
t→∞ t

Proposition 7.6 — Soient s > 0 et X(t) = B(t + s) − B(s). Alors X est un brownien
et est indépendant de Fs = σ(Bu , u 6 s).

Proposition 7.7 — Si T est un temps d’arrêt pour la filtration du brownien, alors

X(t) = B(t + T ) − B(T ) est aussi un brownien.

Processus stochastiques 77
7. GÉNÉRALITÉS

7.4.4 Intégrale de Wiener

L2 (Ω) est muniR du p.s. produit scalaire E (XY ). L2 (R+ ) est muni du p.s. produit
scalaire < f, g >= R+ f (t)g(t) dt. On veut définir
Z
1]u, v] (s) dB(s) = B(v) − B(u)
R+

pour 0 6 u < v.

Définition 7.11 — Soient 0 = t0 6 t1 < . . . < tn . Alors

Z n
nX o n
X
ak 1]tk−1 , tk ] (s) dB(s) = ak B(tk ) − B(tk−1 ) (7.1)
R+ k=1 k=1
Pn
sur F = fonctions en escalier : f (s) = k=1 ak 1]tk−1 , tk ] (s) .

Remarque — Cette définition ne dépend pas du choix de la fonction étagée.

L’équation (7.1) s’écrit T f , avec T : F → H B (espace gaussien engendré par le brow-

nien) ; F ⊂ L2 (R), H B ⊂ L2 (Ω). Cette application linéaire est de norme 1.

Théorème 7.5 — Soit B un brownien sur (Ω, A, P). On peut associer à toute
fonction f de L2 (R) une v.a. centrée, intégrable et gaussienne de H B , notée R+ f (t) dB(t)
R

et appelée intégrale de Wiener telle que :

R
(i) R+ 1]u, v] (t) dB(t) = B(v) − B(u) pour u < v ;
R
(ii) f 7→ R+ f (t) dB(t) est linéaire et isométrique ;
(iii) on a les propriétées suivantes :
hZ Z i Z
E f (t) dB(t) × g(t) dB(t) = f (t) g(t) dt .
R+ R+ R+
hZ i Z s
E f (t) dB(t) × B(s) = f (t) dt ,
R+ 0
nZ o
f dB , f ∈ L2 (R+ ) = HB .
R+

Proposition 7.8 (Intégration par parties) — Si f ∈ C1 (R+ ), alors p.s.

Z t Z t
f (s) dB(s) = f (t) B(t) − f 0 (s) B(s) ds .
0 0

Processus stochastiques 78
7. GÉNÉRALITÉS

7.4.5 Équation de Langevin

A. Cas unidimensionnel

Définition 7.12 — L’équation de Langevin est

dV (t) = −bV (t) dt + σ dB(t)

ce qui équivaut à
Z t
V (t) = V (0) − bV (s) ds + σB(t) .
0

Proposition 7.9 — La solution de l’équation de Langevin est donnée par

Z t
−bt
V (t) = e V (0) + σ e−b(t−s) dB(s) .
0

Définition 7.13 — V s’appelle le processus d’Ornstein-Uhlenbeck.

Proposition 7.10 — On suppose que V (0) est indépendant de B et qu’il suit une loi
normale centrée de variance σ 2 /(2b). Alors V (t) est un processus gaussien stationnaire.

B. Cas multidimensionnel

Soit
dV (t) = −bV (t) dt + σ dB(t)
avec V ∈ R , b ∈ Md×d , σ ∈ Md×d , b ∈ Rd et B = (B1 , . . . , Bd )t brownien de dimension
d

Proposition 7.11 — On suppose que :

(i) V (0) est indépendant de B ;

(ii) E V (0) = 0 ;

(iii) V V (0) = σ 2 /(2b) ;

(iv) V (0) N 0, σ 2 /(2b) .
Alors V (t) est un processus gaussien stationnaire.

Processus stochastiques 79
8

Calcul stochastique

8.1 Intégrale stochastique d’Ito

8.1.1 Filtration

Définition 8.1 — Une f.a. φ(t, ω) définie sur R+ × Ω (respectivement sur [0, T ] × Ω)
est dite progressivement mesurable par rapport à la filtration F = (Ft , t > 0) si ∀t ∈ R+
(resp. t 6 T ), la restriction de φ suivante :

φ : [0, t] × Ω → R
(s, ω) 7→ φ(s, ω)

est mesurable par rapport à B [0, t] ⊗ Ft .

Remarque — B([0, t]) ⊗ Ft est engendré par les B × A, ∀B ∈ B([0, t]), ∀A ∈ Ft .

On note M 2 (R+ ) (resp. M 2 [0, t] ) l’ensemble des fonctions φ progressivement mesu-
rables et telles que Z
E φ2 (t, ω) dt < ∞ .
R+

(resp. intégrale sur [0, T ]), et l’on considèrera par la suite

\
M2 = M 2 [0, t] .

Nota — Soient φ progressivement mesurable et t fixé. ω 7→ φ(t, ω) est Ft –mesurable,

donc φ est adaptée.

80
8. CALCUL STOCHASTIQUE

Par lasuite, nous travaillerons sur R+ , mais les résultats seront également valables pour
2
M [0, t] .
M 2 (R+ ) est un espace de Hilbert : on a le produit scalaire
Z
2
< φ, ψ >M 2 (R+ ) = E φ (t, ω) ψ(t, ω) dt .
R+

8.1.2 Fonctions en escalier

Soit 0 = t0 < t1 < . . . < tn . On définit

n−1
X
φ(t, ω) = Xi (ω) 1]ti , ti+1 ] (t) ,
i=0

avec Xi Fti –mesurable et Xi ∈ L2 (Fti ).

−1 [
Xi−1 (I) × ]ti , ti+1 ] ∩ [0, t]

φ [0, T ]×Ω
(I) =
i : ti 6t

appartient à B([0, t]) ⊗ Ft . Par conséquent, φ est mesurable.

Définition 8.2 — Pour φ en escalier, on définit

Z n−1
X
φ(t) dB(t) = Xi B(ti+1 ) − B(ti ) .
R+ i=0

Proposition 8.1 — Nous avons :

Z n−1
X h i
E φ(t) dB(t) = E Xi B(ti+1 ) − B(ti )
R+ i=0

et
Z 2 n−1
X
E φ(t) dB(t) = E (Xi2 ) (ti+1 − ti ) .
R+ i=0

Corollaire 8.1 — L’intégrale stochastique est une isométrie.

En effet,
Z 2 Z
E φ(t) dB(t) = E φ2 (t) dt .
R+ R+

L’isométrie est (IS) : M 2 (R+ ) → L2 (Ω, A, P) et

k IS (φ)kL2 (Ω, A, P) = kφkM 2 (R+ ) .

Processus stochastiques 81
8. CALCUL STOCHASTIQUE

8.1.3 Densité des fonctions en escaliers dans M 2 (R+ )

Soit le processus d’approximation

Pn : L2 (R+ ) → L2 (R+ )
2
n Z 1
X n
f 7→ Pn f (t) = n f (s)ds 1] i , i+1 (t) .
i−1 n n ]
i=1 n

Alors
kPn f k2 6 kf k2 ,
L2 (R+ )
Pn f −→ f, ∀f ∈ L2 (R+ )
et
M2 (R+ )
Pn φ −→ φ, ∀φ ∈ M2 (R+ ) .

8.1.4 Intégrale stochastique

On prolonge (IS) à M2 (R+ ) par

Z Z
φ(t) dB(t) = lim Pn φ(t) dB(t)
n→∞
2
n Z 1
X n h i
= lim n φ(s, ω) ds B(ti+1 ) − B(ti ) .
n→∞ i−1
i=1 n

qui appartient à L2 (Ω, A, P). On a :

hZ i
E φ(t) dB(t) = 0 ,
R+
hZ i2 hZ i
E φ(t) dB(t) = E φ2 (t) dt
R+ R+
et n Z on Z o hZ i
E φ(t) dB(t) ψ(t) dB(t) = E φ(t) ψ(t) dt .
R+ R+ R+

8.2 L’intégrale stochastique comme martingale

Proposition 8.2 — L’application

Z t
t → φ(s) dB(s)
0

est continue en moyenne quadratique p.s.

Processus stochastiques 82
8. CALCUL STOCHASTIQUE

Proposition 8.3 — Z t
X(t) = φ(s) dB(s)
0
est une F–martingale.

Proposition 8.4 — Z t
X 2 (t) − φ2 (s) ds
0
est une F–martingale.

8.3 Formule d’Ito

8.3.1 Introduction

Première formule d’Ito

Z t
B 2 (t) = 2 B(s) dB(s) + t .
0

Formule d’Ito pour les fonctions Cb2

Soit Cb2 = Φ : R → R, C 2 , avec Φ, Φ0 , Φ00 bornées .

Proposition 8.5 — Pour Φ ∈ Cb2 , on a P-p.s.

Z t Z t
1
Φ0 B(s) dB(s) + Φ00 B(s) ds .

Φ B(t) = Φ B(0) +
0 2 0

On utilisera la relation différentielle

1
dΦ B(t) = Φ0 B(t) dB(t) + Φ00 B(t) dt .

2

8.3.2 Formule générale

Soit Z t Z t
X(t) = X(0) + φ(s) dB(s) + ψ(s) ds ,
0 0

avec φ, ψ ∈ M 2 et X(0) ∈ L2 (F0 ).

Processus stochastiques 83
8. CALCUL STOCHASTIQUE

Proposition 8.6 (Formule générale d’Ito) — Pour Φ ∈ Cb2 ,

Z t Z t
0
Φ0 X(s) ψ(s) ds

Φ X(t) = Φ X(0) + Φ X(s) φ(s) dB(s) +
0 0
1 t 00
Z
2
+ Φ X(s) φ (s) ds .
2 0

Cette formule s’écrit :

1
Φ0 X(t) dX(t) + Φ00 X(t) φ2 (t) dt .

dΦ X(t) =
2
ou encore
1
Φ0 X dX + Φ00 X < dX, dX > ,

dΦ X =
2
avec

< φ dB + ψ dt, φ dB + ψ dt > = φ2 < dB, dB > +2φψ < dB, dt > +ψ 2 < dt, dt >

où 
 < dB, dB > = dt,
< dB, dt > = 0,
< dt, dt > = 0.


Exemple — Soit
Z t Z t
1 2
M (t) = exp φ(s) dB(s) − φ (s)ds .
0 2 0

C’est une martingale.

8.3.3 Localisation

2
Définition 8.3 — φ ∈ Mloc ([0, T ]) si :
(i) φ est progressivement mesurable ;
RT
(ii) 0 φ2 (t) dt < ∞ p.s.

Nous définissons \
2 2

Mloc = Mloc [0, T ] .
T >0

2
Définition 8.4 — Si φ ∈ Mloc , on définit le temps d’arrêt par :
 n o
 inf t > 0 : t φ2 (s) ds > n ,
R
0
τn = n o
 +∞ si t > 0 : t φ2 (s) ds > n = ∅.
R
0

Processus stochastiques 84
8. CALCUL STOCHASTIQUE

Proposition 8.7 — Si n croı̂t vers +∞, alors τn croı̂t vers +∞ p.s. Par ailleurs,
1[0, τn ] (t) φ(t) ∈ M 2 .

On peut alors définir Z t

1[0, τn ] (s) φ(s) dB(s) .
0
On vérifie que cette intégrale converge p.s. quand n → ∞. On définit
Z t Z t
p.s.
φ(s) dB(s) = lim 1[0, τn ] (s) φ(s) dB(s) .
0 0

2
pour φ ∈ Mloc .

Rt 2
Définition 8.5 — X(t) = 0 φ(s) dB(s), avec φ ∈ Mloc , est une martingale locale
s’il existe une suite (τn )n de F–temps d’arrêt telle que :
(i) τn croı̂t vers +∞ p.s. ;
(ii) Yn (t) = X(t ∧ τn ) est une F–martingale pour tout n.

Remarque — X(t) n’est pas forcément intégrable.

8.3.4 Cas vectoriel

Soit B un brownien dans Rk , φij ∈ Mloc

2
, 1 6 i 6 d, 1 6 j 6 k.
k Z
X t Z t
φij (s) dBj (s) = φ(s) dB(s) .
j=1 0 i6d 0

2 d×k
Nous avons que φ ∈ (Mloc ) et
hZ t i
E φ(s) dB(s) = 0,
0

h Z t Z t t i hZ t i
φ(s) ψ(s)t ds ,

E φ(s) dB(s) ψ(s) dB(s) = E
0 0 0

h Z t t
Z t i hZ t i
E φ(s) dB(s) ψ(s) dB(s) = E tr φ(s) ψ(s)t ds .
0 0 0

Soit Φ ∈ C 1,2 :

Φ : R+ × Rd → R

t, B1 (t), . . . , Bd (t) 7 → Φ t, B1 (t), . . . , Bd (t) .

Processus stochastiques 85
8. CALCUL STOCHASTIQUE

Soit X ∈ Rd :
dX(t) = ψ(t) dt + φ(t) dB(t) .
|{z} |{z}
∈Rd ∈Md×k

Formule d’Ito

Z t d Z t
∂ X ∂
Φ(t, Xt ) = Φ(0, X0 ) + Φ(s, Xs ) ds + Φ(s, Xs ) ψi (s) ds
0 ∂t i=1 0
∂xi
d Z t k
X ∂ X
+ Φ(s, Xs ) φij (s) dBj (s)
i=1 0 ∂xi j=1
d Z t k
1 X ∂2 X
+ 0 Φ(s, X s ) φij (s) φi0 j (s) ds .
2 0 0 ∂xi ∂xi j=1
i, i =1

Cette formule s’écrit

∂ 1
dΦ(t, Xt ) = · Φ dt + ∇x φ · dXt + < dX, D2 Φ · dX > ,
∂t 2
où  
∂x1 Φ
∇x φ · dXt =  ...  × (ψ dt + φ dB) .
 

∂xd Φ

Nous rappellons que nous avons

dt si i = j,
< dBi , dBj > =
0 sinon
et
< dt, dt > = 0 .

k d k
X X ∂2Φ X
< dX, D2 Φ · dX > = < φij 0 dBj 0 , φi0 j dBj >
∂xi ∂xi0 j=1
j 0 =1 i0 =1
2
X ∂ Φ
= φij 0 φi0 j < dBj 0 , dBj >
∂xi ∂xi0
i, i0 , j, j 0
X ∂2Φ
= φij 0 φi0 j dt .
∂xi ∂xi0
i, i0 , j, j 0

1
dΦ(t, Xt ) = ∂t Φ · dt + ∇x Φ · dX + tr(D2 Φ φ φt ) dt .
2

Processus stochastiques 86
8. CALCUL STOCHASTIQUE

8.3.5 Intégration par parties

Soient B, X, Y ∈ R :

dX = φ dB + ψ dt ,
dY = λ dB + µ dt ,
2
avec φ, ψ, λ, µ ∈ Mloc .

dXY = X dY + Y dX+ < dX, dY > .

On a donc :
Z t h i
X(t) Y (t) − X(0) Y (0) = X(s) λ(s) dB(s) + µ(s) ds
0
Z t h i Z t
+ Y (s) φ(s) dB(s) + ψ(s) ds + φ(s) λ(s) ds .
0 0

8.4 Formule de Girsanov

8.4.1 Formule de Cameron-Martin

Théorème 8.1 (Cameron-Martin) — Soit X(t), pour t > 0, unef.a.r.c. gaussienne

centrée, et soit m : R+ → R une fonction de la forme m(t) = E X(t) Y , t > 0, Y ∈ H X .
Alors i
h 1
E F (X + m) = E F (X) · exp Y − E (Y 2 ) .
2

8.4.2 Théorème de Girsanov

2
Soit φ ∈ Mloc . Soit
Z t Z t
1 2
Z(t) = exp φ(s) dB(s) − φ (s) ds .
0 2 0

Z(t) est une martingale locale.

Processus stochastiques 87
8. CALCUL STOCHASTIQUE

Théorème 8.2 (Girsanov) — Supposons que E Z(t) = 1, ∀t. Alors il existe une
proba. Q définie sur F∞ par
Z
Q(A) = Z(t) dP pour A ∈ Ft
A

et telle que
Z t
B(t) = B(t) − φ(s) ds
0

soit, sous Q, un mouvement brownien.

Lemme 8.1 — Nous avons :

Z t
E Z(t) = 1,
φ2 (s) ds 6 c ⇒
0 E Z 2 (t) < ∞ .

Lemme 8.2 (Gronwall) — Soit t 7→ x(t) telle que

Z t
x(t) 6 a + b x(s) ds ∀t, a, b > 0 .
0

Alors

x(t) 6 aebt .

8.4.3 Critères

Proposition 8.8 (Critère de Novikov) — Nous avons :

1 Z t
E Z(t) = 1,
E exp φ2 (s) ds < ∞ ⇒
2 0 Z martingale .

Proposition 8.9 — S’il existe a, c > 0 tels que

h i
E exp aφ2 (s) < c ∀s 6 t ,

alors

E Z(t) = 1 .

Processus stochastiques 88
9

Processus de comptage

9.1 Rappels concernant les martingales

Théorème 9.1 (Formule de décomposition de Doob-Meyer) — Si X(t) est une

sous-martingale, alors il existe un processus cadlag 1 , prévisible et croissant Λ(t) tel que
M (t) = X(t) − Λ(t)
soit une martingale uniformément intégrable.

Remarque — Λ est la somme des espérances conditionnelles (par rapport au passé)

des accroı̂ssements de X (qui ne peut décroı̂tre puisque il est une sous-martingale). M , elle,
est la somme des accroı̂ssements moins leurs espérances conditionnelles. Cette orthogonalité
entre processus prévisibles (à variation finie) et martingales assure à cette décomposition
de Doob-Meyer son unicité.

9.2 Processus à variation prévisible

Proposition 9.1 — Si M (t) est une martingale, alors M 2 (t) est une sous-martingale.

Proposition 9.2 — Soit M (t) une martingale. Alors

M 2 (t) = Mt + < M >t ,
avec Mt martingale et < M >t processus prévisible croissant défini par
X
E (Mti+1 − Mti )2 | Fti

< M >t = lim
|δ|→0
i

et appelé processus prévisible croissant associé à M (t).

1. Continu à droite avec une limite à gauche.

89
9. PROCESSUS DE COMPTAGE

Proposition 9.3 — Soit M (t) une martingale. Alors

V dM (t) | Ft− = d < M > (t) .

Proposition 9.4 — Si M1 et M2 sont deux martingales (localement) de carré inté-

grable, il existe un processus prévisible unique (localement) intégrable et à variation bornée,
noté < M1 , M2 >, tel que M1 M2 − < M1 , M2 > soit une martingale (locale), nulle à
l’instant 0. < M1 , M2 > est appelé le processus prévisible de covariation de M1 et
M2 .
Nous avons :

Cov dM1 (t), dM2 (t) | Ft− = d < M1 , M2 > (t) .

Proposition 9.5 — Le processus prévisible de covariation est bilinéaire et symétrique,

tout comme une covariance ordinaire :

< aM1 + bM2 , M3 > = a < M1 , M3 > +b < M2 , M3 > ,

< M1 , M2 > = < M2 , M1 > .

M1 et M2 sont dites orthogonales ssi < M1 , M2 >= 0.

Définition 9.1 — À tout processus cadlag X, on peut associer un processus de saut

∆X, défini par
∆X(t) = X(t) − X(t− ) .

Proposition 9.6 — Si M1 et M2 sont deux martingales (localement) de carré inté-

grable telles que

∆M1 · ∆M2 = 0

(i.e. n’ayant aucun temps de saut en commun), alors

< M1 , M2 > = 0 .

9.3 Processus de comptage

9.3.1 Cas univarié

Définition 9.2 — Un processus de comptage N est un processus cadlag, adapté,

nul en zéro, croissant et ayant des sauts d’amplitude 1.

Processus stochastiques 90
9. PROCESSUS DE COMPTAGE

Définition 9.3 — Soit N (t) un processus de comptage. C’est (par définition) une sous-
martingale locale. Par conséquent, il existe un processus Λ(t) prévisible, croissant, continu
à droite et nul en zéro tel que
M (t) = N (t) − Λ(t)
soit une martingale.
Λ(t) s’appelle le compensateur de N (t), ou encore sa projection prévisible.

Proposition 9.7 — Soient N un processus ponctuel de dimension 1, et Λ son com-

pensateur. Si N est absolument continu, alors N possède une intensité λ, i.e. il existe un
processus prévisible λ tel que Z t
Λ(t) = λ(s) ds
0
pour tout t. L’intensité est définie par :
1
λ(s) = lim P N (s + ) − N (s) ≥ 1 | Fs .
→0

Proposition 9.8 — Soit N un processus de comptage et Λ son compensateur. Le

processus prévisible associé à la martingale locale de carré intégrable M = N − Λ (ou
encore le compensateur de M 2 ) vaut
Z
< M > = Λ − ∆Λ dΛ
Z
= (1 − ∆Λ) dΛ

et en particulier, si Λ est continu,

<M >= Λ.

Théorème 9.2 (Théorème de l’innovation) — Soit N un processus de comptage

adapté par rapport à deux filtrations (Ft )t et (Gt )t telles que Ft ⊆ Gt . N a pour intensité λ
par rapport à (Gt )t . Alors il existe un processus λ̃ prévisible par rapport à (Ft )t et tel que :

λ̃(t) = E λ(t) | Ft− .

Remarque — λ̃ est le processus d’intensité de N par rapport à (Ft )t .

9.3.2 Cas multivarié

Définition 9.4 — Un processus de comptage r-dimensionnel N = {Ni : i = 1, . . . , r}

est appelé processus de comptage multivarié si chacune de ses composantes est un
processus de comptage univarié et s’il ne peut y avoir simultanéité des sauts de deux (ou
plus) de ses composantes.

Processus stochastiques 91
9. PROCESSUS DE COMPTAGE

Proposition 9.9 — Soit N = {Ni : i = 1, . . . , r} un processus de comptage multivarié.

Alors :
1. il existe des processus prévisibles Λi continus à droite, croissants, nuls à l’instant
t = 0, tels que les Ni − Λi soient des martingales localement de carré intégrable ;
Pr Pr
2. N. = i=1 Ni est un processus de comptage de compensateur Λ. = i=1 Λi .

Proposition 9.10 — Soit N un processus de comptage multivarié et Λ son compensa-

teur. Le processus prévisible associé à la martingale locale de carré intégrable M = N − Λ
(ou encore le compensateur de M 2 ) vaut
Z
< Mi > = Λi − ∆Λi dΛi
Z
= (1 − ∆Λi ) dΛi ,

Z
< Mi , Mj > = − ∆Λi dΛj (i 6= j) .

En particulier, si Λ est continu,

< Mi > = Λi ,
< Mi , Mj > = 0 (i 6= j) .

9.4 Théorème de la limite centrale

Théorème 9.3 (Théorème de Rebolledo) — Si Mn est une suite de martingales,

et si :
(i) < Mn >t converge en probabilité vers vt déterministe ;
(ii) ∀, ∃Mn, suite de martingales telles que Mn − Mn, n’ait aucune amplitude supé-
rieure à ,
alors Mn (t) a une limite M (t) de processus croissant vt , donc M (t) est un processus
gaussien :
Mn (t) L
−→ N (0, 1) .
vt

9.5 Résidus

Proposition 9.11 — Soit le processus martingale

Z t Z t
Mi (t) = dNi (s) − λi (s) ds ,
0 0

Processus stochastiques 92
9. PROCESSUS DE COMPTAGE

et Hi (t) un processus prévisible et localement borné. Alors :

Z t
Ri (t) = Hi (s) dMi (s) .
0

est une martingale de moyenne nulle vérifiant

Cov Ri (s), Rj (t) = 0

pour i 6= j, et ceci bien que Ri et Rj ne soient pas indépendants (à moins que Hi et Hj ne
le soient).
De plus,
Z t t Z t

V Ri (t) = E Hi (u) λi (u) du Hi (u) λi (u) du .
0 0

9.6 Théorie du produit intégral (ou produit infini)

Théorème 9.4 — Soit X(s) un processus cadlag, nul en 0, et à variation bornée. On

obtient une mesure additive en posant

X ]s,t] = X(t) − X(s) .

Définition 9.5 — Soit une partition t0 = s < t1 < . . . < tn = t. Son pas est

|δ| = sup |ti − ti−1 | .

Définition 9.6 — On appelle produit intégral (ou produit infini)

t
Ps (1 + dX) = P (1 + dX)
]s,t]
n h
Y i
= lim 1 + X ]ti−1 , ti ]
|δ|→0
1=1

qui est indépendante de la suite des (δ).

Propriété 9.1 — Pour s 6 u 6 t,

P (1 + dX) = P (1 + dX) · P (1 + dX) .

]s,t] ]s,u] ]u,t]

Propriété 9.2 — P ]s,t] est une fonction de t continue à droite.

Processus stochastiques 93
9. PROCESSUS DE COMPTAGE

Propriété 9.3 — P ]s,s] (1 + dX) = 1 et P ]s,t] (1 + dX) −→ 1 (t → s).

Propriété 9.4 — Si X(t) est continu, alors

P (1 + dX) = eX(t) .
]0,t]

Théorème 9.5 — On suppose que P (1 + dX) existe et est une fonction cadlag à
variation localement bornée. Alors c’est l’unique solution de l’équation–intégrale
Z
Y (t) = 1 + Y (s−) X(ds) .
s∈[0,t]

Théorème 9.6 (Duhamel) — Soient Y = P (1 + dX) et Y 0 = P (1 + dX 0 ). Alors

Z
Y (t) − Y 0 (t) = P (1 + dX) · X(ds) − X 0 (ds) · P (1 + dX 0 ) .

s∈[0,t] [0,s) (s,t]

Si Y 0 (t) est non singulière, alors

Y (t)
Z
h i−1
P (1 + dX) · X(ds) − X 0 (ds) · P (1 + dX 0 )

0
− 1 =
Y (t) s∈[0,t] [0,s) [0,s]
Z t
Y (s−)
X(ds) − X 0 (ds) .

= 0
0 Y (s)

Théorème 9.7 (Équation de Voltera) — Soient Z et W des fonctions cadlag. À

W donné, l’unique solution Z de l’équation de Volterra
Z t
Z(t) = W (t) + Z(s−) X(ds)
0

est
Z t
Z(t) = W (t) + W (s−) X(ds) · P (1 + dX)
0 (s,t]
Z t
= W (0) · P (1 + dX) + W (ds) · P (1 + dX) .
[0,t] 0 (s,t]

9.7 Entr’aperçu d’une approche markovienne des pro-

cessus de comptage

Proposition 9.12 — Soit X(t), t ∈ [0,1] un processus de Markov continu à droite et

d’espace d’états fini. Soit N (hj) (t) le nombre de transitions directes de l’état h à l’état j

Processus stochastiques 94
9. PROCESSUS DE COMPTAGE

(h 6= j) dans l’intervalle [0, t]. On suppose que des intensités de transition (de l’état h à
l’état j, h 6= j) localement intégrables existent : soient α(hj) (t) ces intensités.
Alors le processus d’intensité de N par rapport à Ft = σ X(0), N (s), s 6 t est

α(hj) (t) Yh (t)

où Yh (t) = 1 .
X(t−)=h

Remarque — Le processus de comptage N = N (hj) (.), h 6= j et X(0) sont
« équivalents », dans le sens que l’observation de X(u) pour 0 6 u 6 t fournit la même
information que l’observation conjointe de X(0) et de N (u) pour 0 6 u 6 t.

Processus stochastiques 95
Quatrième partie

ÉQUATIONS
DIFFÉRENTIELLES
STOCHASTIQUES

96
10

Introduction

10.1 Existence et unicité de solutions fortes

Équation différentielle stochastique (EDS) :

dX = f (X) dt + g(X) dB(t)
X0 condition initiale

Ceci s’écrit encore

Z t
Z t
X(t) = X0 + f X(s) ds + g X(s) dB(s) .
0 0

f (t, x) est appelée dérive (drift)de l’EDS, et g(t, x) coefficient de diffusionde l’EDS.

Théorème 10.1 — Soient (Ω, A, P), (Bt , t > 0) un (Ft )t -brownien sur Ω, X0
indépendant de (Bt , t > 0). On suppose que
|f (t, x) − f (t, y)| + |g(t, x) − g(t, y)| 6 K|x − y| ∀t, x, y .
Alors il existe une unique solution X de l’EDS — et X ∈ M 2 . C’est une solution forte au
sens où X est une fonction mesurable de X0 et de B.

10.2 Exemples
Ornstein-Uhlenbeck
dVt = −αVt dt + Bt ,
dX = αX dt + σdB
dont la solution est h σ2 i
X(t) = X0 exp σB(t) + (α − )t .
2

97
10. INTRODUCTION

EDS p p
1 + Xt2 + 12 Xt dt

dXt = 1 + Xt2 dBt +
X(0) = X0

q
(shy)0 = chy = 1 + sh2 y
Yt = sh(Bt )
1
Ito : dYt = ch(Bt ) + sh(Bt ) dt
2
1
q
= 2
1 + Yt dBt + Yt dt
2

Xt = sh(Bt + t + ArgshX0 )

Vérification :
1
dXt = ch(Bt + t + ArgshX0 )[ dBt + dt] + sh(Bt + t + ArgshX0 ) dt
2
1
q
= 1 + Xt2 (dBt + dt) + Xt dt .
2

Autre EDS Soit

dx = x2 dt .

Une solution est

x0
x(t) = .
1 − x0 t

Soit
1
X(t) = .
1 − B(t)
1 2 2 1 3
Ito : dXt = dBt + dt
1 − Bt 2 1 − Bt

dXt = Xt2 dBt + Xt3 dt .

10.3 Solutions faibles d’EDS

Une solution faible d’EDS est un triplet (X, B), (Ω, F, P), (Ft )t tel que ∀t,
Z t Z t
Xt = X0 + f (Xs ) ds + g(Xs ) dBs p.s.
0 0

Processus stochastiques 98
10. INTRODUCTION

Proposition 10.1 — Soit b borélienne de R+ × Rd dans Rd telle que |b(t, x)| 6

K(1 + |x|). Soit µ une proba sur Rd . Soit l’EDS dXt = b(t, Xt ) dt + dBt . Alors l’EDS a
une solution faible X de loi initiale µ.

10.3.1 Modèle de Cox – Ingersoll – Ross

√
dXt = c(θ − Xt ) dt + σ Xt dBt
X(0) = x0 > 0
avec c, θ, σ constantes.
Dans le cas où 4cθ = σ 2 , alors X = Y 2 avec
dYt = σ2 dBt − 2c Yt dt

√
Y (0) = x0
qui est un processus d’Ornstein-Uhlenbeck. En effet, d’après Ito,
1
dXt = 2Yt dYt + 2 hdYt , dYt i
2
σ c σ2
= 2Yt dBt − Yt dt + dt
2 2 4
p σ2
= σ Xt + ( − cXt ) dt .
| 4 {z }
c(θ−Xt )

10.3.2 Absolue continuité de la loi de diffusions sous changement

de dérive
On considère 2 EDS :

 dXt = σ(Xt ) dBt + b1 (Xt ) dt (EDS 1)
dYt = σ(Yt ) dBt + b0 (Yt ) dt (EDS 0)
X(0) = Y (0) .


e1 = X ◦ P la loi de X sous P, et P
Soit P e0 = Y ◦ P la loi de Y sous P. On va montrer
que P
e1 << P e0 (et même équivalentes) et calculer

dP
e1
(y) ,
dP
e0

où y = (yt , t 6 T ) ∈ C [0, T ], R .

Soit
hZ T Z T
1 i
Z(T ) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
avec
b1 − b0
h(y) = y.
σ

On définit Q par dQ = Z dP sur Ft (Girsanov). On fait les deux hypothèses suivantes :

Processus stochastiques 99
10. INTRODUCTION

— σ > 0;

— E Z(T ) = 1 (i.e. vrai si martingale).
Sous Q,
Z t
B(t) = B(t) − h(Ys ) ds est un brownien
0

dYt = σ(Yt ) dBt + b0 (Yt ) dt

= σ(Yt ) dB t + b1 (Yt ) dt .

On fait l’hypothèse supplémentaire qu’il existe une unique solution en loi de (EDS 1).
Alors X ◦ P = Y ◦ Q.
D’autre part, Y est sous Q solution de (EDS 1).
Soit ψ : C [0,T ], R → R continue bornée.
Z

ψ dP
e1 = E P ψ(X)
C

= E Q ψ(Y )

= E P ψ(Y )Z

= E P ψ(Y )E P (Z | Y ) .

D’où
hZ T Z T
1 i
Z(t) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
T
hZ dYs − b0 (Ys ) ds 1 T 2
Z i
= exp h(Ys ) − h (Ys ) ds
0 σ(Ys ) 2 0
hZ T Z T
h(Ys ) h(Ys )b0 (Ys ) 1 2 i
= exp dYs − + h (Ys ) ds
0 σ(Ys ) 0 σ(Ys ) 2
. . .et
h(Ys ) b0 (Ys ) 1 2
+ h (Ys )
σ(Ys ) 2

b1 (Ys ) − b0 (Ys ) b0 (Ys ) b1 (ys ) − b0 (Ys )
= +
σ(Ys ) 2 2σ(Ys )
b21 (Ys ) − b20 (Ys )
= .
2σ 2

D’où
T T
b1 (Ys ) − b0 (Ys ) b21 (Ys ) − b20 (Ys ) i
Z Z
h 1
E P Z | Y = exp 2
dYs − ds .
0 σ (Ys ) 2 0 σ 2 (Ys )

Remarque — Si on a des coefficients de diffusion différents, i.e.


 dXt = σ(Xt ) dBt + b(Xt ) dt ,
dYt = τ (Yt ) dBt + b(Yt ) dt ,
X(0) = Y (0) ,


Processus stochastiques 100

10. INTRODUCTION

alors on perd l’absolue continuité — les probabilités deviennent même étrangères.

10.3.3 Équations linéaires

Le premier exemple est le suivant :

dXt = (At Xt + at ) dt + σt dBt
(EDSL)
X(0) = ζ ,
avec X,a ∈ Rd — A, σ ∈ Md×d et B ∈ Rk .

Le deuxième exemple est l’équation différentielle ordinaire linéaire (EDOL) :

dζt = (At ζt + at ) dt .
Une solution fondamentale de l’EDOL est φ ∈ Md×d telle que

φ̇t = At φt
φ0 = Id
On a alors Z t
h i
ζt = φt ζ + φ−1
s as ds .
0
La solution de l’EDSL est
h Z t Z t i
−1
Xt = φ(t) X0 + φ (s)a(s) ds + φ−1 (s)σ(s) dBs .
0 0

D’après Ito :
h Z t Z t i
dXt = φ̇(t) X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs dt
0 0
h Z t Z t i
−1
+φ(t) d X0 + φ (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
h Z t Z t i
= At φt X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
+φt [φ−1 −1
t at dt + φt σt dBt ]
= At Xt dt + at dt + σt dBt
= EDSL .

10.3.4 Autre EDS

dXt = At Xt dt + σt Xt dBt ,
X(0) .
La solution est
t t
hZ σs2
Z i
Xt = X0 exp σs dBs + (As − ) ds .
0 0 2

Processus stochastiques 101

10. INTRODUCTION

10.3.5 Pont brownien

Le brownien est conditionné pour revenir à l’origine à l’instant 1. Notons B(t) = [B(t)−
tB(1)] + tB(1). On a

cov B(1), B(t) − tB(1) = E B(1) · B(t) − E t B 2 (1)

= t−t×1
= 0 .

D’où B(t) est une somme de 2 processus indépendants.

Définition 10.1 — Le processus B(t) − t B(1) 06t61 est appelé pont brownien.

Il est indépendant de B(1) et est noté B10→0 (t) 06t61 . C’est un processus gaussien
centré de covariance
ρ(s, t) = s ∧ t − st .

Illustration — On va regarder BTa→b (t), i.e. le brownien qui part de a et parvient en

b au temps T . Soit
dXt = b−X

T −t dt + dBt ,
t

X(0) = a .
C’est une EDSL ; posons φt = 1 − t/T . La solution est
Z t
t t dBs
Xt = a(1 − ) + b + (T − t) .
T T T −s
| {z0 }
a→b (t)
BT

BTa→b (t) est un processus gaussien centré de covariance

st
ρ(s, t) = s ∧ t − .
T

Processus stochastiques 102

Propriétés des EDS

11.1 Caractère markovien des équations différentielles

stochastiques

11.1.1 Propriété de Markov des solutions des EDS

Introduction Soient (Ω, A, P), (Ft , t > 0) une filtration, Xt , t > 0 un processus adapté
dans Rd .

Définition 11.1 — Le processus X est un processus de Markov par rapport à

(Ft , t > 0) si ∀t > 0, ∀h > 0, ∀A ∈ B(Rd ),

P X(t + h) ∈ A | Ft = P X(t + h) ∈ A | X(t) p.s.

c.-à-d. que la loi du futur, sachant le passé, ne dépend que du présent.

Définition 11.2 — Le processus X est un processus de Markov homogène si la loi

conditionnelle ne dépend que de h (et pas de t). On note Q(h, x; dy) la loi conditionnelle :

P X(t + h) ∈ A | X(t) = x = Q(h, x; A) .

Q : R+ × Rd × B(Rd ) → [0,1]⊗d telle que :

(i) ∀A, (h, x) 7→ Q(h, x; A) est mesurable ;
(ii) ∀h, x, A 7→ Q(h, x; A) est une proba sur Rd .
Z
Q(h x; A) = Q(h, x; dy)
y∈A

Q(h ,x; dy) est une probabilité de transition. Soit 0 = t0 < t1 < . . . < tk . La loi de
X(t1 ), X(t2 ), . . . , X(tk ) partant de X(0) = x est

Q(t1 , x; dx1 ) × Q(t2 − t1 , x1 ; dx2 ) × · · · × Q(tk − tk−1 , xk−1 ; dxk ) .

103
11. PROPRIÉTÉS DES EDS

Proposition 11.1 (Équation de Chapman-Kolmogorov) —

Z
Q(s + t, x; A) = Q(s, x; dy) · Q(t, y; A) .
y∈Rd

Proposition 11.2 — Un F-mouvement brownien est un F-processus de Markov.

Proposition 11.3 — Soit T un F-temps d’arrêt.

W (t) = B(t + T ) − B(T ) , t>0

est un mouvement brownien.

Équations progressive et rétrograde de Kolmogorov Soit

dXt = f (Xt ) dt + g(Xt ) dBt
(EDS)
X 0 ∈ F0 ,

avec f et g globalement lipschitziennes, X ∈ Rd , B ∈ Rk , g = (gij )i6d, l6k . L’unique

solution X de (EDS) est un F-processus de Markov.

Soit l’EDS
0 1
φ (Xt )f (Xt ) + φ00 (Xt )g 2 (Xt ) dt + φ0 (Xt )g(Xt ) dBt .

dφ(Xt ) =
2
Soit
1
Lφ(x) = φ0 (x) f (x) + φ00 (x) g(x)2 .
2
L est l’opérateur différentiel linéaire du second ordre ; c’est le générateur infinitési-
mal de (Xt )t . Dans la cas (général) vectoriel :
Z t k
Z tX
φ(Xt ) = φ(X0 ) + Lφ(Xs ) ds + φ(Xs ) dBl (s) ,
0 0 l=1

avec
d d
1 X ∂2φ X ∂
Lφ(x) = aij (x) + fi (x) φ(x)
2 i,j=1 ∂xi ∂xj i=1
∂x i

Processus stochastiques 104

11. PROPRIÉTÉS DES EDS

où
gg ? = a,

d
X ∂
Ml = gil (x) .
i=1
∂xi

Rt
φ(Xt ) − 0
Lφ(Xs ) ds est :
— une martingale locale si φ ∈ C 2 (Rd , R) ;
— une martingale si φ ∈ Cc∞ (Rd , R).

Z t
Ex φ(Xt ) = φ(x) + E x Lφ(Xs ) ds
0
= Q(t, x; φ)

Z t
Z t
E x Lφ(Xs ) ds = Q(s, x; Lφ) ds
0 0
car
Z
Q(t, x; A) = Q(t, x; dy)
y∈A
Z
φ(y)Q(t, x; dy) = Q(t, x; φ) .

∂t Q(t, x; φ) = Q(t, x; Lφ)

∂
Q(t, x; dy) = L?y Q(t, x; dy)
∂t
où Ly est l’opérateur L pour la variable y et L? l’adjoint de L (transposition).
Z
Q(h, x; Lφ) = Q(t, x; dy) (Lφ)(y) .

d
1 X ∂2 X ∂
L? φ(x) =

aij (x)φ(x) − fi (x)φ(x) .
2 i, j ∂xi ∂xj i=1
∂xi

Prendre l’adjoint est une opération linéaire : si

∂
Kφ(x) = fi (x) φ(x) ,
∂xi
alors K ? ψ est défini par :
Z Z
ψ · Kφ = K ?ψ · φ

k
Z Z
∂ ∂
fi (x) φ(x) · ψ(x) dx = − φ(x) fi (x)ψ(x) dx .
∂xi ∂xi

Processus stochastiques 105

11. PROPRIÉTÉS DES EDS

D’où
∂
K ?ψ = −

fi (x) ψ(x) .
∂xi

On a donc l’équation progressive (forward ) de Kolmogorov :

∂
Q(t, x; dy) = L?y Q(t, x; dy) .
∂t

D’autre part, Q(t, x, dy) → δx quand t & 0.

hZ i
∂t Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)
Z i
L?y Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)

⇔
Z

⇔ Q(t, x; dy) Ly Q(s, y; dz) = ∂t Q(s + t, x; dz) .

On a donc l’équation rétrograde (backward ) de Kolmogorov (pour t = 0) :

∂
Q(t, x; dz) = Lx Q(t, x; dz) .
∂t

11.1.2 Générateurs et EDS

Z t Z t
Xt = X0 + σ(s, Xs ) dBs + b(s, Xs ) ds . (11.1)
0 0

∂φ X h X ∂φ i
dφ(t, Xt ) = + Lt φ (t, Xt ) dt + σil dBl .
∂t i
∂xi
l

d
1X ∂2 X ∂
Lt φ(x) = aij (t, x) φ(x) + bi (t, x) φ(xi ) ,
2 i, j ∂xi ∂xj i=1
∂xi

où a = σσ ? .

Problème de Cauchy
∂

∂t v = −Lt v − kv + g
(Cauchy)
v(T, x) = f (x) (condition finale),

avec v = v(t, x), t ∈ [0, T ], x ∈ Rd , k = k(t, x), g = g(t, x), k > 0.

On fait les hypothèses suivantes :

Processus stochastiques 106

11. PROPRIÉTÉS DES EDS

— b,σ continues sur [0, T ] × Rd et sous-linéaires 1 ;

— l’EDS (11.1) a une unique solution faible ;
— f (x), g(t, x) et k(t, x) sont continues, f et g à croissance sous-polynômiale, i.e.
f (x) + g(t, x) 6 K 1 + |X|λ ;

— a, b et k sont bornées ;
— Lt est uniformément elliptique : ∃δ > 0, ∀t, x,
X
aij (t, x)ζi ζj > δ|ζ|2 .

La solution est la formule de Feynman-Kac

h Z T i Z T h Z s i

v(t, x) = E t, x f (XT ) exp − k(u, Xu ) du + g(s, Xs ) exp − k(u, Xu ) du ds .
t t t

Le problème de Cauchy a une unique solution v telle que v(t, x) 6 c 1 + |x|µ , qui est
donée par la représentation de Feynman-Kac.

Problème de Dirichlet Soient D un ouvert de Rd , b,σ indépendants de t. On cherche

u ∈ C(D) solution de
Lu − ku = −g sur D
u|∂D = f
où f : ∂D → R, g : D → R et k : D → R+ .

On fait les hypothèses suivantes :

— les trois premières parmi celles du problème précédent ;
— a, b, k et g sont hölderiennes ;
— L uniformément elliptique.
Le problème de Dirichlet a une unique solution :
h Z τ i Z τh Z t
i

u(x) = E x f (Xτ ) exp − k(Xs ) ds + g(Xt ) exp − k(Xs ) ds dt ,
0 0 0
c
avec τ = inf{t > 0 : Xt ∈ D }.

Atteignabilité de points Soit

√
dXt = c(θ − Xt ) dt + σ Xt dBt ,
X0 = x > 0 .

Proposition 11.4 — Si 2cθ > σ 2 , alors Xt n’atteind pas 0.

˛ ˛ ` ´
1. Ceci signifie que ˛b(t, x)˛ < K 1 + |x| .

Processus stochastiques 107

11. PROPRIÉTÉS DES EDS

11.2 Équations différentielles stochastiques rétrogrades

Notations — Nous notons :
— | · · · | la norme dans R ;
— k · · · k la norme dans Rd×n .
Les données sont les suivantes :
— B = (Bt )t>0 = (Bt1 , . . . , Btd ) mouvement brownien d-dimensionnel défini sur
(Ω, F, P) ;
— Ft = σ(Bs , s > t) ;
— T temps terminal ;
— la condition finale ζ ∈ L2 (Ω,FT ) est à valeurs dans Rk ;
— la dérive f (ω, t, y, z) de Ω × [0, T ] × Rk × Rk×d est dans Rk .
On fait l’hypothèse que f est lipschitzienne : f ∈ M 2 (0, T ) et ∃K, ∀y, y 0 , z, z 0 , t,

f (t, y, z) − f (t, y 0 , z 0 ) − f (t, y 0 , z 0 ) 6 K |y − y 0 | + kz − z 0 k .

Définition 11.3 — Une équation différentielle stochastique rétrograde

(EDSR) est de la forme
Z T Z T
Yt = ζ + f (s, Ys , Zs ) ds − Zs dBs .
t t

Définition 11.4 — Une solution d’une EDSR(ζ, f ) est un couple (Y, Z) de processus
progressivement mesurables à valeurs dans Rk × Rk×d et vérifiant :
hZ T i
E kZs k2 ds < ∞
0

et
Z T Z T
Yt = ζt + f (s, Ys , Zs ) ds − Zs dBs . (11.2)
t t

On a donc
dYt = −f (t, Yt , Zt ) dt + Zt dBt ,
YT = ζ ,
et donc
Z t Z t
Yt = Y0 − f (s, Ys , Zs ) ds + Zs dBs . (11.3)
0 0

Processus stochastiques 108

11. PROPRIÉTÉS DES EDS

Définition 11.5 — L’équation (11.2) s’appelle l’équation différentielle stochas-

tique rétrograde (backward), tandis que (11.3) est l’équation différentielle stochas-
tique progressive (forward).
De plus,
1) Y0 est déterministe ;
2) Yt est Ft -adapté ;
3) on a :
Z T Z T h Z T i
Zs dBs = ζ + f (s, Ys , Zs ) ds − E ζ + f (s, Ys , Zs ) ds .
0 0 0

Proposition 11.5 (Majoration a priori fondamentale) — Soit (Y, Z) solution

de l’EDSR(ζ, f ). Alors il existe une constante positive c (ne dépendant que de T et k) telle
que
h Z T i Z T
i
E sup |Yt |2 + kZt k2 dt 6 c E |ζ|2 + E f 2 (t, 0, 0) dt . (11.4)
[0, T ] 0 0

Proposition 11.6 — Soit

Z u
Mt = us dBs , t ∈ [0, T ]
0

une martingale locale telle que

Z T
u2s ds < ∞ p.s.
0

On note Mt? = sup[0, T ] |Ms |. Alors, ∀p > 0, il existe une constante cp > 0 telle que
h i h Z t p
i
E (Mt? )p 6 cp E ( u2s ds) 2 .
0

Théorème 11.1 — Sous les mêmes hypothèses que précédemment, il existe une unique
solution à l’EDSR(ζ, f ) vérifiant (11.4).

Proposition 11.7 — (Y, Z) est solution de l’EDSR(ζ, f ) ⇔ (Y, Z) = φ(Y, Z),

2 2
k 2
k×d
où φ est l’application de B = M ([0, T ]) × M ([0, T ]) dans lui-même, qui à
(U, V ) associe φ(U, V ) = (Y, Z) — il s’agit d’un théorème du point fixe.

Théorème 11.2 — Il existe une norme sur B 2 (hilbertienne) telle que φ soit une
contraction stricte : ∀γ > 0,
hZ T 1
γt 2 2
i 2
(Y, Z) γ = E e |Yt | + kZt k dt .
0

Processus stochastiques 109

11. PROPRIÉTÉS DES EDS

Théorème 11.3 (Comparaison) — Soient k = d = 1. Soient (ζ, f ) et (ζ 0 , f 0 )

vérifiant les hypothèses originelles. Supposons que ζ 6 ζ 0 p.s., et que ∀Y, Z ∈ R,

f (t, y, z) 6 f 0 (t, y, z) dt ⊗ dP p.s.

Soient (Y, Z) solution de l’EDSR(ζ, f ) et (Y 0 , Z 0 ) solution de (ζ 0 , f 0 ). Alors

Yt 6 Yt0 t ∈ [0, T ] , p.s.

Proposition 11.8 — Soit (Y, Z) solution de l’EDSR(ζ, f ) sous les hypothèses origi-
nelles. Supposons qu’il existe un temps d’arrêt τ 6 T tel que :
a) ζ soit Fτ mesurable ;
b) f (t,y,z) = 0 sur [τ,T ].
Alors

Yt = Yt∧τ

Zt = 0 sur [τ, T ] .

Proposition 11.9 — Soient, sous les hypothèses originelles, (Y, Z) solution de

l’EDSR(ζ, f ) et (Y 0 , Z 0 ) solution de (ζ 0 , f 0 ). Alors
h Z T i Z T i
2
E sup |Yt − Yt0 |2 + kZt − Zt0 k2 dt 6 c 0 2
E |ζ − ζ | + E f (t, Yt , Zt ) − f 0 (t, Yt , Zt ) dt .
[0, T ] 0 0

11.3 Lien avec les équations aux dérivées partielles

semi-linéaires

11.3.1 Rappel sur la formule de feynman-Kac

Soit ζ = g(XT ), X diffusion construite sur B. Soient :

— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → Rd×d ;
— b et σ sont supposées continues en (t, x) ∈ [0, T ] × Rd ;
— K tel que ∀t, x, y,

|b(t, y) − b(t, x)| + kσ(t, y) − σ(t, x)k 6 K|y − x| .

Processus stochastiques 110

11. PROPRIÉTÉS DES EDS

On considère l’EDS associée :

EDS dXt = b(t, Xt ) dt + σ(t, Xt ) dBt

Soit X.t, x la solution de (EDS) partant de x à l’instant t :

Z s Z s
t, x
Xs = x+ b(u, Xu ) du + σ(u, Xu ) dBu .
t t

Propriété 11.1 — (i) Il y a existence et unicité de X.t,x .

(ii) X.t, x est Fst = σ(Bu − Bt , t 6 u 6 s)-mesurable.
t, x
u, Xu
(iii) Xst, x = Xs , t 6 u 6 s 6 T.

À X on associe un générateur différentiel

d
1X ∂2 X ∂
Lt = (σσ t )ij (t, x) + bi (t, x)
2 i, j ∂xi ∂xj i=1
∂xi

Pt, s f (x) = E f (Xst, x ) .

Proposition 11.10 —
1
Pt, s f (x) − f (x) −→ Lt f (x) .
s s→t

Problème de Cauchy
∂
∂t u(t, x) + a(t, x) = r(t, x)u(t, x) t ∈ [0, T ], x ∈ Rd
(Cauchy)
u(T, x) = φ(x) .
On a :
— φ : Rd → R continue ;
— a, r : [0, T ] × Rd → R continues.
On cherche une solution dans C 1,2 ([0, T ] × Rd ) vérifiant (Cauchy).

On suppose qu’un tel u existe et vérifie l’hypothèse

∂u
| (t, x)| 6 KT 1 + |x|m

(H) m>1.
∂t

On suppose que u vérifie (Cauchy) avec l’hypothèse (H). Alors

h Z T i Z Th Z s i

u(t, x) = E φ(XTt, x ) exp − r(s, Xst, x ) ds + a(s, Xst, x ) exp − r(u, Xut, x )du ds .
t t t

Processus stochastiques 111

11. PROPRIÉTÉS DES EDS

Autre résolution Soient :

— x ∈ Rd ;
— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → R continue par rapport à t et x.
On suppose que

b(t, x) − b(t, y) + σ(t, x) − σ(t, y) 6 K · |x − y| .

Soit (Xst,x )s∈[t, T ] la solution partant de x à l’instant t de l’EDS (?) :

dXst,x = b(s, Xst,x ) ds + σ(s, Xst,x )dBs

(?)
Xtt,x = x

Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p

p> ;
2

— f : [0, T ] × Rd × Rk × Rk×d → Rk déterministe et vérifiant

f (s, x, y, z) − f (s, x, y 0 , z 0 ) 6 K |y − y 0 | + kz − z 0 k

f (t, x, y, z) 6 K 1 + |x|p + |y| + kzk .

Soit l’EDSR
ζ = g(XTt,x )

(??)
f˜(ω, u, y, z) = f (u, Xut,x , y, z)
i.e Z T Z T
Yst,x = g(XTt,x ) + f (u, Xut,x , Yut,x , Zut,x ) du − Zut,x dBu .
s s

Proposition 11.11 — L’EDSR (??) admet une unique solution (Yut,x , Zut,x ), u ∈
[0, T ] pour tout t dans [0,T ].

Proposition 11.12 — Soit (Y t,x , Z t,x ) solution de (??). Alors :

(1) Yst,x est Fst = σ(Br − Bt , t 6 r 6 s)-mesurable ;
(2) Ytt,x est déterministe ;
t,x
t,x t+h, Xt+h
(3) ∀h > 0, Yt+h = Yt+h ;
(4) Soit u(t, x) = Ytt,x : c’est une fonction continue de (t, x) sur [0, T ] × Rd .

Processus stochastiques 112

11. PROPRIÉTÉS DES EDS

Théorème 11.4 (Kolmogorov) — S’il existe q > 1 et γ > 1+1+d (i.e. supérieur
à la dimension des paramètres) tels que
0 0 γ
E |Xst,x − Xst0 ,x |q 6 K |t − t0 | + |s − s0 | + kx − x0 k2d ,

alors il existe une version continue de (t, s, x) 7→ Xst,x . Pour tout p > 1,
0 0
E |Xst,x − Xst0 ,x |2p 6 K |t − t0 |p + |s − s0 |p + kx − x0 k2p

d .

11.3.2 Généralisation de la formule de Feynman-Kac

Théorème 11.5 — Soit w une fonction de classe C 1,2 sur [0, T ] × Rd et à valeurs
dans [0, T ] × Rk telle que w soit solution de

∂t w(t, x) + Lt w(t, x) + f t, x, w(t, x),∇x w(t, x, σ(t, x) = 0 ,
(1)
w(T, x) = g(x) ,

où ∇x est la Jacobienne, i.e. la matrice ∂/∂xi . On suppose que

w(t, x) + ∇x w(t, x)σ(t, x) 6 K 1 + |x| .
Alors
w(t, x) = Ytt,x
h Z T i
= E g(XTt,x ) + f (s, Xst,x , Yst,x , Zst,x ) ds ,
t
t,x t,x
où (Y ,Z ) est la solution de (??). De plus,
Zut,x = ∇x w(u, Xut,x ) σ(u, Xut,x ) .

Nota — L’équation
∂
+ Lt + f (t, x, u, ∇u ) = 0
∂t
est appelée équation semi-linéaire.

11.4 Applications des équations différentielles sto-

chastiques rétrogrades aux solutions de viscosité
d’une famille d’équations aux dérivées partielles non
linéaires du second ordre

11.4.1 Équation projective (forward )

Soient les deux fonctions continues en (t, x) et lipschitziennes en x uniformément en

t suivantes :

Processus stochastiques 113

11. PROPRIÉTÉS DES EDS

— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → Rd×d .
Soit (Bt )t un mouvement brownien de dimension d. Pour tout x ∈ Rd , t ∈ (0, T ],
(X.t,x ) est la solution de (1) partant de x à l’instant t :
Z s Z s
Xst,x = x + b(u, Xut,x ) du + σ(u, Xut,x ) dBu .
t t

11.4.2 Équation rétrogradee (backward )

Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p

p> ;
2

— f : [0, T ] × Rd × Rk × Rk×d → Rk continue et vérifiant

f (s, x, y, z) − f (s, x, y 0 , z 0 )| 6 K |y − y 0 | + kz − z 0 k

f (t, x, y, z) 6 K 1 + |x|p + |y| + kzk .

Soit ζ = g(XTt,x ) où le X.t,x est celui solution de (1). Soit

Z T Z T
Yst,x = g(XTt,x ) + f (u, Xut,x , Yut,x , Zut,x ) du − Zut,x dBu .
s s

On considère l’EDP
∂u
∂t (t, x) + Lt ui (t, x) + fi t, x, u(t, x),(∇uσ)(t, x) = 0,
i

u(T, x) = g(x) , x ∈ Rd ,

où les notations sont les mêmes qu’en page 111 et où u est une fonction de [0, T ]×Rd
dans Rk .

On a donc ∂
+ Lt = −fi ,
∂t
avec fi non linéaire.
On fait l’hypothèse « technique » que fi (t, x, y, z) ne dépend que de la ie ligne de
la matrice z :

| {z }) · (t, x) .
fi t, x, u(t, x),(∇uσ)(t, x) = fi t, x, u(t, x),(∇uσ
∇ui σ

Définition 11.6 — Nous avons :

Processus stochastiques 114

11. PROPRIÉTÉS DES EDS

a) u ∈ C([0, T ] × Rd , Rk ) est une sous-solution de viscosité de l’équation (?)

suivante : (
∂
∂t + L t = −fi
(?)
u(T, x) = g(x)
si
— ui (T, x) 6 gi (x), x ∈ Rd , 1 6 i 6 d,

— ∀i = 1, . . . , k, φ : C 1,2 ([0, T ] × Rd ) → R, pour (t, x) ∈ [0, T ] × Rd

maximum local de ui − φ,
on a
∂φ
− (t, x) − Lt φ(t, x) − fi t,x,u(t,x),(∇φσ)(t, x) 6 0 ;
∂t
b) u ∈ C([0, T ] × Rd ,Rk ) est une sur-solution de viscosité de l’équation (?)
si :
— ui (T, x) > gi (x), x ∈ Rd , 1 6 i 6 d,
— ∀i = 1, . . . , k, φ : C 1,2 ([0, T ] × Rd ) → R, pour (t, x) ∈ [0, T ] × Rd
minimum local de ui − φ,
on a
∂φ
− (t, x) − Lt φ(t, x) − fi t, x, u(t, x),(∇φσ)(t, x) > 0 ;
∂t

b) u ∈ C([0, T ] × Rd ,Rk ) est une solution de viscosité de (?) si c’est une

sur-solution et une sous-solution de viscosité de (?).

Théorème 11.6 — u(t,x) = Ytt,x est une solution de viscosité de (?). Ytt,x est
déterministe et est une fonction continue de (t,x).

Processus stochastiques 115

Statistique des diffusions

12.1 Introduction
Soit
dζt = b(t, ζt ) dt + σ(t, ζt ) dBt ,
ζ0 = η
sur (Ω, A, P).

Théorème 12.1 (A) — Soient les hypothèses suivantes :

(i) b(t, x) et σ(t, x) sont continues sur [0, + ∞[×R ;

(ii) η est une v.a. F0 -mesurable et P |η| < ∞ = 1 ;
(iii) conditions de Lipschitz locales : ∀T > 0, ∀N > 0, ∃LT, N tq ∀t ∈ [0, T ], ∀x, ∀y,

b(t, x) − b(t, y) 6 LT, N |x − y|
|x| 6 N et |y| 6 N =⇒
|σ(t,x) − σ(t,y)| 6 LT, N |x − y| ;

(iv) croissance sous-linéaire : ∀T > 0, ∃KT , ∀t ∈ [0, T ], ∀x ∈ R,

b(t, x) + σ(t, x) 6 KT 1 + |x| ;

(v) E (η 2m ) < ∞ pour un m > 1.

Sous les conditions (ii), (iii) et (iv), l’EDS admet un processus solution (ζt , t > 0)
défini sur Ω et tel que :
a) ζ0 = η et la trajectoire (ζt , t > 0) est p.s. continue ;
b) (ζt )t est Ft −adapté (i.e. est solution forte) ;
c) si ζ 1 et ζ 2 sont deux processus solutions vérifiant a) et b), alors

P(∀t > 0, ζt1 = ζt2 ) = 1 .

Si, de plus, (v) est vérifiée, alors ∀t > 0, E (ζt2m ) < ∞.

116
12. STATISTIQUE DES DIFFUSIONS

Théorème 12.2 (B) — Soit l’EDS unidimensionnelle réelle

dζt = b(ζt ) dt + σ(ζt ) dBt ,
ζ0 = η .

Soient les hytpothèses suivantes :

(i) η est F0 -mesurable et |η| < ∞ p.s. ;
(ii) b est lipschitzienne sur R, σ est hölderienne d’exposant α ∈ [ 12 , 1] : ∃K >
0,∀x, y ∈ R,
b(x) − b(y) 6 K · |x − y|
|σ(x) − σ(y)| 6 |x − y|α ;

(iii) E (η 2 ) < ∞.
Alors on a le même résultat qu’au théorème précédant (et sous (iv), E (ζt2 ) <
∞, ∀t).

Théorème 12.3 — Sous les hypothèses des théorèmes A et B, la loi de probabilité

PT du processus solution (ζt , t > 0) ne dépend que des fonctions b(t, x),σ(t, x) et de
la loi µ de la v.a. η.

Théorème 12.4 — Soient les hytpothèses suivantes :

(i) ∀θ, les fonctions (t, x) → b(t, x) et (t, x) → σ(t, x) satisfont les hypothèses
des théorèmes A et B ;

(ii) P σ(t, ζtθ ) > 0, ∀t ∈ [0, T ] = 1, ∀θ ∈ Θ.
Alors ∀θ,θ0 ∈ Θ, les lois PTθ et PTθ0 sont équivalentes et
"Z #
T
dPTθ b(t, Xt , θ) − b(t, Xt , θ0 ) 1 T b2 (t, Xt , θ) − b2 (t, Xt , θ0 )
Z
(x) = exp dXt − dt .
dPTθ0 0 σ 2 (t, Xt ) 2 0 σ 2 (t, Xt )

La fonction de vraisemblance associée à l’observation (ζt , t > 0) est

"Z #
T
1 T b2 (s, ζs , θ)
Z
b(s, ζs , θ)
θ 7−→ LT (θ) = exp dζs − ds .
0 σ 2 (s, ζs ) 2 0 σ 2 (s, ζs )

Définition 12.1 — L’estimateur θb de θ0 est dit faiblement consistant si

P
θb −→ θ0 (T → +∞) .

Définition 12.2 — L’estimateur θb de θ0 est dit fortement consistant si

p.s.
θb −→ θ0 (T → +∞) .

Processus stochastiques 117

12. STATISTIQUE DES DIFFUSIONS

Théorème 12.5 — Soit Z t

Mt = Hs dBs
0

avec (Ht )t processus progressivement mesurable. Alors :

(i) si
Z ∞
hM i∞ = Hs2 ds
0
= +∞ p.s.

alors
Mt p.s.
−→ 0 (t → +∞) ;
< M >t
(ii) si
hM iT P
−→ σ 2 (T → +∞) ,
φ(T )
où φ est une fonction déterministe, croı̂ssante, tendant vers +∞ quand T
tend vers +∞, alors
M L
p T −→ N (0 , σ 2 ) (T → +∞) .
φ(T )

P
(Si σ 2 = 0, alors √MT −→ 0).
φ(T )

Remarque — Ce résultat reste valable pour le cas multidimensionnel.

12.2 Processus d’Ornstein-Uhlenbeck

Soit
dζt = θ0 ζt dt + dBt ,
ζ0 = x0 .
L’estimateur du maximum de vraisemblance (EMV) est
RT
ζs dζs
θbT = R0T
ζ 2 ds
0 s
RT
ζs dBs
= θ0 + R0 T .
0 s
ζ 2 ds

Proposition 12.1 — Si θ0 < 0, alors

1 T 2
Z
L2 1
ζs ds −→ (T → +∞) .
T 0 2|θ0 |

Processus stochastiques 118

12. STATISTIQUE DES DIFFUSIONS

Corollaire 12.1 — θbT est fortement consistant et

√ L
T θbT − θ0 −→ N 0, 2|θ0 | (T → +∞) .

Proposition 12.2 — Nous avons :

1) si θ0 = 0,
R1
L Bu dBu
T · θbT −→ R0 1 ,
0
Bu2 du
où (Bu )u est le brownien ;
2) si θ0 > 0, on pose

e2θ0 − 1
mT (θ0 ) =
2θ0

et
Z +∞
Z = x0 + e−θ0 s dBs ;
0

alors
Z T
1 L1
ζs2 ds −→ Z 2 (T → +∞)
mT (θ0 ) 0

1 L U
mT (θ0 ) 2 θbT − θ0 −→
Z

et
Z T
1 L
ζs2 ds) 2 θbT − θ0

( −→ N (0, 1) ,
0

1
où (U, Z) N (0, 1) ⊗ N (x0 , 2θ0 ).

12.3 Markov et les diffusions

On étudie
dζt = b(ζt ) dt + σ(ζt ) dBt ,
ζ0 = η ,
avec :
— b et σ de classe C 1 sur R ;
— ∃K > 0, ∀x ∈ R, b2 (x) + σ 2 (x) 6 K(1 + x2 ).

Théorème 12.6 — (ζt , t > 0) est un processus de Markov de probabilité de

transition homogène dans le temps, ne dépendant que de b et σ, i.e. :

Processus stochastiques 119

12. STATISTIQUE DES DIFFUSIONS

(i) propriété de Markov : ∀A ∈ B(R), 0 6 s < t,

P(ζt ∈ A | Fs ) = P(ζt ∈ A | ζs ) ;

(ii) propriété d’homogénéité :

P(ζt ∈ A | ζs = x) = Pt−s (x; A) ,

où Pt (x; dy) est la probabilité de transition.

Notation — Nous notons :

Pt (x; dy) = pt (x, y) dy .

pt (x, y) est la densité de transition.

Proposition 12.3 — Nous avons :

Z
1 1
lim E ζt+h − ζt | ζt = x = lim (y − x) ph (x, y) dy
h→0 h h→0 h
= b(x) .

Cette quantité est appelée moyenne infinitésimale .

Proposition 12.4 — Nous avons :

Z
1 1
E (ζt+h − ζt )2 | ζt = x = lim (y − x)2 ph (x, y) dy

lim
h→0 h h→0 h

= σ 2 (x) .

Cette quantité est appelée variance infinitésimale .

Définition 12.3 — Soit f ∈ Cb (R).

= E f (ζtx )

Pt f (x)

= E f (ζt ) | ζ0 = x .

On appelle générateur infinitésimal du processus (ζt )t l’opérateur

1
Lf (x) = lim Pt f (x) − f (x)
t→0 t
lorsque cette limite existe.

2
Théorème 12.7 — Si f ∈ CK (R), alors

1 2
Lf (x) = σ (x) f 00 (x) + b(x) f 0 (x) .
2

Processus stochastiques 120

12. STATISTIQUE DES DIFFUSIONS

Définition 12.4 — µ, loi de probabilité sur R, est une distribution stationnaire

pour (ζt )t si
ζ0 µ =⇒ ∀t, ζt µ.

Théorème 12.8 — Nous avons :

Z
2
µ distribution stationnaire =⇒ ∀f ∈ CK (R), Lf (x) dµ(x) = 0 .

Théorème 12.9 — On suppose σ 2 (x) > 0, ∀x ∈ R,R σ de classe C 2 , b de classe

C 1 . Soit h : R → R de classe C 2 , positive et telle que R h(x) dx = 1. Alors

h(x) dx = µ(x) dx

est une distribution stationnaire pour (ζt )t ssi

1 2 00
hσ − (hb)0 = 0 .
2

Définition 12.5 — Le facteur intégrant du processus est

Z x
h b(u) i
s(x) = exp − 2 du .
σ 2 (u)

Définition 12.6 — Le facteur d’échelle du processus est

Z x
S(x) = s(u) du .

Théorème 12.10 — Si

lim S(x) = +∞ ,
x→+∞

lim S(x) = −∞
x→−∞

et si
Z
dx
M = < ∞,
σ 2 (x)s(x)

alors
dx
µ(x) =
M σ 2 (x)s(x)
est une distribution stationnaire.

Processus stochastiques 121

12. STATISTIQUE DES DIFFUSIONS

Soit I = (l, r), − ∞ 6 l < r 6 +∞, tel que :

— σ 2 (x) > 0, ∀x ∈ I ;
— b de classe C 1 sur I ;
— σ de classe C 2 sur I.

Définition 12.7 — Soient x, y ∈ I. Le temps d’atteinte de y est défini par

Tx, y = inf{ t > 0, ζtx = y } .

Le temps d’explosion est défini par

ex = inf{ t > 0, ζ ∈
/ (l, r) } .

Proposition 12.5 —

∀x, y ∈ I, P(Tx, y < ∞) > 0 .

Théorème 12.11 — Soient l < a < x < b < r et

T = inf{ t > 0, ζtx = a ou b }

= Tx, a ∧ Tx, b .

Alors

P(T < ∞) = 1

P(ζTx = a) = P(Tx, a < Tx, b )

S(b) − S(x)
=
S(b) − S(a)

P(ζTx = b) = P(Tx, b < Tx, a )

S(x) − S(a)
= .
S(b) − S(a)

Théorème 12.12 — Nous avons :

S(l+ ) = −∞

=⇒ ∀x, y ∈ I, P(Tx, y < ∞) = 1 .
S(r− ) = +∞

Le processus est alors dit récurrent sur I. De plus,

P(ex = +∞) = 1 .

Processus stochastiques 122

12. STATISTIQUE DES DIFFUSIONS

Remarque — Nous avons :

Z r
+
S(l ) = −∞ ⇐⇒ s(u) du = −∞ ,
Z
S(r− ) = +∞ ⇐⇒ s(u) du = +∞ .
l

Théorème 12.13 — Soient l < a < x < b < r et T = Tx, a ∧ Tx, b . Soit u la
fonction de classe C 2 et définie sur I par

Lu = −1 ,
u(a) = u(b) = 0 .

Alors

u(x) = E (T )
( Z b Z x )
S(x) − S(a) S(b) − S(u) S(b) − S(x) S(u) − S(a)
= 2 du + du .
S(b) − S(a) x σ 2 (u)s(u) S(b) − S(a) a σ 2 (u)s(u)

Théorème 12.14 — Si

S(l+ ) = −∞ ,
S(r− ) = +∞

et si
Z r
du
M = < ∞,
l σ 2 (u)s(u)

alors ∀x, y ∈ I
E (Tx, y ) < ∞ .
Le processus est alors dit récurrent positif sur I.

du
m(u) du =
σ 2 (u)s(u)
est appelée mesure de vitesse.

Théorème 12.15 — Si un processus est récurrent positif, alors il admet une unique
distribution stationnaire, qui est donnée par

m(x)
π(x) dx = 1l1{x∈I} dx .
M

Théorème 12.16 — Nous avons :

Processus stochastiques 123

12. STATISTIQUE DES DIFFUSIONS

1) quelle que soit la loi initiale pour (ζt , t > 0),

L
ζt −→ π (t → +∞) ;

2) quelle que soit la loi initiale pour (ζt , t > 0),

Z T Z
1 p.s.
f (ζs ) ds −→ f (x) π(x) dx (T → +∞)
T 0 I
R
dès que I
f (x) π(x) dx < ∞.

12.3.1 Étude des estimateurs du maximum de vraisemblance

On étudie les solutions de l’équation

lT (θbT ) = sup lT (θ) .

θ∈Θ

Tout d’abord, on cherche les hypothèses pour que

P |θbT − θ0 | > h −→ 0 (T → +∞) .

On note K(.) les hypothèses suivantes :

(K1) Θ est un compact de Rp ;
(K2) θ 7→ lT (θ) admet une version continue sur Θ ;
(K3) il existe une v.a. ZT et une fonction β(η) telle que ∀θ, θ0 ∈ Θ,
1
|θ − θ0 | 6 η ⇒ lT (θ) − lT (θ0 ) 6 β(η) ZT ,
T
avec β(η) → 0 (η → θ) et ZT convergeant en proba quand T tend vers
l’infini ;
(K4) soit Z r b(u, θ ) − b(u, θ) 2
0
K(θ0 , θ) = πθ0 (u) du ;
l σ(u)
alors
θ 6= θ0 ⇔ K(θ0 , θ) < ∞ (hypothèse d’identifiabilité) ;
(K5) θ 7→ K(θ0 , θ) est continue.

Proposition 12.6 — On a, sous (K4),

1 p.s. 1
lT (θ0 ) − lT (θ) −→ K(θ0 , θ) (T → ∞) .
T 2

Nota — La fonction θ 7→ − T1 lT (θ) est une fonction de contraste.

Processus stochastiques 124

12. STATISTIQUE DES DIFFUSIONS

Théorème 12.17 — Sous les hypothèses K(i), i = 1, . . . , 5, on a ∀h > 0,

P |θbT − θ0 | > h −→ 0 (T → ∞) .

Problématique — Il s’agit de vérifier que θ 7→ lT (θ) admet une version continue en

θ.
T T
b2 (θ, ζs )
Z Z
b(θ, ζs ) 1
θ 7→ dζs − ds .
0 σ 2 (ζs ) 2 0 σ 2 (ζs )

Le second terme peut être traité par le théorème classique de Lebesgue. Le premier vaut
Z T
b(θ, ζs ) h i
2
b(θ0 , ζs ) ds + σ(ζs ) dWs .
0 σ (ζs )

Question :
Z T
θ 7→ MT (θ) = φ(θ, t, ζt ) dWt
0
admet-elle une version continue ?

Théorème 12.18 (Kolmogorov) — ∃γ > 0, > 0, c > 0 tels que ∀θ, θ0 ,

γ
E MT (θ) − MT (θ0 ) 6 c · |θ − θ0 |p+ ,

où Θ ⊂ Rp . Par conséquent, θ 7→ MT (θ) admet une version continue en θ.

On fait les hypothèses supplémentaires suivantes :

◦
(K6) θ0 , vraie valeur du paramètre, appartient à Θ ;
◦
(K7) les fonctions b0θi (x, θ) et b00θi θj (x, θ) sont définies et continues sur (l, r) × Θ et
T b0θi (ζs , θ0 )
Z
∂lT
(θ0 ) = dζs − b(ζs , θ0 ) ds ,
∂θi 0 σ 2 (ζs )
T b0 T b0θi (ζs , θ0 )b0θj (ζs , θ0 )
∂ 2 lT θi θj (ζs , θ0 )
Z Z

(θ0 ) = dζs −b(ζs , θ0 ) ds − ds ;
∂θi ∂θj 0 σ 2 (ζs ) 0 σ 2 (ζs )

(K8) l’information de Fischer est I(θ0 ) = Iij (θ0 ) ij avec
Z r b0θi (u, θ0 )b0θj (u, θ0 )
Iij (θ0 ) = πθ0 (u) du ;
l σ 2 (u)

I(θ0 ) est bien définie et inversible ;

(K9) soit
Z r b00θi θj (u, θ0 )
Jij (θ0 ) = πθ0 (u) du ;
l σ 2 (u)

Processus stochastiques 125

12. STATISTIQUE DES DIFFUSIONS

(K10) on a
1 00 00 P
sup |l (θ0 ) − lT,θ (θ0 + α)| −→ 0 (T → ∞) .
|α| T T,θi , θj i , θj

Remarque — Si Θ ⊂ R, (K8) équivaut à

r 2
b0θ (u, θ0 )
Z
I(θ0 ) = πθ0 (u) du .
l σ 2 (u)

Proposition 12.7 — On a :
1)
1 ∂ L
√ lT (θ0 ) −→ Np 0, I(θ0 ) (T → ∞) ;
T ∂θi i=1,..., p

2)
∂2

1 P
√ lT (θ0 ) −→ −I(θ0 ) (T → ∞) .
T ∂θi ∂θj 1<i, j<p

Théorème 12.19 — Sous K(i), i= 1 . . . , 10,

√ L
T (θb − θ0 ) −→ Np 0, I(θ0 ) (T → ∞) .

12.4 Estimateurs empiriques

On suppose (ζt , t > 0) récurrent positif.

R
Théorème 12.20 (Ergodicité) — Si f : (l, r) → R, borélienne et telle que I
|f | dπ <
∞, alors
Z T Z
1 p.s.
f (ζs ) ds −→ f (x) π(x,θ0 ) dx ,
T 0 I
quelle que soit la loi de ζ0 .

Théorème
R 12.21 (Convergence Ren loi) — Si f : (l, r) → R, borélienne et telle que
d’une part I |f | dπ < ∞, d’autre part I f dπ = 0 , alors
Z T
1 L
√ f (ζs ) ds −→ N 0, Vθ0 (f ) ,
T 0

à condition que Vθ0 (f ) soit finie.

Processus stochastiques 126

12. STATISTIQUE DES DIFFUSIONS

Soit
Z x
Af (x, θ0 ) = f (u) π(u, θ0 ) du .
l

Alors
Z
Vθ0 (f ) = 4M (θ0 ) s(x, θ0 ) A2 f (x, θ0 ) dx
I

avec
Z
M (θ0 ) = m(x, θ0 ) dx ,
I

1
m(x, θ0 ) =
σ 2 (x)s(x, θ0 )

et
Z x
b(u, θ0 )
s(x, θ0 ) = exp − 2 du .
x0 σ 2 (u)

R Corollaire 12.2 — Soient R f1 , . . . , fk : I → R, continues et telles que d’une part

I
|fi |π < ∞, d’autre part I fi dπ = 0. Alors
Z T
1 L

√ fi (ζs ) ds −→ N 0, Vθ0 (fi , fj ) 16i, j6k ,
T 0 i=1,..., k

à condition que Vθ0 (fi ) soit finie, pour i = 1, . . . , k.

Théorème 12.22 — Soit f : I → R, continue et telle que f (x) 6 K 1 + |x|γ avec
Z
|x|γ πθ0 (x) dx < ∞ .
I

Si Z Z x 2
1 + |u|γ πθ0 (u) du

s(x, θ0 ) dx < ∞
l l
et si Z r Z r 2
1 + |u|γ πθ0 (u) du

s(x, θ0 ) dx < ∞,
x
alors
Vθ0 (f ) < ∞ .

Soit θbT l’EMV et θe un autre estimateur de θ. Posons

l0 (θ)
e
θT = θeT −
bb
l00 (θ)
e

(méthode de Newton au premier pas). Si θbT est consistant et si :

Processus stochastiques 127

12. STATISTIQUE DES DIFFUSIONS

1. √ L
N 0, I −1 (θ0 )

T θbT − θ0 −→ ;

2. θbT −→ θ0 ;
√
3. T θeT − θ0 converge en loi,
alors √ P
T θbT − θbT −→ 0 (T → ∞)
b

et donc √ L
N 0, I −1 (θ0 )

T θbT − θ0 −→ .
b

Processus stochastiques 128

Cinquième partie

MODÈLE LINÉAIRE
GÉNÉRALISÉ

129
13

Introduction

13.1 Modèle linéaire classique

Le vecteur Y des observations a n composantes qui sont indépendamment distribuées,

et de moyenne µ. La part systématique du modèle est la spécification de µ en fonction de
paramètres β1 , . . . ,βp :
Xp
µ= xj βj .
j=1

i.e.

E(yi ) = µi
Xp
= xij βj ,
j=1

où xij est la valeur de la j e covariable pour l’observation i. L’erreur du modèle suit une
N (0,σ 2 ).
Le vocabulaire est le suivant :
— la composante aléatoire : les composantes de Y ont des distributions normales
indépendantes d’espérances µi et de variance commune σ 2 ;
— la composante systématique : les covariables x1 , . . . ,xp engendrent un prédicteur
linéaire η donné par :
X p
η= xj βj
j=1

— le lien entre composantes aléatoires et systématique est

η=µ.

130
13. INTRODUCTION

13.2 Modèle linéaire général

Soit yij , j = 1, . . . ,n les n observations faites sur le ie sujet ; est associé au vecteur des
observations un vecteur de p covariables xijk , k = 1, . . . ,p. On suppose que les yij sont les
réalisations de v.a. Yij , suivant le modèle
Yij = β1 xij1 + .. + βp xijp + ij .
Les erreurs sont ici corrélées. Si l’on note σ 2 V la matrice bloc-diagonale composée de
n × n blocs σ 2 V0 , chacun représentant la matrice de variance-covariance du vecteur de
mesures chez un sujet, le modèle s’écrit
Y N (Xβ , σ 2 V ) . (13.1)

13.2.1 Estimation par les moindres carrés ordinaires

L’estimateur des moindres carrés ordinaire β̂ minimise la forme quadratique
(y − Xβ)t (y − Xβ) .
Il est égal à
β̂ = (X t X)−1 X t y
et
Var(β̂) = σ 2 (X t X)−1 X t V X(X t X)−1 .

13.2.2 Estimation par les moindres carrés pondérés

L’estimateur des moindres carrés pondérés (weighted least-squares estimator) de
β, qui utilise une matrice symétrique de pondération W , est la valeur βeW qui minimise la
forme quadratique
(y − Xβ)t W (y − Xβ) .
Le résultat explicite est
βeW = (X t W X)−1 X t W y . (13.2)
Cet estimateur est sans biais, quel que soit le choix de W . Sa variance vaut
Var(βeW ) = σ 2 (X t W X)−1 X t W V W X(X t W X)−1 .

(13.3)
Si W = I, matrice d’identité, alors on retrouve l’estimation par les moindres carrés
ordinaires. Si W = V −1 , l’estimateur devient
βb = (X t V −1 X)−1 X t V −1 y (13.4)
et
b = σ 2 (X t V −1 X)−1 .
Var(β)
La notation « chapeau » anticipe sur le fait que βb est l’estimateur du maximum de
vraisemblance de β sous l’hypothèse de normalité du modèle (13.1). Cette remarque laisse
suggérer que l’estimateur des moindres carrés pondérés le plus efficace est celui pour lequel
W = V −1 .

Processus stochastiques 131

13. INTRODUCTION

13.2.3 Estimation par le maximum de vraisemblance sous l’hypo-

thèse de normalité
On estime simultanément les paramètres d’intérêt, soient β,σ 2 et V0 . Sous l’hypothèse
de normalité (cf. (13.1)), la log-vraisemblance vaut
1n 1 o
L(β, σ 2 ,V0 ) = − nm log(σ 2 ) + m log |V0 | + 2 (y − Xβ)t V −1 (y − Xβ) .

(13.5)
2 σ
Pour une matrice V0 donnée, l’estimateur du maximum de vraisemblance de β est
l’estimateur des moindres carrés pondérés vu en (13.4), soit

b 0 ) = (X t V −1 X)−1 X t V −1 y .
β(V (13.6)

Son expression insérée dans (13.5), on obtient

b 0 ), σ 2 ,V0 ) = − 1n 1 o
nm log(σ 2 ) + m log |V0 | + 2 RSS(V0 ) ,

L(β(V
2 σ
où
RSS(V0 ) = (y − Xβ)t V −1 (y − Xβ) .
La dérivation de (13.6) par rapport à σ 2 donne l’estimateur du maximum de vraisem-
blance de σ 2 , toujours à V0 fixé :

RSS(V0 )
b2 (V0 ) =
σ . (13.7)
nm
L’introduction de (13.6) et (13.7) dans (13.5) donne une log-vraisemblance réduite pour
V0 qui, à un terme constant près, vaut

b2 (V0 ),V0

Lr (V0 ) = L β(V b 0 ), σ
1n o
= − n log RSS(V0 ) + log |V0 | . (13.8)
2

Finalement, la maximisation de Lr (V0 ) donne Vb0 et par suite, au travers de (13.6) et

(13.7), on obtient également βb ≡ β( b2 ≡ σ
b Vb0 ) et σ b2 (Vb0 ).
En utilisant la vraisemblance pour les estimations simultanées de β,σ 2 et V0 , la forme
de la matrice X intervient explicitement dans l’estimation de σ 2 et V0 . Une conséquence
de ceci est que, si nous supposons une forme incorrecte pour X, nous n’obtiendrons pas
d’estimateurs consistants pour σ 2 et V0 . Aussi, une stratégie est d’élaborer un modèle com-
plet pour les profils des réponses moyennes qui incorpore la structure de covariance des
données. Quand, par exemple, les données proviennent d’une expérimentation planifiée (de-
signed experiment), et qu’il n’y a pas de covariable continue, il est recommandé d’introduire
un paramètre séparé pour la réponse moyenne à chaque temps de contrôle du traitement,
ce qui s’appelle un modèle saturé pour les profils de réponse moyenne. Ceci garantit des
estimateurs consistants de la structure de covariance.
Cette stratégie n’est pas toujours praticable. En particulier, lorsqu’il existe une ou
plusieurs covariables continues, nous devons décider d’introduire cette (ces) covariable(s)
sous forme d’un effet linéaire, ou quadratique, ou sous une autre forme non-linéaire. Dans
ce cas, le concept de modèle saturé ne tient plus.
Même s’il est praticable, le modèle saturé pose un autre problème. Pour g traitements
et n temps d’observations, il requiert p = n × g paramètres, et si ce nombre est relativement
important, les estimateurs du maximum de vraisemblance pour σ 2 et V0 seront sérieusement
biaisés. Par exemple, nous savons que lorsque V0 = I, un estimateur sans biais de σ 2 exige

Processus stochastiques 132

13. INTRODUCTION

un diviseur égal à (nm − p), plutôt que le diviseur nm vu en (13.7) — ce problème étant
encore davantage exacerbé par la structure d’autocorrélation des données.
Aussi est-il nécessaire d’utiliser une matrice X présentant un grand nombre de colonnes
pour obtenir des estimateurs consistants de la structure de covariance, alors même qu’une
estimation non biaisée exige un faible nombre de colonnes pour X.
Pour remédier à ce problème, nous devons considérer d’autres méthodes d’estimation.
Parmi elles, la méthode du maximum de vraisemblance restreint.

[Link] Estimation par le maximum de vraisemblance restreint

La méthode du maximum de vraisemblance produit des estimateurs biaisés ; par
exemple, dans le modèle le plus classique, soit

Y N (Xβ , σ 2 I) , (13.9)

l’estimateur du maximum de vraisemblance de σ 2 est

RSS
b2 =
σ ,
nm
où RSS est le somme des carrés résiduelle. Cet estimateur est biaisé ; l’estimateur usuel
sans biais est
RSS
σe2 = ,
nm − p
où p est le nombre d’éléments de β.
Dans cet exemple, σ e2 est l’estimateur du maximum de vraisemblance restreint
(REML) (restricted maximum likelihood estimation) de σ 2 concernant le modèle (13.9).
Dans le cadre plus général d’un modèle

Y N (Xβ , σ 2 V ) , (13.10)

l’estimateur REML est défini comme étant l’estimateur du maximum de vraisemblance

basé sur une transformation linéaire du jeu de donnée : soit

Y ? = AY ,

de telle sorte que la distribution de Y ? ne dépende pas de β. Un moyen est de choisir pour
A la matrice qui transforme Y en résidus des moindres carrés ordinaires :

A = I − X(X t X)−1 X t . (13.11)

Alors Y ? a une distribution normale multivariée, centrée et singulière, quelle que soit
la valeur de β. Pour obtenir une distribution normale centrée régulière, on peut utiliser
uniquement mn − p lignes de la matrice A définie en (13.11).
Les estimateurs résultant pour σ 2 et V0 ne dépendent cependant pas du choix des
lignes retenues, ni non plus du choix particulier de la matrice A : toute matrice telle que
E(Y ? ) = 0 pour tout β donnera la même solution.
Pour les calculs, on réabsorbe σ 2 dans V , si bien que le modèle se réécrit

Y N (Xβ , H) , (13.12)

où H ≡ H(α), avec α vecteur de paramètres. Soit A telle qu’en (13.11) et B la matrice
nm × (nm − p) telle que
BtB = I ,

Processus stochastiques 133

13. INTRODUCTION

où I est la matrice identité de dimension (nm − p) × (nm − p). Finalement, soit
Z = BtY .
À α fixé, l’estimateur du maximum de vraisemblance de β est l’estimateur des moindres
carrés généralisés
βb = (X t H −1 X)−1 X t H −1 Y
= GY .
Les densités de probabilité de Y et βb sont respectivement
1 1 n 1 o
f (y) = √ p exp − (y − Xβ)t H −1 (y − Xβ)
( 2π)nm |H| 2

b = √1
p n 1 o
g(β) |X t H −1 X| exp − (βb − β)t (X t H −1 X)(βb − β) .
( 2π)p 2

On a E(Z) = 0 ; de plus, Z et βb sont indépendants, quelle que soit la valeur de β. On

démontre que l’estimateur REML α e maximise la log-vraisemblance
1 1 1
L? (α) = − log |H| − log |X t H −1 X| − (y − X β)
b t H −1 (y − X β)
b ,
2 2 2
tandis que l’estimateur du maximum de vraisemblance α
b maximise la log-vraisemblance
1 1 b t H −1 (y − X β)
L(α) = − log |H| − (y − X β) b .
2 2
Ainsi, l’algorithme du REML incorpore uniquement une modification de celui du maxi-
mum de vraisemblance.
Revenons un instant au modèle de la section précédante. Si l’on considère m unités et
n observations par unité, et si σ 2 V est une matrice bloc-diagonale faite de n × n blocs non
nuls σ 2 V0 (représentant chacun la matrice de variance-covariance des mesures faites sur une
unité), alors à V0 donnée,
b 0 ) = (X t V −1 X)−1 X t V −1 y
β(V (13.13)
b 0 ))t V −1 (y − X β(V
RSS(V0 ) = (y − X β(V b 0 ))

et l’estimateur REML de σ 2 est

RSS(V0 )
σ
e(V0 ) = , (13.14)
nm − p
où p est le nombre d’éléments de β.

L’estimateur REML de V0 maximise la vraisemblance

1 n o 1
L? (V0 ) = − m n log RSS(V0 ) + log |V0 | − log |X t V −1 X| .

(13.15)
2 2

Finalement, en insérant dans (13.13) et (13.14) le résultat V

f0 obtenu par (13.15), on
obtient les estimateurs REML
βe = β(
bV f0 )

Processus stochastiques 134

13. INTRODUCTION

e2 = σ
σ b2 (V
f0 ) .

Nota — La différence entre L(V0 ) et L? (V0 ) réside dans l’addition du terme
1
2log |X t V −1 X| . La matrice X t V −1 X est une matrice p × p. Aussi la différence entre
maximum de vraisemblance ordinaire et REML est-elle importante quand p est grand.

13.2.4 Estimation robuste des écarts-types

L’idée essentielle de l’approche robuste de l’inférence concernant β est d’utiliser l’esti-
mateur des moindres carrés généralisé βe défini en (13.2) par

βe = (X t W X)−1 X t W y , (13.16)
en conjonction avec une matrice de variance-covariance estimée
o n
bW = (X t W X)−1 X t W Vb W X(X t W X)−1 ,

R (13.17)

où Vb est consistante pour V , quelle que soit la vraie structure de covariance. Notons que
dans (13.17), σ 2 a été réabsorbé dans V .
Pour l’inférence, nous procédons comme si
βe N (β , R
bW ) . (13.18)
Dans cette approche, on appelle W −1 la matrice de covariance de travail, afin de
la distinguer de la vraie matrice de covariance V . Typiquement, nous pouvons utiliser une
forme simple pour W −1 qui « capture » la structure qualitative de V .
Quoi qu’il en soit, un choix quelconque pour W affectera seulement l’efficacité de nos
inférences concernant β, mais pas leur validité. En particulier, les intervalles de confiance
et les tests d’hypothèses issus de (13.18) seront asymptotiquement corrects, quelle que soit
la vraie forme de V .
Notons que les équations (13.2) et (13.3) ne changent pas si les éléments de W sont
multipliés par une constante, si bien qu’il serait strictement correct de dire que W −1 est
proportionnel à la matrice de covariance de travail.
Quand le modèle saturé n’est pas envisageable (présence d’une covariable continue), il
n’est pas possible d’obtenir une expression explicite de l’estimateur REML de V0 . Dans
ce cas, on ne fait aucune hypothèse au sujet de la forme de V0 ; on utilise une matrice X
correspondant au modèle le plus élaboré que nous avons pu préparer concernant la réponse
moyenne ; enfin l’on obtient l’estimateur REML Vb0 via une maximisation numérique qui est
en (13.15).
Pour des inférences robustes concernant β, on substitue dans (13.17) Vb et on utilise
(13.18). Si l’on désire tester des hypothèses linéaires concernant β, on peut utiliser l’ap-
proche standard du modèle linéaire général. Ainsi, si l’on désire tester l’hypothèse Qβ = 0,
où Q est une matrice q × p avec q < p, on déduit de (13.18) que

QβbW bW Qt ) .
N (Qβ , QR
Une statistique est alors
t
T = βbW bW Qt )−1 QβbW ,
Qt (QR (13.19)
qui suit un χ2 (q).

Processus stochastiques 135

Modèle linéaire généralisé

14.1 Présentation
La généralisation consiste en deux points :
— la distribution de la composante aléatoire n’est plus nécessairement normale — elle
est cependant issue de la famille exponentielle — ;
— le lien devient une fonction de lien, i.e.

η = g(µ) ,

avec g monotone et différentiable.

L’expression générale est
n y θ − b(θ ) o
i i i
fY (yi ; θi ,φ) = exp + c(yi ,φ)
a(φ)
pour des fonctions spécifiques a, b et c.
Notons l(θi ,φ; yi ) = log f (yi ; θi ,φ) = li la contribution de la ie observation à la log-
vraisemblance. On a :
yi θi − b(θi )
l(θi ,φ; yi ) = + c(yi ,φ)
a(φ)
∂li yi − b0 (θi )
⇒ = (14.1)
∂θi a(φ)
00
∂ 2 li b (θi )
et = − . (14.2)
∂θi2 a(φ)

Théorème 14.1 —
∂l
E( ) = 0, (14.3)
∂θ0
∂l 2 ∂2l
E[( ) ] = −E( 2 ) . (14.4)
∂θ0 ∂θ0
où θ0 est la vraie valeur du paramètre.

136
14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Démonstration
–1–

Z
f (y; θ)dy = 1
Z
∂f (y; θ)
⇒ 0 = dy
∂θ
Z
∂ log f (y; θ)
= f (y; θ)dy
∂θ
∂l
= E( ) .
∂θ
–2–
D’après (14.1),

∂l ∂l
Var( ) = E[( )2 ] .
∂θ ∂θ
D’autre part, en dérivant l’équation du 1,
Z 2 Z
∂ log f (y; θ) ∂ log f (y; θ) ∂f (y; θ)
0 = 2
f (y; θ)dy + dy
∂θ ∂θ ∂θ
∂l ∂2l
⇒ E[( )2 ] = −E( 2 )
∂θ ∂θ
= A(θ) (notation) .

A(θ) est la matrice d’information de Fisher.

D’après (14.1) et (14.3),

E(yi ) = b0 (θi )
= µi (notation) . (14.5)

D’après (14.2) et (14.4),

Var(yi ) = b00 (θi )a(φ) . (14.6)

La variance se décompose en une partie ne dépendant que de θ (et donc de la moyenne),

que l’on nommera fonction de variance et que l’on notera V (µ), et une partie dépendant
uniquement de φ. La fonction a(φ) est souvent de la forme

φ
a(φ) = ,
w
où φ, noté encore σ 2 et appelé paramètre de dispersion, est constant sur les observa-
tions, et w un poids a priori, connu donc, et qui varie d’une observation à l’autre.
θi est une fonction de µ :
−1
θ i = b0 [g −1 (ηi )] = h(ηi ) = h0 (µi ) .

Une fonction de lien pour laquelle θ = η est appelée fonction de lien canonique.

Processus stochastiques 137

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Table 14.1 — Quelques lois.

Nom Normale Poisson Binomiale Gamma Inverse Gaussienne

1
Notation N (µ,σ 2 ) P(µ) B(m,π) G(µ,ν) IG(µ,σ 2 )
m

1
φ σ2 1 ν −1 σ2
m

θ2 √
b(θ) eθ log(1 + eθ ) − log(−θ) − −2θ
2

eθ 1 1
µ(θ) = E(Y ; θ) θ eθ − √
1 + eθ θ −2θ

1 1
θ(µ) µ log(µ) logit(µ)
µ µ2

V (µ) 1 µ µ(1 − µ) µ2 µ3

14.1.1 Les équations de vraisemblance

Si l’échantillon est composé de n observations indépendantes, alors la log-vraisemblance

de l’échantillon est égale à
n
X
L(β) = log f (yi ; θi ,φ)
i=1
Xn
= li .
i=1

Pour obtenir les équations de vraisemblance, nous calculons

∂li ∂li dθi dµi ∂ηi
= .
∂βr ∂θi dµi dηi ∂βr

En utilisant (14.1), (14.4), (14.5) et (14.6), on obtient

∂li (yi − µi )xir ∂µi
= . (14.7)
∂βr Var(yi ) ∂ηi

Processus stochastiques 138

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Pour maximiser la log-vraisemblance, on annule le système des p équations de vraisem-

blance égal à  n
 X (yi − µi )xi1 ∂µi = 0


Var(yi ) ∂ηi



 i=1

..
.
n

−


 X (y i µ i )xip ∂µi

 = 0
Var(yi ) ∂ηi


i=1

Ces équations n’étant en général pas des fonctions linéaires de β, il est nécessaire d’uti-
liser des méthodes itératives afin d’estimer β̂.
Déterminons maintenant les termes de la matrice d’information de Fisher :
∂2l
∂li ∂li

i
E = −E
∂βr ∂βs ∂βr ∂βs

(yi − µi )xir ∂µi (yi − µi )xis ∂µi
= −E (14.8)
Var(yi ) ∂ηi Var(yi ) ∂ηi
xir xis ∂µi 2
= .
Var(yi ) ∂ηi

En généralisant ce résultat à l’échantillon, on obtient :

∂ 2 L(β)
ars = −E
∂βr ∂βs
n
X xir xis ∂µi 2
= . (14.9)
i=1
Var(yi ) ∂ηi

La matrice d’information de Fisher est donc de la forme

A = X 0W X , (14.10)

où W est une matrice diagonale d’éléments

1 ∂µi 2
wi = . (14.11)
Var(yi ) ∂ηi

14.1.2 Algorithmes

[Link] Algorithme de Newton-Raphson

Cet algorithme est basé sur le développement de Taylor, au second ordre et par rapport
à β, du gradiant de la log-vraisemblance. Soit β (a) la ae approximation de β̂ et considérons
le développement de Taylor
∂L
0 =
∂β β (a)
∂L ∂2L
≈ + (β̂ − β (a) ) .
∂β β (a) ∂β∂β 0 β (a)

Processus stochastiques 139

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

alors
∂ 2 L −1 ∂L

β̂ − β (a) ≈ −
∂β∂β 0 ∂β β (a)
(a)
= δ (notation).

On peut ainsi construire une nouvelle valeur estimée

β (a+1) = β (a) + δ (a) .

δ (a) peut constituer un critère d’arrêt en stoppant l’algorithme quand δ (a) est suffisam-
ment petit. Si l’on note u(a) le vecteur gradiant et H (a) la matrice Hessienne calculés à la
ae itérations, on obtient la relation

β (a+1) = β (a) − (H (a) )−1 u(a) .

[Link] Relation entre la méthode du scoring de Fisher et la méthode des

moindres carrés pondérés itératifs (IRLS)
Dans l’algorithme de Fisher, la matrice Hessienne H (a) est remplacée par moins la
matrice d’information de Fisher A(a) :

β (a+1) = β (a) + (A(a) )−1 u(a) .

En multipliant les deux termes de l’équation par A(a) , on obtient

A(a) β (a+1) = A(a) β (a) + u(a) . (14.12)

En utilisant (14.9), la partie de droite de (14.12) devient

p n 2 n (a)
X X xir xis ∂µi (a) (a) X (yi − µi )xir ∂µi (a)
βs + ,r = 1, . . . ,p.
i=1 i=1
Var(yi ) ∂ηi i=1
Var(yi ) ∂ηi

ce qui peut s’exprimer sous la forme

A(a) β (a) + u(a) = X t W (a) z (a) ,

où W (a) est W en (14.10) évalué en β (a) , et z (a) est constitué des éléments
p ∂η (a)
(a) (a)(a) i
X
zi = + (yi − µi )
xij βj
i=1
∂µ i
∂η (a)
(a) (a) i
= ηi + (yi − µi ) ,i = 1, . . . ,n. (14.13)
∂µi

En utilisant (14.10) pour A(a) , (14.12) peut s’exprimer par

(X t W (a) X)β (a+1) = X t W (a) z (a) .

Ce sont les équations normales de la méthode des moindres carrés pondérés

pour résoudre un modèle linéaire ayant comme variable dépendante z (a) , comme variable
indépendante la matrice X, et une matrice des poids W (a) . La solution des équations est

β (a+1) = (X t W (a) X)−1 X t W (a) z (a) . (14.14)

Processus stochastiques 140

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

z est une forme généralisée de la fonction de lien g(µ) évaluée en y :

g(yi ) ≈ g(µi ) + (yi − µi )g 0 (µi )
∂ηi
= ηi + (yi − µi )
∂µi
= zi .
Ainsi, à chaque itération on calcule z (a) et W (a) pour obtenir une nouvelle estimation
(a+1)
β de β. Cette estimation permet de calculer un nouveau prédicteur linéaire η (a+1) , et
donc une nouvelle variable dépendante ajustée, ainsi que de nouveaux poids. D’où le nom
de méthode des moindres carrés pondérés itératifs.
Asymptotiquement, l’inverse de la matrice d’information de Fisher constitue une esti-
mation de la matrice de variance-covariance de β̂, et par suite
Cov (β̂) = (X t Ŵ X)−1 .

14.1.3 Simplification lors de l’utilisation d’un lien canonique

n
X
θi = g(µi ) = βj xij .
j=1

En utilisant le fait que η = Xβ, on obtient

∂µi ∂µi
=
∂ηi ∂θi
∂b0 (θi )
=
∂θi
= b00 (θi )
Var(yi )
= .
a(φ)
(14.7) devient
∂li (yi − µi )xij
= .
∂βj a(φ)
De plus, la matrice hessienne H est égale à moins la matrice d’information de Fisher :
en effet, en utilisant (14.8),
∂ 2 li (yi − µi )xir (yi − µi )xis
=
∂βr ∂βs a(φ) a(φ)
Var(yi )xir xis
=
a(φ)2
et
2
∂ li xir xis Var(yi ) 2
−E( ) = ( )
∂βr ∂βs Var(yi ) a(φ)
Var(yi )xir xis
= .
a(φ)2

Ceci implique que les algorithmes de Newton-Raphson et du scoring de Fisher sont

identiques.

Processus stochastiques 141

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

14.1.4 Ajustement
— La log-vraisemblance vaut l(µ,y) = log f (y,θ) ; le critère d’ajustement est la dé-
viance pondérée
D? (y,µ) = −2[l(µ,y) − l(y,y)] ,
qui suit un χ2 ;
— la statistique de Pearson :
P
2 (y − µ̂)
X = ,
V (µ̂)

qui est la mesure d’ajustement de Pearson.

14.1.5 Étude des résidus

Deux types de résidus sont particulièrement utilisés :
— le résidu de Pearson, défini par
y − µ̂i
rp i = p ;
V (µ̂i )

la somme des carrés des résidus de Pearson est égale au χ2 d’ajustement de Pearson ;
— le résidu de la déviance, défini par
p
rD i = signe(yi − µ̂i ) di .

14.2 Données binaires

On note
P(Yi = 1−) = πi .
L’objectif est de rechercher la relation entre la probabilité de réponse π = π(x), et les
covariables x = (x1 , . . . ,xp ). On suppose que cette dépendance de π vis-à-vis des xi est
contenue dans la combinaison linéaire
p
X
η = g(π) = xj βj .
j=1

À moins que des restrictions ne soient faites sur β, on a −∞ < η < +∞. Aussi, étant
donné que π est une probabilié, il faut une transformation g(π) qui transforme l’intervalle
[0,1] en ] − ∞, + ∞[. Trois fonctions sont usuellement employées :
— la fonction logistique :
π
g(π) = log ;
1−π
— la fonction probit ou fonction inverse normale :

g(π) = Φ−1 (π) ;

Processus stochastiques 142

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

— la fonction log-log complémentaire :

g(π) = log − log(1 − π) .

Nota — Dans la cas du modèle logistique, on a bien que

P
exp j xj βj
π= P .
1 + exp( j xj βj )

La log-vraisemblance vaut
n h
X πi i
l(π; y) = yi log( ) + mi log(1 − πi ) ,
i=1
1 − πi

où mi est le nombre d’individus dans le groupe i.

n
∂l X yi − mi πi dπi
= xir
∂βr π (1 − πi ) dηi
i=1 i
∂l
= X t (Y − µ) .
∂β
L’information de Fisher pour β vaut
∂2l X mi ∂πi ∂πi
−E =
∂βr ∂βs i
πi (1 − πi ) ∂βr ∂βs
n ∂π 2
X mi i
= xir xis
i=1
πi (1 − πi ) ∂ηi
= {X t W X}rs ,

en utilisant la forme matricielle vue en (14.10), avec

mi ∂π 2
i
wi =
πi (1 − πi ) ∂ηi
= mi πi (1 − πi ) .

car
∂πi ∂πi ∂ηi
xir =
∂ηi ∂ηi ∂βr
∂πi
=
∂βr
Pp
exp j=1 xij βj
= xir Pp
2
[1 + exp j=1 xij βj ]

= xir πi (1 − πi ) .

Processus stochastiques 143

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

14.2.1 Méthode itérative de Newton-Raphson

On se donne β̂0 , et l’on calcule π̂0 et η̂0 . On calcule alors, à partir de ces variables,
yi − mi π̂i dηi
zi = η̂i + .
mi dπi

Les estimateurs du maximum de vraisemblance vérifient

X t W X β̂ = X t W Z ,

que l’on peut résoudre par itérations en utilisant la méthode standard des moindres carrés.
On obtient
−1
β̂1 = (X t W X) X t W Z .

Propriétés 14.1 —

E(β̂ − β) −→ 0 (n → ∞) ,
−1
Cov (β̂) −→ (X t W X) (n → ∞) .

La fonction de déviance vaut

D(y,π̂) = 2 l(π̃; y) − l(π̂; y)
Xn yi mi − yi o
= 2 yi log( ) + (mi − yi ) log( ) .
i
µ̂i mi − µ̂i

14.2.2 Méthode du scoring de Fisher

On constitue la variable dépendante ajustée (14.13)
∂η (a)
(a) (a) (a) i
zi = ηi + (yi − µi )
∂µi
(a)
(a) yi − mi πi
= ηi + (a) (a)
.
mi πi (1 − πi )

Le système peut alors être résolu en utilisant (14.14).

14.3 Modèle linéaire généralisé à effets mixtes

14.3.1 Définition
Un GLM à effets mixtes peut se définir à partir d’un GLM de la façon suivante. Sup-
posons que l’on ait K observations (y1 , . . . ,yK ) de Y, telles que

Y =µ+e,

Processus stochastiques 144

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

où e est un vecteur de termes d’erreur de moyenne nulle et de matrice de variance-covariance

V . Considérons la part systématique η = g(µ) du GLM, et définissons-la comme étant égale
à

η = Xβ + B1 b1 + · · · + Bn bn , (14.15)

où :
— η est un vecteur de dimension K × 1 ;
— X est la matrice de dimension K × p des covariables dont les valeurs sont connues ;
— β est un vecteur inconnu d’effets fixes, de dimension p × 1 ;
— Bi , i=1,. . .,n, est une matrice connue de dimension K × qi ;
— bi , i=1,. . .,n, est un vecteur inconnu d’effets aléatoires et de dimension qi × 1.

14.3.2 Estimation des paramètres

Contrairement aux GLM traditionnels ou aux modèles à effets mixtes linéaires, il
n’existe pas de méthode « standard » dans ce contexte. Nous détaillerons l’approche de
Anderson et Aitkin.
Considérons le modèle (14.15) où les Bi sont
P des vecteurs deP dimension K × 1 dont
e e
toutes les composantes sont nulles sauf Pnde la ( ki−1 + 1) à la ( ki ) composante, et les
bi sont des scalaires. Il est clair que i=1 ki = K. Dans le contexte des mesures répétées,
en utilisant les mêmes notations que dans la partie 3, le prédicteur ηit , c’est-à-dire du ie
sujet au temps t s’écrit
p
X
ηit = xitj βj + bi .
j=1

Il est clair que ce modèle comporte un seul effet aléatoire qui est constant pour un
individu donné. La conséquence est que, conditionnellement à bi , les observations yit sont
indépendantes. Ces modèles sont dénommés modèles avec ordonnée à l’origine aléa-
toire.
On peut remarquer que si b est distribué suivant une loi normale N (0,σ 2 ) où σ 2 re-
présente la composante de variance associée à b, alors le coefficient de corrélation
intra-classe ρ est
σ2
ρ= .
1 + σ2
La matrice D est alors bloc-diagonale avec des sous-matrices Di de type exchangeable
correlation. Notons de plus que bi = σai où a est distribué suivant une loi normale centrée
réduite. Dans ce cas, le prédicteur du ie sujet au temps t s’écrit
p
X
ηit = xitj βj + σai .
j=1

La log-vraisemblance du modèle s’exprime alors comme suit :

n
X nZ +∞ ki o
Y
˜l(β,σ)

= log f (yit ; β,σ) v(ai )dai , (14.16)
i=1 −∞ t=1

où v(ai ) est la fonction de densité d’une loi normale centrée réduite.

Processus stochastiques 145

14. MODÈLE LINÉAIRE GÉNÉRALISÉ

Anderson et Aitkin montrent que les paramètres β et σ peuvent être estimés par l’EM
algorithm. Pour utiliser cet algorithme, il est nécessaire de définir la log-vraisemblance
complète, c’est-à-dire en supposant que a est connu. La log-vraisemblance complète est
alors
ki
n X
X
l(β,σ) = log f (yit ; β,σ)v(ai ) . (14.17)
i=1 t=1

L’EM algorithm est un algorithme itératif constitué de deux phases exécutées alternati-
vement :
— la première phase est la phase d’estimation de l’algorithme (E-step) où est esti-
mée non pas la vraisemblance complète, mais l’espérance de celle-ci, et condition-
nellement aux données observées et aux estimations courantes des paramètres du
modèle ;
— la seconde est la phase de maximisation de l’algorithme (M-step) qui consiste à
trouver les quantités β̂ et σ̂ qui maximisent l’espérance de l(β,σ).
R +∞
En pratique, l’algorithme nécessite de résoudre des intégrales du type −∞ f (.)v(a)da.
Anderson et Aitkin proposent d’utiliser une procédure d’intégration numérique par quadra-
ture de Gauss. La procédure nécessite de se fixer un nombre q de points d’intégration. On
peut alors obtenir à partir de tables ou de routines les coordonnées aq et les pondérations
Aq utilisées dans l’intégration numérique.

Processus stochastiques 146

Sixième partie

ÉQUATIONS D’ESTIMATION
GÉNÉRALISÉES

147
15

Quasi-vraisemblance

15.1 Vraisemblance marginale

Il s’agit d’éliminer les paramètres de nuisance. Si θ est le paramètre d’intérêt et β celui
de nuisance, on élimine β de la vraisemblance en travaillant avec l’ensemble de contrastes

R = (I − PX )Y
−1
I − X(X t X) Xt Y ,

=

de moyenne nulle et dont la distribution ne dépend pas de β.

15.2 Vraisemblance conditionnelle

On utilise la densité conditionnelle de Y sachant le paramètre d’intérêt.

15.3 Quasi-vraisemblance
On suppose que les composantes du vecteur Y sont indépendantes, de moyenne µ et de
matrice de covariance σ 2 V (µ), où σ 2 est inconnu et V (µ) connue. Le paramètre d’intérêt β
se rattache à la dépendance de µ vis-à-vis des covariables x. Peu importe la nature de cette
relation : nous noterons simplement µ(β). σ 2 est supposé constant — i.e. ne dépendant pas
de β. Puisque les composantes de Y sont supposées indépendantes, la matrice V (µ) doit
être diagonale :
V (µ) = diag V1 (µ), . . . ,Vn (µ) .
On suppose de plus que Vi (µ) ne dépend que de la ie composante de µ :

V (µ) = diag V1 (µ1 ), . . . ,Vn (µn ) .

148
15. QUASI-VRAISEMBLANCE

On considère une unique composante de Y . D’après ce qui précède, la fonction

U = u(µ; Y )
Y −µ
=
σ 2 V (µ)
n
X yi − µi
= 2 V (µ )
.
i=1
σ i

a les propriétés de log-vraisemblance (14.3) et (14.4) :

E(U ) = 0,
1
Var(U ) = ,
σ 2 V (µ)
∂U 1
−E = 2
.
∂µ σ V (µ)

Définition 15.1 — L’intégrale

µ
y−t
Z
Q(µ; y) = dt ,
y σ 2 V (t)

si elle existe, est la fonction de quasi-vraisemblance de µ, basée sur la donnée y. C’est

en réalité la fonction de log-quasi-vraisemblance.
Puisque les composantes de Y sont indépendantes, la quasi-vraisemblance complète vaut
n
X
Q(µ; y) = Qi (µi ; yi ) .
i=1

Définition 15.2 — La fonction de quasi-déviance est

D(y; µ) = −2σ 2 [Q(µ; y) − Q(y; y)]

Z µ
y−t
= −2 dt ,
y V (t)

qui est indépendante de σ 2 .

L’objectif est de maximiser Q, ou encore d’annuler les dérivées premières U (β) de Q

par rapport à β. Il est nécessaire de calculer
∂Qi ∂Qi ∂µi
=
∂βr ∂µi ∂βr
= Ui Dir ,
∂µi
avec D matrice n × p, d’éléments Dir = .
∂βr
Exprimé sous forme matricielle, le système à résoudre est de la forme
1 t
U (β) = D V (µ)−1 (Y − µ) , (15.1)
σ2

Processus stochastiques 149

15. QUASI-VRAISEMBLANCE

qui est appelée fonction de quasi-score.

∂U (β)
La matrice de covariance de U (β), qui est aussi E , est
∂β
1 t −1
iβ = DV D. (15.2)
σ2

Pour les fonctions de quasi-vraisemblance, cette matrice joue le même rôle que l’infor-
mation de Fisher pour les fonctions de vraisemblance ordinaire.

Théorème 15.1 — On suppose que :

(i) la dérivée troisième de µ(β) existe ;
(ii) les 3 premiers moments de la distribution de Y existent ;
(iii) iβ /n converge vers une matrice définie positive quand n tend vers l’infini.
Alors
L
1
β̂ −→ N β , .
iβ

Théorème 15.2 — Soient deux hypothèses HA et HB emboı̂tées, avec dimA < dimB.
Alors, sous HA , la différence en déviance

D(µ̂B ,µ̂A ) = D(y,µ̂A ) − D(y,µ̂B )

suit asymptotiquement une loi du χ2 à B − A degrés de liberté.

15.4 Méthode de Newton-Raphson

Commençant avec une valeur arbitraire β̂0 suffisamment proche de β̂, la méthode de
Newton-Raphson conduit à
−1
β̂1 = β̂0 + (D̂0t V̂0−1 D̂0 ) D̂0t V̂0−1 (y − µ̂0 ) .

15.5 Méthode de Fisher

Pour estimer les β̂, on utilise l’algorithme de Fisher, ce qui donne l’expression
1
β (a+1) = β (a) + (a)
iβ u(a)
= β (a) + (D(a)t V (a)−1 D(a) )−1 D(a)t V (a)−1 (y − µ(a) ) , (15.3)

laquelle peut s’exprimer sous la forme

(D(a)t W (a) D(a) )β (a+1) = (D(a)t W (a) Z (a) ) , (15.4)

Processus stochastiques 150

15. QUASI-VRAISEMBLANCE

où W (a) = V (a)−1 et Z (a) est une variable dépendante ajustée égale à

D(a) β (a) + (y − µ(a) ) .

On peut remarquer que σ 2 n’intervient pas dans l’estimation des β̂. L’estimation de σ 2
ne peut se faire par un calcul de vraisemblance ; il est généralement estimé directement sur
l’échantillon à partir de la statistique de Pearson généralisée
n
2 1 X yi − µ̂i
σ̃ = . (15.5)
n − p i=1 Vi (µ̂i )

15.6 Conditions d’application

Le concept de quasi-vraisemblance est utilisé dans deux types de situation :
— l’étude de modèles pour lesquels la connaissance de la distribution de Y se limite
aux deux premiers moments (en particulier lorsque V (µ) = 1 – variance constante –
ou lorsque V (µ) = µ2 – coefficient de variation constant) ;
— l’extension de la famille exponentielle naturelle par l’introduction d’un paramètre
de supra-dispersion.
Mais le concept de quasi-vraisemblance exclue la prise en compte de corrélation entre
les observations. D’où l’introduction, par Liang et Zeger (1986), du concept d’équations
d’estimation généralisées (GEE), qui sont la généralisation de la notion de quasi-
vraisemblance à des observations dépendantes.
Une autre limitation de la méthode de quasi-vraisemblance est que la forme de la
fonction de variance est supposée connue. Une extension, appelée quasi-vraisemblance
étendue (extended quasi-likelihood ), a été proposée par Nelder (1987). Dans ce modèle,
la fonction de variance est paramétrée. Les propriétés de cette méthode ont été récemment
étudiées par simulation (Nelder, 1992).

Processus stochastiques 151

Équations d’estimation généralisées

16.1 Modèle
On note yit la réponse observée chez le ie sujet au temps t, et xitj la valeur de la
j covariable mesurée chez le ie sujet au temps t. Nous supposerons que l’échantillon est
e

constitué de n sujets
P et que l’on observe p covariables aux temps ki . La dimension de Y est
donc égale à K = i ki , et celle de X est égale à K × p.
Les équations d’estimation généralisées (GEE) permettent de modéliser l’espé-
rance marginale de yit , soit E(yit ) = µit . C’est une méthode qui fournit des estimations
« moyennées » sur la population. En utilisant le même raisonnement que pour la quasi-
vraisemblance, définissons la variance de yit et la fonction de lien reliant µit aux cova-
riables :

Var(yit ) = φν ∗ (µit )
g ∗ (µit ) = X tβ∗ .

β ∗ mesure l’effet d’une covariable sur la réponse moyenne au niveau de la population,

et non un effet individuel.
Notons 0 0 t
µi = g ∗ −1 (xi1 β ∗ ), · · · ,g ∗ −1 (xiki β ∗ )

et notons Ai une matrice diagonale de dimension ki × ki dont les éléments diagonaux sont
constitués par les ν ∗ (µi ). Sous l’hypothèse d’indépendance des observations chez le même
sujet,
Cov (yi ) = φ Ai .
Le plus souvent, cette hypothèse n’est guère soutenable ; on définit alors une matrice de
corrélation, dite « de travail » Ri α dépendant d’un vecteur α de paramètres inconnus.
Pour estimer β ∗ , Liang et Zeger proposent de résoudre un système d’équations analogues
aux équations de quasi-vraisemblance (15.1) :
n
X
U (β ∗ ) = Di Vi−1 (α)(yi − µi ) = 0 (16.1)
i=1

152
16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

où
0
∂µi
Di =
∂β ∗
et
p p
Vi (α) = φ Ai Ri (α) Ai .
Liang et Zeger montrent que, sous les conditions d’une spécification correcte de µi et
les conditions usuelles de régularité, βˆ∗ est un estimateur consistant et asymptotique-
ment gaussien de β ∗ (n → ∞). En particulier, ces propriétés sont respectées même en
cas de mauvaise spécification de Vi .

16.2 Estimation des paramètres

Pour estimer les paramètres, on alterne une phase d’estimation de β ∗ fondé sur l’algo-
rithme de Fischer, et une phase d’estimation de α et φ par la méthode des moments.

16.2.1 Estimation de β ∗
En utilisant les valeurs courantes des estimations α(a) et φ(a) , on en déduit en utilisant
une démarche analogue à (15.2) que
X n X n
∗(a+1) ∗(a) (a) t (a) −1 (a) (a) t (a) −1 (a)
β =β + Di [Vi (α)] Di Di [Vi (α)] (yi − µi ) . (16.2)
i=1 i=1

Dans le cas où k1 = · · · = kn = k, en s’inspirant de (15.3), l’équation ci-dessus peut

s’exprimer sous forme matricielle
t t
∆(a) W (a) ∆(a) β (a+1) = ∆(a) W (a) Z (a) .

(16.3)

16.2.2 Estimations de α et φ
Pour estimer α et φ, on utilise, comme dans le cas de la quasi-vraisemblance, les résidus
de Pearson définis pour le ie individu par
yi − µ̂i
r̂i = √ . (16.4)
Ai
φ se définit de façon analogue à (15.4) par
Pn 0
r̂i r̂i
φ̂ = Pi=1 n . (16.5)
i=1 ki

Pour estimer α, l’approche générale consiste consiste à utiliser des fonctions simples
concernant les termes de covariance des résidus, de la forme
n
X r̂iu r̂iv
R̂uv = .
i=1
n−p

Processus stochastiques 153

16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

Plusieurs formes de matrices de variance-covariance peuvent être spécifiées, la plus

simple étant la matrice identité (dans ce dernier cas, l’estimation de β est identique à celle
de l’estimation sous hypothèse d’indépendance des observations, à l’exception toutefois de
la variance. . . ceci sera vu un peu plus loin). Une autre possibilité est de supposer la matrice
de corrélation connue et d’en spécifier les coefficients. À l’opposé, on peut considérer la
matrice de corrélation comme inconnue et estimer ses composantes qui sont de la forme
R̂uv
R̂uv (α) = .
φ̂
Nous verrons plus loin quelques formes courantes de matrices de corrélation.

16.2.3 Estimation de la variance de βˆ∗

En utilisant (15.2), une estimation naı̈ve de la variance de β ∗ est fournie par
φ̂
Cov (β̂ ∗ ) = P .
n (a) t (a) −1 (a)
i=1 ∆i Vi (α) ∆i
Liang et Zeger montrent que
Vβ̂ ∗ = M0−1 M1 M0−1 , (16.6)
où
n
X
M0 = ˆ t V̂ −1 ∆
∆ ˆi ,
i i
i=1
n
X
M1 = ˆ ti V̂ −1 (yi − µ̂i )(yi − µ̂i )t V̂ −1 ∆
∆ ˆi .
i i
i=1

Vβ̂ ∗ est consistante même lorsque Cov (yi ) 6= Vi .

16.3 Différentes matrices de travail R(α)

Quelques matrices de corrélation sont présentées en fin de chapitre.
I La première famille est la famille des matrices de corrélation non stationnaire d’ordre
m. Elles s’écrivent 
 1 si u = v
R(α)uv = αuv si |u − v| ≤ m
0 si |u − v| > m


Chaque α̂ij peut s’exprimer par

n
X r̂iu r̂iv
α̂ij = .
i=1 φ̂(n − p)

I La deuxième famille est celle des matrices de corrélation stationnaires d’ordre m.

Notons t = |u − v|. La matrice de corrélation est ici égale à

 1 si t = 0
R(α)uv = αt si t ≤ m
0 si t > m


Processus stochastiques 154

16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

et une estimation de α̂ij peut s’exprimer par

k−t
X α̂u,u+t
α̂t = .
u=1
k−t

I Une autre possibilité est de considérer α comme étant le même pour tout couple
(u,v), u 6= v (cas d’une exchangeable correlation). Liang et Zeger proposent d’estimer α par
Pn P
r̂iu r̂iv
α̂ = Pni=1 1 u>v .
φ i=1 2 ki (ki − 1) − p

Toutes ces matrices peuvent s’exprimer sous la forme

T (α̂)
R(α̂) = , (16.7)
φ̂

où T (α) est une matrice qui ne dépend pas de φ. La conséquence en est alors que le terme
φ disparaı̂t dans l’expression de Vi , ce qui entraı̂ne que les estimations de β̂ ∗ et Var(β̂ ∗ ) ne
dépendent plus de φ.

I La dernière famille de matrices de corrélation est constituée par les matrices tradui-
sant une corrélation autorégressive d’ordre 1. La corrélation entre deux mesures est alors
de la forme
α|u−v| .
On peut estimer α par la moyenne des coefficients de corrélation calculés sur chaque
série. Il faut noter que dans cette situation, R(α̂) n’est pas décomposable suivant (16.7), car
il fait intervenir φ̂ à la puissance −|u − v|. En revanche, cette situation s’accommode bien
d’un nombre variable de mesures, ainsi que d’intervalles non constants entre les mesures.

   
1 0 0 0 0 1 α12 α13 α14 α15

 0 1 0 0 0 


 α12 1 α23 α24 α25 


 0 0 1 0 0 


 α13 α23 1 α34 α35 

 0 0 0 1 0   α14 α24 α34 1 α45 
0 0 0 0 1 α15 α25 α35 α45 1

independance unstructured

   
1 α12 α13 0 0 1 α1 α2 0 0

 α12 1 α23 α24 0 


 α1 1 α1 α2 0 


 α13 α23 1 α34 α35 


 α2 α1 1 α1 α2 

 0 α24 α34 1 α45   0 α2 α1 1 α1 
0 0 α35 α45 1 0 0 α2 α1 1

not stationnary (order 2) stationnary (order 2)

Processus stochastiques 155

16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES

α2 α3 α4
   
1 α α α α 1 α

 α 1 α α α 


 α 1 α α2 α3 


 α α 1 α α 


 α2 α 1 α α2 

 α α α 1 α   α3 α2 α 1 α 
α α α α 1 α4 α3 α2 α 1

exchangeable correlation autoregressive (order 1)

Figure 16.1 — Quelques matrices de travail.

16.4 Extensions des GEE

Plusieurs développements autour de la méthodologie GEE ont été proposés. Thall et
Vail (1990) et Paik (1992) ont développé des modèles où la matrice de variance-covariance
peut être paramétrée par des covariables. Paik montre que l’ignorance d’une hétérogénéité
de la variance (par exemple un phénomène d’hétéroscédasticité en fonction du temps) se
traduit par une perte d’efficacité pour l’estimation des β.
Rotnitzky et Jewell (1990) construisent des tests de signification de type test du score
ou test de Wald dans le contexte des GEE. Ils proposent également un test ajusté basé sur
la déviance calculée sous l’hypothèse d’indépendance des observations.
Citons enfin l’article de Zeger, Liang et Albert (1988) qui expose un modèle de type
subject-specific à partir de la méthodologie des GEE.

Processus stochastiques 156

Vous aimerez peut-être aussi

Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
Pas encore d'évaluation
Calcul Stochastique Cours - DeSS IM EVRY-Option Finance-Monique Jeanblanc-Sep 2002
131 pages
M2 Cours
Pas encore d'évaluation
M2 Cours
84 pages
CalcSto15 16
Pas encore d'évaluation
CalcSto15 16
105 pages
Calcul Stochastique, Bougerol
Pas encore d'évaluation
Calcul Stochastique, Bougerol
104 pages
Martingale Prolongée en Calcul Stochastique
Pas encore d'évaluation
Martingale Prolongée en Calcul Stochastique
96 pages
Calcul Stochastique Avancé
Pas encore d'évaluation
Calcul Stochastique Avancé
93 pages
Calcul Stochastique
100% (1)
Calcul Stochastique
88 pages
Math Fi Bon
Pas encore d'évaluation
Math Fi Bon
88 pages
M2 Exo
Pas encore d'évaluation
M2 Exo
181 pages
Calcul Stochastique en Finance
Pas encore d'évaluation
Calcul Stochastique en Finance
181 pages
Exercices de Calcul Stochastique Dess Im
Pas encore d'évaluation
Exercices de Calcul Stochastique Dess Im
181 pages
Martingales Et Calcul Stochastique
Pas encore d'évaluation
Martingales Et Calcul Stochastique
129 pages
Cours Processus Et Calcul Stochastique
Pas encore d'évaluation
Cours Processus Et Calcul Stochastique
79 pages
Processus M2
Pas encore d'évaluation
Processus M2
165 pages
Processus Stochastiques Continus M2 Rennes 2
Pas encore d'évaluation
Processus Stochastiques Continus M2 Rennes 2
138 pages
Exo Calcul Stochastique Corrigés
Pas encore d'évaluation
Exo Calcul Stochastique Corrigés
152 pages
Cours M2: Processus Stochastiques
Pas encore d'évaluation
Cours M2: Processus Stochastiques
79 pages
Martingales et chaînes de Markov
Pas encore d'évaluation
Martingales et chaînes de Markov
198 pages
Calcul Stochastique en Économie et Finance
Pas encore d'évaluation
Calcul Stochastique en Économie et Finance
93 pages
MAP432 Poly
100% (1)
MAP432 Poly
194 pages
Calcul Stochastique pour Économie
Pas encore d'évaluation
Calcul Stochastique pour Économie
92 pages
Intégration, Probabilités Et Processus Aléatoires
100% (1)
Intégration, Probabilités Et Processus Aléatoires
248 pages
Poly 2020
Pas encore d'évaluation
Poly 2020
87 pages
Exmaster2011 Monique Jeanblanc
Pas encore d'évaluation
Exmaster2011 Monique Jeanblanc
173 pages
Mathématiques Et Statistiques de La Finance
Pas encore d'évaluation
Mathématiques Et Statistiques de La Finance
171 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
162 pages
Processus Stochastiques Continus M2 Rennes
Pas encore d'évaluation
Processus Stochastiques Continus M2 Rennes
162 pages
MAP432
Pas encore d'évaluation
MAP432
245 pages
Cours et Exercices sur Processus Stochastiques
Pas encore d'évaluation
Cours et Exercices sur Processus Stochastiques
46 pages
Processus Stochastiques Avancés
Pas encore d'évaluation
Processus Stochastiques Avancés
186 pages
LF
Pas encore d'évaluation
LF
116 pages
Intégration et Probabilités 2023-2024
Pas encore d'évaluation
Intégration et Probabilités 2023-2024
92 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
118 pages
Processus M2 PDF
Pas encore d'évaluation
Processus M2 PDF
118 pages
Processus M2
100% (1)
Processus M2
184 pages
Chaînes de Markov et Martingales
Pas encore d'évaluation
Chaînes de Markov et Martingales
216 pages
CoursPS PDF
Pas encore d'évaluation
CoursPS PDF
61 pages
Processus Discrets
Pas encore d'évaluation
Processus Discrets
177 pages
Cours de Probabilité MR LAKHAL Elhasan
0% (1)
Cours de Probabilité MR LAKHAL Elhasan
128 pages
Cours de Probabilités et Statistiques
60% (5)
Cours de Probabilités et Statistiques
128 pages
011 Cours
Pas encore d'évaluation
011 Cours
119 pages
Mon Oeuvre
Pas encore d'évaluation
Mon Oeuvre
67 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
Gauss M2
Pas encore d'évaluation
Gauss M2
73 pages
Hasbnclic 708
Pas encore d'évaluation
Hasbnclic 708
171 pages
Économétrie Financière: Concepts et Modèles
Pas encore d'évaluation
Économétrie Financière: Concepts et Modèles
171 pages
Poly M1S6 Probas PDF
Pas encore d'évaluation
Poly M1S6 Probas PDF
100 pages
Ecovarqua2008 - 6.dvi - Ecovarqua2008 - 6
Pas encore d'évaluation
Ecovarqua2008 - 6.dvi - Ecovarqua2008 - 6
174 pages
Cours Complet
Pas encore d'évaluation
Cours Complet
67 pages
Cours Monte Carlo Michel ROGER
Pas encore d'évaluation
Cours Monte Carlo Michel ROGER
134 pages
1.livre Controle Sto
Pas encore d'évaluation
1.livre Controle Sto
156 pages
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
Pas encore d'évaluation
Garet - Probabilités Et Modélisation Stochastique (M1 Nancy)
119 pages
Chaînes de Markov : Concepts et Applications
Pas encore d'évaluation
Chaînes de Markov : Concepts et Applications
186 pages
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
Pas encore d'évaluation
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
196 pages
Econometrie
100% (7)
Econometrie
128 pages
Évolution Des Caractéristiques Pluviométriques Et Recrudescence Des Inondations Dans Les Localités Riveraines Du Fleuve Niger
Pas encore d'évaluation
Évolution Des Caractéristiques Pluviométriques Et Recrudescence Des Inondations Dans Les Localités Riveraines Du Fleuve Niger
14 pages
CV Hammoudi Hakim 2025
Pas encore d'évaluation
CV Hammoudi Hakim 2025
1 page
La Liberte
Pas encore d'évaluation
La Liberte
8 pages
Le Pompage Solaire Pour L'approvisionnement en Eau
Pas encore d'évaluation
Le Pompage Solaire Pour L'approvisionnement en Eau
293 pages
570-Article Text-1975-1-10-20230404
Pas encore d'évaluation
570-Article Text-1975-1-10-20230404
25 pages
EUT1172 2ieme Partie Examen
Pas encore d'évaluation
EUT1172 2ieme Partie Examen
259 pages
Liants - Hydrauliques Pour La Valorisation Des Matériaux en Place
100% (2)
Liants - Hydrauliques Pour La Valorisation Des Matériaux en Place
86 pages
Parlons Capverdien. Langue Et Culture (Em Francês)
Pas encore d'évaluation
Parlons Capverdien. Langue Et Culture (Em Francês)
301 pages
Seance Reorientation Hors EPFL 21 Fevrier 2023
Pas encore d'évaluation
Seance Reorientation Hors EPFL 21 Fevrier 2023
31 pages
Conception de Procédés: Patricia Arlabosse, Élisabeth Rodier ( )
Pas encore d'évaluation
Conception de Procédés: Patricia Arlabosse, Élisabeth Rodier ( )
39 pages
Les Cours en 6ième 2020
Pas encore d'évaluation
Les Cours en 6ième 2020
15 pages
Science de Karaté
100% (1)
Science de Karaté
19 pages
Charte Lille
Pas encore d'évaluation
Charte Lille
35 pages
Théorie Urbanisme m2 2
Pas encore d'évaluation
Théorie Urbanisme m2 2
39 pages
Management de La Qualité V1
Pas encore d'évaluation
Management de La Qualité V1
13 pages
Cours Applications
Pas encore d'évaluation
Cours Applications
7 pages
Bs00resum Texte Java
Pas encore d'évaluation
Bs00resum Texte Java
5 pages
Propriétés des Aciers Alliés
Pas encore d'évaluation
Propriétés des Aciers Alliés
9 pages
I5 - Module D'insertion Professionnelle (MIP)
Pas encore d'évaluation
I5 - Module D'insertion Professionnelle (MIP)
59 pages
Pression Admissible des Fondations
Pas encore d'évaluation
Pression Admissible des Fondations
5 pages
Prothèses dentaires sur implants : Guide complet
Pas encore d'évaluation
Prothèses dentaires sur implants : Guide complet
24 pages
S2 Management Général Support de Cours S2
Pas encore d'évaluation
S2 Management Général Support de Cours S2
112 pages
Polynomes de Legendre
Pas encore d'évaluation
Polynomes de Legendre
12 pages
Presentation Domotique2 PDF
Pas encore d'évaluation
Presentation Domotique2 PDF
33 pages
Histoire humoristique sur le pont de l'Alma
Pas encore d'évaluation
Histoire humoristique sur le pont de l'Alma
31 pages
Architecture Des Ordi
Pas encore d'évaluation
Architecture Des Ordi
49 pages
Guide Complet pour Rédiger un CV Efficace
100% (1)
Guide Complet pour Rédiger un CV Efficace
4 pages
Chapitre 2-Généralités Sur Les Ponts Standards
Pas encore d'évaluation
Chapitre 2-Généralités Sur Les Ponts Standards
74 pages
6eme Fiches Tds Triangles Isoceles Et Equilateraux1
Pas encore d'évaluation
6eme Fiches Tds Triangles Isoceles Et Equilateraux1
1 page
Norois 15145
Pas encore d'évaluation
Norois 15145
7 pages