Probastat 82
Probastat 82
PROCESSUS STOCHASTIQUES
Février 2005
«
On appelle ça , un peu obscurément, la loi des
grands nombres. Par quoi l’on peut dire à peu près
que, si un homme se tue pour telle raison et un autre pour
telle autre, dès qu’on a affaire à un très grand nombre, le
caractère arbitraire et personnel de ces motifs disparaı̂t, et
il ne demeure... précisément, qu’est-ce qui demeure ? Voilà
ce que j’aimerais vous entendre dire. Ce qui reste, en effet,
vous le voyez vous-même, c’est ce que nous autres profanes
appelons tout bonnement la moyenne, c’est-à-dire quelque
chose dont on ne sait absolument pas ce que c’est. Permettez-
moi d’ajouter que l’on a tenté d’expliquer logiquement cette
loi des grands nombres en la considérant comme une sorte
d’évidence. On a prétendu, au contraire, que cette régularité
dans des phénomènes qu’aucune causalité ne régit ne pouvait
s’expliquer dans le cadre de la pensée traditionnelle ; sans
parler de mainte autre analyse, on a aussi défendu l’idée
qu’il ne s’agissait pas seulement d’événements isolés, mais de
lois, encore inconnues, régissant la totalité. Je ne veux pas
vous ennuyer avec les détails, d’autant que je ne les ai plus
présents à l’esprit, mais personnellement, il m’importerait
beaucoup de savoir s’il faut chercher là-derrière quelque
mystérieuse loi de la totalité ou si tout simplement, par une
ironie de la Nature, l’exceptionnel provient de ce qu’il ne se
produit rien d’exceptionnel, et si le sens ultime du monde
peut être découvert en faisant la moyenne de tout ce qui
n’a pas de sens ! L’une ou l’autre de ces deux conceptions
ne devrait-elle pas avoir une influence décisive sur notre
sentiment de la vie ? Quoi qu’il en soit, en effet, la possibilité
d’une vie ordonnée repose toute entière sur cette loi des
grands nombres ; si cette loi de compensation n’existait pas,
il y aurait des années où il ne se produirait rien, et d’autres
où plus rien ne serait sûr ; les famines alterneraient avec
l’abondance, les enfants seraient en défaut ou en excès et
l’humanité voletterait de côté et d’autre entre ses possibilités
célestes et ses possibilités infernales comme les petits oiseaux
quand on s’approche de leur cage. »
Processus stochastiques 2
Sommaire
I SÉRIES CHRONOLOGIQUES 7
1 Introduction 8
1.1 Mesures spectrales — processus ARMA . . . . . . . . . . . . . . . . . . . . 10
1.2 Prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Prédiction sur le passé infini . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4 Estimation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.1 Moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.2 Covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.3 Modélisation par les MA . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.5 Théorème spectral et applications . . . . . . . . . . . . . . . . . . . . . . . . 21
1.6 Équations ARMA canoniques . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.7 Covariance et auto-corrélation des ARMA . . . . . . . . . . . . . . . . . . . 27
2 Modélisation 30
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
2.2 Modélisations AR et MA — Estimations préliminaires . . . . . . . . . . . . 31
2.2.1 AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.2.2 MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3 Estimation efficace . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.4 Processus ARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Modèles multiplicatifs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
2.6 Envoi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.1 Critères de choix . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
2.6.2 Tests d’ajustement . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
II THÓRIE DE MARKOV 58
3
SOMMAIRE
4 Introduction 59
5 Ergodicité 66
6 Entropie 69
8 Calcul stochastique 80
8.1 Intégrale stochastique d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.1 Filtration . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
8.1.2 Fonctions en escalier . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
8.1.3 Densité des fonctions en escaliers dans M 2 (R+ ) . . . . . . . . . . . . 82
8.1.4 Intégrale stochastique . . . . . . . . . . . . . . . . . . . . . . . . . . 82
8.2 L’intégrale stochastique comme martingale . . . . . . . . . . . . . . . . . . 82
8.3 Formule d’Ito . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.2 Formule générale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
8.3.3 Localisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
8.3.4 Cas vectoriel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
8.3.5 Intégration par parties . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4 Formule de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.1 Formule de Cameron-Martin . . . . . . . . . . . . . . . . . . . . . . 87
8.4.2 Théorème de Girsanov . . . . . . . . . . . . . . . . . . . . . . . . . . 87
8.4.3 Critères . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
9 Processus de comptage 89
9.1 Rappels concernant les martingales . . . . . . . . . . . . . . . . . . . . . . . 89
9.2 Processus à variation prévisible . . . . . . . . . . . . . . . . . . . . . . . . . 89
9.3 Processus de comptage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.1 Cas univarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
9.3.2 Cas multivarié . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91
9.4 Théorème de la limite centrale . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.5 Résidus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
9.6 Théorie du produit intégral (ou produit infini) . . . . . . . . . . . . . . . . 93
9.7 Approche markovienne des processus de comptage . . . . . . . . . . . . . . 94
Processus stochastiques 4
SOMMAIRE
10 Introduction 97
10.1 Existence et unicité de solutions fortes . . . . . . . . . . . . . . . . . . . . . 97
10.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
10.3 Solutions faibles d’EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
10.3.1 Modèle de Cox – Ingersoll – Ross . . . . . . . . . . . . . . . . . . . . 99
10.3.2 Absolue continuité de la loi de diffusions sous changement de dérive 99
10.3.3 Équations linéaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.4 Autre EDS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
10.3.5 Pont brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
Processus stochastiques 5
SOMMAIRE
Processus stochastiques 6
Première partie
SÉRIES CHRONOLOGIQUES
7
1
Introduction
Définition 1.2 — Un processus (Xt )t à valeurs réelles ou complexes est dit du second
ordre si
E |Xt |2 < ∞
∀t ∈ T .
Pour un processus de second ordre, on appelle covariance la fonction Γ définie sur
T × T par
Γ(s, t) = E (Xs − E(Xs ))(Xt − E(Xt )) .
Théorème 1.1 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T réel du second ordre de covariance Γ.
Théorème 1.2 — Si Γ est une fonction réelle, symétrique et semi-définie positive sur
T × T , il existe un processus (Xt )t∈T gaussien centré de covariance Γ.
Définition 1.3 — Un processus réel (Xt )t est dit gaussien si ∀n, ∀(t1 , . . . , tn ) ⊂ T ,
la variable aléatoire vectorielle (Xt1 , . . . , Xtn ) est gaussienne. Un processus gaussien est du
second ordre.
8
1. INTRODUCTION
Définition 1.5 — Un processus du second ordre (Xn )n est dit stationnaire au sens
large si la moyenne E(Xn ) est constante et si la covariance Γ(n, m) ne dépend que de la
différence n − m, i.e. ∃γ : Z → C telle que
Γ(n, m) = γ(n − m)
h i
γ(n) = E Xn − E(Xn ) X0 − E(X0 )
E(Xn ) = E(X0 ) ∀n .
Processus stochastiques 9
1. INTRODUCTION
Soit Π = R/2πZ le tore. On note e1 (t) = eit , en (t) = eint et ēn (t) = e−int = e−n (t). La
mesure de Lebesgue est invariante par translation :
Z Z
f (x) dx = f (x + u) dx , ∀u ∈ Π .
Π Π
(en )n est un système orthonormé dans L2 (λ), où λ est la mesure de Lebesgue.
Z
||en ||22 = |en |2 dλ
ZΠ
= en e¯n dλ
ZΠ
= 1 dλ
Π
Z
< en ,em > = en e¯m dλ
ZΠ
= en−m dλ
Π
0 si n 6= m
=
1 si n = m .
P+∞ P+∞
−∞ an en converge dans L2 (λ) ssi −∞ |an |2 < ∞.
X 2 X X
an en = < an en , an en >
2
XX
= an ām < en , em >
n m
+∞
X
= |an |2 .
−∞
Rappel — Une isométrie est toujours injective ; ici, elle est de plus surjective.
f e−n dλ, qui est le ne coefficient de Fourier de f (noté fˆ(n)). Nous avons
R
avec an =
+∞
X
< f, en > = < ak ek , en > = an .
−∞
Processus stochastiques 10
1. INTRODUCTION
f 7−→ (fˆ(n))n∈Z est la transformation de Fourier. C’est une isométrie de L2C (Π) sur
lC2 (Z). Si µ est une mesure bornée sur Π, sa transformée de Fourier est la fonction Fµ ou µ̂
définie sur Z par Z
Fµ(n) = en dµ .
Π
Proposition 1.2 — Si (Xnk ) est une suite de SLC telle que, pour tout n, lim Xnk
k→∞
existe dans L2 , si on appelle Xn cette limite, alors le processus X = (Xn ) est un SLC et
µX est la limite étroite des µXk .
+∞
X
Proposition 1.3 — Si |γX (n)|2 < ∞, alors µX est la mesure ayant pour densité
−∞
la fonction
+∞
X
γX (k)e−k .
−∞
+∞
X P
De même si |γX (n)| < ∞ (et dans ce cas, γX (k)e−k est continue).
−∞
Définition 1.9 — On appelle bruit blanc de variance σ 2 une suite de v.a. réelles,
centrées, appartenant à L2 , de variance σ 2 et 2 à 2 non corrélées. On note (Un ) ∈ BB(σ 2 ).
Processus stochastiques 11
1. INTRODUCTION
+∞
X 2
ak e−k .σ 2 λ .
−∞
Exemple — Le processus
Xn = Un + ρUn−1 + · · · + ρk Un−k + · · ·
= Un + ρ(Un−1 + ρUn−2 + · · · )
= Un + ρXn−1
Processus stochastiques 12
1. INTRODUCTION
Pq
Moving average MA(q) Xn = k=0 bk Un−k .
Pp
Auto-regressive AR(p) Un = k=0 bk Xn−k .
On note
P (z) = a0 + a1 z + · · · + ap z p
et
Q(z) = a0 + a1 z + · · · + aq z q .
Processus stochastiques 13
1. INTRODUCTION
i.e.
Ŷ = E(Y ) + at X − E(X)
V ar(Y − Ŷ ) = V ar(Y ) − at ΓX a ,
Proposition 1.10 —
r(n) = corr Xn+1 − projH (Xn+1 ) , X1 − projH(X1 )
< Xn+1 − projH (Xn+1 ) , X1 − projH (X1 ) >
= ,
kX1 − projH (X1 )[Link]+1 − projH (Xn+1 )k
Processus stochastiques 14
1. INTRODUCTION
Remarque —
ev(X1 , . . . ,Xn ) = H ⊕ R X1 − projH (X1 ) .
Alors les θn,j et les vn sont données par les 3 équations de récurrence suivantes :
v0 = Γ(1,1) ,
Γ(n+1,k+1)− k−1
P
j=0 (θk,k−j −θn,n−j θn,n−j )vj
θn,n−k = vk k = 0,1, . . . ,n − 1 ,
Pn−1 2
vn = Γ(n + 1,n + 1) − j=0 θn,n−j vj .
HnX = ev(Xi ,i 6= n)
X
limites dans L2 de combinaisons linéaires des Xi =
= ak Xn−k .
finie
Notations — On note
\
X
H−∞ = HnX
n
[
X
H∞ = HnX .
n
X
Définition 1.16 — H−∞ est appelé le « passé infini ».
Proposition 1.12 — On a
X
H−∞ ⊆ HnX ⊆ Hn+1
X X
⊆ H∞ .
Processus stochastiques 15
1. INTRODUCTION
i.e.
r s
HnX = HnX ⊕ HnX .
Cette décomposition est unique. De plus,
s
X X
H−∞ = H∞ .
Remarque —
Xns = p−∞ (Xn )
Remarque —
pn (X) = lim p(Xn ,Xn−1 ,...,Xn−p ) (X) .
p→∞
et
BUn = Un−1 .
Processus stochastiques 16
1. INTRODUCTION
Remarque Cette proposition signifie « l’identité » entre les processus réguliers et les
MA(∞).
Proposition 1.16 — Si W est un BB tel que HnW = HnX ∀n, alors il existe des
scalaires λn tels que (|λn |)n soit une suite constante et
wn = λn Un ,
Remarque — Ceci signifie l’unicité « essentielle » du bruit blanc telle que voulue en
(2) de l’avant-dernière proposition — cependant qu’il n’y a pas unicité en (3).
Proposition 1.17 — Un SLC X est un MA(q) ssi γX (n) = 0 dès que |n| > q.
1.4 Estimation
1.4.1 Moyenne
Soit x1 , . . . ,xn une série expérimentale qui est une réalisation de X1 , . . . ,Xn , processus
stationnaire large que l’on notera X.
1
X̄n = (X1 + · · · + Xn )
n
est un estimateur (sans biais) de la moyenne m. Est-il convergent ?
Processus stochastiques 17
1. INTRODUCTION
Proposition 1.18 —
lim Var(X̄n ) = µX ({0}) .
n→∞
Théorème 1.9 — Si
+∞
X
Xn = b + aj Zn−j ,
j=−∞
alors
√ L
nX̄n −→ N (b , α2 σ 2 ) .
1.4.2 Covariance
N
avec N > 50 et k 6 4.
Processus stochastiques 18
1. INTRODUCTION
P
Théorème 1.10 — Si X est un SLC gaussien tel que k∈Z < ∞, alors :
1. γ̂(k) est un estimateur p.s. convergent de γ(k) ;
2. on a ∀K ∈ N,
√ L
N γ̂N (i) − γ(i) i=0,...,K −→ N (0,Γ) ,
où
X
Γij = γ(m).γ(m + i + j) + γ(m).γ(m + i − j) .
m∈Z
De plus
h i
lim N E γ̂N (i) − γ(i) γ̂N (j) − γ(j) = Γij .
N →∞
Remarque — X
|k|γ(k) < ∞ ⇐⇒ γ ∈ l2 (Z) .
k∈Z
Entre autre,
+∞
X 2
Wii = ρ(k + i) + ρ(k − i) − 2ρ(i)ρ(k) .
k=1
Proposition 1.20 — √
N ρ̂(i) N (0 , ∆ii ) .
Processus stochastiques 19
1. INTRODUCTION
Proposition 1.21 — X
IN = γ̂(k)e−k .
|k|<N
Théorème 1.12 — Les mesures (IN λ) convergent p.s. étroitement vers µX lorsque X
est stationnaire strict et ergodique.
P
Théorème 1.13 — Si X est un SLC gaussien et si |k|.|γ(k)| < ∞ pour toute
fonction borélienne bornée Φ à valeur dans Rd , on a
lim E IN (Φ) = I(Φ)
et
√ L
N IN (φ) − I(Φ) −→ N 0,Γ(Φ) ,
avec
Z
Γ(Φ) = ΦΦt fX
2
dλ .
Processus stochastiques 20
1. INTRODUCTION
On note Z
γX (n) = en dµX .
Définition 1.23 — Si (E,E,µ) est un espace mesuré σ-fini, on appelle mesure aléa-
toire de base µ sur (E,E) toute isométrie de L2C (µ) dans L2C (Ω,A,P).
(iv) on a
∞
(An ) ∈ Eµ , An ∩ Am = ∅ X
P ∞ =⇒ 1An converge dans L2 (µ) vers 1∪An
1 µ(An ) < ∞ 1
∞
X
Z(∪An ) = Z(An ) .
1
Définition 1.24 — Si toutes les v.a. Z(f ) pour f ∈ L2 (µ) sont centrées, on dira que
Z est centrée.
Notation — On note
Processus stochastiques 21
1. INTRODUCTION
Réciproquement — Si Z vérifie les points (i), (ii) et (iv), on lui associe une mesure
aléatoire : pour A ∈ Eµ ,
XN XN
Z( αi 1Ai ) = αi Z(Ai ) .
i=1 i=1
Proposition 1.22 — Il existe une gaussienne centrée X indexée par Eµ telle que
E X(A)X(B) = µ(A ∩ B) .
(quels que soient t et a(t,.) ∈ L2C (µ)), alors il existe une mesure aléatoire Z de base µ telle
que
Z
Xt = a(t,u) dZ(u) .
E
Remarque — On a
Z a(t,.) = Xt .
Nota —
Xn = ZX (en ) .
Proposition 1.23 — Si µX est à support fini, alors il existe des v.a. Aj non corrélées
et des tj ∈ Π tels que X
Xn = Aj eintj .
Processus stochastiques 22
1. INTRODUCTION
Définition 1.25 — U est un processus spatial s’il existe une certaine mesure ν telle
que ∀A,B boréliens,
E U (A)U (B) = ν(A ∩ B) .
Proposition 1.24 — Soit X un SLC. Les quatre propositions suivantes sont équiva-
lentes :
(i) il existe un BB U et a ∈ l2 (Z) tels que
+∞
X
Xn = ak Un−k ;
k=−∞
Remarque — Il n’y a pas unicité dans (ii) et (iv) (et (i)). La densité spectrale est
unique ; son écriture, non.
Proposition 1.25 — Si X est un SLC, les trois propriétés suivantes sont équivalentes :
(i) X est régulier ;
P∞
(ii) X a une densité spectrale de la forme | k=0 ak e−k |2 ;
(iii) il existe un BB U et a ∈ l2 (N) tels que
+∞
X
Xn = ak Un−k .
k=0
et si σ 2 > 0 (i.e. le processus n’est pas singulier), alors fX .λ et ν sont les mesures spectrales
respectivement des parties régulière et singulière de la décomposition de Wold de X.
Processus stochastiques 23
1. INTRODUCTION
Y = Af X .
Remarque — On a
ZY (g) = ZX (f g)
pour tout g ∈ L2 (µY ) = L2 |f |2 µX .
f = 1B ,
pour un ensemble B ⊂ Π.
Processus stochastiques 24
1. INTRODUCTION
Remarques —
P+∞
1. Yn = −∞ ck Xn−k est la « convolution » sur Z. Le passage de Y à X la « décon-
volution » ;
P+∞
2. Soit Yn = −∞ ck Xn−k : si n est le temps, le filtre n’est pas réalisable (car il faut
connaı̂tre le futur) ;
P+∞
3. Soit Yn = 0 ck Xn−k : si n est le temps, le filtre est réalisable et qualifié par suite
de causal.
On notera
Ap X = AQ U .
Théorème 1.18 — Si P n’a pas de racine de module 1, alors il existe un unique SLC
X tel que
Ap X = AQ U .
Théorème 1.19 (Fejer - Riesz) — F est une fraction rationnelle telle que F ◦ e−1
soit réelle positive et intégrable ssi il existe une fraction rationnelle irréductible Q/P telle
que pour tout z de module 1, on ait
2
Q
F (z) = (z) ,
P
Processus stochastiques 25
1. INTRODUCTION
Proposition 1.28 — Deux fractions rationnelles ont des modules égaux sur C =
{|z| = 1} ssi leur produit est un produit de Blaschke.
Rappel — Si u 6= 0,
1
|1 − ue−1 | = |u|2 .|1 − e−1 |2 .
ū
pour z dans une couronne ouverte contenant {|z| = 1}. De plus, les ck tendent vers 0
exponentiellement vite lorsque z → ±∞. Enfin, si toutes les racines de P sont de module
supérieur à 1, alors ck = 0 pour k < 0.
les (ck )k étant ceux du lemme précédent. Si P a toutes ses racines de module supérieur à
1, alors
+∞
X
Xn = ck Un−k ,
k=0
Processus stochastiques 26
1. INTRODUCTION
Proposition 1.32 — Un SLC régulier X est un AR(p) ssi r(n) = 0 pour n > p, où r
est la fonction d’autocorrélation partielle.
Passage de (ii) à (iii) — Les (ck ) sont les coefficients du développement en série
de Laurent de P/Q :
1 + b1 z + · · · + b q z q X
p
= ck z k .
1 + a1 z + · · · + ap z
Processus stochastiques 27
1. INTRODUCTION
Posons
γ(q) ... γ(q + 1 − p)
R(p,q) = .. ..
.
. .
γ(q + p − 1) . . . γ(q)
Alors le système équivaut à
R(p,q)a = −r(p,q) ,
t
où r(p,q) = γ(q + 1 = , . . . ,γ(q + p) . On admet que R(p,q) est inversible. Alors
Pp
Soit Yn = 0 ak Xn−k , avec a0 = 1. Y est un MA(q).
X
γY (n) = ak al γX (n + k − l) ( et γY (n) = 0 si |n| > q )
06k,l6p
X q
2
= σU bk bk−n pour 0 6 n 6 q .
k=n
Processus stochastiques 28
1. INTRODUCTION
Nous sommes donc en présence de q + 1 équations, qui vont nous permettre de trouver
2
les bk ,bk−n et σU .
2
P
Passage de (ii) à (i) — a,b,σU et l’écriture ck Un−k permettent d’obtenir, via le
système de Yule-Walker, γ(0), . . . ,γ(q). γ est solution de l’équation de récurrence liée au
polynôme P (z), qui est sublime.
Proposition 1.33 —
Corollaire 1.5 — kpn−1 (Xn ) − ps (Xn )k2 tend exponentiellement vite vers 0 lorsque
s → ∞ (ps est la projection sur ev(Xn−1 , . . . ,Xn−s )).
P∞Théorème
k
1.23 — Si AP X = AQ U est l’équation canonique de X, et (Q/P )(z) =
0 ck z , alors
j−1
h X P i
pn (Xn+j ) = ZX en+j 1 − ck e−k (e−1 )
Q
k=0
Processus stochastiques 29
2
Modélisation
2.1 Introduction
AP X = AQ U .
Nos objectifs sont la prédiction, le contrôle et l’étude scientifique. Mais ici, nous ne
nous intéresseront qu’à la prédiction. On évoquera la stationnarité. Elle peut laisser ap-
paraı̂tre des périodicités, que l’on tâchera d’éliminer. On tentera d’utiliser des modèles
linéaires de la forme
+∞
X
Xn = ck Un−k
−∞
Un tel processus a une densité fX . Dans la pratique, on verra essentielement des MA(q) :
q
X
ck Un−k ,
0
c-à-d qu’on approxime la densité fX par des polynômes. Or la classe des fractions ration-
nelles est plus importante que celle des polynômes ; d’où l’on utilisera aussi les fractions
rationnelles → processus ARMA(p,q). On respectera le principe de parcimonie : on
approximera toujours par un processus ayant le moins de coefficients possible.
30
2. MODÉLISATION
2.2.1 AR
Xn + a1 Xn−1 + · · · + ap Xn−p = Un ,
d’où
Xn = Un − (a1 Xn−1 + · · · + ap Xn−p ) .
On note
en = −(a1 Xn−1 + · · · + ap Xn−p ) .
X
ai est le coefficient de la régression de Xn sur (Xn−1 , . . . ,Xn−p ).
On note
Γp a = γp
R(p,0)a = −r(p,0) ,
d’où
a = −Γ−1
p γp
et
σ 2 = γ(0) − at γp .
Processus stochastiques 31
2. MODÉLISATION
et
P
σ̂ 2 −→ σ 2 .
et en particulier,
√ L
n r̂(l) → N (0,1) .
Γn a = −γn
et
√
n r̂(l) → N (0,1)
Sur la figure 2.1, les deux lignes pointillées donnent un intervalle de confiance de 95 %
pour r̂(l).
2.2.2 MA
Processus stochastiques 32
2. MODÉLISATION
e
2
Pméthode (théorique) Si M A(∞) : fx = |Q ◦ e−1 |2 σ 2 . Si M A(q) : fx =
|k|6q γ(k)e−k . D’où
q
X 1
γ(0) + γ(k)(z k + z −k ) = σ 2 Q(z)Q( )
z
k=1
pour z = e−1 . On cherche Q. Le membre de gauche s’écrit R(z + z1 ) où R est un plynôme
de degré q :
1 k k k k−1
(z + ) = z + z + ...
z 1
1 k 1
= zk + k + (z k−2 + k−2 ) + . . .
z 1 z
q −q 1 q 1
z +z = (z + ) + (z q−2 + q−2 ) + . . .
z z
D’où le résultat. Finalement, l’équation est
1 1
R(z + ) = σ 2 Q(z)Q( ) .
z z
Soient α1 , . . . ,αq les racines de R :
1
Z+ = αi =⇒ xi et yi
z
et l’une des deux est de module strictement supérieur à 1 ; disons xi . Alors
Q
Q(z) = (z − xi )
Q(0) = 1
Processus stochastiques 33
2. MODÉLISATION
|P ◦ e−1 |2
Y = AP V avec V ∈ BB(σ 2 ) ⇒
σ2
et la fonction d’autocorrélation de Y est l’inverse de celle de U .
Nota — Tester si Pb est sublime ; écrire AP X = AQ U : APb X doit être un MA. Puis
(x1 , . . . ,xN ) → (y1 , . . . ,yN −p ) :
xp + â1 xp−1 + · · · + âp x1 = y1
xp+1 + . . . = y2
..
.
Processus stochastiques 34
2. MODÉLISATION
Soient p et q fixés, et
ζn = (x1 , . . . ,xn )t
χn = (X1 , . . . ,Xn )t
Γn = E[χtnχn ] .
Z Z
P χn ∈ V (ζn ) = f (θ,ζ)dζ −→ f (θ,ζn )
V (ζn )
Z
1
i.e. f (θ,ζ)dζ −→ f (θ,ζn ) .
λ V (ζn ) V (ζn )
d’où
1
log Ln (θ,χn ) = − n log 2π + log(det Γn ) + χtn Γ−1
n χn .
2
det Γn+1
σ2 = lim ,
det Γn
log σ 2
= lim log det Γn+1 − log det Γn ,
n log σ 2
= log det Γn+1 .
Processus stochastiques 35
2. MODÉLISATION
où
∂f ∂f
∂θk . ∂θl
Z
Jkl (θ) = dλ ,
f (θ)2
où f est la densité spectrale.
i.e.
ARMA
p
X q
X
ak Xn−k = bl Un−l
k=0 l=0
Xp Xq
ak Xn−k = bl Vn−l ,
k=0 l=0
d’où
p
X q
X
ak X
bn−k = bl U
bn−l
k=0 l=0
Xp Xq
ak X
bn−k = bl Vbn−l
k=0 l=0
Processus stochastiques 36
2. MODÉLISATION
et
U
bk = 0 si k > N
X
bk = Xk si 1 6 k 6 N
Vbk = 0 si k 6 0 .
VbN −p+j = αj .
D’où on a tous les Vbk , k > 1. Or les Vbk , pour k 6 0, sont nuls. On connaı̂t donc tous les
Vbk .
et donc X
bn = 0 pour n 6 s, avec s grand.
et l’équation initiale
p
X q
X
ak X
bn−k = bl U
bn−l
0 0
donne U
bk pour k 6 N . Ensuite, on recalcule les Vbk en fonction des U
bk . . .
Les X
bk décroı̂ssent exponentiellement vite vers 0.
Processus stochastiques 37
2. MODÉLISATION
X
bk = 0 pour k > s0 , s0 grand
— Étape 5 : on obtient de nouvelles valeurs pour les VbN −p+j , soient Vb N −p+j (cor-
e
respondant à un nouveau vecteur Φ(α)). De la fonction
Rd −→ Rd
,
α 7−→ Φ(α)
(I − B)d f = 0 .
Si Xn = f (n) + Vn , alors
(I − B)d Xn = (I − B)d Vn .
(I − B T )f (n) = 0 .
On va utiliser AR X, où Y
R(z) = (z − zi )si ,
Processus stochastiques 38
2. MODÉLISATION
avec |zi | = 1.
Si
R(z) = a0 + a1 z + · · · + ad z d ,
alors
AR X = a0 Xn + a1 Xn−1 + · · · + ad Xn−d .
R(z) = a0 + a1 z + · · · + ad z d ,
AR f = 0 ,
Xd
f = ci fi ,
i=1
1 n
fi (n) = ,
τi
avec τi racine de R.
a0 Xn + · · · + ad Xn−d = Yn .
AR (f ∗ g) = (AR f ) ∗ g .
AR (ψ ∗ g) = (AR ψ) ∗ g = g .
Soient
Processus stochastiques 39
2. MODÉLISATION
a0 ψ + (n) + · · · + ad ψ + (n − d) = δ0 (n)
a0 ψ + (0) = 1 ⇒ ψ + (0)
+ +
a0 ψ (1) + a1 ψ (0) + 0 + . . . = 0 ⇒ ψ + (1)
..
.
−
ψ (n) = 0 pour n > −d
a0 ψ − (n) + · · · + ad ψ − (n − d) = δ0 (n)
AR (ψ + ∗ g + ) = g+
AR (ψ − ∗ g − ) = g−
AR (ψ + ∗ g + + ψ − ∗ g − ) = g.
e = ψ+ ∗ Y + + ψ− ∗ Y −
X
AR X = Y .
où les fi forment une base de l’espace vectoriel des solutions de AR f = 0 et les ci sont des
v.a. de carré intégrable.
AR X = AQ W ,
Processus stochastiques 40
2. MODÉLISATION
HnX = HnY ⊕ F ,
où
F = ev(c1 , . . . ,cd )
= ev(X−1 , . . . ,X−d ) .
x1 , x1+T , x1+2T , . . .
x2 , x2+T , x2+2T , . . .
..
.
xT −1 , x2T −1 , x3T −1 , . . .
xT , x2T , x3T , . . .
On pose Xns = Xs+nT . On fait l’hypothèse que la structure probabiliste ne dépend pas
de s. Chacun de ces processus X s est un ARIMA(p0 ,d0 ,q 0 ). Ainsi,
0
∃R,P,Q t.q. R = (I − B)d ,
∀s, ARP X s = AQ U s .
Pe(z) = P (z T ) .
On a alors
ARePe X = AQe U ,
i.e. on a mis la saisonnalité dans les polynômes. U est un ARIMA(p,d,q), c.-à-d. qu’il existe
ρ,π,χ tels que
Aρπ U = Aχ W ,
où W BB et ρ(z) = (1 − z)d .
AρπRePe X = AQχ
e W
Processus stochastiques 41
2. MODÉLISATION
On pose
Z = AρRe X .
Alors
Aρπ Z = AQχ
e W .
0
Étape 1 : on cherche d et d0 tels que (I − B)d (I − B T )d soit « stationnaire ». On
passe donc par (I − B T ) pour obtenir x13 − x1 , x14 − x2 , . . .. Si la variance décroı̂t
rapidement vers 0, alors il s’agit d’un ARMA. Sinon, on passe par (I − B)(I − B T ) pour
obtenir (x14 − x2 ) − (x13 − x1 ) − . . ..
γ̂(kT ) −→ ARMA(P,Q) .
modélisation
2.6 Envoi
Identification de (p,q) : quel est le meilleur ? est-ce que le meilleur est bon ?
Processus stochastiques 42
2. MODÉLISATION
Yn − a1 Yn−1 − · · · − ap Yn−p = Un
(les ai sont inconnus).
Les âi sont les coefficients estimés. D’où E est l’erreur commise quand on prend les
coefficients estimés.
h 2 i
E = E Un+1 − ((â1 − a1 )Yn + · · · + (âp − ap )Yn−p+1 )
= σ 2 +t (â − a) Γp (â − a) ,
â a été estimé à partir d’une série expérimentale x1 , . . . ,xN . Une bonne modélisation
est une modélisation pour laquelle E est petite. E est une v.a. positive. Or
√
N (â − a) −→ N (0,σ 2 Γ−1 p ).
D’où
√ √
N (â − a)t (σ 2 Γ−1
p )
−1
N (â − a) χ2 (p)
σ2 2
⇒ E σ2 +
χ (p)
N
ρ
⇒ E(E) = σ 2 (1 + ) .
N
Mais σ 2 est inconnu (il est lui aussi estimé : σ 2 = σ̂p2 , et il dépend de p). Quand p %,
1 + Np %, mais σ 2 &. Il s’agit de chercher le p pour lequel E(E) est minimum. Pour un
ARMA, on cherche à maximiser la vraisemblance. C’est le critère d’Akaike .
est la réalisation d’un bruit blanc. Il existe diverses méthodes pour montrer que wn est un
BB.
Proposition 2.10 (Test du porte-manteau) — ρ̂w (1),ρ̂w (2), . . . doivent être petits.
La quantité
XN
ρ̂2w (k)
k=1
2
suit un χ (N ).
Processus stochastiques 43
3
Soit l’AR(1)
(?) Xn = aXn−1 + n
avec a ∈ R, n i.i.d. centrées et de variance σ 2 6= 0. On cherche une solution telle que pour
tout n, n soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).
Notation — On note
ln+ x = sup (0, ln x) .
Proposition 3.2 — Si |a| < 1, la solution stationnaire stricte du modèle est unique
(et appartient à L2 ).
Proposition 3.3 — Si |a| < 1 et si E ln+ |1 | < ∞, alors le modèle admet une
44
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Proposition 3.5 — Si (an )n>0 est une suite à valeurs dans R et sous-additive (i.e.
an+m 6 an + am ), alors
an an
−→ inf .
n n→∞ n n
Rappels —
X
E |X| < ∞ ⇔ P |X| > n < ∞ ,
n>0
Z ∞
E |X| = P |X| > t dt .
0
Soit l’AR(1)
(??) Xn = AXn−1 + n ,
avec A matrice d×d et Un une suite de vecteurs i.i.d. centrés de L2 . On cherche une solution
telle que pour tout n, Un soit l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).
Rappel —
X
K = Ap Σ (Ap )t
p>0
X
= Σ + Ap Σ (Ap )t ,
p>1
et par suite,
K = Σ + AKAt .
Définition 3.1 — Soit k.k une norme sur Rd . On définit la norme matricielle
subordonnée à k.k sur Rd par
kAk = sup kAvk .
kvk=1
Processus stochastiques 45
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Propriété 3.1 —
1 1
lim kAn k n = inf kAn k n .
n n
Processus stochastiques 46
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
X d−1
X
Ap Σ (Ap )t inversible ⇐⇒ Ap Σ (Ap )t inversible .
p>0 p=0
Proposition 3.10 — Soit le modèle (?). Alors il existe une solution stationnaire L2
ssi ρ(A) < 1.
Soit le modèle
(?) Xn = F (Xn−1 ,n ) = Fn (Xn−1 ) ,
d
avec Xn à valeurs dans R et n i.i.d. On cherche une solution telle que pour tout n, n soit
l’innovation, i.e. soit indépendant de σ(Xp , p 6 n − 1).
Théorème 3.1 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
+ R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :
1) si E ln cF1 < 0, il existe une unique solution X n du modèle qui est stationnaire-
ment stricte ;
2) s’il existe k ∈ N? t.q. E ckF < 1 et si E kF1 (x) − xkk < ∞, alors la solution X n
1
stationnaire stricte a un moment d’ordre k.
Processus stochastiques 47
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Nota —
Xn = Fn (Xn−1 )
= Fn ◦ Fn−1 (Xn−2 )
= Fn ◦ . . . ◦ Fn−p+1 (Xn−p ) .
D’où
X n = lim Fn ◦ . . . ◦ Fn−p+1 (0) .
p→∞
Théorème 3.2 — Soit le modèle (?) avec les i i.i.d. et pour tout n, n indépendant
k
de σ(Xp , p 6 n − 1). Xn est à valeurs dans
+ R muni de la norme k.k. On suppose que
+ k
E ln cF1 < ∞ et qu’∃x ∈ R tel que E ln kF1 (x) − xk < ∞. Alors :
1) s’il existe p t.q. E ln cF1 ◦···◦Fp < 0, alors il existe une unique solution stationnaire
stricte au modèle ;
2) s’il existe k,p ∈ N t.q. E ckF ◦···◦Fp < 1 et t.q. E kF1 ◦ · · · ◦ Fp (x) − xkk < ∞,
1
alors il existe une unique solution X n stationnaire stricte, et cette solution a des
moments d’ordre k.
Notation —
Xn = F (Xn−1 , n )
Xnx =
X0 = x
?
k
Théorème
x 3.3
— S’il existe k,p ∈ N t.q. E kF 1 (x) − xk < ∞ et s’∃β < 1 t.q.
y k k
E kXp − Xp k 6 βkx − yk , ∀x, ∀y, alors il existe une solution stationnaire stricte, et
cette solution a des moments d’ordre k.
ce qui équivaut à
E kXrx − Xry kk 6 β r kx − ykk .
Soit
Xn = f (Xn−1 ) + g(Xn−1 )n .
F1 (x) − F1 (y) = f (x) + g(x)1 − f (y) − g(y)1 , d’où cF1 6 cf + cg |1 |.
Processus stochastiques 48
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
– si E cf + cg |1 | < 1 et si cf + cg E |1 | < 1, alors il existe une solution
strictement stationnaire ayant un moment d’ordre 1 ;
– si c2f + c2g E 21 + 2cf cg E |1 | < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2 ;
– si c2f + c2g E 21 < 1, alors il existe une solution strictement stationnaire ayant un
moment d’ordre 2 ;
– si E (1 ) = 0, E (2 ) = 1 et si c2f + c2g < 1, alors il existe une solution strictement
stationnaire ayant un moment d’ordre 2.
Soit
Xn = A(n )Xn−1 + B(n ) = F (Xn−1 , n ) .
Proposition 3.11 — On suppose que E ln kA(1 )k < ∞. Alors
1 1
E ln kA(1 ) × . . . × A(p )k −→ γ = inf E ln kA(1 ) × . . . × A(p )k .
p p p
Si γ < 0, ∃p t.q. E ln kA(1 ) × . . . × A(p )k < 0, et alors le modèle a une solution
+
stationnaire stricte si E ln kB(1 )k < ∞.
i.e.
1
kA(1 ) × . . . × A(p )k p −→ eγ p.s. .
3.3 Ergodicité
Processus stochastiques 49
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
bn ) la ne application coordonnée de E N .
On note (X
bn ) est défini sur E N , B(E N ) , P
(X b où P
b est l’image de P par φ. C’est le processus
canonique associé à (Xn )n .
Proposition 3.13 — (X
bn ) est stationnaire strict ssi
θP
b = P
b.
I = φ−1 (I) .
Définition 3.8 — Un processus (Xn ) est dit ergodique si sa tribu des invariants
associée est p.s. grossière, i.e.
∀A ∈ I, P(A) = 0 ou 1 .
X
bn ergodique ⇔ Xn ergodique .
Proposition 3.14 —
n o
A∈I ⇔ ∃B ∈ B(E N ), ∀n, A = ω | Xn (ω),Xn+1 (ω), . . . ∈ B .
Corollaire 3.3 —
I ⊂ A∞ .
Processus stochastiques 50
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Proposition 3.15 — Si (n )n est une suite de v.a. indépendantes et de même loi,
alors (n )n est stationnaire stricte et ergodique.
Proposition 3.16 — Soit (Xi )i une suite stationnaire stricte et ergodique. Soit φ :
E N → E.e On pose, ∀n ∈ E, X
ei = φ(Xi ,Xi+1 , . . . ,Xi+n , . . . ). Alors X
ei est stationnaire
stricte ergodique.
Proposition 3.17 — Si (n )n∈Z est une suite de v.a. indépendantes et de même loi,
alors (n )n∈Z est stationnaire stricte et ergodique.
Lemme 3.2 — La tribu des invariants est incluse p.s. dans la tribu asymptotique
\
σ(p , p > n) .
p
Théorème 3.4 (Birkoff ) — Soit (Xi )i∈Z un processus stationnaire strict. Alors
n−1
1X
lim Xi = E (X0 | I) p.s. .
n n i=0
Processus stochastiques 51
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
νπ = ν .
Proposition 3.20 — Étant données une proba de transition π et une loi initiale ν, il
existe sur E N ,B(E N ) où Xn est la ne application coordonnée, une unique loi de probabilité
Pν telle que ∀Ai ∈ B(E N ),
Z Z Z
Pν X0 ∈ A0 ,X1 ∈ A1 , . . . ,Xn ∈ An = ν(dx0 ) π(x0 , dx1 ) . . . π(xn−1 , dxn ) .
A0 A1 An
ν = δx =⇒ P ν = Px .
Définition 3.10 — La chaı̂ne de Markov (Xn ) est dite stable s’il existe une proba µ
telle que
n Z
1X
∀f ∈ Cb , ∀x ∈ E, f (Xi ) −→ dµ Px − p.s. .
n i=1
Processus stochastiques 52
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
ce qui équivaut à
étroit.
∀x, P n (x,.) −→ µ.
Corollaire 3.4 — Soit le modèle Xn = F (Xn−1 , n ) = Fn (Xn−1 ). S’il existe x tel
que :
— E ln+ kF1 (x) − xk < ∞ ;
Définition 3.12 — Une chaı̂ne de Markov est dite récurrente positive s’il existe
une proba µ telle que ∀f bornée, ∀x ∈ Rd ,
n Z
1X p.s.
f (Xix ) −→ f (x) dµ(x) ,
n i=1
ce qui revient à dire que ∀A borélien tel que µ(A) > 0, partant de tout point x, la chaı̂ne
visite une infinité de fois A.
Proposition 3.23 — Si la chaı̂ne est stable, alors ∀O ouvert de mesure µ(O) > 0,
∀x ∈ Rd , la chaı̂ne issue de x visite p.s. une infinité de fois l’ouvert O. On dit qu’il y a
récurrence dans les ouverts chargés par la proba invariante.
Exemple — Soit
Xn+1 = f (Xn ) + n+1 .
Si f est continue, P est fellerienne. Si f est continue et si 1 admet une densité par
raport à la mesure de Lebesgue, alors P est fortement fellerienne.
Proposition 3.24 — Si (Xn )n est stable et P fortement fellerienne, alors (Xn )n est
récurrente positive.
νn (Φ) −→ ν(Φ) .
Processus stochastiques 53
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Xn = a1 Xn−1 + · · · + ap Xn−p + n ,
avec les n bruit blanc gaussien. Ici, il s’agit de modéliser autrement l’erreur. Soit le modèle
p
= hn−1 .ηn
n
ηn i.i.d., E (ηn ) = 0, E (ηn2 ) = 1
(?)
η indépendant de n−1 = σ(p , p 6= n − 1)
n
hn−1 σ(p , p 6= n − 1) − mesurable
Définition 3.15 — Le modèle est dit hétéroscédastique si E (2n | n−1 ) n’est pas
constant.
Processus stochastiques 54
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Proposition 3.26 — Si n solution du modèle (?) vérifie E (2n ) = cste < ∞, alors
n est un bruit blanc de L2 (i.e. bruit blanc au sens faible).
Proposition 3.27 — S’il existe une solution n du modèle ARCH(q) telle que 2n soit
stationnaire au sens large, alors 2n est un AR(q) vérifiant
q
X
2n = γ + αi 2n−i + Un ,
i=1
S’il existe une solution n du modèle GARCH(p,q) telle que 2n soit stationnaire au sens
large, alors 2n est un ARMA sup(p,q),q vérifiant
sup(p,q) p
X X
2n = γ + (αi + βi )2n−i − βj Un−j + Un ,
i=1 j=1
Proposition 3.28 — Si le modèle (?) admet une solution stationnaire faible, alors
α + β < 1.
Proposition 3.29 — Si le modèle (?) admet une solution stationnaire stricte, alors
E ln(α + βη12 ) < 0. Dans ce cas, la solution est ergodique. de plus, si la solution station-
naire stricte admet un moment d’ordre 2, alors α + β < 1.
Processus stochastiques 55
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
Proposition 3.31 — Soit (An )n∈Z une suite de matrices aléatoires formant un pro-
cessus stationnaire strict. Alors
E ln kA1 . . . An k
E ln kA1 k < ∞ ⇐⇒ −→ γ ,
n
où γ est le plus grand exposant de Lyapounov. De plus,
ln kA1 . . . An k p.s.
−→ γ ,
n
i.e.
1 p.s.
kA1 . . . An k n −→ eγ .
1
E Y(k+1)h − Ykh | Ykh = y = b(y)
h
1
V Y(k+1)h − Ykh | Ykh = y = σ 2 (y)
h
(h)
Théorème 3.6 (Stroock - Varadhan) — Soit (Yk )k une famille de chaı̂nes de
h
Markov indexées par h, à valeurs dans Rd . Y t = Ykh si t ∈ [kh,(k + 1)h[, t ∈ R.
Processus stochastiques 56
3. MODÈLES AUTORÉGRESSIFS NON LINÉAIRES
C’est un processus cadlag. Supposons qu’∃a,b, aplications continues, avec a(y) matrice
d-dimensionnelle définie positive et b(y) vecteur de Rd . On suppose que
S’il existe σ continue telle que a(y) = σ(y)σ(y)t et si l’EDS (?) admet une solution
h
unique, alors les lois fini-dimensionnelles des processus Y t convergent vers celle de l’EDS.
Processus stochastiques 57
Deuxième partie
THÓRIE DE MARKOV
58
4
Introduction
Définition 4.1 — Un processus de Markov est un processus tel que, étant donné
la valeur de Xt , la valeur de Xs pour s > t ne dépend pas des valeurs prises avant t, soient
{Xu , u < t}.
Ceci s’écrit
P(x, s ; t, A) = P(Xt ∈ A | Xs = x)
pour t > s et A ⊂ R.
Définition 4.4 — Un processus est dit stationnaire si, pour tout h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ) .
Définition 4.5 — Un processus est dit stationnaire par covariance si ses moments
du second ordre sont finis et si
59
4. INTRODUCTION
Proposition 4.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.
Notation — On note
Pijn,n+m = P(Xn+m = j | Xn = i)
et
Pijn,n+1 = Pij
= P(Xn+1 = j | Xn = i) .
Définition 4.8 — Une marche aléatoire uni-dimensionnelle est une chaı̂ne de Mar-
kov d’espace d’états l’ensemble (fini ou infini) {a, a + 1, . . . , b} pour lequel, si le processus
est en i à l’instant n, alors à l’instant n + 1 il ne peut être qu’en i, en i − 1 ou en i + 1. La
matrice de transition est alors de la forme
r0 p0 0 0 ... ... 0
q 1 r1 p1 0 ... ... 0
0 q 2 r2 p2 0 ... 0
. . . . . . . .
0 . . . . ... 0
0 . . . . . . . . . . . . 0 rb
avec pi > 0, qi > 0, ri > 0 et qi + ri + pi = 1 pour tout i ∈ {1, 2, . . .}, p0 > 0, r0 >
0, r0 + p0 = 1 et enfin, si Xn = i, i > 1,
P(Xn+1 = i + 1 | Xn = i) = pi ,
P(Xn+1 = i | Xn = i) = ri ,
P(Xn+1 = i − 1 | Xn = i) = qi .
Processus stochastiques 60
4. INTRODUCTION
k=0
Définition 4.9 — Un état j est dit accessible à partir d’un état i s’il existe un entier
n > 0 tel que Pijn > 0.
Définition 4.11 — Une chaı̂ne de Markov est dite irréductible si la relation d’équi-
valence induit une seule classe, i.e. tous ses états communiquent entre eux.
Définition 4.12 — La période d’un état i, noté d(i), est le plus grand commun
diviseur (pgcd) de tous les entiers n > 1 pour lesquels Piin > 0. Par convention, on pose
d(i) = 0 si Piin = 0 pour tout n > 1.
Processus stochastiques 61
4. INTRODUCTION
Théorème 4.2 — Si l’état i a pour période d(i), alors il existe un entier N (i) (dépen-
dant de i) tel que ∀n > N (i),
nd(i)
Pii >0.
m m+nd(i)
Corollaire 4.1 — Pji >0 ⇒ Pji >0 ∀n suffisamment grand.
Définition 4.13 — Une chaı̂ne de Markov est dite apériodique si tous ses états sont
de période 1.
fiin = P(Xn = i, Xν 6= i, ν = 1, 2, . . . , n − 1 | X0 = i)
qui est la probabilité que, partant de l’état i, le premier retour à cet état se passe au ne
pas de la transition.
i.e. ssi, partant de cet état, la probabilité d’y repasser après un temps fini vaut 1.
Processus stochastiques 62
4. INTRODUCTION
Remarque — Ceci prouve que la récurrence, comme la périodicité, est une pro-
priété de classe : tous les états d’une même classe d’équivalence sont soit récurrents, soit
transients.
Remarque
P∞ — Le nombre attendu de (re)passages par l’état i, étant donné X0 = i,
vaut n=1 Piin . Par conséquent, le théorème ci-dessus dit que l’état i est récurrent ssi le
nombre attendu de (re)passages par cet état est infini.
Définition 4.17 — Une chaı̂ne de Markov est dite récurrente (respectivement irré-
ductible) si tous ses états sont récurrents (resp. irréductibles).
et
1
lim = P∞ .
n→∞
n=0 nfiin
Théorème 4.7 (Théorème limite 2) — Sous les mêmes conditions que celles du
théorème précédent,
n
lim Pji = lim Piin .
n→∞ n→∞
Processus stochastiques 63
4. INTRODUCTION
∞
X
Remarque — nfiin est le temps de récurrence moyen.
n=0
Proposition 4.8 — Si πi > 0 pour un état i d’une classe récurrente apériodique, alors
πi > 0 pour tout état j de la classe de i. Dans ce cas, cette classe est dite récurrente
positive ou fortement ergodique.
Proposition 4.9 — Si πi = 0 pour tout état i d’une classe récurrente, cette classe est
dite récurrente nulle ou faiblement ergodique.
et
∞
X
πi = 1 .
i=0
Les (π)i sont déterminés de façon unique par les trois équations suivantes :
π
P∞
i > 0,
i=0 πi = 1, (4.1)
P∞
πj = i=0 πi Pij .
Définition 4.18 — Tout ensemble (πi )i=0,1,2,... vérifiant (4.1) est appelé distribution
de probabilité stationnaire de la chaı̂ne de Markov.
Processus stochastiques 64
4. INTRODUCTION
πi (C)
comme étant la probabilité que la chaı̂ne, partant de i, soit absorbée par la classe récurrente
C (rappel : une fois que la chaı̂ne entre dans une classe récurrente, elle ne la quitte plus).
lim Pijn n
= πi (C) · lim Pjj
n→∞ n→∞
= πi (C) · πj
Théorème 4.10 — Soit B une chaı̂ne de Markov irréductible dont l’espace d’états
est désigné par des entiers positifs. Une condition nécessaire et suffisante pour que B soit
transiente est que le système d’équations
∞
X
Pij yj = yj , i 6= 0
j=0
Théorème 4.11 — Une condition suffisante pour qu’une chaı̂ne de Markov soit ré-
currente qu’il existe une séquence {yi } telle que
∞
X
Pij yj 6 yj pour i 6= 0 et avec yi → ∞ .
j=0
Processus stochastiques 65
5
Ergodicité
Définition 5.1 — Un processus est dit stationnaire (au sens fort) si, pour tout
h > 0,
L
(Xt1 +h , Xt2 +h , . . . , Xtn +h ) = (Xt1 , Xt2 , . . . , Xtn ).
Proposition 5.1 — Un processus stationnaire ayant ses moments d’ordre 2 finis est
un processus stationnaire par covariance.
Théorème 5.1 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance ayant pour fonction de covariance R(v). Alors
N −1
1 X
lim E (X̄N − m)2 = 0
lim R(v) = 0 ssi
N →∞ N N →∞
v=0
1
où X̄N = N (X1 + . . . + XN ).
66
5. ERGODICITÉ
Théorème 5.2 — Soit (Xn ) un processus gaussien stationnaire par covariance ayant
pour fonction de covariance R(v) et pour moyenne 0. Alors
N −1
1 X
R(v)2 = 0 lim E |R̂T (v) − R(v)|2 = 0 ,
lim =⇒
T →∞ T v=0 T →∞
Théorème 5.3 (Ergodicité des carrés moyens) — Soit (Xn ) un processus station-
naire par covariance. Alors il existe une variable aléatoire X̄ telle que
Théorème 5.4 (Ergodicité des carrés moyens) — Soit (Xn ) un processus (faible-
ment) stationnaire de moyenne E(Xn ) = m. Alors X̄n = n1 (X0 + . . . + Xn−1 ) converge en
probabilité vers une variable aléatoire X̂, ce qui s’écrit
P lim X̄n = X̄ = 1 .
n→∞
T x = T (x0 , x1 , x2 , . . .)
= (x1 , x2 , x3 , . . .) .
Définition 5.5 — Soit (Xn ) un processus (faiblement) stationnaire. Il est dit ergo-
dique si, pour tout ensemble A invariant par opération de shift,
P (X0 , X1 , . . .) ∈ A = 0 ou 1 .
Processus stochastiques 67
5. ERGODICITÉ
Théorème 5.6 — Soit (Xn ) un processus stationnaire. Les conditions suivantes sont
équivalentes :
(i) (Xn ) est ergodique ;
(ii) pour tout ensemble A invariant par opération de shift,
P (X0 , X1 , . . .) ∈ A = 0 ou 1 ;
Processus stochastiques 68
6
Entropie
Remarque — La propriété (iii) est conforme à l’intuition, qui veut que la v.a. X1
prenant les valeurs 0 et 1 avec les probabilités 0,001 et 0,999 est plus prévisible que la v.a.
X2 prenant les valeurs 0 et 1 avec probabilité 1/2.
69
6. ENTROPIE
Proposition 6.6 — Une chaı̂ne de Markov irréductible d’espace d’états fini commen-
çant avec sa distribution stationnaire est un processus stationnaire ergodique.
Théorème 6.1 — Soit (Xn ) un processus stationnaire ergodique d’espace d’états fini
{1, . . . , N }. Soient
p(i1 , . . . , im ) = P(X1 = i1 , . . . , Xm = xm )
et n
1X X
H (Xn ) = lim − p(i1 , . . . , pk ) log p(i1 , . . . , ik ) .
n→∞ n i ,..., i
k=1 1 k
Processus stochastiques 70
Troisième partie
PROCESSUS
STOCHASTIQUES
71
7
Généralités
X : [0, ∞[ × Ω → R
(t, ω) 7→ X(t, ω)
telle que :
a) pour presque tout ω, t 7→ X(t, ω) est continue ;
b) pour tout t > 0, Xt : ω 7→ X(t, ω) est une v.a.r.
La loi de X est caractérisée par la loi des (Xt1 , . . . , Xtk )k>1 , 0 6 t1 < . . . < tk < ∞. En
fait, il s’agit d’une loi marginale finie k-dimensionnelle. Soit
X : Ω → C(R+ , R)
ω 7→ X(t, ω), t > 0
où C(R+ , R) est munie de la topologie de la convergence uniforme sur les compacts.
Munissant C(R+ , R) de la tribu borélienne, X est mesurable. Par conséquent, l’image de P
par cette application mesurable est la probabilité sur C notée PX .
72
7. GÉNÉRALITÉS
X
X(t) = E (X(t)) + cn (t) ζn (ω)
n
avec
1. Sous-espace vectoriel.
Processus stochastiques 73
7. GÉNÉRALITÉS
Soit (ζn )n des v.a. i.i.d. d’espérance nulle et de variance σ 2 finie. Soit Sn =
P
i ζi .
D’après le théorème de la limite centrale,
Sn L
√ → N (0, 1) .
σ n
Soit la marche aléatoire renormalisée
P[nt]
(n) i=1 ζi + nt − [nt] ζ[nt]+1
Xt = √ .
σ n
(n)
Théorème 7.1 (Donsker) — La suite de processus Xt converge en loi vers B quand
n tend vers l’infini.
Processus stochastiques 74
7. GÉNÉRALITÉS
7.4.2 Martingales
Définition 7.6 — Soit (Ω, A, P), t ∈ N ou R+ . Une filtration est une famille Ft de
tribus, t ∈ N ou R+ , telle que
Fs ⊂ Ft ⊂ A
∀s 6 t.
Définition 7.8 — Soit (Ω, A, P). Soit (Mt )t , t ∈ N ou R+ , un processus réel défini
sur Ω. Soit (Ft )t une filtration sur Ω. (Mt )t est une Ft –martingale si :
(i) ∀t, Mt est Ft –adaptée et Mt ∈ L1 ;
(ii) pour 0 6 s 6 t, E (Mt |Fs ) = Ms p.s.
Processus stochastiques 75
7. GÉNÉRALITÉS
Pn
3) Soit Fn = σ(ζ1 , . . . , ζn ). Soit Sn = i=1 ζi , avec les ζi i.i.d. centrées de variance σ 2 .
Alors Xn = Sn − nσ 2 est une Fn –martingale.
4) Soit Ft = σ(Bu , u 6 t). Alors
Mt = Bt2 − t
est une Ft –martingale.
5) Soit Ft = σ(Bu , u 6 t). Alors
λ2 t
Yt = exp λBt − ,
2
2
Remarque — Soit X(t) une f.a.r.c. telle que X(0) = 0 et telle que exp λXt − λ2 t
soit une Ft –martingale, avec Ft = σ(Xs , s 6 t), λ ∈ R (ou λ ∈ iR). Alors X est un
brownien.
En particulier, le résultat précédant, pour φ(x) = x2 , nous indique que le carré d’une
martingale est une martingale.
Proposition 7.4 — Soit M une martingale continue et < M >t sa variation quadra-
tique. Alors
Xt = Mt2 − < M >t .
est une martingale.
Définition 7.10 — Soient (Ω, A, P) et (Ft )t>0 une filtration. On appelle temps
d’arrêt une v.a. T : Ω → [0, ∞] telle que ∀t > 0, {T 6 t} ∈ Ft .
Processus stochastiques 76
7. GÉNÉRALITÉS
3) Si A est un ouvert et si X est continue à droite, alors TA est un Ft+ –temps d’arrêt,
où Ft+ = ∩ Fs .
s>t
4) Si B est un fermé et si X est continue, alors TB est un Ft –temps d’arrêt.
5) T ∧ T 0 est un temps d’arrêt si T et T 0 en sont.
Proposition 7.6 — Soient s > 0 et X(t) = B(t + s) − B(s). Alors X est un brownien
et est indépendant de Fs = σ(Bu , u 6 s).
Processus stochastiques 77
7. GÉNÉRALITÉS
L2 (Ω) est muniR du p.s. produit scalaire E (XY ). L2 (R+ ) est muni du p.s. produit
scalaire < f, g >= R+ f (t)g(t) dt. On veut définir
Z
1]u, v] (s) dB(s) = B(v) − B(u)
R+
pour 0 6 u < v.
Théorème 7.5 — Soit B un brownien sur (Ω, A, P). On peut associer à toute
fonction f de L2 (R) une v.a. centrée, intégrable et gaussienne de H B , notée R+ f (t) dB(t)
R
Processus stochastiques 78
7. GÉNÉRALITÉS
A. Cas unidimensionnel
ce qui équivaut à
Z t
V (t) = V (0) − bV (s) ds + σB(t) .
0
Proposition 7.10 — On suppose que V (0) est indépendant de B et qu’il suit une loi
normale centrée de variance σ 2 /(2b). Alors V (t) est un processus gaussien stationnaire.
B. Cas multidimensionnel
Soit
dV (t) = −bV (t) dt + σ dB(t)
avec V ∈ R , b ∈ Md×d , σ ∈ Md×d , b ∈ Rd et B = (B1 , . . . , Bd )t brownien de dimension
d
d.
Processus stochastiques 79
8
Calcul stochastique
8.1.1 Filtration
Définition 8.1 — Une f.a. φ(t, ω) définie sur R+ × Ω (respectivement sur [0, T ] × Ω)
est dite progressivement mesurable par rapport à la filtration F = (Ft , t > 0) si ∀t ∈ R+
(resp. t 6 T ), la restriction de φ suivante :
φ : [0, t] × Ω → R
(s, ω) 7→ φ(s, ω)
est mesurable par rapport à B [0, t] ⊗ Ft .
On note M 2 (R+ ) (resp. M 2 [0, t] ) l’ensemble des fonctions φ progressivement mesu-
rables et telles que Z
E φ2 (t, ω) dt < ∞ .
R+
80
8. CALCUL STOCHASTIQUE
Par lasuite, nous travaillerons sur R+ , mais les résultats seront également valables pour
2
M [0, t] .
M 2 (R+ ) est un espace de Hilbert : on a le produit scalaire
Z
2
< φ, ψ >M 2 (R+ ) = E φ (t, ω) ψ(t, ω) dt .
R+
et
Z 2 n−1
X
E φ(t) dB(t) = E (Xi2 ) (ti+1 − ti ) .
R+ i=0
En effet,
Z 2 Z
E φ(t) dB(t) = E φ2 (t) dt .
R+ R+
Processus stochastiques 81
8. CALCUL STOCHASTIQUE
Pn : L2 (R+ ) → L2 (R+ )
2
n Z 1
X n
f 7→ Pn f (t) = n f (s)ds 1] i , i+1 (t) .
i−1 n n ]
i=1 n
Alors
kPn f k2 6 kf k2 ,
L2 (R+ )
Pn f −→ f, ∀f ∈ L2 (R+ )
et
M2 (R+ )
Pn φ −→ φ, ∀φ ∈ M2 (R+ ) .
Processus stochastiques 82
8. CALCUL STOCHASTIQUE
Proposition 8.3 — Z t
X(t) = φ(s) dB(s)
0
est une F–martingale.
Proposition 8.4 — Z t
X 2 (t) − φ2 (s) ds
0
est une F–martingale.
8.3.1 Introduction
Soit Z t Z t
X(t) = X(0) + φ(s) dB(s) + ψ(s) ds ,
0 0
Processus stochastiques 83
8. CALCUL STOCHASTIQUE
< φ dB + ψ dt, φ dB + ψ dt > = φ2 < dB, dB > +2φψ < dB, dt > +ψ 2 < dt, dt >
où
< dB, dB > = dt,
< dB, dt > = 0,
< dt, dt > = 0.
Exemple — Soit
Z t Z t
1 2
M (t) = exp φ(s) dB(s) − φ (s)ds .
0 2 0
8.3.3 Localisation
2
Définition 8.3 — φ ∈ Mloc ([0, T ]) si :
(i) φ est progressivement mesurable ;
RT
(ii) 0 φ2 (t) dt < ∞ p.s.
Nous définissons \
2 2
Mloc = Mloc [0, T ] .
T >0
2
Définition 8.4 — Si φ ∈ Mloc , on définit le temps d’arrêt par :
n o
inf t > 0 : t φ2 (s) ds > n ,
R
0
τn = n o
+∞ si t > 0 : t φ2 (s) ds > n = ∅.
R
0
Processus stochastiques 84
8. CALCUL STOCHASTIQUE
Proposition 8.7 — Si n croı̂t vers +∞, alors τn croı̂t vers +∞ p.s. Par ailleurs,
1[0, τn ] (t) φ(t) ∈ M 2 .
2
pour φ ∈ Mloc .
Rt 2
Définition 8.5 — X(t) = 0 φ(s) dB(s), avec φ ∈ Mloc , est une martingale locale
s’il existe une suite (τn )n de F–temps d’arrêt telle que :
(i) τn croı̂t vers +∞ p.s. ;
(ii) Yn (t) = X(t ∧ τn ) est une F–martingale pour tout n.
2 d×k
Nous avons que φ ∈ (Mloc ) et
hZ t i
E φ(s) dB(s) = 0,
0
h Z t Z t t i hZ t i
φ(s) ψ(s)t ds ,
E φ(s) dB(s) ψ(s) dB(s) = E
0 0 0
h Z t t
Z t i hZ t i
E φ(s) dB(s) ψ(s) dB(s) = E tr φ(s) ψ(s)t ds .
0 0 0
Soit Φ ∈ C 1,2 :
Φ : R+ × Rd → R
t, B1 (t), . . . , Bd (t) 7 → Φ t, B1 (t), . . . , Bd (t) .
Processus stochastiques 85
8. CALCUL STOCHASTIQUE
Soit X ∈ Rd :
dX(t) = ψ(t) dt + φ(t) dB(t) .
|{z} |{z}
∈Rd ∈Md×k
Formule d’Ito
Z t d Z t
∂ X ∂
Φ(t, Xt ) = Φ(0, X0 ) + Φ(s, Xs ) ds + Φ(s, Xs ) ψi (s) ds
0 ∂t i=1 0
∂xi
d Z t k
X ∂ X
+ Φ(s, Xs ) φij (s) dBj (s)
i=1 0 ∂xi j=1
d Z t k
1 X ∂2 X
+ 0 Φ(s, X s ) φij (s) φi0 j (s) ds .
2 0 0 ∂xi ∂xi j=1
i, i =1
∂xd Φ
k d k
X X ∂2Φ X
< dX, D2 Φ · dX > = < φij 0 dBj 0 , φi0 j dBj >
∂xi ∂xi0 j=1
j 0 =1 i0 =1
2
X ∂ Φ
= φij 0 φi0 j < dBj 0 , dBj >
∂xi ∂xi0
i, i0 , j, j 0
X ∂2Φ
= φij 0 φi0 j dt .
∂xi ∂xi0
i, i0 , j, j 0
1
dΦ(t, Xt ) = ∂t Φ · dt + ∇x Φ · dX + tr(D2 Φ φ φt ) dt .
2
Processus stochastiques 86
8. CALCUL STOCHASTIQUE
Soient B, X, Y ∈ R :
dX = φ dB + ψ dt ,
dY = λ dB + µ dt ,
2
avec φ, ψ, λ, µ ∈ Mloc .
On a donc :
Z t h i
X(t) Y (t) − X(0) Y (0) = X(s) λ(s) dB(s) + µ(s) ds
0
Z t h i Z t
+ Y (s) φ(s) dB(s) + ψ(s) ds + φ(s) λ(s) ds .
0 0
2
Soit φ ∈ Mloc . Soit
Z t Z t
1 2
Z(t) = exp φ(s) dB(s) − φ (s) ds .
0 2 0
Processus stochastiques 87
8. CALCUL STOCHASTIQUE
Théorème 8.2 (Girsanov) — Supposons que E Z(t) = 1, ∀t. Alors il existe une
proba. Q définie sur F∞ par
Z
Q(A) = Z(t) dP pour A ∈ Ft
A
et telle que
Z t
B(t) = B(t) − φ(s) ds
0
Alors
x(t) 6 aebt .
8.4.3 Critères
alors
E Z(t) = 1 .
Processus stochastiques 88
9
Processus de comptage
Proposition 9.1 — Si M (t) est une martingale, alors M 2 (t) est une sous-martingale.
89
9. PROCESSUS DE COMPTAGE
∆M1 · ∆M2 = 0
< M1 , M2 > = 0 .
Processus stochastiques 90
9. PROCESSUS DE COMPTAGE
Définition 9.3 — Soit N (t) un processus de comptage. C’est (par définition) une sous-
martingale locale. Par conséquent, il existe un processus Λ(t) prévisible, croissant, continu
à droite et nul en zéro tel que
M (t) = N (t) − Λ(t)
soit une martingale.
Λ(t) s’appelle le compensateur de N (t), ou encore sa projection prévisible.
<M >= Λ.
Processus stochastiques 91
9. PROCESSUS DE COMPTAGE
Z
< Mi , Mj > = − ∆Λi dΛj (i 6= j) .
< Mi > = Λi ,
< Mi , Mj > = 0 (i 6= j) .
9.5 Résidus
Processus stochastiques 92
9. PROCESSUS DE COMPTAGE
pour i 6= j, et ceci bien que Ri et Rj ne soient pas indépendants (à moins que Hi et Hj ne
le soient).
De plus,
Z t t Z t
V Ri (t) = E Hi (u) λi (u) du Hi (u) λi (u) du .
0 0
Définition 9.5 — Soit une partition t0 = s < t1 < . . . < tn = t. Son pas est
Processus stochastiques 93
9. PROCESSUS DE COMPTAGE
P (1 + dX) = eX(t) .
]0,t]
Théorème 9.5 — On suppose que P (1 + dX) existe et est une fonction cadlag à
variation localement bornée. Alors c’est l’unique solution de l’équation–intégrale
Z
Y (t) = 1 + Y (s−) X(ds) .
s∈[0,t]
Y (t)
Z
h i−1
P (1 + dX) · X(ds) − X 0 (ds) · P (1 + dX 0 )
0
− 1 =
Y (t) s∈[0,t] [0,s) [0,s]
Z t
Y (s−)
X(ds) − X 0 (ds) .
= 0
0 Y (s)
est
Z t
Z(t) = W (t) + W (s−) X(ds) · P (1 + dX)
0 (s,t]
Z t
= W (0) · P (1 + dX) + W (ds) · P (1 + dX) .
[0,t] 0 (s,t]
Processus stochastiques 94
9. PROCESSUS DE COMPTAGE
(h 6= j) dans l’intervalle [0, t]. On suppose que des intensités de transition (de l’état h à
l’état j, h 6= j) localement intégrables existent : soient α(hj) (t) ces intensités.
Alors le processus d’intensité de N par rapport à Ft = σ X(0), N (s), s 6 t est
où Yh (t) = 1 .
X(t−)=h
Remarque — Le processus de comptage N = N (hj) (.), h 6= j et X(0) sont
« équivalents », dans le sens que l’observation de X(u) pour 0 6 u 6 t fournit la même
information que l’observation conjointe de X(0) et de N (u) pour 0 6 u 6 t.
Processus stochastiques 95
Quatrième partie
ÉQUATIONS
DIFFÉRENTIELLES
STOCHASTIQUES
96
10
Introduction
f (t, x) est appelée dérive (drift)de l’EDS, et g(t, x) coefficient de diffusionde l’EDS.
Théorème 10.1 — Soient (Ω, A, P), (Bt , t > 0) un (Ft )t -brownien sur Ω, X0
indépendant de (Bt , t > 0). On suppose que
|f (t, x) − f (t, y)| + |g(t, x) − g(t, y)| 6 K|x − y| ∀t, x, y .
Alors il existe une unique solution X de l’EDS — et X ∈ M 2 . C’est une solution forte au
sens où X est une fonction mesurable de X0 et de B.
10.2 Exemples
Ornstein-Uhlenbeck
dVt = −αVt dt + Bt ,
dX = αX dt + σdB
dont la solution est h σ2 i
X(t) = X0 exp σB(t) + (α − )t .
2
97
10. INTRODUCTION
EDS p p
1 + Xt2 + 12 Xt dt
dXt = 1 + Xt2 dBt +
X(0) = X0
q
(shy)0 = chy = 1 + sh2 y
Yt = sh(Bt )
1
Ito : dYt = ch(Bt ) + sh(Bt ) dt
2
1
q
= 2
1 + Yt dBt + Yt dt
2
Xt = sh(Bt + t + ArgshX0 )
Vérification :
1
dXt = ch(Bt + t + ArgshX0 )[ dBt + dt] + sh(Bt + t + ArgshX0 ) dt
2
1
q
= 1 + Xt2 (dBt + dt) + Xt dt .
2
dx = x2 dt .
Soit
1
X(t) = .
1 − B(t)
1 2 2 1 3
Ito : dXt = dBt + dt
1 − Bt 2 1 − Bt
Processus stochastiques 98
10. INTRODUCTION
e1 = X ◦ P la loi de X sous P, et P
Soit P e0 = Y ◦ P la loi de Y sous P. On va montrer
que P
e1 << P e0 (et même équivalentes) et calculer
dP
e1
(y) ,
dP
e0
où y = (yt , t 6 T ) ∈ C [0, T ], R .
Soit
hZ T Z T
1 i
Z(T ) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
avec
b1 − b0
h(y) = y.
σ
Processus stochastiques 99
10. INTRODUCTION
— σ > 0;
— E Z(T ) = 1 (i.e. vrai si martingale).
Sous Q,
Z t
B(t) = B(t) − h(Ys ) ds est un brownien
0
On fait l’hypothèse supplémentaire qu’il existe une unique solution en loi de (EDS 1).
Alors X ◦ P = Y ◦ Q.
D’autre part, Y est sous Q solution de (EDS 1).
Soit ψ : C [0,T ], R → R continue bornée.
Z
ψ dP
e1 = E P ψ(X)
C
= E Q ψ(Y )
= E P ψ(Y )Z
= E P ψ(Y )E P (Z | Y ) .
D’où
hZ T Z T
1 i
Z(t) = exp h(Ys ) dBs − h2 (Ys ) ds
0 2 0
T
hZ dYs − b0 (Ys ) ds 1 T 2
Z i
= exp h(Ys ) − h (Ys ) ds
0 σ(Ys ) 2 0
hZ T Z T
h(Ys ) h(Ys )b0 (Ys ) 1 2 i
= exp dYs − + h (Ys ) ds
0 σ(Ys ) 0 σ(Ys ) 2
. . .et
h(Ys ) b0 (Ys ) 1 2
+ h (Ys )
σ(Ys ) 2
b1 (Ys ) − b0 (Ys ) b0 (Ys ) b1 (ys ) − b0 (Ys )
= +
σ(Ys ) 2 2σ(Ys )
b21 (Ys ) − b20 (Ys )
= .
2σ 2
D’où
T T
b1 (Ys ) − b0 (Ys ) b21 (Ys ) − b20 (Ys ) i
Z Z
h 1
E P Z | Y = exp 2
dYs − ds .
0 σ (Ys ) 2 0 σ 2 (Ys )
D’après Ito :
h Z t Z t i
dXt = φ̇(t) X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs dt
0 0
h Z t Z t i
−1
+φ(t) d X0 + φ (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
h Z t Z t i
= At φt X0 + φ−1 (s)a(s) ds + φ−1 (s)σ(s) dBs
0 0
+φt [φ−1 −1
t at dt + φt σt dBt ]
= At Xt dt + at dt + σt dBt
= EDSL .
= t−t×1
= 0 .
Définition 10.1 — Le processus B(t) − t B(1) 06t61 est appelé pont brownien.
Il est indépendant de B(1) et est noté B10→0 (t) 06t61 . C’est un processus gaussien
centré de covariance
ρ(s, t) = s ∧ t − st .
X(0) = a .
C’est une EDSL ; posons φt = 1 − t/T . La solution est
Z t
t t dBs
Xt = a(1 − ) + b + (T − t) .
T T T −s
| {z0 }
a→b (t)
BT
Q(h ,x; dy) est une probabilité de transition. Soit 0 = t0 < t1 < . . . < tk . La loi de
X(t1 ), X(t2 ), . . . , X(tk ) partant de X(0) = x est
103
11. PROPRIÉTÉS DES EDS
En effet,
Q(s + t, x; A) = P X(s + t) ∈ A | X(0) = x
h i
= E P X(s + t) ∈ A | Fs | X(0) = x
h i
= E P X(s + t) ∈ A | Xs | X(0) = x
Z
= Q(t, y; A) · Q(s, x; dy) .
y∈Rd
Soit l’EDS
0 1
φ (Xt )f (Xt ) + φ00 (Xt )g 2 (Xt ) dt + φ0 (Xt )g(Xt ) dBt .
dφ(Xt ) =
2
Soit
1
Lφ(x) = φ0 (x) f (x) + φ00 (x) g(x)2 .
2
L est l’opérateur différentiel linéaire du second ordre ; c’est le générateur infinitési-
mal de (Xt )t . Dans la cas (général) vectoriel :
Z t k
Z tX
φ(Xt ) = φ(X0 ) + Lφ(Xs ) ds + φ(Xs ) dBl (s) ,
0 0 l=1
avec
d d
1 X ∂2φ X ∂
Lφ(x) = aij (x) + fi (x) φ(x)
2 i,j=1 ∂xi ∂xj i=1
∂x i
où
gg ? = a,
d
X ∂
Ml = gil (x) .
i=1
∂xi
Rt
φ(Xt ) − 0
Lφ(Xs ) ds est :
— une martingale locale si φ ∈ C 2 (Rd , R) ;
— une martingale si φ ∈ Cc∞ (Rd , R).
Z t
Ex φ(Xt ) = φ(x) + E x Lφ(Xs ) ds
0
= Q(t, x; φ)
Z t
Z t
E x Lφ(Xs ) ds = Q(s, x; Lφ) ds
0 0
car
Z
Q(t, x; A) = Q(t, x; dy)
y∈A
Z
φ(y)Q(t, x; dy) = Q(t, x; φ) .
d
1 X ∂2 X ∂
L? φ(x) =
aij (x)φ(x) − fi (x)φ(x) .
2 i, j ∂xi ∂xj i=1
∂xi
k
Z Z
∂ ∂
fi (x) φ(x) · ψ(x) dx = − φ(x) fi (x)ψ(x) dx .
∂xi ∂xi
D’où
∂
K ?ψ = −
fi (x) ψ(x) .
∂xi
∂
Q(t, x; dy) = L?y Q(t, x; dy) .
∂t
hZ i
∂t Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)
Z i
L?y Q(t, x; dy) Q(s, y; dz) = ∂t Q(s + t, x; dz)
⇔
Z
⇔ Q(t, x; dy) Ly Q(s, y; dz) = ∂t Q(s + t, x; dz) .
∂
Q(t, x; dz) = Lx Q(t, x; dz) .
∂t
Z t Z t
Xt = X0 + σ(s, Xs ) dBs + b(s, Xs ) ds . (11.1)
0 0
∂φ X h X ∂φ i
dφ(t, Xt ) = + Lt φ (t, Xt ) dt + σil dBl .
∂t i
∂xi
l
d
1X ∂2 X ∂
Lt φ(x) = aij (t, x) φ(x) + bi (t, x) φ(xi ) ,
2 i, j ∂xi ∂xj i=1
∂xi
où a = σσ ? .
Problème de Cauchy
∂
∂t v = −Lt v − kv + g
(Cauchy)
v(T, x) = f (x) (condition finale),
— a, b et k sont bornées ;
— Lt est uniformément elliptique : ∃δ > 0, ∀t, x,
X
aij (t, x)ζi ζj > δ|ζ|2 .
Le problème de Cauchy a une unique solution v telle que v(t, x) 6 c 1 + |x|µ , qui est
donée par la représentation de Feynman-Kac.
˛ ˛ ` ´
1. Ceci signifie que ˛b(t, x)˛ < K 1 + |x| .
Définition 11.4 — Une solution d’une EDSR(ζ, f ) est un couple (Y, Z) de processus
progressivement mesurables à valeurs dans Rk × Rk×d et vérifiant :
hZ T i
E kZs k2 ds < ∞
0
et
Z T Z T
Yt = ζt + f (s, Ys , Zs ) ds − Zs dBs . (11.2)
t t
On a donc
dYt = −f (t, Yt , Zt ) dt + Zt dBt ,
YT = ζ ,
et donc
Z t Z t
Yt = Y0 − f (s, Ys , Zs ) ds + Zs dBs . (11.3)
0 0
On note Mt? = sup[0, T ] |Ms |. Alors, ∀p > 0, il existe une constante cp > 0 telle que
h i h Z t p
i
E (Mt? )p 6 cp E ( u2s ds) 2 .
0
Théorème 11.1 — Sous les mêmes hypothèses que précédemment, il existe une unique
solution à l’EDSR(ζ, f ) vérifiant (11.4).
Théorème 11.2 — Il existe une norme sur B 2 (hilbertienne) telle que φ soit une
contraction stricte : ∀γ > 0,
hZ T 1
γt 2 2
i 2
(Y, Z) γ = E e |Yt | + kZt k dt .
0
Proposition 11.8 — Soit (Y, Z) solution de l’EDSR(ζ, f ) sous les hypothèses origi-
nelles. Supposons qu’il existe un temps d’arrêt τ 6 T tel que :
a) ζ soit Fτ mesurable ;
b) f (t,y,z) = 0 sur [τ,T ].
Alors
Yt = Yt∧τ
et
Zt = 0 sur [τ, T ] .
et
Proposition 11.10 —
1
Pt, s f (x) − f (x) −→ Lt f (x) .
s s→t
Problème de Cauchy
∂
∂t u(t, x) + a(t, x) = r(t, x)u(t, x) t ∈ [0, T ], x ∈ Rd
(Cauchy)
u(T, x) = φ(x) .
On a :
— φ : Rd → R continue ;
— a, r : [0, T ] × Rd → R continues.
On cherche une solution dans C 1,2 ([0, T ] × Rd ) vérifiant (Cauchy).
Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p
p> ;
2
f (s, x, y, z) − f (s, x, y 0 , z 0 ) 6 K |y − y 0 | + kz − z 0 k
et
Soit l’EDSR
ζ = g(XTt,x )
(??)
f˜(ω, u, y, z) = f (u, Xut,x , y, z)
i.e Z T Z T
Yst,x = g(XTt,x ) + f (u, Xut,x , Yut,x , Zut,x ) du − Zut,x dBu .
s s
Proposition 11.11 — L’EDSR (??) admet une unique solution (Yut,x , Zut,x ), u ∈
[0, T ] pour tout t dans [0,T ].
Théorème 11.4 (Kolmogorov) — S’il existe q > 1 et γ > 1+1+d (i.e. supérieur
à la dimension des paramètres) tels que
0 0 γ
E |Xst,x − Xst0 ,x |q 6 K |t − t0 | + |s − s0 | + kx − x0 k2d ,
alors il existe une version continue de (t, s, x) 7→ Xst,x . Pour tout p > 1,
0 0
E |Xst,x − Xst0 ,x |2p 6 K |t − t0 |p + |s − s0 |p + kx − x0 k2p
d .
Nota — L’équation
∂
+ Lt + f (t, x, u, ∇u ) = 0
∂t
est appelée équation semi-linéaire.
— b : [0, T ] × Rd → Rd ;
— σ : [0, T ] × Rd → Rd×d .
Soit (Bt )t un mouvement brownien de dimension d. Pour tout x ∈ Rd , t ∈ (0, T ],
(X.t,x ) est la solution de (1) partant de x à l’instant t :
Z s Z s
Xst,x = x + b(u, Xut,x ) du + σ(u, Xut,x ) dBu .
t t
Soient :
— g : Rd → Rk continue et vérifiant
1
g(x) 6 K 1 + |x|p
p> ;
2
f (s, x, y, z) − f (s, x, y 0 , z 0 )| 6 K |y − y 0 | + kz − z 0 k
et
On considère l’EDP
∂u
∂t (t, x) + Lt ui (t, x) + fi t, x, u(t, x),(∇uσ)(t, x) = 0,
i
u(T, x) = g(x) , x ∈ Rd ,
où les notations sont les mêmes qu’en page 111 et où u est une fonction de [0, T ]×Rd
dans Rk .
On a donc ∂
+ Lt = −fi ,
∂t
avec fi non linéaire.
On fait l’hypothèse « technique » que fi (t, x, y, z) ne dépend que de la ie ligne de
la matrice z :
| {z }) · (t, x) .
fi t, x, u(t, x),(∇uσ)(t, x) = fi t, x, u(t, x),(∇uσ
∇ui σ
Théorème 11.6 — u(t,x) = Ytt,x est une solution de viscosité de (?). Ytt,x est
déterministe et est une fonction continue de (t,x).
12.1 Introduction
Soit
dζt = b(t, ζt ) dt + σ(t, ζt ) dBt ,
ζ0 = η
sur (Ω, A, P).
116
12. STATISTIQUE DES DIFFUSIONS
(iii) E (η 2 ) < ∞.
Alors on a le même résultat qu’au théorème précédant (et sous (iv), E (ζt2 ) <
∞, ∀t).
alors
Mt p.s.
−→ 0 (t → +∞) ;
< M >t
(ii) si
hM iT P
−→ σ 2 (T → +∞) ,
φ(T )
où φ est une fonction déterministe, croı̂ssante, tendant vers +∞ quand T
tend vers +∞, alors
M L
p T −→ N (0 , σ 2 ) (T → +∞) .
φ(T )
P
(Si σ 2 = 0, alors √MT −→ 0).
φ(T )
1 T 2
Z
L2 1
ζs ds −→ (T → +∞) .
T 0 2|θ0 |
e2θ0 − 1
mT (θ0 ) =
2θ0
et
Z +∞
Z = x0 + e−θ0 s dBs ;
0
alors
Z T
1 L1
ζs2 ds −→ Z 2 (T → +∞)
mT (θ0 ) 0
1 L U
mT (θ0 ) 2 θbT − θ0 −→
Z
et
Z T
1 L
ζs2 ds) 2 θbT − θ0
( −→ N (0, 1) ,
0
1
où (U, Z) N (0, 1) ⊗ N (x0 , 2θ0 ).
P(ζt ∈ A | Fs ) = P(ζt ∈ A | ζs ) ;
= σ 2 (x) .
= E f (ζtx )
Pt f (x)
= E f (ζt ) | ζ0 = x .
2
Théorème 12.7 — Si f ∈ CK (R), alors
1 2
Lf (x) = σ (x) f 00 (x) + b(x) f 0 (x) .
2
h(x) dx = µ(x) dx
Théorème 12.10 — Si
lim S(x) = +∞ ,
x→+∞
lim S(x) = −∞
x→−∞
et si
Z
dx
M = < ∞,
σ 2 (x)s(x)
alors
dx
µ(x) =
M σ 2 (x)s(x)
est une distribution stationnaire.
ex = inf{ t > 0, ζ ∈
/ (l, r) } .
Proposition 12.5 —
Alors
P(T < ∞) = 1
P(ex = +∞) = 1 .
Théorème 12.13 — Soient l < a < x < b < r et T = Tx, a ∧ Tx, b . Soit u la
fonction de classe C 2 et définie sur I par
Lu = −1 ,
u(a) = u(b) = 0 .
Alors
u(x) = E (T )
( Z b Z x )
S(x) − S(a) S(b) − S(u) S(b) − S(x) S(u) − S(a)
= 2 du + du .
S(b) − S(a) x σ 2 (u)s(u) S(b) − S(a) a σ 2 (u)s(u)
Théorème 12.14 — Si
S(l+ ) = −∞ ,
S(r− ) = +∞
et si
Z r
du
M = < ∞,
l σ 2 (u)s(u)
alors ∀x, y ∈ I
E (Tx, y ) < ∞ .
Le processus est alors dit récurrent positif sur I.
du
m(u) du =
σ 2 (u)s(u)
est appelée mesure de vitesse.
Théorème 12.15 — Si un processus est récurrent positif, alors il admet une unique
distribution stationnaire, qui est donnée par
m(x)
π(x) dx = 1l1{x∈I} dx .
M
Le second terme peut être traité par le théorème classique de Lebesgue. Le premier vaut
Z T
b(θ, ζs ) h i
2
b(θ0 , ζs ) ds + σ(ζs ) dWs .
0 σ (ζs )
Question :
Z T
θ 7→ MT (θ) = φ(θ, t, ζt ) dWt
0
admet-elle une version continue ?
(K10) on a
1 00 00 P
sup |l (θ0 ) − lT,θ (θ0 + α)| −→ 0 (T → ∞) .
|α| T T,θi , θj i , θj
Proposition 12.7 — On a :
1)
1 ∂ L
√ lT (θ0 ) −→ Np 0, I(θ0 ) (T → ∞) ;
T ∂θi i=1,..., p
2)
∂2
1 P
√ lT (θ0 ) −→ −I(θ0 ) (T → ∞) .
T ∂θi ∂θj 1<i, j<p
R
Théorème 12.20 (Ergodicité) — Si f : (l, r) → R, borélienne et telle que I
|f | dπ <
∞, alors
Z T Z
1 p.s.
f (ζs ) ds −→ f (x) π(x,θ0 ) dx ,
T 0 I
quelle que soit la loi de ζ0 .
Théorème
R 12.21 (Convergence Ren loi) — Si f : (l, r) → R, borélienne et telle que
d’une part I |f | dπ < ∞, d’autre part I f dπ = 0 , alors
Z T
1 L
√ f (ζs ) ds −→ N 0, Vθ0 (f ) ,
T 0
Soit
Z x
Af (x, θ0 ) = f (u) π(u, θ0 ) du .
l
Alors
Z
Vθ0 (f ) = 4M (θ0 ) s(x, θ0 ) A2 f (x, θ0 ) dx
I
avec
Z
M (θ0 ) = m(x, θ0 ) dx ,
I
1
m(x, θ0 ) =
σ 2 (x)s(x, θ0 )
et
Z x
b(u, θ0 )
s(x, θ0 ) = exp − 2 du .
x0 σ 2 (u)
Théorème 12.22 — Soit f : I → R, continue et telle que f (x) 6 K 1 + |x|γ avec
Z
|x|γ πθ0 (x) dx < ∞ .
I
Si Z Z x 2
1 + |u|γ πθ0 (u) du
s(x, θ0 ) dx < ∞
l l
et si Z r Z r 2
1 + |u|γ πθ0 (u) du
s(x, θ0 ) dx < ∞,
x
alors
Vθ0 (f ) < ∞ .
l0 (θ)
e
θT = θeT −
bb
l00 (θ)
e
1. √ L
N 0, I −1 (θ0 )
T θbT − θ0 −→ ;
2. θbT −→ θ0 ;
√
3. T θeT − θ0 converge en loi,
alors √ P
T θbT − θbT −→ 0 (T → ∞)
b
et donc √ L
N 0, I −1 (θ0 )
T θbT − θ0 −→ .
b
MODÈLE LINÉAIRE
GÉNÉRALISÉ
129
13
Introduction
i.e.
E(yi ) = µi
Xp
= xij βj ,
j=1
où xij est la valeur de la j e covariable pour l’observation i. L’erreur du modèle suit une
N (0,σ 2 ).
Le vocabulaire est le suivant :
— la composante aléatoire : les composantes de Y ont des distributions normales
indépendantes d’espérances µi et de variance commune σ 2 ;
— la composante systématique : les covariables x1 , . . . ,xp engendrent un prédicteur
linéaire η donné par :
X p
η= xj βj
j=1
η=µ.
130
13. INTRODUCTION
b 0 ) = (X t V −1 X)−1 X t V −1 y .
β(V (13.6)
b 0 ), σ 2 ,V0 ) = − 1n 1 o
nm log(σ 2 ) + m log |V0 | + 2 RSS(V0 ) ,
L(β(V
2 σ
où
RSS(V0 ) = (y − Xβ)t V −1 (y − Xβ) .
La dérivation de (13.6) par rapport à σ 2 donne l’estimateur du maximum de vraisem-
blance de σ 2 , toujours à V0 fixé :
RSS(V0 )
b2 (V0 ) =
σ . (13.7)
nm
L’introduction de (13.6) et (13.7) dans (13.5) donne une log-vraisemblance réduite pour
V0 qui, à un terme constant près, vaut
b2 (V0 ),V0
Lr (V0 ) = L β(V b 0 ), σ
1n o
= − n log RSS(V0 ) + log |V0 | . (13.8)
2
un diviseur égal à (nm − p), plutôt que le diviseur nm vu en (13.7) — ce problème étant
encore davantage exacerbé par la structure d’autocorrélation des données.
Aussi est-il nécessaire d’utiliser une matrice X présentant un grand nombre de colonnes
pour obtenir des estimateurs consistants de la structure de covariance, alors même qu’une
estimation non biaisée exige un faible nombre de colonnes pour X.
Pour remédier à ce problème, nous devons considérer d’autres méthodes d’estimation.
Parmi elles, la méthode du maximum de vraisemblance restreint.
Y N (Xβ , σ 2 I) , (13.9)
Y N (Xβ , σ 2 V ) , (13.10)
Y ? = AY ,
de telle sorte que la distribution de Y ? ne dépende pas de β. Un moyen est de choisir pour
A la matrice qui transforme Y en résidus des moindres carrés ordinaires :
Alors Y ? a une distribution normale multivariée, centrée et singulière, quelle que soit
la valeur de β. Pour obtenir une distribution normale centrée régulière, on peut utiliser
uniquement mn − p lignes de la matrice A définie en (13.11).
Les estimateurs résultant pour σ 2 et V0 ne dépendent cependant pas du choix des
lignes retenues, ni non plus du choix particulier de la matrice A : toute matrice telle que
E(Y ? ) = 0 pour tout β donnera la même solution.
Pour les calculs, on réabsorbe σ 2 dans V , si bien que le modèle se réécrit
Y N (Xβ , H) , (13.12)
où H ≡ H(α), avec α vecteur de paramètres. Soit A telle qu’en (13.11) et B la matrice
nm × (nm − p) telle que
BtB = I ,
où I est la matrice identité de dimension (nm − p) × (nm − p). Finalement, soit
Z = BtY .
À α fixé, l’estimateur du maximum de vraisemblance de β est l’estimateur des moindres
carrés généralisés
βb = (X t H −1 X)−1 X t H −1 Y
= GY .
Les densités de probabilité de Y et βb sont respectivement
1 1 n 1 o
f (y) = √ p exp − (y − Xβ)t H −1 (y − Xβ)
( 2π)nm |H| 2
et
b = √1
p n 1 o
g(β) |X t H −1 X| exp − (βb − β)t (X t H −1 X)(βb − β) .
( 2π)p 2
et
e2 = σ
σ b2 (V
f0 ) .
Nota — La différence entre L(V0 ) et L? (V0 ) réside dans l’addition du terme
1
2log |X t V −1 X| . La matrice X t V −1 X est une matrice p × p. Aussi la différence entre
maximum de vraisemblance ordinaire et REML est-elle importante quand p est grand.
βe = (X t W X)−1 X t W y , (13.16)
en conjonction avec une matrice de variance-covariance estimée
o n
bW = (X t W X)−1 X t W Vb W X(X t W X)−1 ,
R (13.17)
où Vb est consistante pour V , quelle que soit la vraie structure de covariance. Notons que
dans (13.17), σ 2 a été réabsorbé dans V .
Pour l’inférence, nous procédons comme si
βe N (β , R
bW ) . (13.18)
Dans cette approche, on appelle W −1 la matrice de covariance de travail, afin de
la distinguer de la vraie matrice de covariance V . Typiquement, nous pouvons utiliser une
forme simple pour W −1 qui « capture » la structure qualitative de V .
Quoi qu’il en soit, un choix quelconque pour W affectera seulement l’efficacité de nos
inférences concernant β, mais pas leur validité. En particulier, les intervalles de confiance
et les tests d’hypothèses issus de (13.18) seront asymptotiquement corrects, quelle que soit
la vraie forme de V .
Notons que les équations (13.2) et (13.3) ne changent pas si les éléments de W sont
multipliés par une constante, si bien qu’il serait strictement correct de dire que W −1 est
proportionnel à la matrice de covariance de travail.
Quand le modèle saturé n’est pas envisageable (présence d’une covariable continue), il
n’est pas possible d’obtenir une expression explicite de l’estimateur REML de V0 . Dans
ce cas, on ne fait aucune hypothèse au sujet de la forme de V0 ; on utilise une matrice X
correspondant au modèle le plus élaboré que nous avons pu préparer concernant la réponse
moyenne ; enfin l’on obtient l’estimateur REML Vb0 via une maximisation numérique qui est
en (13.15).
Pour des inférences robustes concernant β, on substitue dans (13.17) Vb et on utilise
(13.18). Si l’on désire tester des hypothèses linéaires concernant β, on peut utiliser l’ap-
proche standard du modèle linéaire général. Ainsi, si l’on désire tester l’hypothèse Qβ = 0,
où Q est une matrice q × p avec q < p, on déduit de (13.18) que
QβbW bW Qt ) .
N (Qβ , QR
Une statistique est alors
t
T = βbW bW Qt )−1 QβbW ,
Qt (QR (13.19)
qui suit un χ2 (q).
14.1 Présentation
La généralisation consiste en deux points :
— la distribution de la composante aléatoire n’est plus nécessairement normale — elle
est cependant issue de la famille exponentielle — ;
— le lien devient une fonction de lien, i.e.
η = g(µ) ,
Théorème 14.1 —
∂l
E( ) = 0, (14.3)
∂θ0
∂l 2 ∂2l
E[( ) ] = −E( 2 ) . (14.4)
∂θ0 ∂θ0
où θ0 est la vraie valeur du paramètre.
136
14. MODÈLE LINÉAIRE GÉNÉRALISÉ
Démonstration
–1–
Z
f (y; θ)dy = 1
Z
∂f (y; θ)
⇒ 0 = dy
∂θ
Z
∂ log f (y; θ)
= f (y; θ)dy
∂θ
∂l
= E( ) .
∂θ
–2–
D’après (14.1),
∂l ∂l
Var( ) = E[( )2 ] .
∂θ ∂θ
D’autre part, en dérivant l’équation du 1,
Z 2 Z
∂ log f (y; θ) ∂ log f (y; θ) ∂f (y; θ)
0 = 2
f (y; θ)dy + dy
∂θ ∂θ ∂θ
∂l ∂2l
⇒ E[( )2 ] = −E( 2 )
∂θ ∂θ
= A(θ) (notation) .
E(yi ) = b0 (θi )
= µi (notation) . (14.5)
φ
a(φ) = ,
w
où φ, noté encore σ 2 et appelé paramètre de dispersion, est constant sur les observa-
tions, et w un poids a priori, connu donc, et qui varie d’une observation à l’autre.
θi est une fonction de µ :
−1
θ i = b0 [g −1 (ηi )] = h(ηi ) = h0 (µi ) .
Une fonction de lien pour laquelle θ = η est appelée fonction de lien canonique.
1
Notation N (µ,σ 2 ) P(µ) B(m,π) G(µ,ν) IG(µ,σ 2 )
m
1
φ σ2 1 ν −1 σ2
m
θ2 √
b(θ) eθ log(1 + eθ ) − log(−θ) − −2θ
2
eθ 1 1
µ(θ) = E(Y ; θ) θ eθ − √
1 + eθ θ −2θ
1 1
θ(µ) µ log(µ) logit(µ)
µ µ2
V (µ) 1 µ µ(1 − µ) µ2 µ3
Ces équations n’étant en général pas des fonctions linéaires de β, il est nécessaire d’uti-
liser des méthodes itératives afin d’estimer β̂.
Déterminons maintenant les termes de la matrice d’information de Fisher :
∂2l
∂li ∂li
i
E = −E
∂βr ∂βs ∂βr ∂βs
(yi − µi )xir ∂µi (yi − µi )xis ∂µi
= −E (14.8)
Var(yi ) ∂ηi Var(yi ) ∂ηi
xir xis ∂µi 2
= .
Var(yi ) ∂ηi
A = X 0W X , (14.10)
14.1.2 Algorithmes
alors
∂ 2 L −1 ∂L
β̂ − β (a) ≈ −
∂β∂β 0 ∂β β (a)
(a)
= δ (notation).
δ (a) peut constituer un critère d’arrêt en stoppant l’algorithme quand δ (a) est suffisam-
ment petit. Si l’on note u(a) le vecteur gradiant et H (a) la matrice Hessienne calculés à la
ae itérations, on obtient la relation
où W (a) est W en (14.10) évalué en β (a) , et z (a) est constitué des éléments
p ∂η (a)
(a) (a)(a) i
X
zi = + (yi − µi )
xij βj
i=1
∂µ i
∂η (a)
(a) (a) i
= ηi + (yi − µi ) ,i = 1, . . . ,n. (14.13)
∂µi
14.1.4 Ajustement
— La log-vraisemblance vaut l(µ,y) = log f (y,θ) ; le critère d’ajustement est la dé-
viance pondérée
D? (y,µ) = −2[l(µ,y) − l(y,y)] ,
qui suit un χ2 ;
— la statistique de Pearson :
P
2 (y − µ̂)
X = ,
V (µ̂)
la somme des carrés des résidus de Pearson est égale au χ2 d’ajustement de Pearson ;
— le résidu de la déviance, défini par
p
rD i = signe(yi − µ̂i ) di .
À moins que des restrictions ne soient faites sur β, on a −∞ < η < +∞. Aussi, étant
donné que π est une probabilié, il faut une transformation g(π) qui transforme l’intervalle
[0,1] en ] − ∞, + ∞[. Trois fonctions sont usuellement employées :
— la fonction logistique :
π
g(π) = log ;
1−π
— la fonction probit ou fonction inverse normale :
La log-vraisemblance vaut
n h
X πi i
l(π; y) = yi log( ) + mi log(1 − πi ) ,
i=1
1 − πi
n
∂l X yi − mi πi dπi
= xir
∂βr π (1 − πi ) dηi
i=1 i
∂l
= X t (Y − µ) .
∂β
L’information de Fisher pour β vaut
∂2l X mi ∂πi ∂πi
−E =
∂βr ∂βs i
πi (1 − πi ) ∂βr ∂βs
n ∂π 2
X mi i
= xir xis
i=1
πi (1 − πi ) ∂ηi
= {X t W X}rs ,
mi ∂π 2
i
wi =
πi (1 − πi ) ∂ηi
= mi πi (1 − πi ) .
car
∂πi ∂πi ∂ηi
xir =
∂ηi ∂ηi ∂βr
∂πi
=
∂βr
Pp
exp j=1 xij βj
= xir Pp
2
[1 + exp j=1 xij βj ]
= xir πi (1 − πi ) .
X t W X β̂ = X t W Z ,
que l’on peut résoudre par itérations en utilisant la méthode standard des moindres carrés.
On obtient
−1
β̂1 = (X t W X) X t W Z .
Propriétés 14.1 —
E(β̂ − β) −→ 0 (n → ∞) ,
−1
Cov (β̂) −→ (X t W X) (n → ∞) .
14.3.1 Définition
Un GLM à effets mixtes peut se définir à partir d’un GLM de la façon suivante. Sup-
posons que l’on ait K observations (y1 , . . . ,yK ) de Y, telles que
Y =µ+e,
η = Xβ + B1 b1 + · · · + Bn bn , (14.15)
où :
— η est un vecteur de dimension K × 1 ;
— X est la matrice de dimension K × p des covariables dont les valeurs sont connues ;
— β est un vecteur inconnu d’effets fixes, de dimension p × 1 ;
— Bi , i=1,. . .,n, est une matrice connue de dimension K × qi ;
— bi , i=1,. . .,n, est un vecteur inconnu d’effets aléatoires et de dimension qi × 1.
Il est clair que ce modèle comporte un seul effet aléatoire qui est constant pour un
individu donné. La conséquence est que, conditionnellement à bi , les observations yit sont
indépendantes. Ces modèles sont dénommés modèles avec ordonnée à l’origine aléa-
toire.
On peut remarquer que si b est distribué suivant une loi normale N (0,σ 2 ) où σ 2 re-
présente la composante de variance associée à b, alors le coefficient de corrélation
intra-classe ρ est
σ2
ρ= .
1 + σ2
La matrice D est alors bloc-diagonale avec des sous-matrices Di de type exchangeable
correlation. Notons de plus que bi = σai où a est distribué suivant une loi normale centrée
réduite. Dans ce cas, le prédicteur du ie sujet au temps t s’écrit
p
X
ηit = xitj βj + σai .
j=1
où v(ai ) est la fonction de densité d’une loi normale centrée réduite.
Anderson et Aitkin montrent que les paramètres β et σ peuvent être estimés par l’EM
algorithm. Pour utiliser cet algorithme, il est nécessaire de définir la log-vraisemblance
complète, c’est-à-dire en supposant que a est connu. La log-vraisemblance complète est
alors
ki
n X
X
l(β,σ) = log f (yit ; β,σ)v(ai ) . (14.17)
i=1 t=1
L’EM algorithm est un algorithme itératif constitué de deux phases exécutées alternati-
vement :
— la première phase est la phase d’estimation de l’algorithme (E-step) où est esti-
mée non pas la vraisemblance complète, mais l’espérance de celle-ci, et condition-
nellement aux données observées et aux estimations courantes des paramètres du
modèle ;
— la seconde est la phase de maximisation de l’algorithme (M-step) qui consiste à
trouver les quantités β̂ et σ̂ qui maximisent l’espérance de l(β,σ).
R +∞
En pratique, l’algorithme nécessite de résoudre des intégrales du type −∞ f (.)v(a)da.
Anderson et Aitkin proposent d’utiliser une procédure d’intégration numérique par quadra-
ture de Gauss. La procédure nécessite de se fixer un nombre q de points d’intégration. On
peut alors obtenir à partir de tables ou de routines les coordonnées aq et les pondérations
Aq utilisées dans l’intégration numérique.
ÉQUATIONS D’ESTIMATION
GÉNÉRALISÉES
147
15
Quasi-vraisemblance
R = (I − PX )Y
−1
I − X(X t X) Xt Y ,
=
15.3 Quasi-vraisemblance
On suppose que les composantes du vecteur Y sont indépendantes, de moyenne µ et de
matrice de covariance σ 2 V (µ), où σ 2 est inconnu et V (µ) connue. Le paramètre d’intérêt β
se rattache à la dépendance de µ vis-à-vis des covariables x. Peu importe la nature de cette
relation : nous noterons simplement µ(β). σ 2 est supposé constant — i.e. ne dépendant pas
de β. Puisque les composantes de Y sont supposées indépendantes, la matrice V (µ) doit
être diagonale :
V (µ) = diag V1 (µ), . . . ,Vn (µ) .
On suppose de plus que Vi (µ) ne dépend que de la ie composante de µ :
V (µ) = diag V1 (µ1 ), . . . ,Vn (µn ) .
148
15. QUASI-VRAISEMBLANCE
U = u(µ; Y )
Y −µ
=
σ 2 V (µ)
n
X yi − µi
= 2 V (µ )
.
i=1
σ i
E(U ) = 0,
1
Var(U ) = ,
σ 2 V (µ)
∂U 1
−E = 2
.
∂µ σ V (µ)
Pour les fonctions de quasi-vraisemblance, cette matrice joue le même rôle que l’infor-
mation de Fisher pour les fonctions de vraisemblance ordinaire.
Théorème 15.2 — Soient deux hypothèses HA et HB emboı̂tées, avec dimA < dimB.
Alors, sous HA , la différence en déviance
où W (a) = V (a)−1 et Z (a) est une variable dépendante ajustée égale à
On peut remarquer que σ 2 n’intervient pas dans l’estimation des β̂. L’estimation de σ 2
ne peut se faire par un calcul de vraisemblance ; il est généralement estimé directement sur
l’échantillon à partir de la statistique de Pearson généralisée
n
2 1 X yi − µ̂i
σ̃ = . (15.5)
n − p i=1 Vi (µ̂i )
16.1 Modèle
On note yit la réponse observée chez le ie sujet au temps t, et xitj la valeur de la
j covariable mesurée chez le ie sujet au temps t. Nous supposerons que l’échantillon est
e
constitué de n sujets
P et que l’on observe p covariables aux temps ki . La dimension de Y est
donc égale à K = i ki , et celle de X est égale à K × p.
Les équations d’estimation généralisées (GEE) permettent de modéliser l’espé-
rance marginale de yit , soit E(yit ) = µit . C’est une méthode qui fournit des estimations
« moyennées » sur la population. En utilisant le même raisonnement que pour la quasi-
vraisemblance, définissons la variance de yit et la fonction de lien reliant µit aux cova-
riables :
Var(yit ) = φν ∗ (µit )
g ∗ (µit ) = X tβ∗ .
et notons Ai une matrice diagonale de dimension ki × ki dont les éléments diagonaux sont
constitués par les ν ∗ (µi ). Sous l’hypothèse d’indépendance des observations chez le même
sujet,
Cov (yi ) = φ Ai .
Le plus souvent, cette hypothèse n’est guère soutenable ; on définit alors une matrice de
corrélation, dite « de travail » Ri α dépendant d’un vecteur α de paramètres inconnus.
Pour estimer β ∗ , Liang et Zeger proposent de résoudre un système d’équations analogues
aux équations de quasi-vraisemblance (15.1) :
n
X
U (β ∗ ) = Di Vi−1 (α)(yi − µi ) = 0 (16.1)
i=1
152
16. ÉQUATIONS D’ESTIMATION GÉNÉRALISÉES
où
0
∂µi
Di =
∂β ∗
et
p p
Vi (α) = φ Ai Ri (α) Ai .
Liang et Zeger montrent que, sous les conditions d’une spécification correcte de µi et
les conditions usuelles de régularité, βˆ∗ est un estimateur consistant et asymptotique-
ment gaussien de β ∗ (n → ∞). En particulier, ces propriétés sont respectées même en
cas de mauvaise spécification de Vi .
16.2.1 Estimation de β ∗
En utilisant les valeurs courantes des estimations α(a) et φ(a) , on en déduit en utilisant
une démarche analogue à (15.2) que
X n X n
∗(a+1) ∗(a) (a) t (a) −1 (a) (a) t (a) −1 (a)
β =β + Di [Vi (α)] Di Di [Vi (α)] (yi − µi ) . (16.2)
i=1 i=1
16.2.2 Estimations de α et φ
Pour estimer α et φ, on utilise, comme dans le cas de la quasi-vraisemblance, les résidus
de Pearson définis pour le ie individu par
yi − µ̂i
r̂i = √ . (16.4)
Ai
φ se définit de façon analogue à (15.4) par
Pn 0
r̂i r̂i
φ̂ = Pi=1 n . (16.5)
i=1 ki
Pour estimer α, l’approche générale consiste consiste à utiliser des fonctions simples
concernant les termes de covariance des résidus, de la forme
n
X r̂iu r̂iv
R̂uv = .
i=1
n−p
I Une autre possibilité est de considérer α comme étant le même pour tout couple
(u,v), u 6= v (cas d’une exchangeable correlation). Liang et Zeger proposent d’estimer α par
Pn P
r̂iu r̂iv
α̂ = Pni=1 1 u>v .
φ i=1 2 ki (ki − 1) − p
T (α̂)
R(α̂) = , (16.7)
φ̂
où T (α) est une matrice qui ne dépend pas de φ. La conséquence en est alors que le terme
φ disparaı̂t dans l’expression de Vi , ce qui entraı̂ne que les estimations de β̂ ∗ et Var(β̂ ∗ ) ne
dépendent plus de φ.
I La dernière famille de matrices de corrélation est constituée par les matrices tradui-
sant une corrélation autorégressive d’ordre 1. La corrélation entre deux mesures est alors
de la forme
α|u−v| .
On peut estimer α par la moyenne des coefficients de corrélation calculés sur chaque
série. Il faut noter que dans cette situation, R(α̂) n’est pas décomposable suivant (16.7), car
il fait intervenir φ̂ à la puissance −|u − v|. En revanche, cette situation s’accommode bien
d’un nombre variable de mesures, ainsi que d’intervalles non constants entre les mesures.
1 0 0 0 0 1 α12 α13 α14 α15
0 1 0 0 0
α12 1 α23 α24 α25
0 0 1 0 0
α13 α23 1 α34 α35
0 0 0 1 0 α14 α24 α34 1 α45
0 0 0 0 1 α15 α25 α35 α45 1
independance unstructured
1 α12 α13 0 0 1 α1 α2 0 0
α12 1 α23 α24 0
α1 1 α1 α2 0
α13 α23 1 α34 α35
α2 α1 1 α1 α2
0 α24 α34 1 α45 0 α2 α1 1 α1
0 0 α35 α45 1 0 0 α2 α1 1
α2 α3 α4
1 α α α α 1 α
α 1 α α α
α 1 α α2 α3
α α 1 α α
α2 α 1 α α2
α α α 1 α α3 α2 α 1 α
α α α α 1 α4 α3 α2 α 1