0% ont trouvé ce document utile (0 vote)

8 vues133 pages

Main

Le document présente une introduction aux séries temporelles, en se concentrant sur les processus aléatoires stationnaires au second ordre. Il aborde des concepts clés tels que la stationnarité, les processus ARMA, l'estimation des moyennes et des covariances, ainsi que la prédiction linéaire. Des exemples pratiques illustrent l'application de la modélisation stochastique dans divers domaines, tels que la santé, le trafic Internet et les indices financiers.

Transféré par

abdourapa123

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

8 vues133 pages

Main

Transféré par

abdourapa123

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux séries temporelles

Olivier Cappé, Maurice Charbit, Eric Moulines

30 mars 2007
Table des matières

1 Processus aléatoires stationnaires au second ordre 3

1.1 Propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Répartitions finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Stationnarité stricte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Stationnarité au second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Covariance d’un processus stationnaire au second ordre . . . . . . . . . . . . . 9
1.2.2 Interprétation de la fonction d’autocovariance . . . . . . . . . . . . . . . . . . . 11
1.2.3 Mesure spectrale d’un processus stationnaire au second ordre à temps discret . 14
1.3 Filtrage des processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Processus AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.3 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5 Preuves des théorèmes 1.4 et 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2 Estimation de la moyenne et des covariances 35

2.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Estimation des coefficients d’autocovariance et d’autocorrélation . . . . . . . . . . . . 37

3 Estimation spectrale non paramétrique 42

3.1 Le périodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Preuves des théorèmes 3.2, 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Prédiction linéaire. Décomposition de Wold 56

4.1 Eléments de géométrie Hilbertienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Espace des variables aléatoires de carré intégrables . . . . . . . . . . . . . . . . . . . . 60
4.3 Prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.1 Estimation linéaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 62
4.3.2 Prédiction linéaire d’un processus stationnaire au second-ordre . . . . . . . . . 63
4.4 Algorithme de Levinson-Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.5 Algorithme de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.6 Décomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

1
4.7 Preuves des théorèmes 4.2, 4.4 et 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5 Estimation des processus ARMA 82

5.1 Estimation AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Estimation MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Estimation ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

I Annexes 93

A Eléments de probabilité et de statistique 94

A.1 Eléments de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.1.1 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.1.2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
A.1.3 Espaces Lp (Ω, F, P) et Lp (Ω, F, P) . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.1.4 Variables aléatoires Gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.1.5 Modes de convergence et Théorèmes limites . . . . . . . . . . . . . . . . . . . . 107
A.1.6 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
A.2 Estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.2.1 Biais, dispersion d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.2.2 Comportement asymptotique d’un estimateur . . . . . . . . . . . . . . . . . . . 116

B Rappels sur la transformée de Fourier 120

C Compléments sur les espaces de Hilbert 122

D Compléments sur les matrices 125

2
Chapitre 1

Processus aléatoires stationnaires au

second ordre

Le paragraphe 1.1 définit le formalisme probabiliste permettant de décrire les processus aléatoires.
Les quelques exemples qui suivent illustrent la diversité des situations dans lesquelles la modélisation
stochastique (ou aléatoire) des séries temporelles joue un rôle important.
Exemple 1.1 : Battements cardiaques
La figure 1.1 représente l’évolution, sur une durée totale de 900 secondes, du rythme cardiaque d’un sujet au
repos. Ce rythme est mesuré en nombre de battements par minute toutes les 0.5 secondes.

110

100

70
0 200 400 600 800

Fig. 1.1 – Battements cardiaques : évolution du nombre de battements par

minute en fonction du temps mesuré en seconde.

Exemple 1.2 : Trafic internet

La figure 1.2 représente les temps d’inter-arrivées de paquets TCP, mesurés en secondes, sur la passerelle
du laboratoire Lawrence Livermore. La trace représentée a été obtenue en enregistrant 2 heures de trafic.
Pendant cette durée, environ 1.3 millions de paquets TCP, UDP, etc. ont été enregistrés, en utilisant la
procédure tcpdump sur une station Sun. D’autres séries de ce type peuvent être obtenues sur The Internet
Traffic Archive, http ://ita.ee.lbl.gov/.

3
0.25

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12
5
x 10

Fig. 1.2 – Trace de trafic Internet : temps d’inter-arrivées de paquets TCP.

Exemple 1.3 : Parole

La figure 1.3 représente un segment de signal vocal échantillonné (la fréquence d’échantillonnage est de 8000
Hz). Ce segment de signal correspond à la réalisation du phonème ch (comme dans chat) qui est un son dit
fricatif, c’est-à-dire produit par les turbulences du flot d’air au voisinage d’une constriction (ou resserrement)
du conduit vocal.

Fig. 1.3 – Signal de parole échantillonné à 8000 Hz : son non voisé ch.

Exemple 1.4 : Indice financier

La figure 1.4 représente les cours d’ouverture journaliers de l’indice Standard and Poor 500, du 2 Janvier
1990 au 25 Août 2000. l’indice S&P500 est calculé à partir de 500 actions choisies parmi les valeurs cotées
au New York Stock Exchange (NYSE) et au NASDAQ en fonction de leur capitalisation, leur liquidité, leur

4
représentativité dans différents secteurs d’activité. Cet indice est obtenu en pondérant le prix des actions
par le nombre total d’actions, le poids de chaque valeur dans l’indice composite étant proportionnel à la
capitalisation.

1600

1400

1200

1000

800

600

400

200
500 1000 1500 2000 2500

Fig. 1.4 – Cours quotidien d’ouverture de l’indice S&P500 : entre Janvier

1990 et Août 2000.

1.1 Propriétés générales

Définition 1.1 (Processus aléatoire). Soient (Ω, F, P) un espace de probabilité, T un ensemble d’in-
dices et (E, E) un espace mesurable. On appelle processus aléatoire une famille {X(t), t ∈ T } de v.a.
à valeurs dans (E, E) indexées par t ∈ T .
Le paramètre t représente ici le temps. Lorsque T ⊂ Z, nous dirons que le processus est à temps
discret et, lorsque T ⊂ R, que le processus est à temps continu. Dans la suite de cet ouvrage, nous
nous intéresserons de façon prioritaire aux processus à temps discret T ⊂ Z. Quant à (E, E), nous
considérerons le plus souvent (R, B(R)) (où B(R) est la tribu borélienne de R) ou (Rd , B(Rd )). Dans le
premier cas, on dira que le processus aléatoire est scalaire. Dans le second, nous dirons que le processus
est vectoriel.
Notons qu’en fait un processus est une application X : Ω × T → E telle que :
– à chaque instant t ∈ T , l’application ω 7→ X(t, ω) ∈ (E, E) est une variable aléatoire,
– pour chaque épreuve ω ∈ Ω, l’application t 7→ X(t, ω) est une fonction de T → E qui s’appelle
la trajectoire associée à l’épreuve ω.

1.1.1 Répartitions finies

On note I l’ensemble des parties finies ordonnées de T . Un élément I de I s’écrit I = {t1 < t2 <
· · · < tn }. On note |I| le cardinal de I et PI la loi du vecteur aléatoire (X(t1 ), X(t2 ), · · · , X(tn )),
c’est-à-dire la mesure image par les variables aléatoires (X(t1 ), X(t2 ), · · · , X(tn )) de la probabilité P :
PI est la probabilité sur (E |I| , E ⊗|I| ) définie par
PI A1 × A2 × · · · × An = PX(t1 ) ∈ A1 , X(t2 ) ∈ A2 , · · · , X(tn ) ∈ An , (1.1)

5
où {A1 , · · · , An } sont des éléments quelconques de la tribu cE. La probabilité PI est une probabilité
fini-dimensionnelle du processus. Pour caractériser la loi d’un processus, il est nécessaire de disposer
de la famille des répartitions finies, indexée par l’ensemble des parties finies ordonnées I.

Définition 1.2. On appelle famille des répartitions finies l’ensemble des répartitions finies, (PI , I ∈
I).

La spécification de la mesure image PI permet de calculer la probabilité d’événements de la forme

P∩t∈I {X(t) ∈£A Qt } où (At , t ¤∈ I) sont des éléments de la tribu E, ou de manière équivalente, de calculer
l’espérance E t∈I ft (X(t) où (ft , t ∈ I) sont des fonctions boréliennes positives. Il est important
de noter que, la donnée des répartitions finies ne permet pas a priori d’évaluer la probabilité d’un
événement faisant intervenir un nombre infini d’indices de temps ; par exemple, pour un processus
à temps discret indexé par T = Z, les répartitions finies ne permettent pas, a priori, d’évaluer la
probabilité d’un événement de la forme {maxt∈Z X(t) ≥ a}. Soit J ⊂ I deux parties finies ordonnées.
Soit ΠI,J la projection canonique de E |I| sur E |J| , i.e.

ΠI,J ({x(tk ), k ∈ I}) = {x(tk ), k ∈ J}. (1.2)

La projection canonique préserve uniquement les coordonnées du vecteur appartenant au sous ensemble
d’indices J. L’équation (1.1) implique que :

PI ◦ ΠI,J = PJ (1.3)

et donc, pour tout ensemble A ∈ E ⊗|J| , on a PJ (A) = PI (ΠI,J (A)). Cette relation formalise le résultat
intuitif que la distribution fini-dimensionnelle d’un sous-ensemble J ⊂ I se déduit de la distribution
fini-dimensionnelle PI en “intégrant” par rapport aux variables X(ti ) sur l’ensemble des indices ap-
partenant au complémentaire de J dans I. Cette propriété montre que la famille des répartitions
finies d’un processus est fortement structurée. En particulier, les répartitions finies doivent, au moins,
vérifier les conditions de compatibilité (1.3). Nous allons voir dans la suite que cette condition est en
fait aussi suffisante.
Soit ΠI la projection canonique de T sur I,

ΠI ({x(t), t ∈ T }) = {x(t), t ∈ I}. (1.4)

Théorème 1.1 (Théorème de Kolmogorov). Soit {νI , I ∈ I} une famille de probabilités indexées
par l’ensemble des parties finies ordonnées de T telle, que pour tout I ∈ I, νI est une probabilité sur
(E I , E ⊗I ). Supposons de plus que la famille {νI , I ∈ I} vérifie les conditions de compatibilité (1.3),
pour tout I, J ∈ I, tel que I ⊂ J, νI ◦ ΠI,J = νJ . Il existe une probabilité unique P sur l’espace
mesurable (E T , E ⊗T ) où E ⊗T telle que, pour tout I ∈ I, νI = P ◦ ΠI .
Soit X = {Xt , t ∈ T } le processus aléatoire défini sur (E T , E T ) par X(t, ω) = ω(t). Les répartitions
finies du processus canonique X sur (E T , E T , P) sont données par {νI , I ∈ I} .

On appellera ce processus le processus canonique de répartitions finies (νI , I ∈ I) et la probabilité P

ainsi construite la loi du processus du processus canonique X. Cette loi est donc entièrement déterminée
par la donnée des répartitions finies.

6
Exemple 1.5 : Suite de v.a. indépendantes
Soit (νn , n ∈ N) une suite de probabilités sur (E, E). Pour I = {n1 < n2 < · · · < np ) on pose

νI = νn1 ⊗ · · · ⊗ νnp (1.5)

Il est clair que l’on définit ainsi une famille (νI , I ∈ I) compatible, c’est-à-dire, vérifiant la condition donnée
par l’équation (1.3). Donc, si Ω = E N , Xn (ω) = ωn et F = σ(Xn , n ∈ N), il existe une unique probabilité P
sur (Ω, F) telle que (Xn , n ∈ N) soit une suite de v.a. indépendantes de loi νn .

1.1.2 Stationnarité stricte

La notion de stationnarité joue un rôle central dans la théorie des processus aléatoires. On distingue
ci-dessous deux versions de cette propriété, la stationnarité “stricte” qui fait référence aux répartitions
finies à l’invariance des répartitions finies par translation de l’origine des temps, et une notion plus
faible, la stationnarité au second ordre, qui porte sur l’invariance par translation des moments d’ordre
un et deux (lorsque ceux-ci existent).

Définition 1.3 (Stationnarité stricte). Un processus aléatoire est stationnaire au sens strict si les
répartitions finies sont invariantes par translation de l’origine des temps, i.e. que, pour tout τ ∈ T et
toute partie finie I ∈ I, on a PI = PI+τ où I + τ = {t + τ, t ∈ I}.
Exemple 1.6 : Processus i.i.d et transformations
Soit {Z(t)} une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d). {Z(t)} est
un processus stationnaire au sens strict, car, pour toute partie finie ordonnée I = {t1 , < t2 < · · · < tn } nous
avons :
n
Y
PZ(t1 ) ∈ A1 , · · · , Z(tn ) ∈ An = PZ(0) ∈ Aj
j=1

Soient k un entier et g une fonction borélienne de Rk dans R. Il est facile de vérifier que le processus aléatoire
{X(t)} défini par
X(t) = g(Z(t), Z(t − 1), · · · , Z(t − k + 1))
est encore un processus aléatoire stationnaire au sens strict. Par contre, ce processus obtenu par transforma-
tion n’est plus i.i.d dans la mesure où, dès que k ≥ 1, X(t), X(t + 1), . . . , X(t + k − 1) bien qu’ils aient la
même distribution marginale sont, en général, dépendants car fonctions de variables aléatoires communes.
Un tel processus est dit k-dépendant dans la mesure où, par contre, τ ≥ k implique que X(t) et X(t + τ ) sont
indépendants (ils dépendent de deux groupes indépendants de k variables aléatoires).

Définition 1.4 (Processus

£ du second
¤ ordre). Le processus X = (X(t), t ∈ T ) à valeurs dans Rd est
dit du second ordre, si E kX(t)k < ∞, où kxk est la norme euclidienne de x ∈ Rd .
2

Notons que la moyenne µ(t) = E [X(t)] est un vecteur de dimension d dépendant de t et que la
fonction d’autocovariance définie par :
£ ¤
Γ(s, t) = cov(X(s), X(t)) = E (X(t) − µ(t))(X(s) − µ(s))T

est une matrice de dimension d × d dépendant à la fois de s et de t.

Propriété 1.1. Pour un processus du second ordre on a :

1. Γ(s, s) ≥ 0, l’égalité ayant lieu si et seulement si X(s) est presque sûrement égale à sa moyenne.

7
2. Symétrie hermitienne1
Γ(s, t) = Γ(t, s)T (1.6)

3. Type positif
Pour tout n, pour toute suite d’instants (t1 < t2 < · · · < tn ) et pour toute suite de vecteurs
complexes (a1 , · · · , an ) de dimension d, on a :
X
aH
k Γ(tk , tm )am ≥ 0 (1.7)
1≤k,m≤n

Pn H
Démonstration. Formons la combinaison linéaire Y = k=1 ak X(tk ). Y est une variable aléatoire
complexe. Sa variance, qui est positive, s’écrit

var(Y ) = E [(Y − E [Y ])(Y − E [Y ])∗ ] ≥ 0

On note Xc (t) = X(t) − E [X(t)] le processus centré. En développant var(Y ) en fonction de Xc (tk ), il
vient : " n #
X n
X X
var(Y ) = E λHk X c (t k ) X T
c (t k )λ k = λH
k Γ(tk , tm )λm
k=1 m=1 1≤k,m≤n

ce qui établit (1.7). ¥

Dans le cas scalaire (d = 1), on note en général γ(s, t) la covariance, en réservant la notation
Γ(s, T ) au cas des processus vectoriels (d > 1).

1.1.3 Processus gaussiens

Définition 1.5 (Variable aléatoire gaussienne réelle). On dit que X est une variable aléatoire réelle
gaussienne si sa loi de probabilité a pour fonction caractéristique :
£ ¤
φX (u) = E eiuX = exp(iµu − σ 2 u2 /2)

où µ ∈ R et σ ∈ R+ .

On en déduit que E [X] = µ et que var(X) = σ 2 . Si σ 6= 0, la loi possède une densité de probabilité
qui a pour expression : µ ¶
1 (x − µ)2
pX (x) = √ exp −
σ 2π 2σ 2
Définition 1.6 (Vecteur gaussien réel). Un vecteur aléatoire réel de dimension n (X1 , . . . , Xn ) est
un vecteur gaussien si toute combinaison linéaire de X1 , . . . , Xn est une variable aléatoire gaussienne
réelle.
1
L’exposant T sert à indiquer l’opération de transposition et l’exposant H l’opération de transposition et conjugaison.

8
Notons µ le vecteur moyenne de (X1 , . . . , Xn ) et ΓPla matrice de covariance. Par définition d’un
vecteur aléatoire gaussien, la variable aléatoire Y = nk=1 uk Xk = uT X est une variable aléatoire
réelle gaussienne. Par conséquent, sa loi est complètement déterminée par sa moyenne et sa variance
qui ont pour expressions respectives :
n
X n
X
T
E [Y ] = uk E [Xk ] = u µ et var(Y ) = uj uk cov(Xj , Xk ) = uT Γu
k=1 j,k=1

On en déduit l’expression, en fonction de µ et de Γ, de la fonction caractéristique de la loi de probabilité

d’un vecteur gaussien X(1), . . . , X(n) :
µ ¶
£ T
¤ T 1 T
φX (u) = E exp(iu X) = E [exp(iY )] = exp iu µ − u Γu (1.8)
2
De plus si Γ est de rang plein n, alors la loi de probabilité de X possède une densité dont l’expression
est : µ ¶
1 1 T −1
pX (x) = p exp − (x − µ) Γ (x − µ)
(2π)n/2 det(Γ) 2
Dans le cas où Γ est de rang r < n, c’est à dire où Γ possède n − r valeurs propres nulles, X se
trouve, avec probabilité 1, dans un sous espace de dimension r de Rn , dans la mesure où il existe r − n
combinaisons linéaires indépendantes ai telles que cov(aTi X) = 0.
Définition 1.7 (Processus gaussien réel). On dit qu’un processus réel X = {X(t), t ∈ T } est gaussien
si, pour toute suite finie d’instants {t1 < t2 < · · · < tn }, (X(t1 ), X(t2 ), · · · , X(tn )) est un vecteur
gaussien.
D’après (1.8), la famille des répartitions finies est donc caractérisée par la donnée de la fonction
moyenne µ : t ∈ T 7→ µ(t) ∈ R et de la fonction de covariance γ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R.
Réciproquement, donnons nous une fonction µ : t ∈ T 7→ m(t) ∈ R et une fonction de covariance
γ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R de type positif, c’est-à-dire telle que, pour tout n, toute suite
(u1 , · · · , un ) et toute suite (t1 , · · · , tn ) on ait :
n X
X n
uj uk γ(tj , tk ) ≥ 0 (1.9)
j=1 k=1

On peut alors définir, pour I = {t1 < · · · < tn }, une probabilité gaussienne νI sur Rn par :

νI := Nn (µI , ΓI ) (1.10)

où µI = (µ(t1 ), · · · , µ(tn )) et ΓI est la matrice positive d’éléments γI (m, k) = γ(tm , tk ), où 1 ≤ m, k ≤
n. La famille (νI , I ∈ I), ainsi définie, vérifie les conditions de compatibilité et l’on a ainsi établi,
d’après le théorème 1.1, le résultat suivant :
Théorème 1.2. Soit r 7→ µ(t) une fonction et (s, t) 7→ γ(s, t) une fonction de type positif (vérifiant
l’équation (1.9)). Il existe un espace de probability (Ω, F, P) et un processus aléatoire {X(t), t ∈ T }
gaussien défini sur cet espace vérifiant

µ(t) = E [X(t)] et γ(s, t) = E [(X(s) − µ(s))(X(t) − µ(t))]

9
1.2 Stationnarité au second ordre
Dans la suite du document, nous considérons principalement le cas de processus à temps discret
(avec T = Z) pour lesquels nous utiliserons la notation Xt plutôt que X(t), cette dernière étant
réservée aux processus à temps continus. Par ailleurs, et sauf indication du contraire, les processus
considérés sont en général à valeur dans R.
Définition 1.8 (Stationnarité au second ordre). Le processus {Xt , t ∈ T } est dit stationnaire au
second ordre si : £ ¤
– X est un processus du second ordre, i.e. E |Xt |2 < +∞,
– pour tout t ∈ T , E [Xt ] = µ,
– pour tout couple (s, t) ∈ T × T ,
£ ¤
γ(s, t) = E (Xt − µ)(Xs − µ)T = γ(t − s)

1.2.1 Covariance d’un processus stationnaire au second ordre

Propriété 1.2. La fonction d’autocovariance γ : T → R d’un processus stationnaire au second ordre
vérifie les propriétés suivantes qui sont une conséquence directe des propriétés 1.1.
1. Symétrie hermitienne :
γ(h) = γ(−h)
2. caractère positif Pour toute partie finie I = {t1 < · · · < tn } et toute suite (a1 , · · · , an ) de valeurs
complexes, λk ∈ C,
n X
X n
a∗k γ(k − j)aj ≥ 0
k=1 j=1

Ces propriétés découlent immédiatement des propriétés de la fonction d’autocovariance d’un pro-
cessus. Les matrices de covariance de sections de n valeurs consécutives du processus sont positives
d’après le point 2 de la propriété 1.2. Elles possèdent de plus une structure particulière, dite de Toëplitz
(caractérisée par le fait que (Γn )ij = γ(i − j)) :
£ ¤
Γn = E [(Xt − µX ) . . . (Xt−n+1 − µX )]T [(Xt − µX ) . . . (Xt−n+1 − µX )]
 
γ(0) γ(1) · · · γ(n − 1)
 γ(1) γ(0) · · · γ(n − 2)
 
= ..  (1.11)
 . 
γ(n − 1) γ(n − 2) · · · γ(0)

Définition 1.9 (Fonction d’autocorrélation). Pour un processus stationnaire, on appelle fonction

d’autocorrélation ρ(h) = γ(h)/γ(0). Il s’agit d’une quantité normalisée dans le sens où ρ(1) = 1 et
|ρ(k)| ≤ 1.
En effet, l’inégalité de Cauchy-Schwarz appliquée à γ(k) s’écrit
p
|γ(h)| = |E [(Xt+h − µX )(Xt − µX )]| ≤ E [(Xt+h − µX )2 ] E [(Xt − µX )2 ] = γ(0)

10
la dernière inégalité découlant de l’hypothèse de stationnarité. Attention, certaines références (livres et
publications), en général anciennes, utilisent (incorrectement) le terme de “fonction d’autocorrélation”
pour γ(h). Dans la suite de ce document, le terme autocorrélation est réservée à la quantité normalisée
ρ(h).
Exemple 1.7 : Processus retourné temporel
Soit Xt un processus aléatoire stationnaire au second ordre de moyenne µX et de fonction d’autocovariance
γX (h). On note Xtr = X−t le processus retourné temporel. Alors Xtr est un processus stationnaire au second
ordre de même moyenne et de même fonction d’autocovariance que le processus Xt . En effet on a :

E [Xtr ] = E [X−t ] = µX
r
cov(Xt+h , Xtr ) = cov(X−t−h , X−t ) = γX (−h) = γX (h)

Définition 1.10 (Bruit blanc). On appelle bruit blanc un processus aléatoire stationnaire au second
ordre, centré, de fonction d’autocovariance, γ(s, t) = γ(t − s) = σ 2 δt,s . On le notera {Xt } ∼ BB(0, σ 2 ).
Définition 1.11 (Bruit blanc fort). On appelle bruit blanc fort une suite du second ordre de variables £ ¤
aléatoires {Xt }, centrées, indépendantes et identiquement distribuées (i.i.d.) de variance E Xt2 =
σ 2 < ∞. On le notera {Xt } ∼ IID(0, σ 2 ).
£ ¤
Par définition si {Xt } ∼ IID(0, σ 2 ), E [Xt ] = 0, E Xt2 = σ 2 et pour tout h 6= 0, E [Xt+h Xt ] =
E [Xt+h ] E [Xt ] = 0. {Xt } est donc également stationnaire au second ordre, de fonction d’autocova-
riance γ(s, t) = σ 2 δ(t−s). La structure de bruit blanc fort est clairement plus contraignante que celle de
simple bruit blanc. En général, il est tout à fait inutile de faire un telle hypothèse lorsque l’on s’intéresse
à des modèles de signaux supposés stationnaires au second ordre. Il arrivera cependant dans la suite
que nous adoptions cette hypothèse plus forte afin de simplifier les développements mathématiques.
Notons que dans le cas d’une série temporelle gaussienne, ces deux notions sont confondues puisque
la loi gaussienne est complètement caractérisée par les moments du premier et du second ordre (un
bruit blanc gaussien est donc également un bruit blanc fort).
Exemple 1.8 : Processus MA(1)
Soit {Xt } le processus stationnaire au second ordre défini par :

Xt = Zt + θZt−1 (1.12)

où {Zt } ∼ BB(0, σ 2 ) et θ ∈ R. On vérifie aisément que E [Xt ] = 0 et que :

 2
 σ (1 + θ2 ) t = s
γ(t, s) = σ2 θ |t − s| = 1

0 |t − s| > 1
Le processus Xt est donc bien stationnaire au second ordre. Un tel processus est appelé processus à moyenne
ajusté d’ordre 1. Cette propriété se généralise, sans difficulté, à un processus MA(q). Nous reviendrons plus
en détail, paragraphe 1.4, sur la définition et les propriétés de ces processus.
Exemple 1.9 : Processus harmonique
Soient {Ak }1≤k≤N N variables aléatoires vérifiant cov(Ak , Al ) = σk2 δ(k − l) et {Φk }1≤k≤N , N variables
aléatoires indépendantes et identiquement distribuées (i.i.d), de loi uniforme sur [−π, π], et indépendantes de
{Ak }1≤k≤N . On définit :
N
X
Xt = Ak cos(λk t + Φk ) (1.13)
k=1

11
où {λk } ∈ [−π, π] sont N pulsations. Le processus Xt est appelé processus harmonique. On vérifie aisément
que E [Xt ] = 0 et que sa fonction d’autocovariance est donnée par :
N
1X 2
γ(h) = E [Xt+h Xt ] = σk cos(λk h)
2
k=1

Le processus harmonique est donc stationnaire au second ordre.

Exemple 1.10 : Marche aléatoire
Soit St le processus défini sur t ∈ N par St = X0 + X1 + · · · + Xt , où Xt est un£ bruit
¤ blanc. Un tel processus
est appelé une marche aléatoire. On en déduit que E [St ] = 0, que γ(t, t) = E Xt2 = tσ 2 et que, pour h > 0,
on a :
γ(t + h, t) = E [(St + Xt+1 + · · · + Xt+h )St ] = tσ 2
Le processus {St } n’est donc pas stationnaire au second ordre.
Exemple 1.11
Nous allons montrer que la suite définie, pour h ∈ Z, par :

 1 h = 0,
R(h) = ρ |h| = 1

0 |h| ≥ 2

est la fonction d’autocovariance d’un processus stationnaire au second ordre si et seulement si |ρ| ≤ 1/2.
Nous avons déjà montré exemple 1.8 que la fonction d’autocovariance d’un processus MA(1) est donnée par :
 2
 σ (1 + θ2 ) pour h = 0
γ(h) = σ2 θ pour |h| = 1

0 pour |h| > 1

La suite R(h) est donc la fonction d’autocovariance d’un processus MA(1) si et seulement si σ 2 (1 + θ2 ) = 1
et σ 2 θ = ρ. Lorsque |ρ| ≤ 1/2, ce système d’équations admet comme solution :
p
θ = (2ρ)−1 (1 ± 1 − 4ρ2 ) et σ 2 = (1 + θ2 )−1

Lorsque |ρ| > 1/2, ce système d’équations n’admet pas de solution réelles et la suite R(h) n’est donc pas la
fonction d’autocovariance d’un processus MA(1). On vérifie facilement que R(h) ne vérifie pas dans ce cas la
condition de positivité (en prenant ak = (−1)k pour ρ > 1/2 et ak = 1 dans le cas opposé). Pour |ρ| > 1/2,
R(h) n’est donc pas une séquence d’autocovariance.

1.2.2 Interprétation de la fonction d’autocovariance

Dans les exemples précédents, nous avons été amené à évaluer la fonction d’autocovariance de
processus pour quelques exemples simples de séries temporelles. Dans la plupart des problèmes d’intérêt
pratique, nous ne partons pas de modèles de série temporelle définis a priori, mais d’observations,
{x1 , · · · , xn } associées à une réalisation du processus. Afin de comprendre la structure de dépendance
entre les différentes observations, nous serons amenés à estimer la loi du processus, ou du moins des
caractéristiques de ces lois. Pour un processus stationnaire au second ordre, nous pourrons, à titre
d’exemple, estimer sa moyenne par la moyenne empirique :
n
X
−1
µ̂n = n xk
k=1

12
et les fonctions d’autocovariance et d’autocorrélation par les fonctions d’autocorrélation et d’autoco-
variance empiriques
n−|h|
X
γ̂(h) = n−1 (xk − µ̂n )(xk+|h| − µ̂n ) et ρ̂(h) = γ̂(h)/γ̂(0)
k=1

Lorsqu’il est a priori raisonnable de penser que la série considérée est stationnaire au second ordre,
la moyenne empirique, la fonction d’autocovariance empirique et la fonction d’autocorrélation em-
pirique sont de “bons” estimateurs, dans un sens que nous préciserons chapitre 2. L’analyse de la
fonction d’autocovariance empirique est un élément permettant de guider le choix d’un modèle ap-
proprié pour les observations. Par exemple, le fait que la fonction d’autocovariance empirique soit
proche de zéro pour tout h 6= 0 (proximité qu’il faudra définir dans un sens statistique précis) in-
dique par exemple qu’un bruit blanc est un modèle adéquat pour les données. La figure 1.5 représente
les 100 premières valeurs de la fonction d’autocorrélation empirique de la série des battements car-
diaques représentés figure 1.1. On observe que cette série est positivement corrélée c’est-à-dire que les
fonctions coefficients d’autocorrélation sont positifs et significativement non nuls. Nous avons, à titre
de comparaison, représenté aussi la fonction d’autocorrélation empirique d’une trajectoire de même
longueur d’un bruit blanc gaussien. Une forte corrélation peut être interprétée comme l’indice d’une

1 1

0.8
0.8

0.6
0.6
0.4
0.4
0.2

0.2
0

0 −0.2
0 50 100 0 50 100

Fig. 1.5 – Courbe de gauche : fonction d’autocorrélation empirique de la

série des battements cardiaques (figure 1.1). Courbe de droite : fonction d’au-
tocorrélation empirique d’une trajectoire de même longueur d’un bruit blanc
gaussien.

dépendance linéaire. Ainsi la figure 1.6 montre que le fait que ρ̂(1) = 0.966 pour la série des batte-
ments cardiaques se traduit par une très forte prédictabilité de Xt+1 en fonction de Xt (les couples
de points successifs s’alignent quasiment sur une droite). Nous montrerons au chapitre 4, que dans un
tel contexte, E [(Xt+1 − µ) − ρ(1)(Xt − µ)] = (1 − ρ2 )cov(Xt ), c’est à dire, compte tenu de la valeur
estimée pour ρ(1), que la variance de “l’erreur de prédiction” Xt+1 − [µ + ρ(1)(Xt − µ)] est 15 fois
plus faible que celle du signal original. L’indice S&P500 tracé (fig. 1.4) présente un cas de figure
plus difficile, d’une part parce que la série de départ ne saurait être tenue pour stationnaire et qu’il

13
110

105

100

95
Xt+1

70
70 75 80 85 90 95 100 105 110
Xt

Fig. 1.6 – Xt+1 en fonction de Xt pour la série des battements cardiaques de

la figure 1.1). Les tirets figurent la meilleure droite de régression linéaire de
Xt+1 sur Xt .

0.1

0.05

−0.05

−0.1
500 1000 1500 2000 2500

Fig. 1.7 – Log-Retour de la série S&P 500 (figure 1.4).

14
nous faudra considérer la série des évolutions journalières ; d’autre part, parce que selon le choix de la
transformation des données considérées, la série transformée présente ou non des effets de corrélation.
On définit tout d’abord les log-retours de l’indice S&P500 comme les différences des logarithmes de
l’indice à deux dates successives :
µ ¶
St − St−1
Xt = log(St ) − log(St−1 ) = log 1 +
St−1
La série des log-retours de la série S&P 500 est représentée figure 1.7. Les coefficients d’autocorrélation

1.2

0.8

0.6

0.4

0.2

−0.2
0 20 40 60 80 100

Fig. 1.8 – Fonction d’autocorrélation empirique de la série des log-retours de

l’indice S&P 500.

empiriques de la série des log-retours sont représentés figure 1.8. On remarque qu’ils sont approximati-
vement nuls pour h 6= 0 ce qui suggère de modéliser la série des log-retours par un bruit blanc (une suite
de variables décorrélées). Il est intéressant d’étudier aussi la série des log-retours absolus, A(t) = |Xt |.
On peut, de la même façon, déterminer la suite des coefficients d’autocorrélation empirique de cette
série, qui est représentée dans la figure 1.9. On voit, qu’à l’inverse de la série des log-retours, la série
des valeurs absolues des log-retours est positivement corrélée, les valeurs d’autocorrélation étant signi-
ficativement non nuls pour |h| ≤ 100. On en déduit, en particulier, que la suite des log-retours peut
être modélisée comme un bruit blanc, mais pas un £bruit blanc ¤ fort : en effet, pour un bruit blanc fort
Xt , nous avons, pour toute fonction f telle que E f (Xt )2 = σf2 < ∞, cov(f (Xt+h ), f (Xt ) = 0 pour
h 6= 0 (les variables f (Xt+h ) et f (Xt ) étant indépendantes, elles sont a fortiori non corrélées). Nous
reviendrons dans la suite du cours sur des modèles possibles pour de telles séries.

1.2.3 Mesure spectrale d’un processus stationnaire au second ordre à temps dis-
cret
Dans toute la suite, I désigne l’intervalle [−π, π] et B(I) la tribu de borélienne associée. Le théorème
d’Herglotz ci dessous établit l’équivalence entre la fonction d’autocovariance et une mesure finie définie
sur l’intervalle {I, B(I)}. Cette mesure, appelée mesure spectrale du processus, joue un rôle analogue
à celui de la représentation de Fourier pour les signaux déterministes. En particulier elle confère une
expression simple aux formules de filtrage linéaire.

15
1

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100

Fig. 1.9 – Fonction d’autocorrélation empirique de la série des valeurs absolues

des log-retours de l’indice S&P 500.

Théorème 1.3 (Herglotz). Une suite {γ(h)}h∈Z est de type positif si et seulement si il existe une
mesure positive sur {I, B(I)} telle que :
Z
γ(h) = eihλ ν(dλ) (1.14)
I
P
Si la suite γ(h) est sommable (i.e. h |γ(h)| < ∞), la mesure ν possède une densité f (fonction
positive) par rapport à la mesure de Lebesgue sur {I, B(I)}, donnée par la série entière uniformément
convergente :
1 X
f (λ) = γ(h)e−ihλ ≥ 0
2π
h∈Z

Lorsque γ est la fonction d’autocovariance d’un processus stationnaire au second ordre, la mesure ν
est appelée la mesure spectrale et la fonction f , lorsque qu’elle existe, est dite densité spectrale de
puissance.

Démonstration. Tout d’abord si γ(n) a la représentation (1.14), il est clair que γ(n) est de type positif.
En effet, pour tout n et toute suite {ak ∈ C}1≤k≤n , on a :

X Z X Z ¯¯X ¯2
¯
¯ ikλ ¯
ak a∗m γ(k − m) = ak a∗m eikλ e−imλ ν(dλ) = ¯ ak e ¯ ν(dλ) ≥ 0
k,m I k,m I¯ k
¯

Réciproquement, supposons que γ(n) soit une suite de type positif et considérons la suite de fonctions
indexée par n :
n n n−1 µ ¶ ∞
1 XX 1 X |k| 1 X
fn (λ) = γ(k − m)e−ikλ eimλ = 1− γ(k)e−ikλ = γn (k)e−ikλ
2πn 2π n 2π
k=1 m=1 k=−(n−1) k=−∞

16
où nous avons posé : µ ¶
|k|
γn (k) = I{−(n−1),··· ,(n−1)} (k) 1 − γ(k)
n
qui vérifie |γn (k)e−ikλ | ≤ |γ(k)| et limn→∞ γn (k) = γ(k). Par construction, fn (λ) est une fonction
positive (pour
P tout n) du fait de la positivité de la séquence d’autocovariance γ(k). En supposant de
plus2 que ∞ k=−∞ |γ(k)| < ∞, une application directe du théorème de convergence dominé montre
que :
∞
X ∞ ∞
1 −ikλ 1 X −ikλ 1 X
lim fn (λ) = lim γn (k)e = lim γn (k)e = γ(k)e−ikt = f (λ)x
n→∞ 2π n→∞ 2π n→∞ 2π
k=−∞ k=−∞ k=−∞

et donc f (λ) est positive comme limite de Rfonctions

P positives. Une application directe du théorème de
Fubini (la permutation étant légitime car I ∞ k=−∞ |γ(k)|dλ < ∞), montre que, pour tout h ∈ Z, on
a: Z Z π
X∞
ihλ 1
f (λ)e dλ = γ(k) ei(h−k)λ dλ = γ(h)
I 2π −π
k=−∞

Propriété 1.3 (Corollaire du théorème d’Herglotz). Une suite R(h) à valeurs complexes absolument
sommable est de type positif si et seulement si la fonction :
+∞
1 X
f (λ) = R(h)e−ihλ
2π
h=−∞

est positif pour tout λ ∈ I.

Exemple 1.12
En reprenant l’exemple 1.11, on vérifie immédiatement que R(h) est de module sommable et que :
1 X 1
f (λ) = R(h)e−ihλ = (1 + 2ρ cos(πλ))
2π 2π
k

et donc que la séquence est une fonction d’autocovariance uniquement lorsque |ρ| ≤ 1/2.

Exemple 1.13 : Densité spectrale de puissance du bruit blanc

La fonction d’autocovariance d’un bruit blanc est donnée par γ(h) = σ 2 δ(h), d’où l’expression de la densité
spectrale correspondante
σ2
f (λ) =
2π
La densité spectrale d’un bruit blanc est donc constante. Cette propriété est à l’origine de la terminologie
“bruit blanc” qui provient de l’analogie avec le spectre de la lumière blanche constant dans toute la bande de
fréquences visibles.
2
Nous donnons ici une preuve élémentaire grâce à l’hypothèse que la suite des coefficients d’autocovariance est ab-
solument sommable. La démonstration, dans le cas général, requiert l’utilisation d’arguments plus complexes de théorie
des probabilités. Elle est donnée annexe A.

17
Exemple 1.14 : Densité spectrale de puissance du processus MA(1)
Le processus MA(1) introduit dans l’exemple 1.8 possède une séquence d’autocovariance donnée par γ(0) =
σ 2 (1+θ2 ), γ(1) = γ(−1) = σ 2 θ et γ(h) = 0 sinon (cf. exemple 1.8). D’où l’expression de sa densité spectrale :

σ2 σ 2 ¯¯ ¯2
f (λ) = (2θ cos(λ) + (1 + θ2 )) = 1 + θe−iλ ¯
2π 2π
La densité spectrale d’un tel processus est représentée figure 1.10 pour θ = −0.9 et σ 2 = 1 avec une échelle
logarithmique (dB).

−5
dB
−10

−15

−20

−25

−30
−π 0 +π

Fig. 1.10 – Densité spectrale (en dB) d’un processus MA-1, défini par
l’équation (1.12) pour σ = 1 et θ = −0.9.

Exemple 1.15 : Mesure spectrale du processus harmonique PN

La fonction d’autocovariance du processus harmonique Xt = k=1 Ak cos(λk t + Φk ) (voir exemple 1.9) est
donnée par :
N
1X 2
γ(h) = σk cos(λk h) (1.15)
2
k=1
£ ¤
où σk2 = E A2k . Cette suite de coefficients d’autocovariance n’est pas sommable et la mesure spectrale n’admet
pas de densité. En notant cependant que :
Z
1 π ihλ
cos(λk h) = e (δλk (dλ) + δ−λk (dλ))
2 −π

où δx0 (dλ) désigne la mesure de Dirac au point x0 (cette mesure associe la valeur 1 à tout borélien de [−π, π]
contenant x0 et la valeur 0 sinon), la mesure spectrale du processus harmonique peut s’écrire :
N N
1X 2 1X 2
ν(dλ) = σk δλk (dλ) + σk δ−λk (dλ)
4 4
k=1 k=1

Elle apparaı̂t donc comme une somme de mesures de Dirac, dont les masses σk2 sont localisées aux pulsations
des différentes composantes harmoniques.

18
Une remarque intéressante est que par rapport aux autres exemples étudiés, le processus har-
monique est très particulier en ce qu’il possède une fonction d’autocovariance, donnée par 1.15, non
absolument sommable (γ(h) ne tend pas même vers 0 pour les grandes valeurs de h) et que par la
suite, il admet une mesure spectrale mais pas une densité spectrale. La propriété suivante, à démontrer
à titre d’exercice, implique que le processus harmonique est en fait entièrement prédictible à partir de
quelques unes de ses valeurs passées.
Propriété 1.4. S’il existe un rang n pour lequel la matrice de covariance Γn définie en (1.11) est
non inversible, le processus correspondant Xt est Pprédictible dans le sens où il existe une combinaison
l
linéaire a1 , . . . al avec l ≤ n − 1 telle que Xt = k=1 ak Xt−k , l’égalité ayant lieu presque sûrement.
L’expression de la fonction d’autocovariance, obtenue en (1.15) pour le processus harmonique,
montre que les matrices de covariances associées s’écrivent comme la somme de 2N matrices com-
plexes de rang 1. Par conséquent, les matrices Γn ne sont pas inversibles dès que n > 2N , ce qui
implique que le processus harmonique est prédictible dès lors que l’on en a observé 2N valeurs. Ce
résultat est sans surprise compte tenu du fait que les trajectoires de ce processus sont des sommes de
sinusoı̈des de fréquences λ1 , . . . , λN dont seules les amplitudes et les phases sont aléatoires. La pro-
priété suivante donne une condition suffisante simple pour éviter ce type de comportements “extrêmes”.
Cette propriété implique en particulier que, pour une fonction d’autocovariance absolument sommable
(tous les exemples vus ci-dessus en dehors du processus harmoniques), les valeurs futures du processus
correspondant ne sont pas prédictibles sans erreur à partir d’un ensemble fini de valeurs passées du
processus. Nous reviendrons en détail sur ces problèmes de prédiction au chapitre 4.
Propriété 1.5. Soit γ(h) la fonction d’autocovariance d’un processus stationnaire au second ordre.
On suppose que γ(0) > 0 et que γ(h) → 0 quand h → ∞. Alors, quel que soit n, la matrice de
covariance définie en (1.11) est de rang plein et donc inversible .
Démonstration.
P PSupposons qu’il existe une suite de valeurs complexes (a1 , . . . , an ) non toutes nulles,
telle que nk=1 nm=1 ak a∗m γ(k − m) = 0. En notant νX la mesure spectrale de Xt , on peut écrire :

Xn X n Z Z ¯¯Xn
¯2
¯
∗ i(k−m)λ ¯ ikλ ¯
0= ak am e νX (dλ) = ¯ ak e ¯ νX (dλ)
k=1 m=1 I I¯ k=1
¯
¯P ¯2 ¯Pn ¯
ikλ ¯2 6=
Ce qui implique que ¯ nk=1 ak eikλ ¯ = 0 νX presque
P partout, c’est à dire que ν X ({λ : ¯
k=1 ak e
0}) = νX (I − Z) = 0 où Z = {λ1 , . . . , λM : nk=1Pank e
ikλm = 0} désigne l’ensemble fini (M < n)

des racines x ∈ I du polynôme trigonométrique ikλ . Par conséquent, les seuls éléments
k=1 ak e
de B(I), quiPpeuvent être de mesure non nulle pour νX , sont les singletons {λm }. Ce qui implique
M
que νX = am δλm (où am ≥ 0 ne peuvent être tous nuls si γ(0) 6= 0). Mais, dans ce cas,
PM m=1 ihλ
γ(h) = m=1 am e m , ce qui contredit l’hypothèse que γ(h) tend vers 0 quand n tend vers l’infini. ¥

Une autre preuve est donnée exercice ??.

1.3 Filtrage des processus

Dans ce paragraphe, nous nous intéressons au filtrage des processus. On introduit tout d’abord
l’opérateur de retard, noté B (comme backshift en anglais), dont l’effet sur le processus {Xt } défini sur

19
(Ω, F, P) est de retarder d’un échantillon les trajectoires dans le sens où (BXt )(ω) = Xt−1 (ω) (l’égalité
ayant lieu P-presque partout). On note B k = BP ◦ B k−1 pour k ≥ 2 les compositions successives de
l’opérateur B. Avec cette notation, l’opérateur k ψk B k , où {ψk } est une séquence réelle, désigne
l’opérateur de filtrage linéaire qui, au processus Xt , fait correspondre le processus
Ã !
X X
Yt = ψk B k Xt = ψk Xt−k
k k
P
Pour plus de concision, on utilisera souvent les notations ψ(B) = k ψk B k et Yt = ψ(B)Xt .
Le premier problème à résoudre est de déterminer les conditions sous lesquelles Yt est stationnaire
si Xt l’est. Il est clair que si ψ(B) = B k (le filtrage est un simple retard de k échantillon),
P Yt est
bien stationnaire de même fonction d’autocovariance que Xt . De même, si ψ(B) = k ψk B , où la k

suite {ψk } est différente de 0 pour un nombre fini d’indices (filtre à réponse impulsionnelle finie), on
a directement par linéarité de l’espérance :
X
µY = E [Yt ] = µX ψk
k

et XX
γY (h) = E [(Yt+h − µY )(Yt − µY )] = ψk ψm γX (h + k − j)
j k

où µX et γX (h) sont respectivement la moyenne et la fonction d’autocovariance du processus {Xt }

(nous avions déjà traité le cas particulier d’un filtre causal d’ordre 1 dans l’exemple 1.14). Les ex-
pressions ci-dessus montrent que {Yt } est alors stationnaire au second ordre. La question devient plus
délicate lorsque l’on considère des filtres à réponse impulsionnelle infinie puisque Yt doit alors être
défini comme la limite, dans un sens à préciser, d’une suite de variables aléatoires.
P
Théorème 1.4. Soit {ψk }k∈Z une suite absolument sommable, i.e. ∞ k=−∞ |ψk | < ∞ et soit {Xt } un
processus aléatoire tel que supt∈Z E [|Xt |] < ∞. Alors, pour tout t ∈ Z, la suite :
n
X
Yn,t = ψs Xt−s
s=−n

converge presque sûrement, quand n tend vers l’infini, vers une limite Yt que nous notons
∞
X
Yt = ψs Xt−s .
s=−∞

De plus, la variable aléatoire Yt est intégrable, i.e. E [|Yt |] < ∞ et la suite {Yn,t }n≥0 converge vers Yt
en norme L1 ,
lim E [|Yn,t − Yt |] = 0 .
n→∞
£ ¤ £ ¤
Supposons que supt∈Z E Xt2 < ∞. Alors, E Yt2 < ∞ et la suite {Yn,t }n≥0 converge en moyenne
quadratique vers la variable aléatoire Yt , c’est à dire que
£ ¤
lim E |Yn,t − Yt |2 = 0 .
n→∞

20
Démonstration. Voir le paragraphe 1.5 en fin de chapitre. ¥
Le résultat suivant établi que le processus obtenu par filtrage linéaire d’un processus stationnaire
du second ordre est lui-même stationnaire au second ordre, à condition que la réponse impulsionnelle
{ψk } soit de module sommable.
Théorème 1.5 (Filtrage des processus stationnaires au second ordre). Soit {ψk } une suite telle que
P ∞
k=−∞ |ψk | < ∞ et soit {Xt } un processus stationnaire au second ordre de moyenne
P∞ µX = E [Xt ]
et de fonction d’autocovariance γX (h) = cov(Xt+h , Xt ). Alors le processus Yt = s=−∞ ψs Xt−s est
stationnaire au second ordre de moyenne :
∞
X
µY = µX ψk (1.16)
k=−∞

de fonction d’autocovariance :
∞
X ∞
X
γY (h) = ψj ψk γX (h + k − j) (1.17)
j=−∞ k=−∞

et de mesure spectrale :
νY (dλ) = |ψ(e−iλ )|2 νX (dλ) (1.18)
P
où ψ(e−iλ ) = k ψk e−ikλ est la transformée de Fourier à temps discret de la suite {ψk }k∈Z .
Démonstration. Voir le paragraphe 1.5 à la fin de ce chapitre. ¥
La relation (1.18) qui donne la mesure spectrale du processus filtré en fonction de la fonction de
transfert du filtre et de la mesure d’entrée du processus d’entrée est particulièrement simple. Elle
montre par exemple que la mise en série de deux filtres α(B), β(B) de réponses impulsionnelles
absolument sommables conduit à une mesure spectrale |α(e−iλ )|2 |β(e−iλ )|2 νX (dλ) pour le processus
de sortie (ce qui montre au passage que l’ordre d’application des filtres est indifférent).
Définition 1.12 (Processus linéaire). Nous dirons que {Xt } est un processus linéaire s’il existe un
bruit blanc Zt ∼ BB(0, σ 2 ) et une suite de coefficients {ψk }k∈Z absolument sommable telle que :
∞
X
Xt = µ + ψk Zt−k (1.19)
k=−∞

où µ désigne une valeur arbitraire.

Il résulte directement de la discussion ci-dessus qu’un processus linéaire est stationnaire au second
ordre, que sa moyenne est égale à µ, que sa fonction d’autocovariance est donnée par :
∞
X
2
γX (h) = σ ψj ψj+h
j=−∞

et que sa mesure spectrale admet une densité dont l’expression est :

σ2
fX (λ) = |ψ(e−iλ )|2 (1.20)
2π
P
où ψ(e−iλ ) = k ψk e−ikλ .

21
1.4 Processus ARMA
Dans ce paragraphe nous nous intéressons à une classe importante de processus du second ordre,
les processus autorégressifs à moyenne ajustée ou processus ARMA. Il s’agit de restreindre la classe
des processus linéaires en ne considérant que les filtres dont la fonction de transfert est rationnelle.

1.4.1 Processus MA(q)

Définition 1.13 (Processus MA(q)). On dit que le processus {Xt } est à moyenne ajustée d’ordre q
(ou MA(q)) si {Xt } est donné par :

Xt = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.21)

où Zt ∼ BB(0, σ 2 ).

La terminologie ”moyenne ajustée” est la traduction, assez malheureuse, du nom anglo-saxon

”moving average” (moyenne mobile) En utilisant les résultats du théorème 1.5, on obtient E [Xt ] = 0,
et 
 σ 2 Pt−|h| θk θ
t=0 k+|h| si 0 ≤ |h| ≤ q
γX (h) = (1.22)
 0 sinon

Enfin, d’après la formule (1.20), le processus admet une densité spectrale dont l’expression est :
¯ ¯2
σ2 ¯ q
X ¯
¯ ¯
fX (λ) = ¯1 + θk e−ikλ ¯
2π ¯ ¯
k=1

Un exemple de densité spectrale pour le processus MA(1) est représenté figure 1.10. De manière
générale, la densité spectrale d’un processus M A(q) possède des anti-résonnances
Pq au voisinage des
k
pulsations correspondant aux arguments des racines du polynôme θ(z) = k=1 θk z . On démontrera,
à titre d’exercice, la propriété suivante qui indique que toute suite de coefficients covariance {γ(h)} non
nulle sauf pour un nombre fini d’indices temporels (i.e. le cardinal de l’ensemble {h ∈ Z, γ(h) 6= 0})
peut être considérée comme la suite des coefficients d’autocovariance d’un modèle linéaire à moyenne
mobile.

Propriété 1.6. Soit γ(h) une fonction d’autocovariance telle que γ(h) = 0 pour |h| > q. Alors, il
existe un bruit blanc {Zt } et un polynôme θ(z) de degré inférieur ou
P égal à q tels que γ(h) soit la
fonction d’autocovariance du processus M A(q) défini par Xt = Zt + qk=1 θk Zt−k .

1.4.2 Processus AR(p)

Définition 1.14 (Processus AR(p)). On dit que le processus {Xt } est un processus autorégressif
d’ordre p (ou AR(p)) si {Xt } est un processus stationnaire au second-ordre et s’il est solution de
l’équation de récurrence :
Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt (1.23)
où Zt ∼ BB(0, σ 2 ) est un bruit blanc.

22
Le terme “autorégressif” provient de la forme de l’équation (1.23) dans laquelle la valeur courante
du processus s’exprime sous la forme d’une régression (terme synonyme de combinaison linéaire) des
p valeurs précédentes du processus plus un bruit additif.
L’existence et l’unicité d’une solution stationnaire au second ordre de l’équation (1.23) constituent
des questions délicates (qui ne se posaient pas lorsque nous avions défini les modèles MA). Nous
détaillons ci-dessous la réponse à cette question dans le cas le cas p = 1.

Cas : |φ1 | < 1

L’équation de récurrence s’écrit :
Xt = φ1 Xt−1 + Zt (1.24)
Puisque |φ1 | < 1, la fraction rationnelle ψ(z) = (1 − φ1 z)−1 a un développement en série entière de la
forme :
+∞
X
1
ψ(z) = = φk1 z k
1 − φ1 z
k=0

qui converge sur le disque {z ∈ C : |z| < |φ1 |−1 }. Considérons alors le filtre linéaire de réponse
impulsionnelle ψk = φk1 pour k ≥ 0 et ψk = 0 sinon. Comme ψk est absolument sommable, le processus
∞
X ∞
X
Yt = ψk Zt−k = φk1 Zt−k
k=0 k=0

est bien défini et est stationnaire au second ordre. Par construction Yt est solution de (1.24) ce que
l’on peut également vérifier directement en notant que :
+∞
X
Xt = Zt + φ1 φk1 Zt−1−k = Zt + φ1 Xt−1
k=0

L’unicité de la solution est garantie par l’hypothèse de stationnarité au second ordre. Supposons en
effet que {Xt } et {Yt } soient deux processus stationnaires au second-ordre et que ces deux processus
soient solutions de l’équation de récurrence (1.24). On a alors par différence (Xt −Yt ) = φ1 (Xt−1 −Yt−1 ),
relation qui itérée k fois implique

(Xt − Yt ) = φk1 (Xt−k − Yt−k ) .

Par suite,
£ ¤1 £ ¤1
E [|Xt − Yt |] = φk1 E [|Xt−k − Yt−k |] ≤ φk1 (E [|Xt−k |] + E [|Yt−k |]) ≤ φk1 (E X02 2 + E Y02 2 )

où k peut être pris quelconque. Comme φ1 est en module plus petit que 1, on en déduit que
E [|Xt − Yt |] = 0 et donc que Xt = Yt presque sûrement. La fonction d’autocovariance de Xt so-
lution stationnaire de (1.24) est donnée par la formule (1.17) qui s’écrit ;
∞
X |h|
2 k+|h| φ1
γX (h) = σ φk1 φ1 = σ2 (1.25)
1 − φ21
k=0

23
5

−5
0 100 200 300 400 500
5

−5
0 100 200 300 400 500
10

−10
0 100 200 300 400 500

Fig. 1.11 – Trajectoires de longueur 500 d’un processus AR(1)) gaussien.

Courbe du haut : φ1 = −0.7. Courbe du milieu : φ1 = 0.5. Courbe du bas :
φ1 = 0.9

Lorsque φ1 > 0, le processus Xt est positivement corrélé, dans le sens où tous ses coefficients d’au-
tocovariance sont positifs. Les exemples de trajectoires représentées sur la figure 1.11 montrent que
des valeurs de φ1 proches de 1 correspondent à des trajectoires “persistantes” (dont, par exemple,
les temps successifs de passage par zéro sont relativement espacés). Inversement, des valeurs de φ1
négatives conduisent à des trajectoires où une valeur positive a tendance à être suivie par une valeur
négative. La densité spectrale de Xt est donnée par

1.5

0.5

0 −π +π
0

Fig. 1.12 – Densité spectrale d’un processus AR(1), défini par (1.24) pour
σ = 1 et φ1 = 0.7.

¯∞ ¯2
σ2 ¯X ¯ σ2 1
¯ ¯
fX (λ) = ¯ φk1 e−ikλ ¯ = (1.26)
2π ¯ ¯ 2π |1 − φ1 e−iλ |2
k=0

24
La figure 1.12 donne la forme de cette densité spectrale pour φ1 = 0.7.

Cas |φ1 | > 1

Nous allons montrer que le processus retourné temporel vérifie une équation récurrente qui nous
ramène au cas précédent. Pour cela posons Xtr = X−t . En portant Xtr dans l’équation (1.24), on
obtient
Xtr = X−t = φ1 X−t−1 + Z−t = φ1 Xt+1
r
+ Z−t
qui peut encore s’écrire :
Xtr = φ−1 r
1 Xt−1 + Wt (1.27)
où Wt = −φ−1 2 2 2
1 Z−t−1 est un bruit blanc de variance σW = σ /φ1 . L’équation (1.27) est maintenant du
−1
type que (1.23) puisque |φ1 | < 1. Par conséquent il existe un unique processus stationnaire solution
de l’équation 1.27 donné par
∞
X
Xtr = φ−k
1 Wt−k (1.28)
k=0

Comme {Xtr } est stationnaire au second ordre, le processus

∞
X ∞
X
Xt = r
X−t = φ−k
1 W−t+k =− φ−k
1 Zt+k (1.29)
k=0 k=1

l’est également (cf. exemple 1.7) avec la même moyenne et la même fonction d’autocovariance. Les
expressions de la fonction d’autocovariance et de la densité spectrale du processus sont donc données
respectivement par (1.25) et (1.26) à condition de substituer φ1 par 1/φ1 . Un point remarquable à
propos de l’expression de la solution stationnaire donnée par (1.29) est que celle ci est entièrement
anti-causale, dans le sens où elle ne dépend que des valeurs futures du bruit Zt . Cette remarque
montre qu’il ne faut pas se laisser tromper par l’apparence de la relation de récurrence (1.27) : la
solution stationnaire ne s’exprime par forcément comme un filtrage causal du bruit Zt , point que nous
développerons au paragraphe 1.4.2.

Cas |φ1 | = 1
Nous avons déjà montré à propos de l’exemple 1.10 que lorsque φ1 = 1, un processus X£ t vérifiant
¤
Xt = Xt−1 +Zt ne peut avoir une variance constante£ ¤ au cours du temps (on a montré que E Xt2 |X0 =
tσ 2 , où σ 2 est la variance de Zt , et donc E Xt2 = tσ 2 ). A fortiori, un tel processus ne peut être
stationnaire au second ordre. En utilisant la même technique, on montre aisément que l’équation de
récurrence (1.24) ne peut avoir de solution stationnaire lorsque |φ1 | = 1. Une remarque intéressante
est que dans le cas où φ1 = 1, le processus Zt = Xt − Xt−1 est par hypothèse stationnaire. On peut
donc utiliser le modèle Xt − Xt−1 = Zt pour un signal Xt non-stationnaire dont les incréments sont
supposés stationnaires. C’est implicitement la stratégie que nous avons adoptée pour analyser la série
de l’indice S&P500 représentée figure 1.4 au paragraphe 1.2.2 (en utilisant en plus une transformation
logarithmique des données).

25
Cas général
Le théorème suivant étend les résultats précédents à un processus AR(p).
Théorème 1.6 (Existence des processus AR(p)). L’équation récurrente :
Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt (1.30)
où Zt ∼ BB(0, σ 2 ) admet une solution stationnaire au second ordre si et seulement si le polynôme :
φ(z) = 1 − φ1 z − · · · − φp z p 6= 0 pour |z| = 1
et cette solution est unique. Elle a pour expression :
∞
X
Xt = ψk Zt−k (1.31)
k=−∞

où ψk est la suite des coefficients du développement en série de Laurent de 1/φ(z) au voisinage du
cercle unité.
Démonstration. La condition φ(z) 6= 0 pour |z| = 1 implique que φ(z) 6= 0 dans une couronne
1 − δ ≤ |z| ≤ 1 + δ et donc que la fonction ψ(z) = 1/φ(z) est analytique dans cette couronne. Il s’en
suit que 1/φ(z) admet, pour 1 − δ ≤ |z| ≤ 1 + δ, un développement en série de Laurent qui s’écrit :
∞
X
1
= ψk z k = ψ(z) (1.32)
φ(z)
k=−∞

où la suite {ψk } est de module sommable et vérifie ψ0 = 1. Nous pouvons alors considérer le filtre
de réponse impulsionnelle {ψk }. D’après le théorème 1.5, nous pouvons appliquer ce filtre aux deux
membres de l’équation récurrente φ(B)Xt = Zt . Nous obtenons (ψ(B)φ(B))Xt = Xt = ψ(B)Zt . On
en déduit que l’unique solution stationnaire de l’équation (1.30) est donnée par (1.31). ¥

AR(p) causal
On peut distinguer trois cas suivant la position des racines de φ(z) par rapport au cercle unité :
– Les racines du polynôme φ(z) sont strictement à l’extérieur du cercle unité. Alors la fonction
ψ(z) = 1/φ(z) est analytique sur le disque {z : |z| < ρm }, où ρm > 1 est le module de la racine
de φ(z) de module le plus petit. En particulier ψ(z) est analytique en 0 et donc ψk = 0 pour
k < 0. Il s’en suit que :
X∞
Xt = ψk Zt−k
k=0
On note que Xt s’exprime causalement en fonction de Zt dans le sens où Xt dépend uniquement
des valeurs présente et passées de Zt . On dit dans ce cas que le modèle autorégressif est causal.
– Les racines du polynôme φ(z) sont strictement à l’intérieur du cercle unité. Alors la fonction
1/φ(z) est analytique dans la couronne {z : |z| > ρM }, où ρM < 1 est le module de la racine de
φ(z) de module le plus grand. On en déduit que ψk = 0 pour k ≥ 0 et donc que Xt s’exprime
anti-causalement en fonction de Zt , dans le sens où Xt dépend uniquement des valeurs futures
de Zt . On dit dans ce cas que le modèle autorégressif est anti-causal.

26
– Le polynôme φ(z) a des racines de part et d’autre du cercle unité. La suite ψk est alors bilatérale.
Dans ce cas Xt dépend à la fois des valeurs passées, présente et futures de Zt . On dit dans ce
cas que le modèle autorégressif est bilatérale.

Théorème 1.7 (AR(p) causal). L’équation récurrente :

Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt

où Zt ∼ BB(0, σ 2 ) admet une solution stationnaire au second ordre causale si et seulement si φ(z) =
1 − φ1 z − · · · − φp z p 6= 0 pour |z| ≤ 1. Cette solution est unique et a pour expression :
∞
X
Xt = ψk Zt−k (1.33)
k=0

où ψk est la suite des coefficients du développement en série de Laurent de 1/φ(z) dans le disque
{z : |z| ≤ 1}.

Démonstration. Il nous reste à montrer que, si l’équation

P récurrente possède une solution stationnaire
au second ordre causale c’est-à-dire telle que Xt = ∞ k=0 ψk Zt−k avec ψk de module sommable, alors
φ(z) 6= 0 pour |z| ≤ 1.
PEn effetk partons de φ(B)Xt = Zt et remplaçons Xt par ψ(B)Zt , où nous
supposons que ψ(z) = ∞ k=0 ψk z est analytique pour |z| ≤ 1. Alors on a (φ(B)ψ(B))Zt = Zt et donc

φ(z)ψ(z) = 1 pour |z| ≤ 1

qui implique que φ(z) 6= 0 pour |z| ≤ 1. ¥

Sauf indication contraire nous ne considérons, dans la suite, que des processus autorégressifs causaux.
La propriété de causalité joue en effet un rôle essentiel pour l’estimation des paramètres (cf. les
équations de Yule-Walker ci-dessous) ainsi que dans les problèmes de prédiction étudiés au chapitre 4.
Par ailleurs, cette restriction n’en est pas vraiment une comme le montre l’exercice suivant :
Exercice 1.1
Soit M(p) un modèle AR(p) de paramètres σ 2 , φ1 , . . . φp qui admet une solution stationnaire (φ(z) 6= 0 pour
|z| = 1). Montrer qu’il existe toujours un modèle M0 (p) AR(p) stable et causal possédant la même fonction
d’autocovariance que M(p) (indication : utiliser des facteurs passe-tout de la forme (a1 − z)/(1 − a∗1 z) où
φ(a1 ) = 0).

Equations de Yule-Walker
Les équations de Yule-Walker fournissent une relation linéaire entre les paramètres φ1 , . . . , φp et σ 2
de l’équation (1.23), définissant un processus AR(p), et la fonction d’autocovariance de ce processus.
Nous nous plaçons dans le cas où le processus AR(p) est causal et donc, pour k > 0 E [Zt Xt−k ] = 0
d’après (1.33). On en déduit que :
p
X
E [Zt Xt ] = E [Zt Zt ] + φj E [Zt Xt−j ] = σ 2
j=1

27
P
et par suite en remplaçant, dans E [Zt Xt ], Zt par Xt − pj=1 φj Xt−j il vient :
 
Xp Xp
2 
σ = E [Zt Xt ] = E (Xt − 
φj Xt−j )Xt = γ(0) − φk γ(k) (1.34)
j=1 k=1

En multipliant, pour k > 0, les deux membres h de l’équation (1.23)i par Xt−k et en en prenant
P
l’espérance, on obtient 0 = E [Zt Xt−k ] = E (Xt − pj=1 φj Xt−j )Xt−k . On en déduit que la fonc-
tion d’autocovariance vérifie, pour tout k > 0, l’équation de récurrence :
p
X
γ(k) − φj γ(k − j) = 0 (1.35)
j=1

En regroupant, sous forme matricielle, les p équations (1.35) pour 1 ≤ k ≤ p, on obtient :

    
γ(0) γ(1) · · · γ(p − 1) φ1 γ(1)
 γ(1) γ(0) · · · γ(p − 2)    
  φ2  γ(2)
 .. .   .  = .  (1.36)
 . ..   ..   .. 
γ(p − 1) γ(p − 2) · · · γ(0) φp γ(p)

Les équations (1.34) et (1.36) sont appelées équations de Yule-Walker. Nous retrouverons ces équations,
dans le cadre de la prédiction linéaire au chapitre 4 (équations (4.8) et (4.9)). Ces équations permettent
également de déterminer les valeurs des paramètres du modèle à partir d’estimation de la fonction
d’autocovariance (cf. chapitre 5).

Calcul des covariances d’un processus AR(p) causal

Partant des paramètres du modèle, il est également possible de calculer la fonction d’autocovariance
du processus à partir des équations (1.34) et (1.36) en les réécrivant sous la forme
       2 
1 −φ1 · · · −φp 1 0 ··· 0 γ(0)/2 σ
 −φ1 −φ 0   −φ 1 · · · 0    γ(1)   
 p   1     0 
 .. . . .  +  . .. .. .    .  =  .  (1.37)
 . .. .. ..   .. . . ..   ..   .. 
−φp 0 ··· 0 −φp · · · −φ1 1 γ(p) 0

Partant alors de φ1 , . . . , φp , σ 2 , on calcule γ(0), . . . , γ(p) puis, en utilisant (1.35), on calcule γ(k) pour
tout k > p. Une autre façon de procéder consiste à calculer récursivement la suite ψk en remarquant
que 1 = ψ(z)φ(z) = (ψ0 + ψ1 z + . . . )(1 − φ1 z − · · · − φp z p ) et donc, par identification, que :

ψ0 = 1, ψ1 = φ1 ψ0 , ψ2 = φ2 ψ1 + φ1 ψ1 , etc.

puis d’appliquer la formule (1.17) pour un processus d’entrée de fonction d’autocovariance σ 2 δ(h) qui
s’écrit
∞
X
γ(h) = σ 2 ψk ψk+|h|
k=0

28
Densité spectrale
P
Réécrivons l’équation (1.23) sous la forme Xt − pk=1 φk Xt−k = Zt . Le premier membre est un
processus stationnaire au second ordre puisque il représente le filtrage, par un filtre de réponse impul-
¯sionnelle finie, du processus
¯ Xt . Ce processus possède donc une densité spectrale qui a pour expression
¯1 − Pp φk e−ikλ ¯2 fX (λ) où fX (λ) désigne la densité spectrale de Xt . Cette densité spectrale est
k=1
aussi égale à celle du second membre Zt , c’est à dire à σ 2 /2π. Par conséquent,

σ2 1
f (λ) = ¯ P ¯ (1.38)
2π ¯1 − p φk e−ikλ ¯2
k=1

1.4.3 Processus ARMA

La notion de processus ARMA généralise les notions de processus MA et AR.
Théorème 1.8 (Existence des processus ARMA(p, q)). Soit l’équation récurrente :

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.39)

où Zt ∼ BB(0, σ 2 ). On pose φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θp z p . On suppose

que φ(z) et θ(z) n’ont pas de zéros communs. Alors l’équation (1.39) admet une solution stationnaire
au second ordre si et seulement si le polynôme φ(z) 6= 0 pour |z| = 1. Cette solution est unique et a
pour expression :
X∞
Xt = ψk Zt−k (1.40)
k=−∞

où ψk est la suite des coefficients du développement en série de Laurent de θ(z)/φ(z) au voisinage du
cercle unité.
Démonstration. Comme φ(z) 6= 0 pour |z| = 1, 1/φ(z) est développable en série de Laurent au
voisinage du cercle unité, suivant :
∞
X
1
ξ(z) = = ξk z k
φ(z)
k=−∞

où la suite {ξk } est de module sommable et vérifie ξ0 = 1. D’après le théorème 1.5, nous pouvons
donc appliquer le filtre de réponse impulsionnelle {ξk } aux deux membres de l’équation récurrente
φ(B)Xt = θ(B)Z
P t . Nous obtenons (ξ(B)φ(B))Xt = Xt = ψ(B)Zt où ψ(B) = ξ(B)θ(B). On en déduit
que ψ(z) = k ψk z k avec :
X q
ψk = ξk + θj ξk−j
j=1

où {ψk } est absolument sommable. ¥

Dans le cas où φ(z) et θ(z) ont des zéros communs, deux configurations sont possibles :
– Les zéros communs ne sont pas sur le cercle unité. Dans ce cas on se ramène au cas sans zéro
commun en annulant les facteurs communs.

29
– Certains des zéros communs se trouvent sur le cercle unité. L’équation (1.39) admet une infinité
de solutions stationnaires au second ordre.
Du point de vue de la modélisation, la présence de zéros communs ne présente aucun intérêt puisqu’elle
est sans influence sur la densité spectrale de puissance. Elle conduit de plus à une ambiguı̈té sur l’ordre
réel des parties AR et MA.

ARMA(p, q) causal
Comme dans le cas d’un processus AR(p), on peut distinguer trois cas, suivant que les zéros de φ(z)
sont à l’extérieur, à l’intérieur ou de part et d’autre du cercle unité. Dans le cas où les zéros P
de φ(z) sont
à l’extérieur du cercle unité, la suite ξk est causale (ξk = 0 pour k < 0) et donc ψk = ξk + qj=1 θj ξk−j
est aussi causale. Par conséquent le processus Xt s’exprime causalement en fonction de Zt .

Théorème 1.9 (ARMA(p, q) causal).

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.41)

où Zt ∼ BB(0, σ 2 ). On pose φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θp z p . On suppose

que φ(z) et θ(z) n’ont pas de zéros communs. Alors l’équation (1.41) admet une solution stationnaire
causale au second ordre si et seulement si le polynôme φ(z) 6= 0 pour |z| ≤ 1. Cette solution est unique
et a pour expression :
X∞
Xt = ψk Zt−k (1.42)
k=0

où ψk est la suite des coefficients du développement en série de Laurent de θ(z)/φ(z) dans le disque
{z : |z| ≤ 1}.

Démonstration. Il suffit de remarquer que la condition sur φ(z) implique que 1/φ(z) possède un
développement causal au voisinage du cercle unité. ξ(B) correspond donc à une opération de filtrage
causal (voir preuve du théorème 1.8 pour les notations), ce qui implique qu’il en va de même pour
ξ(B)φ(B). ¥

Calcul des covariances d’un processus ARMA(p, q) causal

Une première méthode consiste à utiliser l’expression (1.17) qui s’écrit, compte tenu du fait que
{Zt } est un bruit blanc,
∞
X
2
γ(h) = σ ψk ψk+|h|
k=0

où la suite {ψk } se détermine de façon récurrente à partir de l’égalité ψ(z)θ(z) = φ(z) par identification
du terme en z k . Pour les premiers termes on trouve :

ψ0 = 1
ψ1 = θ1 + ψ0 φ1
ψ2 = θ2 + ψ0 φ2 + ψ1 φ1
···

30
La seconde méthode utilise une formule de récurrence, vérifiée par la fonction d’autocovariance d’un
processus ARMA(p, q), qui s’obtient en multipliant les deux membres de (1.39) par Xt−k et en en
prenant l’espérance. On obtient :
X
γ(k) − φ1 γ(k − 1) − · · · − φp γ(k − p) = σ 2 θj ψj−k pour 0 ≤ k < max(p, q + 1) (1.43)
k≤j≤q

γ(k) − φ1 γ(k − 1) − · · · − φp γ(k − p) = 0 pour k ≥ max(p, q + 1) (1.44)

où nous avons utilisé la causalité du processus pour écrire que E [Zt Xt−k ] = 0 pour tout k ≥ 1.
Le calcul de la suite {ψk } pour k = 1, . . . , p se fait comme précédemment. En reportant ces valeurs
dans (1.43) pour 0 ≤ k ≤ p, on obtient (p+1) équations linéaires aux (p+1) inconnues (γ(0), . . . , γ(p))
que l’on peut résoudre. Pour déterminer les valeurs suivantes on utilise l’expression (1.44).

Inversibilité d’un processus ARMA(p, q)

Théorème 1.10 (ARMA(p, q) inversible). Soit Xt un processus ARMA(p, q). On suppose que φ(z)
et θ(z) n’ont pas de zéros communs. Alors il existe une suite {πk } causale absolument sommable telle
que :
X∞
Zt = πk Xt−k (1.45)
k=0

si et seulement si θ(z) 6= 0 pour z ≤ 1. On dit alors que le modèle ARMA(p, q) est inversible. La suite
πk est la suite des coefficients du développement en série de φ(z)/θ(z) dans le disque {z : |z| ≤ 1}.

La preuve de ce théorème est tout à fait analogue à celle du théorème 1.9. Remarquons que la
notion d’inversibilité, comme celle de causalité, est bien relative au modèle ARMA(p, q) lui-même et
pas uniquement au processus Xt comme le montre l’exercice suivant.
Exercice 1.2
Soit Xt un processus stationnaire au second ordre solution de l’équation de récurrence (1.41) où le modèle
ARMA(p, q) correspondant est supposé sans zéro commun mais pas nécessairement inversible. Montrer qu’il
existe un bruit blanc Z̃t tel que Xt soit solution de

φ(B)Xt = θ̃(B)Z̃t

où le modèle ARMA(p, q) défini par φ1 , . . . φp et θ̃1 , . . . θ̃q est inversible (indication : considérer des facteurs
passe-tout).

Un modèle ARMA(p, q) est causal et inversible lorsque les racines des polynômes φ(z) et θ(z) sont
toutes situées à l’extérieur du filtre unité. Dans ce cas, Xt et Zt se déduisent mutuellement l’un de
l’autre par des opérations de filtrage causal, la réponse impulsionnelle de chacun de ces filtres étant à
phase minimale (c’est à dire inversible causalement).

Densité spectrale d’un processus ARMA(p, q)

Théorème 1.11 (Densité spectrale d’un processus ARMA(p, q)). Soit Xt un processus ARMA(p, q)
(pas nécessairement causal ou inversible) défini par φ(B)Xt = θ(B)Zt où Zt ∼ BB(0, σ 2 ) et où θ(z) et

31
φ(z) sont des polynômes de degré q et p n’ayant pas de zéros communs. Alors Xt possède une densité
spectrale qui a pour expression :
¯ Pq ¯2
σ 2 ¯1 + k=1 θk e−ikλ ¯
f (λ) = ¯ P ¯ (1.46)
2π ¯1 − p φk e−ikλ ¯2
k=1

32
1.5 Preuves des théorèmes 1.4 et 1.5
P
Théorème 1.4. Soit {ψk }k∈Z une suite telle que ∞ k=−∞ |ψk | < ∞ et soit {Xt } un processus aléatoire
tel que supt∈Z E [|Xt |] < ∞. Alors, pour tout t ∈ Z, la suite :
n
X
Yn,t = ψs Xt−s
s=−n

converge presque sûrement, quand n tend vers l’infini, vers une

P £ 2limite
¤ que nous notons £ 2 ¤ Yt =
∞
s=−∞ ψs Xt−s et limn→∞ E [|Yn,t − Yt |] = 0. Si de plus supt E X (t) <£ ∞, alors ¤ E Yt < ∞
et Yn,t converge en moyenne quadratique vers Yt , c’est à dire que limn→∞ E |Yn,t − Yt |2 = 0.
P
Démonstration. Notons pour tout t ∈ Z et n ∈ N, |Y |n,t = +n s=−n |ψs ||Xt−s . La suite {|Y |n,t }n≥0 est
une suite de variables aléatoires intégrables. Le théorème de convergence dominé (see Proposition ??)
montre que
lim E [|Y |n,t ] = E [|Y |t ]
n→∞
P
où |Y |t = ∞s=−∞ |ψs ||Xt−s |. Comme,

+n
X ∞
X
E [|Y |n,t ] = |ψs |E [|Xt−s |] ≤ sup E [|Xt |] |ψs | ,
s=−n t∈Z s=−∞

on a donc " #
∞
X
E |ψs ||Xt−s | < ∞ .
s=−∞

Par conséquent, il existe un ensemble A ∈ F, vérifiant PA = 1 tel que, pour tout ω ∈ A, nous ayons
∞
X
|ψs ||Xt−s (ω)| < ∞
s=−∞

Pour ω ∈ A, la série de terme générique s 7→ ψs Xt−s (ω) est normalement sommable, ce qui implique
que, pour tout ω ∈ A, la suite n 7→ Yn,t (ω) converge.
Notons, pour tout ω ∈ Ω, Yt (ω) = lim sup Yn,t (ω). ω 7→ Yt (ω) est une variable aléatoire comme
limite supérieure de variables aléatoires et pour tout ω ∈ A, nous avons limn→∞ Yn,t (ω) = Yt (ω) et
donc la suite n 7→ Yn,t converge P-p.s vers Yt .
Remarquons également que la suite n 7→ Yn,t est une suite de Cauchy dans L1 (Ω, F, P). En effet,
pour tout p ≥ q, nous avons :
p
X
E [|Yp,t − Yq,t |] ≤ sup E [|Xt |] |ψs | −→ 0
t∈Z q,p→∞
s=q+1

Fixons ² > 0 et choisissons n tel que

sup E [|Yp,t − Yq,t |] ≤ ²

p,q≥n

et donc lim supq→∞ E [|Yq,t − Yt |] ≤ ². Comme ² est arbitraire, nous avons donc limq→∞ E [|Yq,t − Yt |] =
0. L’inégalité triangulaire
E [|Yt |] ≤ E [|Yt − Yn,t |] + E [|Yn,t |]
£ ¤
montre enfin que Yt ∈ L1 (Ω, F, P). Considérons maintenant le cas où supt∈Z E Xt2 < ∞. Remarquons
£ ¤
tout d’abord que E [|Xt |] ≤ (E Xt2 )1/2 et donc que cette condition implique que supt∈Z E [|Xt |] < ∞.
La suite m 7→ Ym,t est une suite de Cauchy dans L2 (Ω, F, P). En effet, pour p ≥ q, nous avons
 2
p
X p
X
£ ¤
E (Yp,t − Yq,t )2 = E  ψs Xt−s  = ψj ψk E [Xt−j Xt−k ]
s=q+1 j,k=q+1
 2
p
X p
X
£ ¤ £ ¤
≤ |ψj ||ψk | sup E Xt = sup E Xt 
2 2
|ψj |
j,k=q+1 t∈Z t∈Z j=q+1

Comme précédemment fixons ² > 0 et choisissons n tel que :

£ ¤
sup E |Yp,t − Yq,t |2 ≤ ².
p,q≥n

Par application du lemme de Fatou, nous avons :

· ¸
£ ¤ £ ¤
E lim inf (Yp,t − Yq,t ) = E (Yt − Yq,t )2 ≤ lim inf E (Yp,t − Yq,t )2 ≤ ²
2
p→∞ p→∞
£ ¤ £ ¤
et donc : lim supq→∞ E (Yt − Yq,t )2 ≤ ². Comme ² est arbitraire, lim supq→∞ E (Yt − Yq,t )2 = 0, en
d’autres termes, la suite {Yq,t }q≥0 converge en moyenne quadratique vers Yt . Finalement, nous avons :
£ ¤ £ ¤ £ 2¤
E Yt2 ≤ 2(E (Yt − Yq,t )2 + E Yq,t )<∞

et Yt est donc une variable de carré intégrable. ¥

P∞
Théorème 1.5. Soit {ψk } une suite telle que k=−∞ |ψk | < ∞ et soit {Xt } un processus stationnaire
au second ordre dePmoyenne µX = E [Xt ] et de fonction d’autocovariance γX (h) = cov(Xt+h , Xt ). Alors
le processus Yt = ∞ s=−∞ ψs Xt−s est stationnaire au second ordre de moyenne :

∞
X
µY = µX ψk (1.47)
k=−∞

de fonction d’autocovariance :
∞
X ∞
X
γY (h) = ψj ψk γX (h + k − j) (1.48)
j=−∞ k=−∞

34
et de mesure spectrale :
νY (dλ) = |ψ(e−iλ )|2 νX (dλ) (1.49)
P
où ψ(e−iλ ) = k ψk e−ikλ est la fonction de transfert du filtre. Enfin l’intercovariance entre les pro-
cessus Yt et Xt a pour expression :
∞
X
γY X (h) = E [(Yt+h − µY )(Xt − µX )] = ψk γX (h − k) (1.50)
k=−∞
£P∞ ¤
Démonstration. Comme E s=−∞ |ψs |E [|Xt−s |] < ∞, le théorème de Fubini implique
" ∞ # ∞
X X
E ψs Xt−s = ψs E [Xt−s ]
s=−∞ s=−∞

ce qui établit (1.47).

Pn Pour la fonction d’autocovariance, notons tout d’abord que, pour tout n, le
processus Yn,t = s=−n ψs Xt−s est stationnaire au second ordre et que nous avons
n
X n
X
cov(Yn,t , Yn,t+h ) = ψj ψk γX (h + k − j)
j=−n k=−n

Remarquons ensuite que

cov(Yt , Yt+h ) = cov(Yn,t + (Yt − Yn,t ), Yn,t+h + (Yt+h − Yn,t+h ))

= cov(Yn,t , Yn,t+h ) + cov(Yt − Yn,t , Yn,t+h )
+ cov(Yn,t , Yt+h − Yn,t+h ) + cov(Yt − Yn,t , Yt+h − Yn,t+h )
=A+B+C +D

L’inégalité :
 2
∞
X
var(Yn,t − Yt ) = lim var(Yn,t − Yp,t ) ≤  |ψj | γX (0)
p→∞
j=n+1

permet ensuite de déduire, quand n tend vers l’infini, les limites suivantes

|B| ≤ (var(Yt − Yn,t ))1/2 (var(Yn,t+h ))1/2 → 0

|C| ≤ (var(Yt+h − Yn,t+h ))1/2 (var(Yn,t ))1/2 → 0
|D| ≤ (var(Yt+h − Yn,t+h ))1/2 (var(Yt − Yn,t ))1/2 → 0

et donc cov(Yt , Yt+h ) = limn→∞Rcov(Yn,t , Yn,t+h ), ce qui démontre l’expression (1.48) 3 . En reportant
dans cette expression γX (h) = I eihλ νX (dλ) où νX désigne la mesure spectrale du processus {Xt },
nous obtenons Z
∞
X X∞
γY (h) = ψj ψk ei(h+k−j)λ νX (dλ)
j=−∞ k=−∞ I

3
Nous venons ici de démontrer directement la propriété de continuité de la covariance dans L2 que nous verrons
comme une conséquence de la structure d’espace de Hilbert au chapitre 4.

35
En remarquant ensuite que
 2
∞
X ∞ Z
X ∞
X
|ψj ||ψk |νX (dλ) ≤ γX (0)  |ψj |
j=−∞ k=−∞ I j=−∞

nous pouvons appliquer le théorème de Fubini et permuter les signes somme et intégrale dans l’ex-
pression de γY (h). Ce qui donne :
Z ∞
X ∞
X Z
γY (h) = eihλ ψj ψk eikλ e−ijλ = eihλ |ψ(e−iλ )|2 νX (dλ)
I j=−∞ k=−∞ I

On en déduit que νY (dλ) = |ψ(e−iλ )|2 νX (dλ). Pour déterminer l’expression de l’intercovariance entre
les processus entre les processus Yt et Xt , il suffit de noter |cov(Yt+h , Xt )|2 ≤ γY (0)γX (0) < +∞ et
que :
n
X
E [(Yt+h − µY )(Xt − µX )] = lim cov(Yn,t+h , Xt ) = lim ψk cov(Xt+h−k Xt )
n→∞ n→∞
k=−n
∞
X
= ψk γX (h − k)
k=−∞

Ce qui conclut la preuve. ¥

36
Chapitre 2

Estimation de la moyenne et des

covariances

2.1 Estimation de la moyenne

Soit {Xt } un processus aléatoire à temps discret stationnaire au second ordre, de moyenne E [Xt ] =
µ, et de fonction d’autocovariance γ(h). On suppose avoir observé n échantillons consécutifs X1 , . . . Xn
du processus. L’estimateur de µ que nous considérons est la moyenne empirique définie par :
n
1X
µ̂n = Xt (2.1)
n
t=1

On constate tout d’abord que µ̂n est un estimateur sans biais de la moyenne µ car
n
1X
E [µ̂n ] = E [Xt ] = µ (2.2)
n
t=1

du fait de la stationnarité. Le risque quadratique de l’estimateur, qui mesure sa dispersion autour de

la valeur inconnue µ de la moyenne, a pour expression
£ ¤
R(µ̂n , µ) = E (µ̂n − µ)2
" n n
# n n n−1 µ ¶
1 XX 1 XX 1 X |h|
=E 2 (Xt − µ)(Xs − µ) = 2 γ(t − s) = 1− γ(h) (2.3)
n n n n
s=1 t=1 s=1 t=1 h=−n+1

D’où la proposition suivante :

Proposition 2.1. Soit {XtP } un processus stationnaire au second
P ordre de moyenne µ et de fonction
d’autocovariance γ(h) avec |γ(h)| < ∞. Alors, µ̂n = n−1 nt=1 Xt vérifie
∞
£ ¤ 1 X
lim nE (µ̂n − µ)2 = 2πf (0) où f (λ) = γ(τ )e−iτ λ . (2.4)
n→∞ 2 pi τ =−∞
√
c’est à dire que µ̂n converge en moyenne quadratique vers µ, à la vitesse n. De plus limn→∞ µ̂n = µ
P-p.s.

37
Démonstration. Lorsque γ(h) est absolument sommable, le théorème de la convergence dominée ap-
pliquée à (2.3) montre que
∞
X µ ¶ ∞
X
|h|
lim nR(µ̂n , µ) = lim 1 − γ(h) = γ(h) = 2πf (0)
n→∞ n→∞ n
h=−∞ h=−∞
P
où f (λ) = (2π)−1 ∞ h=−∞ γ(h)e
−ihλ est la densité spectrale du processus {X }. La preuve de la
t
convergence presque sûre de µ̂n est traitée par l’exercice ??. ¥

Cette proposition montre que la loi des grands nombres, établie classiquement pour des variables
aléatoires indépendantes, est également valable pour un processus stationnaire au second ordre, du
moment que la fonction d’autocovariance décroı̂t suffisamment rapidement à l’infini. Sous cette condi-
tion, il est possible d’estimer la moyenne£ à partir d’une ¤seule réalisation de celui-ci. La proposition 2.1
√
nous donne accès à la valeur limite de E ( n(µ̂n − µ))2 . Cependant pour construire des intervalles de
confiance pour les paramètres estimés (cf. définition A.27) ou pour tester des hypothèses concernant la
valeur des paramètres (voir définition A.28), il est nécessaire d’obtenir un résultat plus précis portant
√
sur la distribution limite de n(µ̂n − µ). L’obtention de théorèmes de type limite centrale pour des
suites de variables aléatoires dépendantes est un sujet délicat, qui a donné lieu à une vaste littérature.
Il n’est bien entendu pas question ici de présenter une théorie générale et nous nous contentons donc
d’énoncer un résultat valable dans le cas de processus linéaire fort. Le fait de devoir émettre une
hypothèse aussi contraignante sur la loi du processus dans un contexte où, en fait, seules les propriétés
au second ordre nous intéressent est bien sûr frustrant, mais il traduit la (relative) difficulté technique
d’un tel résultat (la preuve de ce théorème est omise).
P
Théorème
P 2.1. Soit {Xt } un processus linéaire fort de P moyenne µ. On a Xt = µ + ∞ k=−∞ ψk Zt−k
avec k |ψk | < ∞ et Zt ∼ IID(0, σ 2 ). On pose µ̂n = n−1 nt=1 Xt . Alors :
√
n(µ̂n − µ) →d N (0, 2πf (0)) (2.5)
P
où f (0) = σ 2 |ψ̂(0)|2 /(2π), ψ̂(λ) = ∞j=−∞ ψj e
ijλ , est la densité spectrale de X en 0.
t

Exemple 2.1 : Moyenne empirique pour un processus AR(1) (fort)

Soit Xt un processus autorégressif d’ordre 1 fort, de moyenne µ, solution stationnaire au second ordre défini
par l’équation de récurrence
Xt − µ = φ(Xt−1 − µ) + Zt
où {Zt } ∼ IID(0, σ 2 ) et |φ| < 1. Nous rappelons que la fonction d’autocovariance d’un processus AR(1) pour
|φ| < 1 est donnée par
σ2
γX (k) = φ|k|
(1 − φ2 )
et que la densité spectrale de ce processus a pour expression

σ2
f (λ) = 2
2π |1 − φe−iλ |

Dans ce cas, la variance limite qui intervient dans l’équation (2.5), est donnée par 2πf (0) = σ 2 /(1 − φ)2 .
Cette valeur est à comparer avec la variance de Xt donnée par γ(0) = σ 2 /(1 − φ2 ). On constate que le rapport
2πf (0)/γ(0) = (1 + φ)/(1 − φ) tend vers 0 lorsque φ → −1 et vers +∞ lorsque φ → 1. Ce qui implique

38
par exemple lorsque l’on considère l’intervalle de confiance asymptotique de niveau 95% pour la moyenne
µ donné par [µ̂n − 1.96σn−1/2 /(1 − φ), µ̂n + 1.96σn−1/2 /(1 − φ)] que l’estimation de la moyenne est bien
meilleure (plus précise) que si les données étaient iid lorsque φ est proche de −1. Inversement, lorsque φ est
proche de 1, l’intervalle de confiance est beaucoup plus large, c’est à dire l’estimation est significativement
moins précise, pour un nombre n d’échantillons comparable, que si les données étaient indépendantes. Cette
constatation somme toute assez logique est à mettre en rapport avec l’allure des trajectoires représentées sur
la figure 1.11.

2.2 Estimation des coefficients d’autocovariance et d’auto-

corrélation
Considérons à nouveau un processus {Xt } stationnaire au second ordre, de moyenne µ et de fonction
d’autocovariance γ(h) supposée de module sommable. Pour estimer la suite γ(h), nous considérons les
estimateurs, dits de covariances empiriques, définis par :
( Pn−|h|
n−1 t=1 (Xt+|h| − µ̂n )(Xt − µ̂n ) si |h| ≤ n − 1
γ̂n (h) = (2.6)
0 sinon
P
où µ̂n = n−1 nt=1 Xt . Remarquons que le nombre d’observations, dont nous disposons, étant
précisément égal à n, il n’existe pas de paires d’observations séparées de plus de n − 1 intervalles
de temps et donc l’expression (2.6) ne permet pas d’estimer les valeurs de γ(h) pour |h| ≥ n. De plus,
lorsque |h| est proche de n, il est clair que l’estimateur (2.6) de la covariance n’est pas fiable, dans la
mesure où on ne dispose que de peu de paires d’observations (Xt , Xt+|h| ), ce qui implique que l’effet
de moyennage statistique ne peut pas jouer. La partie la plus utile de la fonction d’autocovariance
empirique est celle qui correspond au valeurs du décalage h significativement plus faibles que le nombre
d’observations n. A échantillon fini, γ̂n (h) est un estimateur biaisé de γ(h). Un calcul simple montre
par exemple que
(n−1) µ ¶
1 X |k|
E [γ̂n (0)] = γ(0) − 1− γ(k)
n n
k=−(n−1)

Toutefois on peut montrer que, pour tout h, l’estimateur donné par (2.6) est asymptotiquement sans
biais dans le sens où limn→∞ E [γ̂n (h)] = γ(h) à la vitesse 1/n. Une propriété importante de cet
estimateur est que la suite γ̂n (h) est de type positif. En effet, si on définit le périodogramme par1
¯ ¯2
1 ¯¯X ¯
n
¯
In (λ) = ¯ (Xt − µ̂n )e−itλ ¯ (2.7)
2πn ¯ ¯
t=1

Par construction, In (λ) est une fonction positive pour λ ∈ [−π, π]. Par ailleurs,
Z n n Z
π
iλh 1 XX 1 π
e In (λ)dλ = (Xt − µ̂n )(Xs − µ̂n ) eiλ(h−t+s) = γ̂n (h)
−π n 2π −π
t=1 s=1

Par conséquent, d’après le théorème d’Herglotz 1.3, la suite γ̂n (h) est de type positif.
1
Le périodogramme joue un rôle fondamental pour l’estimation de la densité spectrale étudiée au chapitre 3.

39
Propriété 2.1. Si γ̂n (0) > 0 alors, pour tout p ≤ n, la matrice Γ̂n,p définie par
 
γ̂n (0) γ̂n (1) · · · γ̂n (p − 1)
 γ̂n (1) γ̂n (0) · · · γ̂n (p − 2)
 
Γ̂n =  ..  (2.8)
 . 
γ̂n (p − 1) γ̂n (p − 2) · · · γ̂n (0)
est de rang plein et est donc inversible.
Démonstration. La suite γ̂n (h) est de type positif, γ̂n (0) > 0 et γ̂n (h) tend vers 0 quand n tend vers
l’infini. On en déduit, d’après la propriété 1.5, que, pour tout p, la matrice est inversible. ¥

L’estimateur dit “non biaisé” de la fonction d’autocovariance obtenu en remplaçant n−1 par
(n − |h|)−1 dans l’expression (2.6) ne possède pas cette propriété. Ajouté au fait que ces deux esti-
mateurs sont asymptotiquement équivalent, l’estimateur non biaisé présente peu d’intérêt dans le cas
des séries temporelles. Les coefficients d’autocovariance empiriques interviennent quasiment dans tous
les problèmes d’inférence statistique portant sur les processus stationnaires. A l’instar de la moyenne
empirique, il est donc indispensable de disposer de résultats concernant leur distribution. Cependant,
même pour les modèles de processus les plus simples, il est en général impossible de préciser la distri-
bution exacte de la suite de variables aléatoires γ̂n (0), . . . , γ̂n (k) à n fini. Nous ne considérons ici que
des résultats asymptotiques concernant la distribution limite jointe de γ̂n (0), . . . , γ̂n (k), pour k fixé,
lorsque n tends vers l’infini. Il s’avère que le résultat le plus simple à utiliser (dans le cas général) est
celui qui concerne la fonction d’autocorrélation empirique plutôt que la covariance. On rappelle que
les coefficients d’autocorrélation sont définis par
γ(h)
ρ(h) =
γ(0)
et qu’ils vérifient |ρ(h)| ≤ ρ(0) = 1 (cf. paragraphe 1.2). On définit les coefficients d’autocorrélation
empiriques par
γ̂n (h)
ρ̂n (h) = (2.9)
γ̂n (0)
où γ̂(h) est donné par (2.6).
P P
Théorème 2.2. Soit {Xt } un processus linéaire
£ ¤ défini par Xt −µ = ∞ s=−∞ ψs Zt−s avec s |ψs | < ∞.
On suppose que Zt ∼ IID(0, σ 2 ) vérifie E Zt4 < ∞. Pour k ≥ 1, on note ρ bn = (ρ̂n (1), . . . , ρ̂n (k))T ,
ρ = (ρ(1), . . . , ρ(k))T et W la matrice de dimension k × k définie, pour 1 ≤ `, m ≤ k, par l’élément :
∞
X
W`,m = (ρ(s + `) + ρ(s − `) − 2ρ(s)ρ(`))(ρ(s + m) + ρ(s − m) − 2ρ(s)ρ(m)) (2.10)
s=1

Alors : √
n(b
ρn − ρ) →d N (0, W ) (2.11)
Il est remarquable de noter que la distribution des coefficients d’autocorrélation ne dépend pas
des moments du processus Zt (on a uniquement supposé que Zt ∼ IID(0, σ 2 ) avec un moment du
4ème ordre fini). Comme dans le cas du théorème 2.1, on constate qu’il est nécessaire d’admettre des
hypothèses relativement fortes pour garantir ce résultat dont nous omettons la démonstration.

40
Exemple 2.2 : Bruit blanc fort
Soit {Xt } ∼ IID(0, σ 2 ). Dans ce cas ρ(h) = 0 pour tout h 6= 0 et la matrice de covariance asymptotique W
est égale à la matrice identité. L’expression (2.11) montre que, pour n suffisamment grand, les coefficients
d’autocorrélation empiriques ρ̂n (1), · · · , ρ̂n (k) sont indépendants, gaussiens de moyenne nulle et de variance
égale à 1/n. On en déduit que, pour tout h 6= 0 :

P−1.96n−1/2 ≤ ρ̂n (h) ≤ 1.96n−1/2 ≈ 0.95 (2.12)

Ce résultat peut être utilisé pour tester l’hypothèse que les valeurs observées sont celles d’un bruit blanc fort.
En effet si ρ̂n (1) sort de l’intervalle (−1.96n−1/2 , 1.96n−1/2 ), alors on peut, avec confiance, rejeter une telle
hypothèse. Nous avons représenté figure 2.1 les 60 premiers coefficients d’autocorrélation empiriques d’un

0.8

0.6

0.4

0.2

−0.2

0 10 20 30 40 50

Fig. 2.1 – Fonction d’autocorrélation empirique pour un échantillon de bruit

blanc fort, gaussien, centré, de variance σ 2 = 1 et de longueur n = 500. Les
droites en pointillé représentent la plage asymptotique autour de la vraie valeur
ρ(h) = 0, plage où il y a 95% de chance de trouver ρ̂n (h).

échantillon de longueur n = 500, d’un bruit blanc fort, gaussien, centré, de variance σ 2 = 1. A partir de la
formule (2.12), nous avons reporté l’intervalle asymptotique [−1.96n−1/2 , 1.96n−1/2 ] autour de la vraie valeur
ρ(h) = 0 où il y a 95% de chance de trouver ρ̂n (h) sous l’hypothèse que l’observation est un bruit IID. Sur
la réalisation considérée, cette hypothèse est très vraisemblable puisque seules quelques valeurs, sur les 60
coefficients empiriques calculés, sortent de cet intervalle. Ce type de tracé où l’on représente les coefficients
d’autocorrélation empiriques ainsi que la limite de la zone crédible (à 95% par exemple) pour les estimateurs
correspondants dans le cas du bruit blanc (fort) est très classique dans le domaine des séries temporelles où
il est désigné sous le nom de corrélogramme. Il permet de détecter visuellement les décalages temporels pour
lesquels l’hypothèse de décorrélation n’est pas admissible (comme dans le cas de la figure 2.2 par exemple).
Il ne constitue cependant pas un test formel du caractère blanc dans la mesure où il ignore les éventuels
effets conjoints concernant plusieurs Pkdécalages temporels. Un test de blancheur suggéré par 2.11 consiste par
exemple à vérifier que la valeur de l=1 ρ̂n (l)2 correspond bien à une valeur inférieure à 95% pour la fonction
de répartition de la loi ξk2 du chi carré à k degrés de liberté.

Exemple 2.3 : Processus MA(1)

On considère le processus MA(1) défini par Xt = Zt +θ1 Zt−1 où Zt est un bruit blanc fort, centré, de variance

41
σ 2 . Ici, la suite des coefficients d’autocorrélation est donnée par :




 1 pour h = 0


θ1
ρ(h) = pour |h| = 1
 1 + θ12




 0 pour |h| ≥ 2

On en déduit, d’après (2.10), que les éléments diagonaux de la matrice de covariance de la distribution limite
des coefficients d’autocovariance empiriques ont pour expression :
½
1 − 3ρ2 (1) + 4ρ4 (1) pour |h| = 1
Wh,h =
1 + 2ρ(1)2 pour |h| ≥ 2

Par conséquent la zone crédible à 95% pour les coefficients d’autocorrélation empiriques sont donnés, pour
h = 1, par : h i
1/2 1/2
ρ̂n (1) ∈ ρ(1) − 1.96W1,1 n−1/2 ρ(1) + 1.96W1,1 n−1/2

et, pour h ≥ 2, par : h i

1/2 1/2
ρ̂n (h) ∈ −1.96W2,2 n−1/2 + 1.96W2,2 n−1/2

Notons ici que ces régions dépendent, par l’intermédiaire de ρ(1), de la quantité a priori inconnue θ1 . Nous
avons représenté figure 2.2 les 60 premiers coefficients d’autocorrélation empiriques d’un échantillon de lon-
gueur n = 500 d’un processus MA(1) défini par θ1 = −0.8 et σ = 1. Les traits en pointillé représentent
les bornes asymptotiques autour des vraies valeurs au niveau 95%. Pour une réalisation particulière, nous

0.5

−0.5

0 10 20 30 40 50

Fig. 2.2 – Fonction d’autocorrélation empirique d’un échantillon de longueur

n = 500) d’un processus MA(1) pour θ1 = −0.8 et donc ρ(1) = −0.4878. Les
traits en pointillé représentent les plages où il y a 95% de chance de trouver
ρ̂n (h) si h ≥ 2.

avons obtenu ρ̂n (1) = −0.4924. Cela permet d’affirmer avec une grande confiance que le processus n’est pas
un bruit blanc car cette valeur est très en dehors de la plage ±1.96n−1/2 = ±0.0877 correspondant à l’hy-
pothèse que Xt soit un bruit blanc (cf. exemple 2.2). D’autre part, les résultats reportés figure 2.2 montrent
que l’hypothèse que le processus observé est MA(1) de paramètre θ1 = −0.8 est vraisemblable. En effet, les

42
coefficients d’autocorrélation empiriques sont clairement à l’intérieur des plages théoriques déduites du calcul
asymptotique.

Exemple 2.4 : Processus autorégressif fort d’ordre 1

On considère le processus aléatoire Xt défini par :

Xt = φXt−1 + Zt

où {Zt } ∼ IID(0, σ 2 ) et où |φ| < 1. La fonction d’autocorrélation d’un tel processus est donnée par ρ(h) = φ|h|
et les éléments diagonaux de la matrice de covariance W sont donnés par
h
X ∞
X
Wh,h = φ2h (φ−m − φm )2 + φ2m (φ−i − φi )2
m=1 m=h+1
2h 2 2 −1
= (1 − φ )(1 + φ )(1 − φ ) − 2hφ2h

Considérons la séquence, de longueur n = 1800, des battements cardiaques représentés figure 1.1 (chapitre 1).
La figure 1.6 qui représente les couples (Xt , Xt−1 ) suggère fortement la présence d’une relation linéaire
entre les variables Xt et Xt−1 et invite donc à tester la validité d’un modèle autorégressif d’ordre 1. Pour
estimer le paramètre φ du modèle autorégressif, une méthode naturelle, compte tenu de l’allure de la fonction
d’autocorrélation de l’AR(1), consiste à utiliser comme estimateur φ̂n = ρ̂n (1) qui donne φ̂n = 0.966. Pour
tester la validité du modèle, deux solutions s’offrent à nous : (i) tester que les résidus de prédiction donnés
par Ẑt = Xt − µ̂n − φ̂n (Xt−1 − µ̂n ) sont compatibles avec un modèle de bruit blanc, (ii) vérifier directement que
les coefficients d’autocorrélation empiriques sont compatibles avec ceux d’un modèle AR(1). Les résidus de
prédiction sont reportés figure 2.3 et la fonction d’autocorrélation de ces résidus figure 2.4, où nous avons aussi
indiqué les bornes de la zone crédible à 95% pour le bruit blanc avec un nombre d’observations n = 1800.
Les corrélations empiriques, en particulier pour h = 2, sont significativement à l’extérieur des intervalles
de confiance du bruit blanc, ce qui conduit à rejeter le modèle de bruit blanc pour les résidus et donc le
modèle autorégressif d’ordre 1 pour les observations. Les résultats de l’analyse de la suite des coefficients
d’autocorrélation empiriques du processus et des zones crédibles à 95% sous l’hypothèse d’un modèle AR(1)
avec φ = 0.966 sont reportés figure 2.5. On observe que les premières valeurs des coefficients de corrélation
sont nettement à l’extérieur de cette zone, ce qui contribue ici encore à rejeter le modèle AR(1).

43
20

−10

−20
0 200 400 600 800 1000 1200 1400 1600 1800

Fig. 2.3 – Série des battements cardiaques : Résidu de prédiction Ẑt = (Xt −
µ̂n ) − φ̂n (Xt−1 − µ̂n ).

1.2

0.8

0.6

0.4

0.2

−0.2
0 10 20 30 40 50 60 70 80 90

Fig. 2.4 – Série des battements cardiaques : coefficients d’autocorrélation em-

piriques des résidus de prédiction Ẑt = (Xt − µ̂n ) − φ̂n (Xt−1 − µ̂n ) et zones
crédibles à 95% pour le bruit blanc (n = 1800).

44
1

0.8

0.6

0.4

0.2

−0.2

−0.4
0 10 20 30 40 50 60 70 80 90

Fig. 2.5 – Série des battements cardiaques : coefficients d’autocorrélation em-

piriques de la série et bornes des zones crédibles à 95% pour un modèle AR(1)
de paramètre φ = 0.966.

45
Chapitre 3

Estimation spectrale non paramétrique

Dans le chapitre précédent, nous nous sommes intéressés à l’estimation de la fonction d’autocova-
riance. Dans certaines applications, il est plus pertinent d’essayer de modéliser la densité spectrale,
qui décrit la façon dont l’énergie du processus se répartit en fréquence. L’information spectrale est
souvent plus riche et plus facile à interpréter que la fonction d’autocovariance, révélant des structures
(par exemple, cycles ou pseudo-cycles) qui ne sont pas directement visibles sur la forme d’onde ni
même sur la suite des corrélations. Pour nous en convaincre considérons l’exemple de la forme d’onde
représentée figure 3.1. Il s’agit d’un segment d’environ 40 millisecondes extrait d’un enregistrement
d’un son produit par un harmonica. La forme d’onde est complexe, reflétant les deux caractéristiques
essentielles du signal produit par cet instrument : des composantes cycliques liées aux vibrations des
lames métalliques modulant de façon quasi-périodique le flux d’air et un bruit de friction. La fonc-
tion d’autocorrélation, que nous avons représentée à gauche figure 3.2, révèle en effet des structures
temporelles complexes mais cette représentation n’est pas apte à réellement mettre en évidence la
présence de (pseudo)-cycles. Ceux-ci apparaissent, par contre, clairement quand on observe le module
de la transformée de Fourier du signal (à droite figure 3.2). Cette représentation fréquentielle n’est
toutefois pas tout à fait satisfaisante, car elle est très “bruitée”, ce qui rend difficile son interprétation.
Cette variabilité est simplement la traduction, dans le domaine de Fourier, de la variabilité que nous
observons dans la forme d’onde. L’objet de ce chapitre est de trouver une méthode d’estimation

spectrale qui, tout en préservant les structures cycliques, soit capable de lisser les fluctuations.

3.1 Le périodogramme
Nous supposons dans cette partie que {Xt } est un processus stationnaire au second-ordre de
moyenne
P µ et de fonction de covariance γ(h) , E [(Xt+h − µ)(Xt − µ)] absolument sommable :
|γ(h)| < ∞. Sous ces hypothèses, le processus {Xt } admet une densité spectrale donnée par :
∞
1 X
fX (λ) = γ(h)e−ihλ
2π
h=−∞

46
0.03

0.02

0.01

−0.01

−0.02
seconde
−0.03
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04

Fig. 3.1 – Signal d’harmonica échantillonné à 11.025 kHz (temps en seconde).

1 20

0.5 0

−10

0 −20

−30

−0.5 −40

−50
Hz
−1 −60
0 10 20 30 40 0 1000 2000 3000 4000 5000

Fig. 3.2 – A gauche, suite des 40 premiers coefficients de corrélation du signal

représenté figure 3.1. A droite, transformée de Fourier (en dB) de ce signal
(fréquence en Hz).

47
Pour estimer la densité spectrale de {Xt }, il est naturel de s’intéresser au périodogramme, défini
comme le module au carré de la transformée de Fourier discrète des observations {X1 , X2 , · · · , Xn } :
n
1 X
InX (λk ) = |dX
n (λk )|
2
où dX
n (λk ) =√ Xt e−itλk (3.1)
2πn t=1

où λk = 2πk/n sont les fréquences de Fourier. Remarquons ici que la relation :
n−1
X
e−itλk = 0 pour λk = 2πk/n et k ∈ {1, . . . , (n − 1)}
t=0

montre que le périodogramme aux fréquences de Fourier λk , non nulles modulo 2π, est invariant par
ajout d’une constante. Le périodogramme a été introduit par Sir Arthur Schuster (1898) pour étudier
les “périodes cachées” apparaissant dans la série de tâches solaires. L’analyse spectrale des séries tem-
porelles s’est ensuite considérablement développée avec l’apparition de moyens de calculs performants,
et la découverte d’algorithmes de transformée de Fourier rapides (voir Brillinger, 1981).
Malheureusement nous allons voir dans la suite que le périodogramme n’est pas un “bon” estimateur
de la densité spectrale, dans le sens où cet estimateur n’est pas consistant (il ne converge pas vers la
vraie densité quand n tend vers l’infini). Néanmoins, il est à la base de la construction de la plupart
des estimateurs de densité spectrale.
Rappelons tout d’abord que, comme nous l’avons déjà noté dans le chapitre 2 (voir expression (2.7)),
le périodogramme est aussi égal à la transformée de Fourier discrète de la suite des coefficients d’au-
tocovariance empiriques. En effet partant de :
n−|h| n
X X
γ̂(h) = n−1 (Xt − µ̂n )(Xt+|h| − µ̂n ) où µ̂n = n−1 Xt
t=1 t=1

on vérifie aisément que

1
InX (0) = n|µ̂n |2 (3.2)
2π
n−1
X
1
InX (λk ) = γ̂(h) exp(−ihλk ) pour λk 6= 0 (3.3)
2π
h=−(n−1)

Pour estimer la densité spectrale fX (λ) à toutes les fréquences, il est pratique d’étendre le
périodogramme pour les valeurs de fréquences normalisées ne coı̈ncidant pas avec les fréquences de
Fourier. Ceci peut être fait de différentes manières ; nous suivrons l’extension adoptée par Fuller (1976)
qui consiste à définir le périodogramme comme la fonction constante par morceaux donnée par :

 I X (λk ) si λk − π/n < λ ≤ λk + π/n et 0 ≤ λ ≤ π
X n
In (λ) = (3.4)
 I X (−λ) si −π ≤ λ < 0
n

Par construction, cette définition garantit que le périodogramme est une fonction paire, qui coı̈ncide
avec l’équation (3.1) aux fréquences λk = 2πk/n. De façon plus concise on peut alors écrire que :
InX (λ) = InX (g(n, λ))

48
où g(n, λ) désigne, pour λ ∈ [0, π], le multiple de 2π/n le plus proche de λ et, pour λ ∈ [−π, 0),
g(n, λ) = g(n, −λ). La proposition suivante établit que le périodogramme est asymptotiquement sans
biais.

Théorème 3.1. Soit {Xt } un processus stationnaire de moyenne µ et de fonction d’autocovariance

γ(h) absolument sommable. Alors quand n → +∞ on a :
£ ¤ 1
E InX (0) − nµ2 −→ fX (0)
£ ¤ 2π
et E InX (λ) −→ fX (λ) pour λ 6= 0

Démonstration. Remarquons que, pour λ 6= 0, on a :

(n−1)
X µ ¶
£ ¤ 1 |h|
E InX (g(n, λ)) = 1− γ(τ )e−ihg(n,λ)
2π n
h=−(n+1)

Posons γn (h, λ) = (2π)−1 I[−n,n] (h)(1 − |h|/n)γ(h)e−ihg(n,λ) . Nous avons |γn (h, λ)| ≤ |γ(h)| et
limn→∞ γn (h, x) = γ(h)e−ihλ . On conclut en appliquant le théorème de convergence dominée. ¥

Pour comprendre les propriétés statistiques du périodogramme, nous allons tout d’abord nous
intéresser à la distribution statistique du périodogramme d’un bruit blanc fort, c’est-à-dire d’une suite
de variables aléatoires indépendantes et identiquement distribuées, de moyenne nulle et de variance
finie.

Théorème 3.2. Soit {Zt } une suite de variables aléatoires i.i.d., de moyenne nulle et de variance
σ 2 < ∞. Sa distribution spectrale a pour densité fZ (λ) = σ 2 /2π.
1. Soient 0 < ω1 < . . . < ωm < π, m fréquences fixes. Le vecteur aléatoire [InZ (ω1 ), · · · , InZ (ωm )]
converge en loi vers un vecteur de variables aléatoires indépendantes, distribuées suivant une loi
exponentielle, de moyenne σ 2 /2π.
£ ¤
2. Supposons que E Zt4 < ∞, alors :

 2f 2 (λ ) + κ /4π 2 n λ ∈ {0, π}
Z Z k 4 k
var{In (λk )} = (3.5)
 f 2 (λk ) + κ4 /4π 2 n 0 < λk < π
Z

et cov{InZ (λj ), InZ (λk )} = κ4 /4π 2 n pour λj 6= λk (3.6)

où λk = 2πk/n sont les fréquences de Fourier et où κ4 est le cumulant d’ordre 4 de la variable
Z1 défini par : £ ¤ £ ¤
κ4 = E Z14 − 3(E Z12 )2

3. Supposons que les variables aléatoires Zt soient gaussiennes. Alors κ4 = 0 et, pour tout n, les
variables aléatoires InZ (λk )/fZ (λ), k ∈ {1, · · · , (n − 1)/2} sont indépendantes et identiquement
distribuées suivant une loi exponentielle1 de moyenne 1.
1
Cette loi a pour densité p(u) = e−u I(u ≥ 0).

49
Démonstration. Elle est donnée en fin de chapitre. ¥

La relation (3.5) du théorème 3.2 montre que la variance de l’estimateur du périodogramme ne tend
pas vers 0 lorsque le nombre d’échantillons tend vers l’infini. Le périodogramme est bien un estimateur
asymptotiquement p sans biais de la densité spectrale du bruit blanc, mais n’est pas consistant. On
voit même que var(InZ (λk )) est de l’ordre de σ 2 et donc les fluctuations autour de la vraie valeur
sont de l’ordre de grandeur de ce que l’on cherche à estimer. C’est ce que montre la figure 3.3 où
nous avons représenté le périodogramme en dB d’un bruit blanc pour différentes valeurs de n. On
observe sur ces réalisations qu’à certaines fréquences de Fourier les écarts avec la vraie valeur σ 2 /2π
restent très importants même lorsque n augmente. Nous avons aussi reporté (droite en pointillé) le
seuil de confiance à α = 90% de la loi asymptotique de In (λk )/fZ (λk ). Ce seuil a pour expression
s = − log(1 − α).

n = 64 n = 128
0 0

−10 −10

−20 −20

−30 −30
0 π 0 π
n = 256 n = 512
0 0

−10 −10

−20 −20

−30 −30
0 π 0 π

Fig. 3.3 – Périodogramme en dB d’un bruit blanc de variance 1 en fonction

de la fréquence λ ∈ (0, π), pour différentes valeurs de n. La droite en trait plein
représente la densité spectrale théorique σ 2 /2π et la droite en pointillé le seuil
de confiance à 90%.

Partant du théorème 3.2, valable pour les processus i.i.d., nous allons voir qu’il est encore possible
d’étendre ce théorème à la classe plus large des processus linéaires forts centrés dont nous rappelons
la définition.

Définition 3.1 (Processus linéaire fort). Le processus {Xt } est linéaire fort, s’il existe un bruit blanc
fort Zt ∼ IID(0, σ 2 ) et une suite de coefficients {ψk }k∈Z absolument sommable telle que :
∞
X
Xt = ψk Zt−k (3.7)
k=−∞

50
On rappelle que Xt est stationnaire au second ordre, que E [Xt ] = 0 et que sa densité spectrale est
donnée par :
σ2
fX (λ) = |ψ(e−iλ )|2 (3.8)
2π
Le théorème 3.3 montre qu’il existe une relation analogue à (3.8) entre le périodogramme InX (λ) du
processus {Xt } et le périodogramme InZ (λ) du bruit blanc fort {Zt } qui définit Xt .
P
Théorème 3.3. Soit {Xt } un processus linéaire fort. Supposons que ∞ j=−∞ |ψj ||j|
1/2 < ∞ et que
£ 4¤
E Zt < ∞. On a alors :
InX (λk ) = |ψ(e−iλk )|2 InZ (λk ) + Rn (λk )
où le terme Rn (λk ) vérifie2 :
£ ¤
max E |Rn (λk )|2 = O(n−1 )
k∈{1,··· ,b(n−1)/2c}

Démonstration. Elle est donnée en fin de chapitre. ¥

On comprend alors qu’en utilisant l’“approximation” donnée par le théorème 3.3 on puisse étendre
le théorème 3.2 aux processus linéaires forts.

Théorème 3.4. Soit {Xt } un processus linéaire défini par :

∞
X
Xt = ψk Zt−k
k=−∞
£ ¤
2 ) vérifiant E Z 4 < ∞. On suppose que
P 1/2 |ψ | < ∞
où {Zt } est un bruit
P blanc fort IID(0, σ t k |k| k
−iλ
et que ψ(e ) = k ψk e −ikλ 6= 0. On note :

σ 2 ¯¯ ¯2
¯
fX (λ) = ¯ψ(e−iλ )¯
2π
1. Soient 0 < ω1 < · · · < ωm < π, m fréquences fixes. Le vecteur aléatoire
[InX (ω1 )/fX (ω1 ), · · · , InX (ωm )/fX (ωm )] converge en loi vers un vecteur de variables aléatoires
indépendantes, distribuées suivant une loi exponentielle, de moyenne 1.
2. On a :

 2f 2 (λk ) + O(n−1/2 ) λk ∈ {0, π}
X
var(InX (λk )) =
 f 2 (λ ) + O(n−1/2 ) 0 < λ < π
X k k

cov(InX (λj ), InX (λk )) = O(n−1 ) λj 6= λk

Démonstration. La preuve est une conséquence directe des théorèmes 3.3 et 3.2. ¥
2
Notation : O(n−α ) désigne une suite dépendant de n qui vérifie, quand n → ∞, O(n−α )/n−α → c 6= 0 et o(n−α )
vérifie o(n−α )/n−α → 0.

51
En conséquence, comme pour le bruit blanc fort, la variance du périodogramme d’un processus
linéaire fort est, à une fréquence de Fourier, de l’ordre de grandeur du carré de la densité spectrale
à cette fréquence. La figure 3.4 illustre ce résultat : elle montre le périodogramme, évalué sur 1024
échantillons, d’un processus AR(2) gaussien. L’écart-type du périodogramme est proportionnelle à la
densité spectrale, ce qui rend bien entendu l’interprétation du périodogramme difficile. Le théorème

5
n = 1024
0
0 π

Fig. 3.4 – Périodogramme pour un AR(2) de paramètres [1, −1, 0.9] et σ 2 = 1

calculé sur n = 1024 échantillons, en fonction de la fréquence λ ∈ (0, π).

3.4 implique qu’asymptotiquement les variables aléatoires [In (λ1 ), . . . , In (λN/2 )] se comportent comme
un tableau de variables indépendantes distribuées marginalement comme W fX (λk ) où W suit une loi
exponentielle. Il s’agit donc d’une structure de bruit de type multiplicatif, où le paramètre d’intérêt,
à savoir la densité spectrale, est multipliée par le “bruit” W . L’application d’une transformation
logarithmique conduit naturellement à une structure de bruit additif : asymptotiquement le log-
périodogramme est égal à la log-densité spectrale observée dans un bruit approximativement additif
et de variance constante. Figure 3.4, nous avons représenté le spectre évalué en dB ainsi que l’intervalle
de confiance à α = 90% de la loi asymptotique de InX (λk )/fX (λk ) soit :
© ª
lim P InX (λk )/fX (λk ) > c = 1 − e−c = α
n→∞

qui donne c = − log(1 − α).

3.2 Estimateur à noyau

Nous présentons ici une technique permettant de construire un estimateur non paramétrique de
la densité spectrale, l’estimateur à noyau. Cette approche, qui effectue un lissage du périodogramme
en fréquence, exploite les propriétés du périodogramme que nous avons mises en évidence dans le

52
20

5
n = 1024
0

−5

−10

−15

−20

−25

−30
0 π

Fig. 3.5 – Périodogramme en dB pour un AR(2) de paramètres [1, −1, 0.9] et

σ 2 = 1 calculé sur n = 1024 échantillons, en fonction de la fréquence λ ∈ (0, π).
La courbe en pointillé donne le seuil de confiance à 90%.

paragraphe précédent. Nous supposons dans toute cette partie que {Xt } est un processus linéaire
fort, satisfaisant les conditions d’applications du théorème 3.4.

D’après le théorème 3.4, à la limite des grands échantillons, les coordonnées du périodogramme
aux fréquences de Fourier λk = 2πk/n sont des variables décorrélées d’écart type σ 2 |ψ(e−iλk )|2 /(2π).
La fonction λ → |ψ(e−iλ )|2 est continue, elle varie donc “peu” sur de “petits” intervalles de fréquence.
Ceci suggère de construire un estimateur de la densité spectrale à la fréquence λ en moyennant les
coordonnées du périodogramme aux fréquences de Fourier dans un “voisinage” de la fréquence λ.
Nous appelons un noyau une fonction W : R → R+ satisfaisant les propriétés suivantes :
– W
R 1(u) = 0 pour |u| > R 11, i.e. le noyau a un support compact
– −1 W (u)du = 1 et −1 uW (u)du = 0,
– W est deux fois continûment différentiables et W 0 (−1) = limu→−1+ W 0 (u) = 0 et W 0 (1) =
limu→1− W 0 (u) = 0.
Soit {bn }n≥0 une suite décroissante au sens large de réels positifs, satisfaisant

lim bn = 0 . (3.9)
n→∞

Nous considérons l’estimateur à noyau de la densité spectrale, défini par

n
ˆX 2π X £ −1 ¤
fn (λ) = W bn (λ − λk ) InX (λk ) . (3.10)
nbn
k=1

Le paramètre bn est appelé largeur de bande, i.e. en modifiant bn nous agissons sur la ”largeur” du
noyau b−1 −1
n W (bn ·). Nous allons, de façon informelle, caractériser la façon dont le paramètre bn influe

53
sur la qualité de l’estimateur et essayer de déduire de ce comportement heuristique, des procédures
permettant de choisir de manière automatique ce paramètre. Nous allons touth d’abord i étudier le
biais de cet estimateur, à savoir la différence entre la moyenne de l’estimateur E fˆn (λ) et fX (λ), à
X

une fréquence λ 6= 0, π (mod) 2π (pour traiter ces valeurs £ X limites,

¤ il conviendrait−1d’utiliser d’autres
noyaux). En utilisant le théorème 3.3, nous savons que E In (λk ) = fX (λk ) + O(n ). Par conséquent
h i n
2π X £ −1 ¤
E fˆnX (λ) = W bn (λ − λk ) f (λk ) + O(n−1 ) ,
nbn
k=1
Z 2π
1
= W [b−1 −1
n (λ − µ)]f (µ)dµ + O(n ) ,
bn 0
Z b−1
n λ
= W (ν)f (λ + bn ν)dν → fX (λ) .
−b−1
n (2π−λ)

h i
Ceci montre que limn→∞ E fˆnX (λ) = f (λ), i.e. fˆn,b (λ) est un estimateur asymptotiquement sans
biais de la densité spectrale f (λ). Pour comprendre de façon plus précise la façon dont le biais dépend
de la largeur de bande bn , nous supposons dans la suite que la densité spectrale fX est deux fois
continûment différentiable. Nous avons donc, pour tout λ ∈ [−π, π] et ν ∈ [−1, +1],

0 1
fX (λ + bn ν) = fX (λ) + bn fX (λ)ν + b2n fX 00
(λ)ν 2 + o(b2n )
2
R +1
où le terme o(b2n ) est uniforme en λ et en ν. En utilisant le fait que, pour −1 νW (ν)dν = 0, nous
aurons donc, pour tout n tel que −b−1 −1
n (2π − λ) < −1 et bn λ > 0,

h i Z 1
ˆX 1 2 00
E fn (λ) = fX (λ) + bn fX (λ) ν 2 W (ν)dν + o(b2n ), (3.11)
2 −1

ce qui montre que le biais de l’estimateur fˆnX (λ) est une fonction qui croı̂t comme le carré de la largeur
de bande bn et qui est proportionnelle à la dérivée seconde de la densitéR spectrale en λ. Notons que
1
comme nous avons supposé que le noyau a exactement un moment nul, −1 νW (ν)dν = 0, le biais ne
dépend pas de la dérivée de la densité spectrale f 0 (λ) en λ. Il est facile de voir qu’il est possible de
réduire le terme de biais en considérant des noyaux d’ordre supérieur.
Pour comprendre les performances de cet estimateur de la densité spectrale, nous allons évaluer
son biais et sa variance. Pour simplifier l’analyse, nous supposerons dans la suite que la fonction
λ → |ψ(e−iλ )|2 est trois fois différentiable sur [−π, π] et que la dérivée troisième est bornée. En
utilisant les résultats du théorème 3.3 nous avons :
h i X
E fˆnX (λ) = Wm,n (k)fX (g(n, λ) + 2πk/n) + O(n−1 ) (3.12)
|k|≤m

où fX (λ) = (2π)−1 σ 2 |ψ(e−iλ )|2 est la densité spectrale du processus {Xt }. Comme la fonction fX est
deux fois continûment différentiables, nous avons, pour |k| ≤ m,
0 00
fX (g(n, λ) + 2πk/n) = fX (g(n, λ)) + fX (g(n, λ)(2πk/n) + (1/2)fX (g(n, λ)(2πk/n)2 + Rk,m,n

54
000 (λ)|(m/n)3 pour |k| ≤ m. Comme la fenêtre de pondération est symétrique,
où Rk,m,n ≤Pc max |fX
nous avons |k|≤m Wm,n (k)k = 0, ce qui implique en utilisant (??)(ii) :
X
00
Wm,n (k)fX (g(n, λ) + 2πk/n) = fX (g(n, λ)) + (1/2)fX (g(n, λ))W m,n + Rm,n
|k|≤m

4π 2 X 2
où W m,n = k Wm,n (k)
n2
|k|≤m

000 (λ)|(m/n)3 . En prenant par exemple la fenêtre de pondération rectangulaire,

et où |Rm,n | ≤ c max |fX
nous avons W m,n ∝ m2 /n2 ce qui montre que le biais de l’estimateur varie comme le carré du nombre
de points de fréquence pris en compte dans le calcul de la moyenne pondérée. Le calcul de la variance
de cet estimateur s’écrit :
·³ h i´2 ¸
ˆX ˆ
E fn (λ) − E fX,n (λ) fm,n fX
=W 2
(g(n, λ)) + Qm,n
X
fm,n = 1
où W 2
Wm,n (k)
4π 2
|k|≤m
P
0 (λ)|] 2
et où |Qm,n | ≤ c max[|fX |k|≤m Wm,n (k)(m/n). On voit ici que la troisième des conditions (??)
assure que la variance tend vers 0 quand n tend vers l’infini. En s’appuyant encore sur l’exemple
de la fenêtre rectangulaire, nous avons Wfm,n ∝ 1/m ce qui montre que la variance de l’estimateur
est inversement proportionnelle au nombre de points pris en compte dans le calcul de la moyenne
locale. En conclusion dans le cas d’une fenêtre rectangulaire, le paramètre m (qui détermine le nombre
de coordonnées de périodogramme moyennées) a un effet néfaste pour le biais et bénéfique pour la
variance de l’estimateur. Le risque quadratique de l’estimateur (qui prend en compte ces deux effets)
a pour expression :
·³ ´2 ¸ ¡ 00 ¢2
ˆ
E fX,n (λ) − fX (λ) ≈ (1/4) fX (g(n, λ)W m,n + Wfm,n f 2 (g(n, λ))
X,m

Il est naturel de choisir le paramètre m de façon à minimiser l’erreur quadratique moyenne. Dans le
cas où Wm,n (k) = 1/(2m + 1), cette optimisation peut être effectuée de façon explicite. Une autre
fenêtre couramment utilisée est la fenêtre triangulaire définie par :
( ³ ´
1
m 1 − |k|
m pour |k| ≤ m
Wm,n (k) =
0 sinon
Elle vérifie les conditions (??) et présente l’avantage d’assurer au spectre estimé d’être positif. Les
résultats obtenus avec la fenêtre rectangulaire ont un caractère général : l’utilisation de fenêtre de
pondération permet d’obtenir un risque qui tend vers 0 quand n tend vers l’infini. Ce résultat s’ac-
compagne en général d’un biais asymptotiquement non nul. En règle générale, la valeur de m, qui
détermine la largeur de la fenêtre, doit tendre vers l’infini, quand n → +∞, mais suffisamment len-
tement pour que le rapport n/m tende aussi vers l’infini. Il faut donc ajouter aux conditions (??) la
condition suivante :
m(n) → ∞ et m(n)/n → 0 quand n → ∞
Typiquement on aura m(n) = nα avec 0 < α < 1.

55
3.3 Preuves des théorèmes 3.2, 3.3
Théorème 3.2. Soit {Zt } une suite de variables aléatoires i.i.d., de moyenne nulle et de variance
σ 2 < ∞.
1. Soient 0 < λ1 < . . . < λm < π, m fréquences fixes. Le vecteur aléatoire [InZ (λ1 ), · · · , InZ (λm )]
converge en loi vers un vecteur de variables aléatoires indépendantes, distribuées suivant une loi
exponentielle, de moyenne σ 2 .
£ ¤
2. Supposons que E Zt4 < ∞, alors :
 µ ¶
2

 σ2

 2 + κ4 n−1 λk ∈ {0, π}
Z 2π
var(In (λk )) = µ 2 ¶2 (3.13)

 σ

 + κ4 n−1 0 < λk < π
2π
et 4π 2 cov(InZ (λj ), InZ (λk )) = κ4 n−1 pour λj 6= λk (3.14)

où λk = 2πk/n sont les fréquences de Fourier et où κ4 est le cumulant d’ordre 4 de la variable
Z1 défini par : £ ¤ £ ¤
κ4 = E Z14 − 3(E Z12 )2

3. Supposons que les variables aléatoires Zt soient gaussiennes. Alors κ4 = 0 et, pour tout n, les
variables aléatoires (4π/σ 2 )InZ (λk ), k ∈ {1, · · · , (n − 1)/2} sont indépendantes et identiquement
distribuées suivant une loi du χ2 centrée à deux degrés de liberté.

Démonstration. (i). Notons :

( Pn
αnZ (λk ) = (1/2πn)−1/2 t=1 Zt cos(λk t)
P (3.15)
βnZ (λk ) = (1/2πn)−1/2 nt=1 Zt sin(λk t)

les parties réelles et imaginaire de la transformée de Fourier discrète de {Zt } aux points de
fréquences λk = 2πk/n. Pour une fréquence arbitraire λ, nous avons :
1¡ Z ¢
InZ (λ) = αn (g(n, λ))2 + βnZ (g(n, λ))2
2
Rappelons que si une suite de vecteurs aléatoires Yn converge en loi vers une variable aléatoire
Y et que φ est une fonction continue, alors φ(Yn ) converge en loi vers φ(Y ). Il suffit donc de
montrer que le vecteur aléatoire :

(αnZ (λ1 ), βnZ (λ1 ), · · · , αnZ (λm ), βnZ (λm )) (3.16)

converge en loi vers une distribution normale de moyenne nulle et de matrice de covariance
asymptotique (σ 2 /4π)I2m , où I2m est la matrice identité (2m × 2m). Nous allons tout d’abord
nous intéresser au cas m = 1. La preuve découle alors du théorème suivant :

56
Théorème 3.5 (Lindeberg). Soit Un,t , où t = 1, . . . , n et n = 1, 2, . . . , une suite triangulaire de
variables aléatoires centrées dePvariance finies. Pour
Pn tout n, les variables {Un,1 , . . . , Un,n } sont
n 2
indépendantes. On pose Yn = t=1 Un,t et wn = t=1 var(Un,t ). Alors si pour tout ² > 0 :
n
X 1 £ 2 ¤
lim 2
E Un,t I(|Un,t | ≥ ²wn ) = 0
n→∞ wn
t=1

on a :
Yn /wn →d N (0, 1)

Soit u et v deux réels quelconques fixés et λ ∈ (0, π). Considérons la variable Yn = uαnZ (g(n, λ))+
vβnZ (g(n, λ)) que nous pouvons encore écrire :
n
X 1
Yn = Un,t où Un,t = √ (u cos(g(n, λ)t) + v sin(g(n, λ)t))Zt
t=1
2πn

Notons que, pour n fixé les variables aléatoires {Un,t } sont indépendantes. D’autre part, pour
tout λ 6= 0, on vérifie aisément que :
n
X n
X n
X
n
cos2 (g(n, λ)t) = sin2 (g(n, λ)t) = et cos((g(n, λ)t) sin(g(n, λ)t) = 0
2
t=1 t=1 t=1

Par suite, on peut écrire que :

n
Pn 1 X 2
wn2 = t=1 var(Un,t ) = (u cos2 (g(n, λ)t) + v 2 sin2 (g(n, λ)t) + 2uv cos((g(n, λ)t) sin(g(n, λ)t)))
2πn
t=1
1 2
= (u + v 2 ) = w12
4π
√
Par suite, en posant c0 = (|u| + |v|)/2πw1 et ²0 = ² 2πw1 /(|u| + |v|), on a :
n
X n
1 £ 2 ¤ c0 X £ √ ¤ £ √ ¤
2
E Un,t I(|U n,t | ≥ ²w n ) ≤ E Zt2 I(|Zt | ≥ ²0 n) = c0 E Z12 I(|Z1 | ≥ ²0 n)
wn n
t=1 t=1
£ √ ¤ £ ¤ √
Le£ dernier ¤ terme tend vers
£ 0¤ puisque on a E Z12 I(|Z1 | ≥ ²0 n) ≤ E |Z1 |3 /²0 n et que
E |Z1 |3 < ∞ puisque E |Z1 |4 < ∞. La preuve s’étend aisément à un ensemble de fréquences
λ1 , . . . , λm en utilisant la méthode de Cramer-Wold que nous rappelons :
Proposition 3.1 (Cramér-Wold). Soit {Vn }n≥0 une suite de vecteurs aléatoires réels de dimen-
sion m. Vn →d W si et seulement si, pour toute suite {λ1 , · · · , λm } ∈ Rm , la variable aléatoire
Yn = λ1 Vn,1 + · · · + λm Vn,m →d λ1 W1 + · · · + λm Wm .
(ii). Par définition de InZ (λk ), nous avons au premier ordre :
n
X
£ ¤
E InZ (λk ) = (2πn)−1 E [Zs Zt ] eiλk (t−s) = (2π)−1 σ 2 (3.17)
s,t=1

57
Au second ordre nous avons :
n
X
£ ¤
E InZ (λj )InZ (λk ) = (2πn)−2 E [Zs Zt Zu Zv ] ei(λj (t−s)+λk (v−u)) (3.18)
s,t,u,v=1

En utilisant que les variables aléatoires Z£t sont

¤ indépendantes, centrées, de même variance σ 2 et
4 4
de moment d’ordre 4 fini et en posant E Z1 = κ4 + 3σ , on obtient :

E [Zs Zt Zu Zv ] = κ4 δs,t,u,v + σ 4 (δs,t δu,v + δs,u δt,v + δs,v δt,u ) (3.19)

En portant cette expression dans (3.18), nous avons :

 ¯ n ¯2 ¯ n ¯2 
£ Z ¤ ¯X ¯ ¯X ¯
Z −2 −1 −2 −2 4  2 ¯ i(λj +λk )t ¯ ¯ i(λk −λj )t ¯ 
E In (λj )In (λk ) = (2π) n κ4 + (2π) n σ n +¯ e ¯ +¯ e ¯
¯ ¯ ¯ ¯
t=1 t=1

et donc :
£ ¤ £ ¤ £ ¤
cov(InZ (λj ), InZ (λk )) = E InZ (λj )InZ (λk ) − E InZ (λj ) E InZ (λk )
¯ ¯2 ¯ n ¯2 
¯Xn ¯ ¯X ¯
−2 −1 −2 −2 4 ¯ i(λj +λk )t ¯ ¯ i(λk −λj )t ¯ 
= (2π) n κ4 + (2π) n σ ¯ e ¯ +¯ e ¯
¯ ¯ ¯ ¯
t=1 t=1

ce qui permet de conclure.

(iii). Lorsque {Zt } est une variable gaussienne centrée, le vecteur :
£ ¤
Qn = αnZ (λ1 ) βnZ (λ1 ) · · · αnZ (λñ ) βnZ (λñ )

est gaussien comme transformée linéaire d’un vecteur gaussien. Il suffit donc de calculer le
vecteur-moyenne et sa matrice de covariance. Il est facile de vérifier que le vecteur-moyenne
est nul et que, pour 0 < λk 6= λj < π, nous avons :
£ ¤ £ ¤
E (αnZ (λk ))2 = E (βnZ (λk ))2 = (4π)−1
£ ¤
E αnZ (λk )βnZ (λk ) = 0
£ ¤ £ ¤
E αnZ (λk )αnZ (λj ) = E βnZ (λk )βnZ (λj ) = 0
£ ¤
E αnZ (λk )βnZ (λj ) = 0

La matrice de covariance est donc σ 2 Iñ /4π où Iñ est la matrice identité de taille ñ. Par conséquent
les composantes de Qn sont indépendantes. Rappelons que :

InZ (λk ) = (αnZ (λk ))2 + (βnZ (λk ))2

De l’indépendance des composantes de Qn , on déduit que les variables aléatoires InZ (λk ) sont elles-
même indépendantes et que 4πInZ (λk )/σ 2 est la somme du carré de deux variables gaussiennes
centrées, indépendantes, de même variance 1, dont la distribution de probabilité est la loi dite
du χ2 à deux degrés de liberté. Ce qui conclut la preuve.
¥

58
P∞ 1/2 < ∞ et que
Théorème 3.3. Soit {Xt } un processus linéaire. Supposons que j=−∞ |ψj ||j|
£ 4¤
E Zt < ∞. On a alors :
InX (λk ) = |ψ(e−iλk )|2 InZ (λk ) + Rn (λk )
où le terme Rn (λk ) vérifie :
£ ¤
max E |Rn (λk )|2 = O(n−1 )3
k∈{1,··· ,b(n−1)/2c}

Démonstration. Notons respectivement dX Z

n (λk ) et dn (λk ) les transformées de Fourier discrètes des
suites {X1 , · · · , Xn } et de {Z1 , · · · , Zn } au point de fréquence 2πk/n avec k ∈ {1, . . . , b(n − 1)/2c.
Nous pouvons écrire successivement :
n
X
dX
n (λk ) = (2πn) −1/2
Xt e−iλk t
t=1
∞
Ã n
!
X X
= (2πn)−1/2 ψj e−iλk j Zt−j e−iλk (t−j)
j=−∞ t=1
 
∞
X n−j
X
= (2πn)−1/2 ψj e−iλk j  Zt e−iλk t 
j=−∞ t=1−j
∞
Ã n
!
X X
−1/2 −iλk j −iλk t
= (2πn) ψj e Zt e + Un,j (λk )
j=−∞ t=1

= ψ(e−iλk )dZ
n (λk ) + Yn (λk )

où nous avons posé :

n−j
X n
X
Un,j (λk ) = Zt e−iλk t − Zt e−iλk t (3.20)
t=1−j t=1
∞
X
et Yn (λk ) = (2πn)−1/2 ψj e−iλk j Un,j (λk ) (3.21)
j=−∞

On remarque que, pour |j| < n, Un,j (λk ) est une somme de 2|j| variables indépendantes centrées de
variance σ 2 tandis que, pour |j| ≥ n, Un,j (λk ) est la somme de 2n variables centrées indépendantes de
variance σ 2 . Par conséquent, partant de (3.20), on a :
£ ¤
E |Un,j (λk )|2 ≤ 2σ 2 min(|j|, n) (3.22)

ainsi que : £ ¤
E |Un,j (λk )|4 ≤ CR σ 4 (min(|j|, n))2 (3.23)
£ 4
¤
où CR < ∞ est une constante. Pour montrer (3.23), il suffit de poser E Zt = ησ 4 et d’utiliser
l’inégalité (3.24) pour p = 4.
3
Notation : quand n → ∞, O(n−α )/n−α → c 6= 0 tandis que o(n−α )/n−α → 0.

59
Propriété 3.1 (Inégalité de Rosenthal (Petrov, 1985)). Soient (X1 , . . . , Xn ) des variables
indépendantes (mais pas nécessairement identiquement distribuées) et soit p ≥ 2. Alors il existe une
constante universelle C(p) < ∞ telle que :
"¯ n ¯ # Ã !p/2 
¯X ¯p Xn
£ 2¤ Xn
¯ ¯
E ¯ Xk ¯ ≤ C(p)  E Xk + E [|Xk |p ] (3.24)
¯ ¯
k=1 k=1 k=1

£ ¤
Utilisons à présent (3.23) pour majorer E |Yn (λk )|4 . En adoptant la notation kXkp = (E [|X|p ])1/p
(pour p > 0) on a, d’après l’inégalité triangulaire (inégalité de Minkovski) kX + Y kp ≤ kXkp + kY kp :
∞
X
sup kYn (λk )k4 ≤ sup (2πn)−1/2 |ψj |kUn,j (λk )k4
k∈{1,··· ,b(n−1)/2c} k∈{1,··· ,b(n−1)/2c} j=−∞

D’après (3.23), kUn,j (λk )k4 ≤ cσ min(|j|, n)1/2 . Par conséquent :

∞
X
sup kYn (λk )k4 ≤ cσ(2πn)−1/2 |ψj | min(|j|, n)1/2
k∈{1,··· ,b(n−1)/2c} j=−∞

Maintenant on peut écrire :

∞
X ∞
X
|ψj | min(|j|, n)1/2 ≤ |ψj ||j|1/2
j=−∞ j=−∞

Par conséquent kYn (λk )k4 est d’un ordre égal à O(n−1/2 ).
Nous pouvons à présent exprimer Rn (λk ) = InX (λk ) − |ψ(e−iλk )|2 InZ (λk ) en fonction de Yn (λk ) =
dX
n (λk ) − ψ(e
−iλk )dZ (λ ). Il vient :
n k

Rn (λk ) = |ψ(e−iλk )dZ 2

D’après l’inégalité de Hölder, kXY kr ≤ kXkp kY kq si p−1 + q −1 = r−1 . En faisant p = q = 4 et r = 2,

il vient :
£ ¤ X
(E |Rn (λk )|2 )1/2 = kRn (λk )k2 ≤ 2 |ψj |kdZ
n (λk )k4 kYn (λk )k4 + kYn (λk )k4
j
√
Z (λ )k est de l’ordre de σ/ 2π. Par conséquent kR (λ )k est de l’ordre
D’après le théorème
£ 3.2, ¤kd n k 4 n k 2
de n−1/2 et E |Rn (λk )|2 = kRn (λk )k22 de l’ordre de 1/n. Ce qui conclut la preuve. ¥

60
Chapitre 4

Prédiction linéaire. Décomposition de

Wold

4.1 Eléments de géométrie Hilbertienne

Définition 4.1 (Espace pré-hilbertien). Soit H un espace vectoriel sur l’ensemble des nombres com-
plexes C. L’espace H est appelé pré-hilbertien si H est muni d’un produit scalaire :
(¦, ¦) : x, y ∈ H × H 7→ (x, y) ∈ R
qui vérifie les propriétés suivantes :
(i). (x, y) = (y, x)∗
(ii). (αx + βy, z) = α(x, z) + β(y, z)
(iii). (x, x) ≥ 0, l’égalité ayant lieu si et seulement si x = 0.
L’application : p
k ¦ k : x ∈ H 7→ (x, x) ≥ 0
définit une norme pour tout vecteur x.
Exemple 4.1 : Espace Rn
L’ensemble des vecteurs colonnes x = [x1 ··· xn ]T , où xk ∈ R, est un espace vectoriel dans lequel la
relation :
n
X
(x, y) = xk yk
k=1
définit par un produit scalaire.
Exemple 4.2 : Espace l2 (Z) P∞
L’ensemble des suites numériques complexes {xk }k∈Z vérifiant k=−∞ |xk |2 < ∞ est un espace vectoriel sur
C. On munit cet espace du produit intérieur :
∞
X ∞
X
(x, y) = xk yk∗ ≤ (1/2) (|xk |2 + |yk |2 ) < ∞
k=−∞ k=−∞

On vérifie aisément les propriétés (i-iii) de la définition 4.1. L’espace ainsi défini est donc un espace pré-
Hilbertien, que l’on note l2 (Z).

61
Exemple 4.3 : Fonctions de carré intégrable
L’ensemble H des fonctions boréliennes définies sur un R intervalle T de R, à valeurs complexes et de carré
intégrable par rapport à la mesure de Lebesgue (f ∈ H : T |f (t)|2 dt < ∞) est un espace vectoriel. Considérons
alors le produit intérieur : Z
(f, g) ∈ H × H 7→ f (t)g ∗ (t)dt
T

On montre aisément que (f, g) < ∞ ainsi que les propriétés (i) et (ii) de la définition 4.1. Par contre la
propriété (iii) nést pas vérifiée puisque :

(f, f ) = 0 6⇒ ∀t ∈ T f (t) = 0

En effet une fonction f qui est nulle sauf sur un ensemble de mesure nulle pour la mesure de Lebesgue, vérifie
(f, f ) = 0. L’space H muni du produit (f, g) nést donc pas un espace pré-Hilbertienne. Nous verrons dans
la suite qu’il est possible de lever cette difficulté en considérant les classes d’équivalence des fonctions égales
presque partout.

On montre aisément les propriétés suivantes :

Théorème 4.1. Pour tout x, y ∈ H × H, nous avons :

(i). Inégalité de Cauchy-Schwarz : |(x, y)| ≤ kxkkyk,
(ii). Inégalité triangulaire : |kxk − kyk| ≤ kx − yk ≤ kxk + kyk,
(iii). Identité du parallélogramme :

kx + yk2 + kx − yk2 = 2kxk2 + 2kyk2

Définition 4.2 (Convergence dans H). Soit xn une suite de vecteurs et x un vecteur d’un espace H
muni d’un produit scalaire. On dit que xn tend vers x si et seulement si kxn − xk → 0 quand n → +∞.
On note xn → x.

Propriété 4.1. Si dans un espace de Hilbert la suite xn → x, alors xn est bornée.

Démonstration. D’après l’inégalité triangulaire, on a :

kxn k = k(xn − x) + xk ≤ kxn − xk + kxk

Proposition 4.1 (Continuité du produit scalaire). Soit xn → x et yn → y deux suites convergentes

de vecteurs d’un espace pré-hilbertien H. Alors quand n → +∞ : (xn , yn ) → (x, y). En particulier, si
xn → x, kxn k → kxk.

Démonstration. D’après l’inégalité triangulaire puis l’inégalité de Schwarz, nous avons :

(x, y) − (xn , yn ) = ((x − xn ) + xn , (y − yn ) + yn ) − (xn , yn )

= (x − xn , y − yn ) + (x − xn , yn ) + (xn , y − yn )
≤ kxn − xkkyn − yk + kxn − xkkyn k + kyn − xkkxn k

Il suffit ensuite d’évoquer la convergence et la bornitude des suites xn et yn . ¥

62
Définition 4.3 (Suite de Cauchy). Soit xn une suite de vecteurs d’un espace pré-hilbertien H. On dit
que xn est une suite de Cauchy si et seulement si :

kxn − xm k → 0

quand n, m → +∞.
Notons quén vertu de l’inégalité triangulaire toute suite convergente est une suite de Cauchy. La
réciproque est fausse : une suite de Cauchy peut ne pas être convergente. En voici un contre-exemple :
Exemple 4.4 : Suite de Cauchy non convergente
RSoit
π
C([−π, π]) l’espace des fonctions continues sur [−π, π]. L’espace C([−π, π]), muni du produit
∗
−π
f (x)g (x)dx, est un espace pré-hilbertien. Considérons la suite de fonctions :
n
X 1
fn (x) = cos(kx)
k
k=1

Les fonctions fn (x), qui sont indéfiniment continûment différentiables, appartiennent à C(−π, π). Montrons
que cette suite est une suite de Cauchy. En effet, pour m > n, on a :
m
X 1
kfn − fm k2 = π −→ 0 quand (n, m) → ∞
k2
k=n+1
P∞
D’autre part on montre aisément que la limite de cette suite f∞ (x) = k=1 k −1 cos(kx) = log | sin(x/2)| nést
pas continue et n’appartient donc pas à C([−π, π]).

Définition 4.4 (Espace de Hilbert). On dit qu’un espace vectoriel est complet si toute suite de suite
de Cauchy de H converge dans H. On dit H est un espace de Hilbert si H est pré-hilbertien et complet.
Proposition 4.2 (L2 ([−π, π], dx)). L’espace des fonctions de carré intégrable pour la mesure de
Lebesgue, définie sur l’intervalle [−π, π] muni de sa tribu de Borel B([−π, π]), est un espace de Hilbert.
Définition 4.5 (Sous espace vectoriel). Un sous-espace E d’un espace vectoriel H est un sous-ensemble
de H tel que, pour tout x, y ∈ E et tout scalaire α, β, αx + βy ∈ E. Un sous-espace vectoriel est dit
propre si E =
6 H.
Définition 4.6 (Sous-espace fermé). Soit E un sous-espace d’un espace de Hilbert H. On dit que E
est fermé, si toute suite {xn } de E, qui converge, converge dans E.
Exemple 4.5 : Contre-exemple
Soit L2 ([−π, π], dx) l’espace de Hilbert des fonctions de carré intégrable pour la mesure de Lebesgue sur
[−π, π]. Comme le montre l’exemple 4.4, l’ensemble des fonctions continues sur [−π, π] est un sous-espace
vectoriel de L2 ([−π, π], dx) mais nést pas fermé.

Définition 4.7 (Sous espace engendré par un sous-ensembe). Soit X un sous-ensemble de H. Nous
notons span{X } le sous-espace vectoriel des combinaisons linéaires finies d’éléments de X et span{X }
la fermeture de span(X ) dans H.
Définition 4.8 (Orthogonalité). Deux vecteurs x, y ∈ H sont dit orthogonaux, si (x, y) = 0, ce que
nous notons x ⊥ y. Si S est un sous-ensemble de H, la notation x ⊥ S, signifie que x ⊥ s pour tout
s ∈ S. Nous notons S ⊥ T si tout élément de S est orthogonal à tout élément de T .

63
Supposons qu’il existe deux sous-espaces A et B tels que H = A + B, dans le sens où, pour tout
vecteur h ∈ H, il existe a ∈ A et b ∈ B, tel que h = a + b. Si en plus A ⊥ B nous dirons que H est la
somme directe de A et B, ce que nous notons H = A ⊕ B.
Définition 4.9 (Complément orthogonal). Soit E un sous-ensemble d’un espace de Hilbert H. On
appelle ensemble orthogonal de E, l’ensemble défini par :

E ⊥ = {x ∈ H : ∀y ∈ E (x, y) = 0}

Le théorème suivant, appelé théorème de projection, joue un rôle central en analyse Hilbertienne.
Nous en donnons une démonstration complète en fin de chapitre, et nous encourageons le lecteur à
s’arrêter sur cette démonstration pour comprendre l’essence de la construction.
Théorème 4.2 (De projection). Soit E est un sous-espace fermé d’un espace de Hilbert H et soit x
un élément quelconque de H, alors :
(i). il existe un unique élément noté (x|E) ∈ E tel que :

kx − (x|E)k = inf kx − wk
w∈E

(ii). (x|E) ∈ E et kx − (x|E)k = inf w∈E kx − wk si et seulement si (x|E) ∈ E et x − (x|E) ⊥ E.

Démonstration. Elle est donnée en fin de chapitre. ¥

Proposition 4.3. Soit H un espace de Hilbert et (¦|E) la projection orthogonale sur le sous-espace
fermé E. On a :
1. l’application x ∈ H 7→ (x|E) ∈ E est linéaire :

∀α, β ∈ C, (αx + βy|E) = α(x|E) + β(y|E)

2. kxk2 = k(x|E)k2 + kx − (x|E)k2 (Pythagore),

3. La fonction (¦|E) : H → H est continue,
4. x ∈ E si et seulement si (x|E) = x,
5. x ∈ E ⊥ si et seulement si (x|E) = 0,
6. Soient E1 et E2 deux sous espaces vectoriels fermés de H, tels que E1 ⊂ E2 . Alors :

∀x ∈ H, ((x|E2 )|E1 ) = (x|E1 )

7. Soient E1 et E2 deux sous-espaces vectoriels fermés de H, tels que E1 ⊥ E2 . Alors :

∀x ∈ H, (x|E1 ⊕ E2 ) = (x|E1 ) + (x|E2 ).

Exemple 4.6 : Projection sur un vecteur

Soit H un espace de Hilbert, C = span{v} le sous-espace engendré par un vecteur v ∈ H et x un vecteur
quelconque de H. On a alors (x|C) = αv avec α = (x, v)/kvk2 . Si on note ² = x − (x|C), on a :
¡ ¢ (x, v)
k²k2 = kxk2 1 − kρk2 où ρ= avec |ρ| ≤ 1
kxkkvk

64
Appliquons ce résultat à H = Cn et au vecteur v(λ0 ) de composantes vt = n−1/2 eiλ0 t où t ∈ {1, . . . , n} et
où la pulsation de Fourier λ0 ∈ (−π, π). On vérifie que kv(λ0 )k = 1. Soit x = (x1 , . . . , xn )T un vecteur
quelconque de Cn . La projection orthogonale de x sur span{v(λ0 )} s’écrit αv(λ0 ) avec :
n
X n
1 X
α= xt vt∗ = √ xt e−iλ0 t
t=1
n t=1

qui est la transformée de Fourier à temps discret de la suite xt calculée précisément à la pulsation λ0 .

Exemple 4.7 : Droite de régression

On est parfois conduit à chercher une relation linéaire entre deux suites de valeurs {xt }1≤t≤n et {yt }1≤t≤n .
Cela revient à trouver la suite ŷt = α1 + α2 xt qui s’approche quadratiquement au plus près de la suite yt .
D’après le théorème de projection, il suffit déxprimer que le vecteur ŷ ∈ Rn de composantes ŷn est la projection
orthogonale de y = (y1 , . . . , yn )T sur E = span{u, x} où u = (1, . . . , 1)T et x = (x1 , . . . , xn )T . Par conséquent
α1 et α2 sont solutions du système de deux équations :

(y − (α1 + α2 x), 1) = 0 et (y − (α1 + α2 x), x) = 0

qui s’écrit encore : · P ¸· ¸ · P ¸

Pn P t x2t α1 = P t yt
t xt t xt α2 t xt yt

Si la matrice est inversible la solution est unique.

Exemple 4.8 : Modèle linéaire et méthode des moindres carrés

On considère, pour 1 ≤ t ≤ n, la suite d’observations :
P
X
xt = at,k θk + zt
k=1

où {at,k }, avec 1 ≤ k ≤ P , 1 ≤ t ≤ n et n > P , sont des valeurs connues. {θk } est une suite de paramètres à
estimer et zt est un terme d’incertitude qui modélise par exemple des erreurs de mesure. Avec des notations
matricielles évidentes on peut écrire X = Aθ + Z. On note A le sous-espace de RnPengendré par les colonnes
n
de A. L’estimation, dite des moindres carrés, consiste à trouver θ qui minimise t=1 zt2 . Ce problème peut
alors se formaliser de la façon suivante : déterminer le vecteur de A le plus proche de X. La solution est la
projection orthogonale (X|A) qui, d’après le point (ii) du théorème de projection, vérifie :

AT (X − (X|A)) = 0 ⇔ AT (X|A) = AT X

On sait que le vecteur (X|A) est unique. Par contre la résolution, par rapport à θ, de l’équation (X|A) = Aθ
n’a pas nécessairement une solution unique. Elle dépend du rang de la matrice A.
– Si A est de rang plein P , AT A est inversible et θ = (AT A)−1 AT X qui est alors unique.
– Si A est de rang strictement inférieur à P , alors il existe une infinité de valeurs de θ telle que AT Aθ =
AT X. Elles diffèrent toutes par un vecteur u de l’espace nul de A défini par Au = 0.

4.2 Espace des variables aléatoires de carré intégrables

Les espaces de Hilbert donnent un cadre théorique pratique pour l’analyse des processus du second-
ordre. Soit {Ω, F, P} un espace de probabilité. Considérons L2 (Ω, F, P) l’espace des variables aléatoires
réelles, de carré intégrable sur {Ω, F, P}, cést à dire toutes les variables aléatoires réelles vérifiant

65
£ ¤
E X 2 < ∞. Il est facile de vérifier que si X et Y sont deux éléments de L2 (Ω, F, P) alors, pour
tout α, β ∈ R, nous avons αX + βY ∈ L2 (Ω, F, P), et que L2 (Ω, F, P) est un espace vectoriel sur R.
Considérons alors le produit intérieur défini par :
Z
2 2
X, Y ∈ L × L 7→ E [XY ] = X(ω)Y (ω)P(dω)
Ω

ainsi que la forme positive : £ ¤

X ∈ L2 7→ E1/2 X 2 ≥ 0
Bien que cette
£ ¤ forme soit positive et vérifie l’inégalité triangulaire, ce nést pas une norme, car la
relation E X 2 = 0 implique seulement que X = 0 P-p.s. (voir annexe A.1.3), et donc que X peut être
différent de 0 sur un sous-ensemble de Ω de mesure nulle pour P. Pour lever cette difficulté, considérons
dans L2 la relation d’égalité presque sûre définie par :

X = Y (P-p.s.) ⇔ P{ω ∈ Ω : X(ω) 6= Y (ω)} = 0

On vérifie aisément que cette relation est réflexive, symétrique et transitive, ce qui définit une relation
d’équivalence. Définissons alors L2 (Ω, F, P) comme l’espace quotient de L2 (Ω, F, P) par la relation
d’équivalence définie ci-dessus. Les éléments de L2 (Ω, F, P) sont à présent des classes d’équivalence.
Soient X̄ et Ȳ deux éléments de L2 (Ω, F, P) et soient X, X 0 deux représentants (éléments) de X̄ et
Y, Y 0 deux représentants de Ȳ . Nous avons d’après les égalités presque sûres :
£ ¤
E [XY ] = E X 0 Y 0

ce qui nous permet de définir un produit intérieur dans L2 (Ω, F, P) par :

(X̄, Ȳ ) = E [XY ]

où X et Y sont respectivement deux représentants quelconques de X̄ et de Ȳ . A présent le produit

intérieur (X̄, Ȳ ) munit L2 (Ω, F, P) d’une structure pré-hilbertienne. En effet (X̄, X̄) = 0 ⇔ X̄ = 0̄.
Dans la suite, pour simplifier l’écriture, nous noterons de la même manière les classes et les
représentants des classes et confondrons X ∈ L2 (Ω, F, P) et sa classe d’équivalence X̄ ∈ L2 (Ω, F, P).
Ainsi nous noterons le produit scalaire dans L2 (Ω, F, P) sous la forme :

(X, Y ) = E [XY ]

étant sous-entendu que (X, Y ) fait référence au produit intérieur dans l’espace quotient.
Le résultat suivant est central.
Proposition 4.4. L’espace L2 (Ω, F, P) est un espace de Hilbert.
Ce résultat est une conséquence immédiate de la propriété A.10 donnée annexe A.

Définition 4.10 (Convergence en moyenne quadratique). Soit {Xn } une suite de L2 (Ω, F, P). Nous
dirons que Xn converge en moyenne quadratique vers X ∈ L2 (Ω, F, P), si et seulement si :
£ ¤
lim kXn − Xk = lim E1/2 (Xn − X)2 = 0
n→∞ n→∞

66
Notons ici que E [X] = (X, 1). La propriété suivante est alors une conséquence directe de la
continuité du produit scalaire.
Propriété 2
£ 2 ¤ 4.2. Soit {X
£ n }2 ¤une suite de L (Ω, F, P) qui converge vers X. Alors E [X] = limn→∞ E [Xn ]
et E X = limn→∞ E Xn .
Exemple 4.9
Considérons un bruit blanc {Zt }t∈Z , cést-à-dire une suite de variables centrées et orthonormées de
L2 (Ω, F, P). On a EP [Zt ] = (Zt , 1) = 0 et (Zt , Zs ) = δt,s pour tout couple (t, s) ∈ Z × Z. Soit {at } une
suite réelle telle que t≥0 a2t < +∞. Alors la suite :
n
X
Xn = at Zt
t=0

est une suite de variables aléatoires de L2 (Ω, F, P) centrées. Cette suite converge en moyenne quadratique
dans L2 (Ω, F, P). En effet pour tout m ≥ n :
¯ ¯2 
¯ X
m ¯ Xm Xm m
X
¯ ¯
kXn − Xm k2 = E ¯ at Zt ¯  = at as (Zt , Zs ) = a2t
¯ ¯
t=n+1 t=n+1 s=n+1 t=n+1
P 2
Pm 2
Comme t≥0 at< +∞, t=n+1 at tend vers 0 quand n, m tendent vers l’infini et Xn est une suite de Cauchy
dans L (Ω, F, P). Elle admet donc, en vertu de la proposition 4.4, une limite dans L2 (Ω, F, P
2
P) que nous notons
X. D’après la propriété 4.2, E [X] = limn→∞ E [Xn ] = 0 et var(X) = limn→∞ var(Xn ) = t≥0 |at |2 .

4.3 Prédiction linéaire

4.3.1 Estimation linéaire en moyenne quadratique
Soient X et {Y1 , · · · , Yp } des variables aléatoires réelles de L2 (Ω, F, P). On cherche à déterminer
la meilleure approximation de X par une combinaison linéaire des variables Yk . Nous supposons ici
que nous connaissons les quantités µ = E [X], νk = E [Yk ] ainsi que les coefficients de covariance
cov(X, Yk ) et cov(Yk , Y` ), pour tout 1 ≤ k, ` ≤ p. En pratique, rappelons que nous avons vu chapitre 2
comment il est possible, sous certaines hypothèses, de les estimer “correctement” à partir d’une suite
d’observations.
On considère l’espace fermé de dimension finie Y = span({1, Y1 , · · · , Yp }) et on cherche l’élément Y ∈ Y
qui minimise la norme de l’erreur déstimation kX − Y k2 . Il découle immédiatement du théorème de
projection que le prédicteur linéaire optimal est la projection orthogonale (X|Y) de X sur Y qui vérifie
(X − (X|Y)) ⊥ Y. On en déduit que :

 (X − (X|Y), 1) = 0
(4.1)
 (X − (X|Y), Y ) = 0 pour k ∈ {1, · · · , p}
k

Ce sont ces (p + 1) équations qui vont nous donner la solution cherchée.P En effet (X|Y) ∈ Y implique
(Y est de dimension finie) qu’il se met sous la forme (X|Y) = a0 + pk=1 ak (Yk −νk ). Reste à déterminer
a0 , a1 , . . . , ap . Partant de la première expression de (4.1), on obtient :
p
X
(X − a0 − ak (Yk − νk ), 1) = (X, 1) − a0 = 0 (4.2)
k=1

67
qui donne a0 = µ. En faisant a0 = µ dans la seconde expression de (4.1), on a alors pour k ∈ {1, . . . , p} :
p
X p
X
(X − µ − aj (Yj − νj ), Yk − νk ) = (X − µ, Yk − νk ) − aj (Yj − νj , Yk − νk ) = 0 (4.3)
j=1 j=1

qui montrent que {a1 , · · · , ap } sont solution d’un système de p équations linéaires à p incon-
nues. Ce système d’équations peut se mettre sous forme plus compacte en utilisant la ma-
trice Γ = [cov(Yk , Y` )]1≤k,`≤p des coefficients de covariance de (Y1 , · · · , Yp ) et le vecteur γ =
[cov(X, Y1 ), · · · , cov(X, Yp )]T des coefficients de covariance entre X et les composantes Yk . Avec ces
notations, le vecteur α = [a1 , · · · , ap ]T est solution de l’équation :
Γα = γ (4.4)
Ce système linéaire admet une unique solution si la matrice Γ est inversible. Notons enfin quén vertu
de l’identité de Pythagore, nous avons :
kXk2 = k(X|Y)k2 + kX − (X|Y)k2
et donc la norme minimale de l’erreur de prédiction a pour expression :
kX − (X|Y)k2 = kXk2 − k(X|Y)k2
Nous allons à présent appliquer ce résultat à la prédiction d’un processus stationnaire au second-ordre
à partir de son passé immédiat en prenant X = Xt et Yk = Xt−k avec k = {1, . . . , p}.

4.3.2 Prédiction linéaire d’un processus stationnaire au second-ordre

Soit {Xt , t ∈ Z} un processus stationnaire au second-ordre, de moyenne E [X0 ] = µ et de fonction
d’autocovariance γ(h) = cov(Xh , X0 ). On cherche à “prédire” la valeur du processus à la date t à
partir d’une combinaison linéaire des p derniers échantillons du passé {Xt−1 , · · · , Xt−p }. Ce problème
est bien entendu un cas particulier du problème précédent où nous avons X = Xt et Yk = Xt−k , pour
k ∈ {1, . . . , p} et où :
Ht−1,p = span{1, Xt−1 , Xt−2 , · · · , Xt−p } (4.5)
Formons la matrice de covariance Γp du vecteur [Xt−1 , · · · , Xt−p ] :
 
γ(0) γ(1) ··· γ(p − 1)
 .. 
 γ(1) γ(0) γ(1) . 
 
 .. .. .. .. 
Γp =  . . . .  (4.6)
 
 .. 
 . γ(1) 
γ(p − 1) γ(p − 2) ··· γ(1) γ(0)
Cette matrice est dite de Toëplitz, ses éléments étant égaux le long de ses diagonales. Notons γ p le
vecteur [γ(1), γ(2), · · · , γ(p)]T le vecteur des coefficients de corrélation. D’après l’équation (4.4), les
coefficients {φk,p }1≤k≤p du prédicteur linéaire optimal défini par :
p
X
(Xt |Ht−1,p ) − µ = φk,p (Xt−k − µ) (4.7)
k=1

68
sont solutions du système d’équations :

Γp φp = γ p (4.8)

D’autre part l’erreur de prédiction minimale a pour expression :

σp2 = kXt − (Xt |Ht−1,p )k2 = (Xt , Xt − (Xt |Ht−1,p ))

= (Xt , Xt ) − (Xt − µ, (Xt |Ht−1,p )) − (µ, (Xt |Ht−1,p ))
X p
= γ(0) − φk,p γ(k) = γ(0) − φTp γ p (4.9)
k=1

Les équations (4.8) et (4.9) sont appelées équations de Yule-Walker. Notons la propriété importante
suivante : pour p fixé, la suite des coefficients {φk,p }1≤k≤p du prédicteur linéaire optimal et la variance
de l’erreur minimale de prédiction ne dépendent pas de t. Les équations (4.8) et (4.9) peuvent encore
être réécrites à partir des coefficients de corrélation ρ(h) = γ(h)/γ(0). Il vient :
    
ρ(0) ρ(1) ··· ρ(p − 1) φ1,p ρ(1)
 .. 
 ρ(1) ρ(0) ρ(1) .  φ2,p  ρ(2)
  .  

 .. 

 .. . . .  .
 . .. .. ..  .  
= . 
 (4.10)
  .   . 
 ..  . .
 . ρ(1)   .   . 
ρ(p − 1) ρ(p − 2) · · · ρ(1) ρ(0) φp,p ρ(p)

Exemple 4.10 : Prédiction avant/arrière

Soit Xt = Zt + θ1 Zt−1 où Zt ∼ BB(0, σ 2 ). On note ρ(h) la fonction d’autocorrélation de Xt .
1. ρ(0) = (1 + θ12 , ρ(±1) = θ1 et ρ(h) = 0 pour |h| ≥ 2.
2. Déterminons la prédiction de X3 en fonction de X2 et X1 . D’après le théorème de projection
(X3 |span{X2 , X1 }) = α1 X1 + α1 X2 vérifie (X3 − α2 X2 − α1 X1 , Xj ) = 0 pour j = 1, 2. On en déduit que :
· ¸· ¸ · ¸
1 + θ12 θ1 α2 θ
= 1
θ1 1 + θ12 α1 0

3. Déterminons la prédiction de X3 en fonction de X4 et X5 . D’après le théorème de projection

(X3 |span{X4 , X5 }) = α4 X4 + α5 X5 vérifie (X3 − α4 X4 − α5 X5 , Xj ) = 0 pour j = 4, 5. On en déduit que :
· ¸· ¸ · ¸
1 + θ12 θ1 α4 θ
= 1
θ1 1 + θ12 α5 0
Par conséquent α1 = α5 et α2 = α4 .
4. Déterminons la prédiction de X3 en fonction de X1 , X2 , X4 et X5 . Pour déterminer
(X3 |span{X1 , X2 , X4 , X5 }) = β1 X1 + β2 X2 + β4 X4 + β5 X5 Il suffit de remarquer que span{X1 , X2 } ⊥
span{X3 , X5 } et donc :

(X3 |span{X1 , X2 , X4 , X5 }) = (X3 |span{X1 , X2 }) + (X3 |span{X4 , X5 })

Exemple 4.11 : Cas d’un processus AR(m) causal

Soit le processus AR(m) causal solution stationnaire de l’équation récurrente :

Xt = φ1 Xt−1 + · · · + φm Xt−m + Zt

69
Pm
où Zt ∼ B(0, σ 2 ) et où φ(z) = 1 − k=1 φk z k P 6= 0 pour |z| ≤ 1. Comme la solution est causale on a, pour
m
tout h ≥ 1,
PmE [Z t Xt−h ] = 0 et donc E [(X Pm k=1 φk Xt−k )Xt−h ] = 0 qui signifie que, pour tout p ≥ m,
t −
(i) (Xt − P k=1 φk Xt−k ) ⊥ Ht−1,p et (ii) k=1 φk Xt−k ∈ Ht−1,p . Par conséquent, d’après le théorème de
m
projection, k=1 φk Xt−k = (Xt |Ht−1,p ) et donc, pour tout p ≥ m :
½
φk pour 1 ≤ k ≤ m
φk,p =
0 pour k>m

La projection orthogonale d’un AR(m) causal sur son passé immédiat de longueur p ≥ m coı̈ncide avec
la projection orthogonale sur les m dernières valeurs et les coefficients de prédiction sont précisément les
coefficients de l’équation récurrente.

Dans le cas où la matrice de covariance Γp , supposée connue, est inversible, le problème de la
détermination des coefficients de prédiction φp et de la variance de l’erreur de prédiction σp2 a une
solution unique. Rappelons que, d’après la propriété 1.5, si γ(0) > 0 et si limn→∞ γ(n) = 0, alors la
matrice Γp est inversible à tout ordre.
Il est facile de démontrer que :

(Xt |span{1, Xt−1 , . . . , Xt−p }) = µ + (Xt − µ|span{Xt−1 − µ, . . . , Xt−p − µ}) (4.11)

Par conséquent, dans le problème de la prédiction, il n’y a aucune perte de généralité à considérer
que le processus est centré. S’il ne l’était pas, il suffirait, d’après l’équation (4.11), déffectuer le calcul
des prédicteurs sur le processus centré Xtc = Xt − µ puis d’ajouter µ. Dans la suite, sauf indication
contraire, les processus sont supposés centrés.
Les coefficients de prédiction d’un processus stationnaire au second ordre fournissent une
décomposition particulière de la matrice de covariance Γp+1 sous la forme d’un produit de matrice
triangulaire.

Théorème 4.3. Soit {Xt } un processus stationnaire au second ordre, centré, de fonction d’autocova-
riance γ(h). On note :
 
1 0 ··· ··· 0  2 
 .. ..  σ0 0 · · · 0
−φ1,1 1 . .
  0 σ2 · · · 0 
 .. . . . . .
.   1 
Ap+1 =  . . . .  Dp+1 =  . .
  . . .
.
 .. .. 
 . . 0 0 · · · σ2 p
−φp,p −φp−1,p · · · −φ1,p 1

On a alors :
Γp+1 = A−1 −T
p+1 Dp+1 Ap+1 (4.12)

Démonstration. Posons Fk = span{Xk , · · · , X1 } et montrons tout d’abord que, pour k 6= `, nous

70
de prédiction, on peut écrire successivement :
    
1 0 ··· 0 X1 X1
 −φ1,1 1 ··· 0  X2   X2 − (X2 |F1 ) 
    
Ap+1 Xp+1 =  . ..  .. = .. 
 .. .  .   . 
−φp,p −φp−1,p · · · 1 Xp+1 Xp+1 − (Xp+1 |Fp )

qui donne : £ ¤
E Ap+1 Xp+1 XTp+1 ATp+1 = Ap+1 Γp+1 ATp+1 = Dp+1
où, par définition, σk2 = kXk − (Xk |Fk−1 )k2 , ce qui démontre (4.12) puisque la matrice Ap+1 est
inversible, son déterminant étant égal à 1. Ajoutons que l’inverse d’une matrice triangulaire supérieure
est elle-même triangulaire supérieure. ¥

Dans la suite nous notons Ht−1,p = span{Xt−1 , . . . , Xt−p } et nous appelons erreur de prédiction
directe d’ordre p ou innovation partielle d’ordre p le processus :
p
X
²+
t,p = Xt − (Xt |Ht−1,p ) = Xt − φk,p Xt−k (4.14)
k=1

D’après l’équation (4.12) lorsque la matrice Γp+1 est inversible, la variance σp2 = k²+ 2
t,p k est strictement
2 2
positive. Il est clair, d’autre part, que la suite σp est décroissante et donc que σp possède une limite
quand p tend vers l’infini. Cela conduit à la définition suivante, dont nous verrons paragraphe 4.6
quélle joue un rôle fondamental dans la décomposition des processus stationnaires au second ordre.

Définition 4.11 (Processus régulier/déterministe). Soit {Xt } un processus aléatoire stationnaire au

second ordre. On note σp2 la variance de l’innovation partielle d’ordre p et σ 2 = limp→+∞ σp2 . On dit
que le processus {Xt } est régulier si σ 2 6= 0 et déterministe si σ 2 = 0.

Nous avons déjà noté (voir équation (4.8)) que, pour p fixé, la suite {φk,p } ne dépend pas de t et
donc que le processus ²+t,p (relativement à l’indice t) est stationnaire au second ordre, centré. On a
aussi la formule suivante :
(²+ + 2
t,p , ²t,q ) = σmax(p,q) (4.15)

En effet soit q > p. Par construction, nous avons ²+ +

t,q ⊥ Ht−1,q , et comme Ht−1,p ⊆ Ht−1,q , ²t,q ⊥ Ht−1,p
et en particulier ²+
t,q ⊥ (Xt |Ht−1,p ) puisque (Xt |Ht−1,p ) ∈ Ht−1,p . Par conséquent, pour q > p, on a :

(²+ + + 2
t,p , ²t,q ) = (Xt − (Xt |Ht−1,p ), ²t,q ) = (Xt , Xt − (Xt |Ht−1,q )) = (Xt , Xt − (Xt |Ht−1,q )) = σq

ce qui démontre (4.15).

Notons ici que le problème de la recherche des coefficients de prédiction pour un processus stationnaire
au second ordre se ramène à celui de la minimisation de l’intégrale :
Z π
1
|ψ(e−iλ )|2 νX (dλ)
2π −π

71
sur l’ensemble Pp des polynômes à coefficients réels de degré p de la forme ψ(z) = 1 + ψ1 z + · · · + ψp z p .
En effet, en utilisant la relation (1.18) de filtrage des mesures spectrales, on peut écrire que la variance
de k²+ 2
t,p k , qui minimise de l’erreur de prédiction, a pour expression :
Z π
1
σp2 = |φp (e−iλ )|2 νX (dλ) (4.16)
2π −π

où :
p
X
φp (z) = 1 − φk,p z k
k=1

désigne le polynôme prédicteur d’ordre p.

Théorème 4.4. Si {Xt } est un processus régulier, alors, pour tout p, φp (z) 6= 0 pour |z| ≤ 1. Tous
les zéros des polynômes prédicteurs sont à l’extérieur du cercle unité.

Démonstration. Elle est donnée en fin de chapitre. ¥

Une conséquence directe du théorème 4.4 est qu’à toute matrice de covariance de type défini positif,
de dimension (p + 1) × (p + 1), on peut associer un processus AR(p) causal dont les (p + 1) premiers
coefficients de covariance sont précisément la première ligne de cette matrice. Ce résultat nést pas
général. Ainsi il existe bien un processus AR(2) causal ayant γ(0) = 1 et γ(1) = ρ, comme premiers
coefficients de covariance, à condition toutefois que la matrice de covariance soit positive cést-à-dire
que |ρ| < 1, tandis qu’il néxiste pas, pour cette même matrice de processus MA(2). Il faut en effet, en
plus du caractère positif, que |ρ| ≥ 1/2 (voir exemple 1.11).

4.4 Algorithme de Levinson-Durbin

La solution directe du système des équations de Yule-Walker requiert de l’ordre de p3 opérations : la
résolution classique de ce système implique en effet la décomposition de la matrice Γp sous la forme du
produit d’une matrice triangulaire inférieure et de sa transposée, Γp = Lp LTp (décomposition de Cho-
leski) et la résolution par substitution de deux systèmes triangulaires. Cette procédure peut s’avérer
coûteuse lorsque l’ordre de prédiction est grand (on utilise généralement des ordres de prédiction de
l’ordre de quelques dizaines à quelques centaines), ou lorsque, à des fins de modélisation, on est amené
à évaluer la qualité de prédiction pour différents horizons de prédiction. L’algorithme de Levinson-
Durbin exploite la structure géométrique particulière des processus stationnaires au second ordre pour
établir une formule de récurrence donnant les coefficients de prédiction à l’ordre (p + 1) à partir
des coefficients de prédiction obtenus à l’ordre p. Supposons que nous connaissions les coefficients de
prédiction linéaire et la variance de l’erreur de prédiction à l’ordre p, pour p ≥ 0 :
p
X
(Xt |Ht−1,p ) = φk,p Xt−k et σp2 = kXt − (Xt |Ht−1,p )k2
k=1

Nous avons besoin ici d’introduire l’erreur de prédiction rétrograde à l’ordre p définie par :

²−
t,p = Xt − (Xt |Ht+p,p ) = Xt − (Xt |span{Xt+1 , · · · , Xt+p })

72
Elle représente la différence entre l’échantillon courant Xt et la projection orthogonale de Xt sur les
p échantillons {Xt+1 , · · · , Xt+p } qui suivent l’instant courant. Le qualificatif rétrograde est clair :
il traduit le fait que l’on cherche à prédire la valeur courante en fonction des valeurs futures. Indi-
quons que l’erreur rétrograde joue un rôle absolument essentiel dans tous les algorithmes rapides de
résolution des équations de Yule-Walker. Remarquer tout d’abord que les coefficients de prédiction
rétrograde coı̈ncident avec les coefficients de prédiction directe. Cette propriété, que nous avons ren-
contrée exemple 4.10, est fondamentalement due à la propriété de réversibilité des processus station-
naires au second ordre. En effet, si Yt = X−t , alors Yt a même moyenne et même fonction de covariance
que Xt (voir exemple 1.7 chapitre 1) et par conséquent, en utilisant aussi l’hypothèse de stationnarité,
on a simultanément pour tout u, v ∈ Z :
p
X p
X
(Xt+u |Ht+u−1,p ) = φk,p Xt+u−k et (Xt+v |Ht+v+p,p ) = φk,p Xt+v+k
k=1 k=1

ainsi que :

σp2 = k²+ 2 −
t+u,p k = k²t+v,p k
2
(4.17)

En particulier on a :
 p

 X

 (Xt |Ht−1,p ) =
 φk,p Xt−k
k=1 (4.18)
p
X p
X



 (Xt−p−1 |Ht−1,p ) =
 φk,p Xt−p−1+k = φp+1−k,p Xt−p−1+k
k=1 k=1

Cherchons maintenant à déterminer, à partir de ces projections à l’ordre p, la projection de Xt à l’ordre

p + 1 sur le sous-espace Ht−1,p+1 = span{Xt−1 , · · · , Xt−p−1 }. Pour cela décomposons cet espace en
somme directe de la façon suivante :

Ht−1,p+1 = Ht−1,p ⊕ span{Xt−p−1 − (Xt−p−1 |Ht−1,p )} = Ht−1,p ⊕ span{²−

t−p−1,p }

Un calcul simple montre (voir exemple 4.6) que

(Xt |²− −
t−p−1,p ) = α²t−p−1,p avec α = (Xt , ²− −
t−p−1,p )/k²t−p−1,p k
2

et donc que
(Xt |Ht−1,p+1 ) = (Xt |Ht−1,p ) + kp+1 (Xt−p−1 − (Xt−p−1 |Ht−1,p )) (4.19)
où, en utilisant aussi (4.17), on peut écrire :

(Xt , ²−
t−p−1,p ) (Xt , ²−
t−p−1,p )
kp+1 = = (4.20)
σp2 k²+ −
t+u,p kk²t+v,p k

En portant à présent (4.18) dans (4.19), on obtient l’expression :

p+1
X p
X
(Xt |Ht−1,p+1 ) = φk,p+1 Xt−k = (φk,p − kp+1 φp+1−k,p )Xt−k + kp+1 Xt−p−1
k=1 k=1

73
On en déduit les formules de récurrence donnant les coefficients de prédiction à l’ordre p + 1 à partir
de ceux à l’ordre p :
½
φk,p+1 = φk,p − kp+1 φp+1−k,p pour k ∈ {1, · · · , p}
(4.21)
φp+1,p+1 = kp+1

Déterminons maintenant la formule de récurrence donnant kp+1 . En utilisant encore (4.18) et (4.19),
on obtient :
p
X p
X
(Xt , (Xt−p−1 |Ht−1,p )) = φk,p E [Xt Xt−p−1+k ] = φk,p γ(p + 1 − k)
k=1 k=1

Partant de l’expression de (Xt , ²−

t−p−1,p ) on en déduit que :
p
X
(Xt , ²−
t−p−1,p ) = (Xt , Xt−p−1 − (Xt−p−1 |Ht−1,p )) = γ(p + 1) − φk,p γ(p + 1 − k)
k=1

et donc d’après (4.20) : Pp

γ(p + 1) − k=1 φk,p γ(p + 1 − k)
kp+1 =
σp2
2
Il nous reste maintenant à déterminer l’erreur de prédiction σp+1 à l’ordre (p+1). En utilisant l’équation
(4.19), on a

²+
t,p+1 = Xt − (Xt |Ht−1,p+1 ) = Xt − (Xt |Ht−1,p ) − kp+1 (Xt−p−1 − (Xt−p−1 |Ht−1,p ))

dont on déduit d’après (4.20) :

2
σp+1 = k²+ 2 2 2 2 2 2
t,p+1 k = σp + kp+1 σp − 2kp+1 (Xt − (Xt |Ht−1,p ), Xt−p−1 − (Xt−p−1 |Ht−1,p )) = σp (1 − kp+1 )

Pour initialiser l’algorithme, nous faisons p = 0. Dans ce cas la meilleure

£ prédiction
¤ de Xt est E [Xt ] = 0
et la variance de l’erreur de prédiction est alors donnée par σ02 = E (Xt − 0)2 = γ(0). Au pas suivant
on a k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ12 = γ(0)(1 − k12 ).
Partant d’une suite de (K + 1) coefficients de covariance γ(0), . . . , γ(K), l’algorithme de Levinson
détermine les coefficients de prédiction {φm,p }1≤m≤p,1≤p≤K :

Valeurs initiales :
· k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ12 = γ(0)(1 − k12 )
Pour p = {2, . . . , K} répéter :
³ P ´
−2
· kp = σp−1 γ(p) − p−1 k=1 φk,p−1 γ(p − k)
· φp,p = kp
· pour m ∈ {1, · · · , p − 1} faire :

φm,p = φm,p−1 − kp φp−m,p−1

2 (1 − k 2 )
· σp2 = σp−1 p

74
Le coefficient kp possède la propriété remarquable d’être de module inférieur à 1. Notons tout d’abord
que (Xt |Ht−1,p ) ⊥ ²− −
t−p−1,p puisque (Xt |Ht−1,p ) ∈ Ht−1,p et que ²t−p−1,p ⊥ Ht−1,p . Partant de (4.20)
on peut écrire que :

(Xt − (Xt |Ht−1,p ), Xt−p−1 − (Xt−p−1 |Ht−1,p )) (²+ −

t,p , ²t−p−1,p )
kp+1 = = + (4.22)
k²+ −
t,p k k²t−p−1,p k k²t,p k k²− t−p−1,p k

En utilisant l’inégalité de Schwarz, on montre que |kp+1 | ≤ 1. Remarquons aussi que kp+1 ap-
paraı̂t comme le coefficient de corrélation entre l’erreur de prédiction directe et l’erreur de prédiction
rétrograde. Dans la littérature ce coefficient est appelé coefficient d’autocorrélation partielle.

Définition 4.12 (Fonction d’autocorrélation partielle). Soit Xt un processus aléatoire, stationnaire

au second ordre, de fonction de covariance γ(h). On appelle fonction d’autocorrélation partielle la
suite kp définie par :


 (Xt , Xt−1 )
 Corr(Xt , Xt−1 ) = pour p = 1
kXt k kXt−1 k
kp = (Xt − (Xt |Ht−1,p−1 ), Xt−p − (Xt−p |Ht−1,p−1 )) (4.23)

 + −
 Corr(² , ²
t,p−1 t−p,p−1 ) = pour p ≥ 2
kXt − (Xt |Ht−1,p−1 )k kXt−p − (Xt−p |Ht−1,p−1 )k

Dans (4.23), l’expression pour p = 1 est en accord avec celle pour p ≥ 2 dans la mesure où on peut
noter que ²+ −
t,0 = Xt et que ²t−1,0 = Xt−1 . Notons aussi que, dans l’expression de kp , Xt et Xt−p sont
projetés sur le même sous-espace span{Xt−1 , . . . , Xt−p+1 }. Le résultat remarquable est que la suite
des coefficients de corrélation partielle est donnée par :

kp = φp,p (4.24)

où φp,p est défini au moyen des équations de Yule-Walker (4.10). Dans le cas particulier d’un processus
AR(m) causal, on a alors : 
φp,p pour 1 ≤ p < m
kp = φm pour p=m

0 pour p>m
Notons enfin que contrairement à la fonction d’autocorrélation partielle d’un AR(m) qui est nulle pour
un intervalle de temps supérieur à m, celle d’un MA(q) ne va pas à 0. Elle est cependant bornée en
valeur absolue par une exponentielle décroissante.

4.5 Algorithme de Schur

Partant des coefficients d’autocorrélation, l’algorithme de Levinson-Durbin évalue à la fois les
coefficients des prédicteurs linéaires optimaux et les coefficients d’autocorrélation partielle. Dans cer-
tains cas, seuls les coefficients d’autocorrélation partielle sont nécessaires. Il en est ainsi, par exemple,
lorsque l’on cherche à calculer les erreurs de prédiction directe et rétrograde à partir du processus Xt .
Montrons, en effet, que les erreurs de prédiction à l’ordre (p + 1) s’expriment, en fonction des erreurs

75
de prédictions à l’ordre p, à l’aide d’une formule de récurrence ne faisant intervenir que la valeur du
coefficient de corrélation partielle :

 ²+ = ²+ −
t,p+1 t,p − kp+1 ²(t−1)−p,p
(4.25)
²− = ²− − kp+1 ²+
t−(p+1),p+1 (t−1)−p,p t,p

Reprenons les expressions de l’erreur de prédiction directe et de l’erreur de prédiction rétrograde :

p
X p
X
²+
t,p = Xt − φk,p Xt−k et ²−
t−p−1,p = Xt−p−1 − φk,p Xt−p−1+k
k=1 k=1

En utilisant directement la récursion de Levinson-Durbin, équations (4.21), dans l’expression de l’erreur

de prédiction directe à l’ordre p + 1, nous obtenons :
p+1
X
²+
t,p+1 = Xt − φk,p+1 Xt−k
k=1
Ã p
! Ã p
!
X X
= Xt − φk,p Xt−k − kp+1 Xt−p−1 − φk,p Xt−p−1+k
k=1 k=1
= ²+ −
t,p − kp+1 ²t−p−1,p (4.26)

De façon similaire, nous avons :

p+1
X
²−
t−p−1,p+1 = Xt−p−1 − φk,p+1 Xt−p−1+k
k=1
Ã p
! Ã p
!
X X
= Xt−p−1 − φk,p Xt−p−1+k − kp+1 Xt − φk,p Xt−k
k=1 k=1
= ²− +
t−p−1,p − kp+1 ²t,p (4.27)

Partant de la suite des autocorrélations, l’algorithme de Schur calcule récursivement les coefficients de
corrélation partielle, sans avoir à déterminer les valeurs des coefficients de prédiction. Historiquement,
l’algorithme de Schur a été introduit pour tester le caractère défini positif d’une suite (ou de façon
équivalente, la positivité des matrices de Toëplitz construites à partir de cette suite). En effet, comme
nous l’avons montré ci-dessus, une suite de coefficients de covariance est définie positive si et seulement
si les coefficients de corrélation partielle sont de module strictement inférieur à 1. Déterminons à présent
cet algorithme. En faisant t = 0 dans l’équation (4.26), en multipliant à gauche par Xm et en utilisant
la stationnarité, il vient :

(Xm , ²+ + − + −
0,p+1 ) = (Xm , ²0,p ) − kp+1 (Xm , ²−p−1,p ) = (Xm , ²0,p ) − kp+1 (Xm+p+1 , ²0,p ) (4.28)

En faisant t = p + 1 dans l’équation (4.27), en multipliant à gauche par Xm+p+1 et en utilisant la

stationnarité, il vient :

(Xm+p+1 , ²− − + − +
0,p+1 ) = (Xm+p+1 , ²0,p ) − kp+1 (Xm+p+1 , ²p+1,p ) = (Xm+p+1 , ²0,p ) − kp+1 (Xm , ²0,p ) (4.29)

76
En faisant m = 0 dans (4.29), il vient :

(Xp+1 , ²− − + − +
0,p+1 ) = (Xp+1 , ²0,p ) − kp+1 (Xp+1 , ²p+1,p ) = (Xp+1 , ²0,p ) − kp+1 (X0 , ²0,p ) (4.30)

Mais on a aussi :

(Xp+1 , ²−
0,p+1 ) = (Xp+1 , X0 − (X0 |span{X1 , · · · , Xp+1 })) = 0

Nous pouvons donc déduire de l’équation (4.30) :

(Xp+1 , ²−
0,p )
kp+1 = (4.31)
(X0 , ²+
0,p )

En couplant les équations (4.28), (4.29) et (4.31) et en partant des conditions initiales :

(Xm , ²+ −
0,0 ) = γ(m) et (Xm+1 , ²0,0 ) = γ(m + 1)

on peut déterminer les coefficients de corrélation partielle directement, sans avoir à évaluer explicite-
ment les coefficients de prédiction.
On note u(m, p) = (Xm , ²+ −
0,p ) et v(m, p) = (Xm+p+1 , ²0,p ). Partant des (K +1) coefficients de covariance
{γ(0), . . . , γ(K)}, l’algorithme de Schur calcule les K premiers coefficients de corrélation partielle :

Initialement faire pour m = {0, . . . , K − 1} :

· u(m, 0) = γ(m)
· v(m, 0) = γ(m + 1)
Puis répéter pour p = {1, . . . , K} :
v(0, p − 1)
· k(p) =
u(0, p − 1)
· et pour m = {0, . . . , K − p − 1} faire :

 u(m, p) = u(m, p − 1) − k(p)v(m, p − 1)
 v(m, p) = v(m + 1, p − 1) − k(p)u(m + 1, p − 1)

La complexité de l’algorithme de Schur est équivalente à l’algorithme de Levinson.

Filtres en treillis
En notant e(t, p) = [²+ − T
t,p ²t−p,p ] et en utilisant l’opérateur de retard D, les expressions (4.25)
peuvent se mettre sous la forme matricielle :
· ¸
1 −kp+1 D
e(t, p + 1) = e(t, p)
−kp+1 D 1

Les erreurs initiales (p = 0) sont e(t, 0) = [Xt Xt ]T . Ces équations débouchent sur une structure
de filtrage dite en treillis qui calcule, au moyen des coefficients de corrélation partielle, les erreurs de

77
x(t) ε + (t,p)
-k1 -kp

ε − (t,p)
-k1 -kp
z− 1 z− 1

Fig. 4.1 – Filtre d’analyse en treillis. Ce filtre permet de construire les erreurs
de prédiction directe et rétrograde à partir du processus et de la donnée des
coefficients de corrélation partielle.

prédiction directe et rétrograde à partir du signal Xt . Ce filtre d’analyse est représenté figure 4.1. Les
équations (4.25) peuvent encore s’écrire :

 ²+ = ²+ −
t,p t,p+1 + kp+1 ²(t−1)−p,p
²− = ²− − kp+1 ²+
t−(p+1),p+1 (t−1)−p,p t,p

qui donne le schéma de filtrage de la figure 4.2.

ε + (t,p)

− kp − k1 x(t)

ε − (t,p) kp k1
z− 1 z− 1 z− 1

Fig. 4.2 – Filtre de synthèse en treillis. Ce filtre permet de reconstruire le

processus à partir de la suite des erreurs de prédiction directe et de la donnée
des coefficients de corrélation partielle.

4.6 Décomposition de Wold

Un des résultats fondamentaux de la théorie des processus stationnaires au second-ordre est la
décomposition de Wold. Cette décomposition permet de décomposer n’importe quel processus sta-
tionnaire au second-ordre comme la somme de la sortie d’un filtre linéaire invariant dans le temps
excité par un bruit blanc et d’un processus déterministe (définition 4.11). La preuve de ce résultat est
de nature géométrique. L’idée de base est la suivante. Soit HtX = span{Xs , s ≤ t}. HtX est appelé le
passé linéaire du processus à la date t. Par construction, HtX ⊂ Ht+1X , et nous disposons ainsi d’une

famille de sous-espace emboı̂tés de H∞ X =∪ X X

T t∈Z Ht . H∞ est l’enveloppe linéaire du processus. L’espace
X
t∈Z Ht , appelé le passé infini du processus (X) jouera aussi un rôle particulier. Par définition Xt
X . Le théorème de projection dit qu’il
appartient à HtX , mais il n’appartient généralement pas à Ht−1
X ) et appartenant à HX tel que :
existe un unique élément noté (Xt |Ht−1 t−1

X X
²t = Xt − (Xt |Ht−1 ) ⊥ Ht−1

78
Dans ce contexte ²t s’appelle l’innovation (linéaire) du processus. Il découle de cette construction
géométrique que le processus d’innovation est un processus orthogonal dans le sens où :

∀s 6= t, ²s ⊥ ² t (4.32)

En effet, pour s < t, nous pouvons écrire ²s ∈ HsX ⊂ Ht−1

X et ² ⊥ HX . Et donc ² ⊥ ² .
t t−1 s t
La proposition qui suit montre que le processus d’innovation est la limite des processus d’innovations
partielles à l’ordre p.

Proposition 4.5. Pour tout Y ∈ L2 (Ω, F, P) et tout t ∈ Z nous avons :

X
lim (Y |Ht,p ) = (Y |HtX )
p→∞

X = span{X , X
où Ht,p t t−1 , · · · , Xt−p+1 }.

Exemple 4.12 : Bruit blanc

X X
Supposons que {Xt } soit un bruit blanc. Nous avons (Xt |Ht−1,p ) = 0 pour tout p et donc (Xt |Ht−1 ) = 0.
X
Nous avons donc ²t = Xt − (Xt |Ht−1 ) = Xt : le processus Xt coı̈ncide avec son innovation. Ceci signifie
qu’un bruit blanc ne peut être prédit de façon linéaire à partir de son passé.

Exemple 4.13 : Prédiction d’un processus AR(p) causal

On considère le processus AR(p) causal défini par l’équation récurrente Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt où
Zt ∼ BB(0, σ 2 ). Nous avons vu que HtX = HZ t
et que, pour tout k ≥ 1, on avait E [Xt−k Zt ] (confère équation
X
(??)). Par conséquent Zt ⊥ Ht−1 et HtX = Ht−1 X
⊕ span{Zt }. On en déduit que :
p
X p
X
X X X
(Xt |Ht−1 )= φk (Xt−k |Ht−1 ) + (Zt |Ht−1 )= φk Xt−k
k=1 k=1

X
Pp
et donc Xt − (Xt |Ht−1 ) = Xt − k=1 φk Xt−k = Zt . Par conséquent le bruit blanc Zt , qui intervient dans
l’équation
Pp récurrente d’un AR causal, est précisément l’innovation du processus AR. Ce résultat montre que
k=1 φ k X t−k est la projection de X(t) sur tout le passé Ht−1 et quélle coı̈ncide avec la projection orthogonale
sur le passé Ht−1,p de durée p. Par conséquent, pour tout m ≥ p, la suite des coefficients de prédiction est
{φ1 , . . . , φp , 0, . . . , 0}. Ce résultat est faux pour un AR non causal.
| {z }
m−p

Exemple 4.14 : Processus harmonique

Soit le processus harmonique Xt = A cos(λ0 t + Φ) où A est une variable aléatoire, centrée, de variance
2
σA et Φ une variable aléatoire, indépendante de A et distribuée suivant une loi uniforme sur [−π, π]. Le
2
processus Xt est stationnaire au second-ordre, centré, de fonction d’autocovariance γ(τ ) = (σA /2) cos(λ0 τ ).
Les coefficients du prédicteur linéaire optimal à l’ordre 2 sont donnés par :
· ¸ · ¸−1 · ¸ · ¸
φ1,2 1 cos(λ0 ) cos(λ0 ) cos(λ0 )
= =
φ2,2 cos(λ0 ) 1 cos(2λ0 ) −1

On vérifie facilement que σ22 = kXt − (Xt |Ht−1,2

X
)k2 = 0. Par conséquent, on a :
X X
Xt = (Xt |Ht−1,2 ) = 2 cos(λ0 )Xt−1 − Xt−2 ∈ Ht−1
X
et donc la projection (Xt |Ht−1 ) = Xt , ce qui implique que ²t = 0. A l’inverse du bruit blanc, le processus est
entièrement prédictible à partir de son passé.

79
En appliquant la proposition 4.5 à Xt , nous pouvons écrire :
X
lim (Xt |Ht−1,p X
) = (Xt |Ht−1 ) et lim ²+ = ²t (4.33)
p→∞ p→∞ t,p

Le processus d’innovation ²t est donc la limite en moyenne quadratique de la suite des innovations
partielles ²+ X
t,p = Xt − (Xt |Ht−1,p ). Une conséquence immédiate est que le processus d’innovation est
un processus stationnaire au second ordre. En utilisant, en effet, la continuité du produit scalaire et
la stationnarité au second ordre de l’innovation partielle d’ordre p, on peut écrire :

(²t+τ , ²t ) = lim (²+ + + +

t+τ,p , ²t,p ) = lim (²τ,p , ²0,p ) (4.34)
p→∞ p→∞

qui ne dépend que de τ . En particulier nous avons :

σ 2 = k²t k2 = lim kXt − (Xt |Ht,p

X
)k2 = lim σp2
p→∞ p→∞
£ ¤
Dans le cas du bruit blanc on obtient σ 2 = E Xt2 6= 0 et donc, d’après la définition 4.11, le bruit
blanc est un processus régulier. D’un autre côté, le processus harmonique, pour lequel σ 2 = 0, est
déterministe. Nous remarquons aussi que la somme d’un bruit blanc et d’un processus harmonique est
un processus régulier.
La structure géométrique emboı̂tée des espaces {HtX } et l’orthogonalité des innovations fournissent,
pour tout s < t, la formule suivante de décomposition en somme directe :

HtX = HsX ⊕ span{²s+1 , · · · , ²t } (4.35)

Notons, tout d’abord, que ²t = Xt − (Xt |Ht−1X ) ∈ HX et que ² ⊥ HX , ce qui implique que HX ⊕
t t t−1 t−1
X X ), HX = span{² + (X |HX ), {X , s ≤
span{²t } ⊆ Ht . D’un autre côté, puisque Xt = ²t + (Xt |Ht−1 t t t t−1 s
t − 1}} = span{²t , {Xs , s ≤ t − 1}}, ce qui entraı̂ne que HtX ⊆ Ht−1 X ⊕ span{² }. En conclusion
t
HtX = Ht−1X ⊕ span{Z }. En réitérant ce raisonnement, on en déduit la décomposition (4.35). Cette
t
décomposition orthogonale de l’espace HtX nést pas sans rappeler la décomposition de Gram-Schmidt.
Notons qu’à l’inverse de la décomposition de Gram-Schmidt classique, nous procédons ici dans le sens
rétrograde. Définissons pour tout s ≥ 0 :

(Xt , ²t−s )
ψs = (4.36)
σ2
Remarquons que ψs ne dépend pas de t. En effet, la continuité du produit scalaire et la stationnarité
conjointe du processus Xt et de l’innovation partielle impliquent que :

(Xt , ²t−s ) = lim (Xt , ²+ +

t−s,p ) = lim (X0 , ²−s,p )
p→∞ p→∞

Lemme 4.1. La suite {ψs } est de carré sommable et ψ0 = 1.

X ), ² ) = 0 entraı̂ne que :
Démonstration. Remarquons, tout d’abord, que la relation ((Xt |Ht−1 t

X ), ² )
(Xt − (Xt |Ht−1
(Xt , ²t ) t
ψ0 = 2
= 2
=1
σ σ

80
D’autre part, pour tout s ≥ 0, la projection orthogonale de Xt sur Ht,s ² = span{² , ²
t t−1 , · · · , ²t−s+1 }
²
Ps−1
s’écrit, du fait de l’orthogonalité du processus d’innovation, (Xt |Ht,s ) = k=0 ψk ²t−k . On en déduit
² )k2 = σ 2
Ps−1 2
que k(Xt |Ht,s k=0 ψk . On a alors d’après l’égalité de Pythagore (proposition 4.3) :

s−1
X
²
k(Xt |Ht,s )k2 =σ 2
ψk2 = kXt k2 − kXt − (Xt |Ht,s
²
)k2 ≤ kXt k2
k=0

ce qui conclut la preuve. ¥

P
La suite (ψs )s≥0 étant de carré sommable, la suite s → Xt,s = sk=0 ψk ²t−k est, pour t fixé, une
suite de Cauchy dans L2 (Ω, F, P). Elle admet donc, quand s → ∞, une limite que nous notons :
∞
X
Ut = ψk ²t−k
k=0

et qui est un processus stationnaire au second-ordre. On a, en effet :

s
X
E [Ut ] = (Ut , 1) = lim ψk (²t−k , 1) = 0
s→∞
k=0

et
Ã s s
! Ã s s
!
X X X X
E [Ut+τ Ut ] = (Ut+τ , Ut ) = lim ψk ²t+τ −k , ψk ²t−k = lim ψk ²τ −k , ψk ²−k
s→∞ s→∞
k=0 k=0 k=0 k=0

qui est indépendant de t.

Le théorème suivant, connu sous le nom de décomposition de Wold, est vraisemblablement le résultat
le plus important de la théorie des processus stationnaires au second-ordre.

Théorème 4.5 (Décomposition de Wold). Soit Xt un processus stationnaire au second ordre et ²t

son processus
P∞ d’innovation. On suppose que Xt est un processus régulier (σ 2 = k²t k2 6= 0). On note
Ut = k=0 ψk ²t−k où ψk = (Xt , ²t−k )/σ 2 . Alors il existe un processus Vt tel que :

Xt = Ut + Vt , (4.37)

et tel que :
(i). pour tout (t, s), (Vt , ²s ) = 0, qui implique que (Vt , Us ) = 0,
X ) est la projection orthogonale de X sur HX =
T∞ X
(ii). Vt = (Xt |H−∞ t −∞ t=−∞ Ht ,
U ) est l’innovation de U . De plus, H² = HU .
(iii). Ut est un processus régulier et ²t = Ut − (Ut |Ht−1 t t t
X .
(iv). Vt est un processus déterministe et HtV = H−∞

Démonstration. Elle est donnée en fin de chapitre. ¥

81
Un processus {Xt } tel que H−∞ X = {0} est dit purement non déterministe. Pour un tel processus

la partie déterministe de la décomposition de Wold est identiquement nulle. Par exemple, le processus
régulier Ut de la décomposition de Wold est purement non déterministe. En effet, en appliquant
la décomposition de Wold au processus Ut on a, pour tout t, Ut = Ut + Vt avec Vt = 0 et donc,
U
d’après le point (iv), H−∞ = {0}. Le théorème de Wold permet donc de décomposer tout processus
stationnaire au second-ordre sous la forme d’une somme de deux processus orthogonaux, le premier
étant purement non déterministe et le second étant déterministe. La partie purement non-déterministe
s’exprime comme le filtrage d’un bruit blanc par un filtre linéaire invariant dans le temps de réponse
impulsionnelle {ψk } causale (ψk = 0 pour k < 0) et de carré sommable (pas nécessairement de module
sommable).
Exemple 4.15 : Processus MA(1)
Soit {Zt } un bruit blanc et soit le processus Xt = Zt + θ1 Zt−1 . Remarquons que, par construction, HtX ⊆ HtZ
mais que l’inclusion réciproque nést pas nécessairement vérifiée. Montrons par contre que, pour |θ1 | < 1, nous
avons effectivement HtX = HtZ . En effet, en réitérant p fois l’équation Xt = Zt + θ1 Zt−1 et en résolvant par
rapport à Zt , nous obtenons :

Zt = Xt − θ1 Xt−1 + θ12 Xt−2 + · · · + (−1)p θ1p Xt−p − (−1)p θ1p+1 Zt−p

En prenant la limite en p, nous en déduisons que, si |θ1 | < 1, alors :

∞
X
Zt = (−θ1 )k Xt−k
k=0

ce qui montre que HtZ ⊂ HtX et donc que HtX = HtZ . Dans ce cas, nous pouvons écrire :
X X X Z Z
(Xt |Ht−1 ) = (Zt |Ht−1 ) + θ1 (Zt−1 |Ht−1 ) = (Zt |Ht−1 ) + θ1 (Zt−1 |Ht−1 ) = 0 + θ1 Zt−1
Z X
en remarquant que (Zt |Ht−1 ) = 0 car Zt est un bruit blanc. On en déduit que Xt −(Xt |Ht−1 ) = Xt −θ1 Zt−1 =
Zt . Par conséquent, lorsque |θ1 | < 1, le processus Zt est l’innovation du processus Xt . Notons que Xt est
purement non déterministe et que les coefficients de la décomposition de Wold sont simplement donnés par
ψ0 = 1, ψ1 = θ, et ψk = 0 pour k > 1.

82
4.7 Preuves des théorèmes 4.2, 4.4 et 4.5
Théorème 4.2. Soit E est un sous-espace fermé d’un espace de Hilbert H et soit x un élément
quelconque de H, alors :
(i). il existe un unique élément x̂ ∈ E tel que :

kx − x̂k = inf kx − wk
w∈E

(ii). x̂ ∈ E et kx − x̂k = inf w∈E kx − wk si et seulement si x̂ ∈ E et x − x̂ ⊥ E.

Démonstration. (i). Soit x ∈ H. On note h = inf w∈E kx−wk ≥ 0. Alors il existe une suite w1 , w2 , · · · ,
de vecteurs de E tels que :
lim kx − wm k2 = h2 ≥ 0 (4.38)
m→+∞

L’identité du parallélogramme, ka−bk2 +ka+bk2 = 2kak2 +2kbk2 avec a = wm −x et b = wn −x,

montre que :

kwm − wn k2 + kwm + wn − 2xk2 = 2kwm − xk2 + 2kwn − xk2

Comme (wm + wn )/2 ∈ E, nous avons kwm + wn − 2xk2 = 4k(wm + wn )/2 − xk2 ≥ 4h2 . D’après
4.38, pour tout ² > 0,il existe N tel que et ∀m, n > N :

kwm − wn k2 ≤ 2(h2 + ²) + 2(h2 + ²) − 4h2 = 4².

qui montre que wn est une suite de Cauchy et donc que wn tend vers une limite dans E, puisque
l’espace E est fermé. On note y cette limite. On en déduit, par continuité de la norme, que
ky − xk = h. Montrons que cet élément est unique. Supposons qu’il existe un autre élément
z ∈ E tel que kx − zk2 = kx − yk2 = h2 . Alors l’identité du parallélogramme donne :

0 ≤ ky − zk2 = −4k(y + z)/2 − xk2 + 2kx − yk2 + 2kx − zk2 ≤ −4h2 + 2h2 + 2h2 = 0

où nous avons utilisé que (y + z)/2 ∈ E et que k(y + z)/2 − xk2 ≥ h2 . Il s’en suit que y = z. x̂
est appelé la projection orthogonale de x sur E.
(ii). Soit x̂ la projection orthogonale de x sur E. Alors, si il existe u ∈ E tel que x − u ⊥ E, on peut
écrire :

kx − x̂k2 = (x − u + u − x̂, x − u + u − x̂) = kx − uk2 + ku − x̂k2 + 2(u − x̂, x − u)

= kx − uk2 + ku − x̂k2 + 0 ≥ kx − uk2

et donc u = x̂. Réciproquement supposons que u ∈ E et x − u 6⊥ E. Alors choisissons y ∈ E tel

que kyk = 1 et tel que c = (x − u, y) 6= 0 et notons x̃ = u + cy ∈ E. On a :

kx − x̃k2 = (x − u + u − x̃, x − u + u − x̃) = kx − uk2 + ku − x̃k2 + 2(u − x̃, x − u)

= kx − uk2 + c2 − 2c(y, x − u) = kx − uk2 − c2 < kx − uk2

Par conséquent x̃ ∈ E est strictement plus proche de x que ne l’est u.

83
Théorème 4.4. Soit le processus {Xt } régulier. Alors, pour tout p, φp (z) 6= 0 pour |z| ≤ 1. Tous les
zéros des polynômes prédicteurs sont à l’extérieur du cercle unité.

Démonstration. Nous allons tout d’abord montrer que le prédicteur optimal n’a pas de racines sur
le cercle unité. Raisonnons par contradiction. Supposons que le polynôme φp (z) ait deux racines
complexes conjuguées, de la forme exp(±iπθ), sur le cercle unité. (on traite de façon similaire le cas
de racines réelles, θ = 0 ou π). Nous pouvons écrire :

φp (z) = φ∗p (z)(1 − 2 cos(θ)z + z 2 )

On note ν̄X (dλ) = νX (dλ)|φ∗p (e−iλ )|2 . ν̄X est une mesure positive sur [−π, π] de masse finie. On note
γ̄(τ ) la suite des coefficients de Fourier associés à ν̄X :
Z π
1
γ̄(τ ) = eiτ λ ν̄X (dλ)
2π −π

Nous avons donc :

Z π Z π
2 1 −iλ −2iλ 1
σp = (1 − 2 cos(θ)e +e )ν̄X (dλ) = inf |1 + ψ1 e−iλ + ψ2 e−2iλ |2 ν̄X (dλ).
2π −π ψ∈P2 2π −π

Comme on l’a dit (page 67), la minimisation de σp2 par rapport à ψ1 et ψ2 est équivalent à la résolution
des équations de Yule-Walker à l’ordre p = 2 pour la suite des covariances γ̄(h). Par conséquent la
suite des coefficients {1, −2 cos(θ), 1} doit vérifier l’équation :
    2 
γ̄(0) γ̄(1) γ̄(2) 1 σp
 γ̄(1) γ̄(0) γ̄(1)   −2 cos(θ)  =  0 
γ̄(2) γ̄(1) γ̄(0) 1 0

De cette équation il s’en suit (les première et troisième lignes sont égales) que σp2 = 0. Ce qui est
contraire à l’hypothèse que le processus est régulier.
Démontrons maintenant que les racines des polynômes prédicteurs sont toutes strictement à l’extérieur
du cercle unité. Raisonnons encore par l’absurde. Supposons que le polynôme prédicteur à l’ordre p
ait m racines {ak , |ak | < 1, 1 ≤ k ≤ m} à l’intérieur du cercle unité et (p − m) racines {b` , |b` | > 1, 1 ≤
` ≤ p − m} à l’extérieur du cercle unité. Le polynôme prédicteur à l’ordre p s’écrit donc :
m
Y p−m
Y
φp (z) = (1 − a−1
k z) (1 − b−1
` z)
k=1 `=1

Considérons alors le polynôme :

m
Y p−m
Y
φ̄p (z) = (1 − a∗k z) (1 − b−1
` z)
k=1 `=1

Il a d’une part toutes ses racines strictement à l’extérieur du cercle unité et d’autre part il vérifie
|φ̄p (e−iλ )|2 < |φp (e−iλ )|2 . On a en effet |1−a∗k e−iλ | = |1−ak eiλ | = |ak ||1−a−1
k e
−iλ | et donc |φ̄ (e−iλ )|2 =
p

Théorème 4.5. Soit Xt un processus stationnaire au second ordre et ²t son processus

P∞d’innovation.
2 2
On suppose que Xt est un processus régulier (σ = k²t k 6= 0). On note Ut = k=0 ψk ²t−k où
ψk = (Xt , ²t−k )/σ 2 . Alors il existe un processus Vt tel que :

Xt = Ut + Vt , (4.39)

et tel que :
(i). pour tout (t, s), (Vt , ²s ) = 0, qui implique que (Vt , Us ) = 0,
X ) est la projection orthogonale de X sur HX =
T∞ X
(ii). Vt = (Xt |H−∞ t −∞ t=−∞ Ht ,
U ) est l’innovation de U . De plus, H² = HU .
(iii). Ut est un processus régulier et ²t = Ut − (Ut |Ht−1 t t t
(iv). Vt est un processus déterministe et HtV = H−∞ X .

P
Démonstration. (i). Par définition, Vt = Xt − ∞ X X
k=0 ψk ²t−k ∈ Ht . Pour s > t, ²s ⊥ Ht , et donc
2
(Vt , ²s ) = 0. Pour s ≤ t, (Vt , ²s ) = (Xt , ²s ) − ψt−s σ qui est égal à 0 par définition de ψk .
(ii). Montrons tout d’abord que Vt ∈ H−∞ X . La preuve se fait par récurrence. Nous avons V ∈ HX
t t
et Vt ⊥ ²t (d’après la propriété précédente). Comme HtX = Ht−1 X ⊕ span{² }, on en déduit
t
que Vt ∈ Ht−1 X . Supposons à présent que V ∈ HX , pour s ≥ 0. Comme V ⊥ ² et que
t t−s t Tt−s
X X ∞
Ht−s = Ht−s−1 ⊕ span{²t−s }, nous P avons Vt ∈ Ht−s−1 . On a donc Vt ∈ H−∞ = s=−∞ HsX .
X X

Il reste à montrer que (Xt − Vt ) = ∞ X

k=0 ψk ²t−k est orthogonal à H−∞ . Pour cela considérons
X
Y ∈ H−∞ . Nous avons :
Ã∞ ! s
X X
(Xt − Vt , Y ) = ψk ²t−k , Y = lim ψk (²t−k , Y )
s→+∞
k=0 k=0

Mais, par définition, Y P X implique que, pour tout t, Y ∈ HX . Comme ²

∈ H−∞ X
t t−k ⊥ Ht−s−1 pour
s X
0 ≤ k ≤ s, nous avons k=0 ψk (²t−k , Y ) = 0. Et donc, pour tout Y ∈ H−∞ , on a :

(Xt − Vt , Y ) = (Ut , Y ) = 0 (4.40)

(iii). Notons que (4.40) implique que, pour tout t, Ut ⊥ H−∞ X et donc HtU = span{Us , s ≤ t} ⊥ H−∞ X .
U X
On peut alors poser Lt = Ht ⊕ H−∞ . La décomposition Xt = Ut + Vt et la propriété précédente
(Vt = (Xt |H−∞X )) impliquent que, pour tout t, HX ⊂ L , et donc ² ∈ L . Comme, pour tout
t t t t
t, ²t ⊥ Ht−u pour tout u ≥ 0, ²t ⊥ Y pour tout Y ∈ H−∞ X , puisque, en particulier, Y ∈ H
P∞ t−u .
Nous avons ² ⊥ H X . Et donc ² ∈ HU . Cela entraı̂ne que ψ ² ∈ H U . Notons que
P∞ t −∞ t t k=1 k t−k t−1
U
k=1 ψk ²t−k = Ut − ²t (ψ0 = 1). Par conséquent, pour tout Y ∈ Ht−1 on a :
Ã ∞
!
X
Ut − ψk ²t−k , Y = (²t , Y ) = 0
k=1

85
P∞ U
Cela implique que k=1 ψk ²t−k est la projection orthogonale de Ut sur Ht−1 et donc que :
U
²t = Ut − (Ut |Ht−1 )

Cela signifie que ²t est le processus d’innovation de Ut . Comme, par hypothèse, σ 2 = k²t k2 6= 0,
Ut est donc régulier. Remarquons que, comme ²t ∈ HtU , nous avons Ht² ⊂ HtU . Comme, par
construction, HtU ⊂ Ht² , nous avons HtU = Ht² .
(iv). Montrons tout d’abord que, pour tout t, on a :

HtV = span{Vs , s ≤ t} = H−∞

X
(4.41)
X
P+∞
Pour tout t, Vt ∈ H−∞ et donc HtV ⊆ H−∞ X . D’un autre côté, puisque X =
t k=0 ψk ²t−k + Vt ,
HtX = Ht² ⊕ HtV . Et donc, quel que soit Y ∈ H−∞X , alors Y ∈ HX pour tout s, de telle sorte que
s−1
(Y, ²s ) = 0 et donc Y ∈ HtV , ce qui implique que H−∞
X ⊆ HV . Ce qui démontre (4.41). Partant
t
V ) = (V |HX ) = (V |HV ) = V et que kV − (V |HV )k2 = 0 :
de (4.41), on déduit que (Vt |Ht−1 t −∞ t t t t t t−1
Vt est donc déterministe.
¥

86
Chapitre 5

Estimation des processus ARMA

Dans ce chapitre nous nous intéressons aux problèmes de l’estimation des paramètres d’un pro-
cessus ARMA(p, q) à partir d’une suite de n observations. Nous supposons que les données ont été
préalablement traitées de façon à supprimer d’éventuelles tendances affine et/ou saisonnière. L’estima-
tion des paramètres d’un processus ARMA(p, q) comprend aussi, en principe, l’estimation des ordres
p et q. Ce problème est complexe et ne sera pas traité dans ce chapitre. Nous supposons donc que p
et q sont connus et nous nous intéressons uniquement à l’estimation des paramètres {φk ; 1 ≤ k ≤ p},
{θk ; 1 ≤ k ≤ q} et σ 2 intervenant dans l’équation récurrente définissant le processus (voir équation
(1.39) chapitre 1). Dans le cas de l’estimation d’un processus AR(p), on verra que, pour obtenir de
bons estimateurs de {φk ; 1 ≤ k ≤ p} et de σ 2 , il suffit de partir des (p + 1) premiers coefficients
d’autocovariance empirique et de résoudre les équations de Yule-Walker. Cela signifie que, quel que
soit n, les observations n’interviennent, dans l’expression de l’estimateur, que par un nombre fixé, égal
à p + 1, de valeurs de la covariance empirique :
n−h
1X
γ̂n (h) = (Xt+h − µ̂n )(Xt − µ̂n )
n
t=1

−1
Pn
où 0 ≤ h ≤ p et µ̂n = n t=1 Xt . Cela n’est plus vrai pour un processus ARMA(p, q) avec q > 1
(comme par exemple pour un MA(q)) : la construction de bons estimateurs ne peut se faire avec
un nombre fixé (indépendant de n) de valeurs de la suite des covariances empiriques. Cela rend plus
complexe l’estimation ARMA. Il s’en suit que, contrairement au cas de l’estimation AR, il existe de
nombreuses méthodes. La solution retenue en pratique établit un compromis entre biais, variance et
complexité de mise en œuvre.

5.1 Estimation AR
Nous avons établi, chapitre 1, une relation simple (équations (1.36) de Yule-Walker) entre les (p+1)
coefficients du modèle et les (p + 1) premiers coefficients d’autocovariance d’un processus AR(p) causal
défini par l’équation récurrente :

Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt

87
£ ¤T £ ¤T
En posant φ = φ1 . . . φ1 , γ p = γ(1) . . . γ(p) et :
 
γ(0) γ(1) ··· γ(p)
γ(1) γ(0) ··· γ(p − 1)
 
Γp =  . .. 
 .. . 
γ(p) γ(p − 1) · · · γ(0)

les équations de Yule-Walker ont pour expression matricielle :

Γp φ = γ p (5.1)
σ 2 = γ(0) − φT γ p

En substituant, dans ces relations, les covariances γ(h) par les covariances empiriques γ̂(h), on obtient
un système linéaire qui fournit les estimateurs φ̂n et σ̂n2 comme solution de :

Γ̂p φ̂n = γ̂ p (5.2)

T
σ̂n2 = γ̂(0) − φ̂n γ̂ p (5.3)

On a vu chapitre 2 que, si γ̂(0) > 0, alors Γ̂p est de rang plein. En divisant alors les deux membres de
Γ̂p φ̂n = γ̂ p par γ̂(0) et en introduisant l’autocorrélation empirique ρ̂(h) = γ̂(h)/γ̂(0), on aboutit aux
deux équations :

φ̂n = Ĉp−1 ρ̂p (5.4)

σ̂n2 = γ̂(0)(1 − ρ̂Tp Ĉp−1 ρ̂p ) (5.5)
£ ¤T
où ρ̂p = ρ̂(1) . . . ρ̂(p) et :
 
ρ̂(0) ρ̂(1) ··· ρ̂(p)
ρ̂(1) ρ̂(0) ··· ρ̂(p − 1)
 
Ĉp =  . .. 
 .. . 
ρ̂(p) ρ̂(p − 1) · · · ρ̂(0)

Le fait que la matrice R̂p (comme la matrice Ĉp ) soit, par construction, de Toëplitz et de type défini
positif (voir théorème 4.4 chapitre 4) implique que les coefficients estimés φ̂p sont tels que le polynôme
P
φ̂(z) = 1 − pk=1 φ̂k z k a toutes ses racines strictement à l’extérieur du cercle unité : cette façon de
procéder aboutit donc nécessairement à un processus AR(p) causal. Ses (p + 1) premiers coefficients de
covariance coı̈ncident alors avec les coefficients de covariance empiriques. La méthode qui consiste pour
estimer des paramètres à substituer, dans une relation telle que (5.1), les moments par des estimateurs
consistants, porte le nom de méthode des moments. En règle générale, elle conduit à des estimateurs
des paramètres qui sont moins efficaces que ceux obtenus par la méthode des moindres carrés ou
encore par la méthode du maximum de vraisemblance. Cependant, dans le cas d’un modèle AR(p)
gaussien, on montre que les estimateurs φ̂ et σ̂ 2 , donnés par (5.2) et (5.3), ont le même comportement
asymptotique, quand n tend vers l’infini, que ceux du maximum de vraisemblance. Nous avons vu,

88
chapitre 4 exemple 4.13, que les coefficients de l’équation récurrente d’un AR(p) causal sont directement
reliés aux coefficients du meilleur prédicteur linéaire donnant Xt à partir de ses valeurs passées : plus
précisément, pour tout m ≥ p, la suite des m coefficients de prédiction φm = {φ1,m , . . . , φm,m } coı̈ncide
avec {φ1 , . . . , φp , 0, . . . , 0}. Par conséquent, pour un AR(p) causal, l’algorithme de Levinson-Durbin
fournit une résolution rapide aux équations de Yule-Walker. On voit aussi que, si, ne connaissant pas
la vraie valeur de p, on prend un ordre m > p, on peut espérer que les (m − p) derniers coefficients de
prédiction seront de faibles valeurs.
Les théorèmes suivants précisent le comportement asymptotique de la suite φ et permettent alors de
construire des intervalles de confiance ou de fournir des tests d’hypothèse.

Théorème 5.1. Soit Xt un processus AR(p) causal où Zt ∼ IID(0, σ 2 ) et soit un échantillon
{X1 , . . . , Xn } de taille n. On note φ̂n = Ĉp−1 ρ̂p et σ̂n2 = γ̂(0)(1 − ρ̂Tp Ĉp−1 ρ̂p ). Alors, quand n → ∞, on
a : 
 σ̂ 2 →P σ 2
n
√ (5.6)
 n(φ̂ − φ) → N (0, σ 2 Γ−1 )
n d p

Théorème 5.2. Soit Xt un processus AR(p) causal où Zt ∼ IID(0, σ 2 ) et soit un échantillon
−1 ρ̂ où m > p. Alors, quand n → ∞, on a :
{X1 , . . . , Xn } de taille n. On note φ̂n = Ĉm m
√
n(φ̂n − φm ) →d N (0, σ 2 Γ−1
m ) (5.7)

où φm = {φ1 , . . . , φp , 0, . . . , 0} est la suite du meilleur prédicteur linéaire de Xt en fonction de

{Xt−1 , . . . , Xt−m }.

En particulier, le m-ème coefficient de corrélation partielle k̂n (m) = φ̂m,m vérifie :

√
n k̂n (m) →d N (0, 1) (5.8)

On en déduit le résultat pratique suivant : si un modèle autorégressive est approprié pour une suite
d’observations, il doit y avoir une valeur m à partir de laquelle les valeurs observées de k̂n (m) sont
compatibles avec la distribution N (0, 1/n). En particulier si m est supérieur à l’ordre du modèle, k̂n (m)
√
doit être compris entre ±1.96/ n avec une probabilité proche de 95%. Ce résultat suggère d’utiliser
√
comme estimateur de p la plus petite valeur r au delà de laquelle |k̂n (m)| < 1.96/ n pour tout
m > r. Cette valeur peut servir de valeur initiale à des algorithmes plus performants d’estimation de p.

Exemple 5.1 : Suite des coefficients de réflexion d’un processus AR(2)

Le théorème 5.2 montre que le coefficient de réflexion φm,m pour m > 1 se comporte comme une variable
aléatoire gaussienne de moyenne nulle et de variance de l’ordre de 1/n. Nous avons représenté figure 5.1 les
suites, obtenues au cours de 7 simulations, de φm,m en fonction de m pour un échantillon AR(2) de longueur
n = 500. Les valeurs des paramètres sont φ1 = 1.6, φ2 = −0.9 et σ 2 = 1. Le calcul théorique donne φ1,1 = 0.8,
φ2,2 = −0.9 et, pour m ≥ 2, φm,m = 0. Nous avons aussi représenté l’intervalle de confiance à 95% pour
m ≥ 2.

89
1

0.5

−0.5

m
−1
1 2 3 4 5 6 7 8 9 10

Fig. 5.1 – Suites, obtenues au cours de 7 simulations, des coefficients de

réflexion en fonction de m, pour un échantillon de longueur n = 500 d’un
processus AR(2) défini par φ1 = 1.6, φ2 = −0.9 et σ 2 = 1.

Méthode du maximum de vraisemblance

Considérons un AR(p) causal où Zt ∼ IID(0, σ 2 ) dont la loi de probabilité a pour densité pZ (z; η)
où η désigne un paramètre vectoriel à estimer. Soit (X1 , . . . , Xn ) une observation de taille n. On peut
alors écrire :


Xp+1 = φ1 Xp + · · · + φp X1 + Zp+1

..
 .

X = φ X
n 1 n−1 + · · · + φp Xn−p + Zn

Rappelons que, pour un AR(p) causal (φ(z) 6= 0 pour |z| ≤ 1), les variables aléatoires {X1 , . . . , Xp }
appartiennent à HpZ = span{Zs ; s ≤ p}. Par conséquent, le vecteur aléatoire [X1 , . . . , Xp ] est une
fonction mesurable de {Zs ; s ≤ p}. Comme les variables aléatoires Zt sont supposées (conjointe-
ment) indépendantes, les variables aléatoires {X1 , . . . , Xp } sont indépendantes des variables aléatoires
{Zp+1 , . . . , Zn }. On en déduit que la loi conditionnelle de (Xp+1 , . . . , Xn ) par rapport à (X1 , . . . , Xp )
a pour log-densité :
n
X ¡ ¢
log pXp+1 ,...,Xn |X1 ,...,Xp (x1 , . . . , xn ; θ) = log pZ xk − φT xk ; η (5.9)
k=p+1

où xk = [xk . . . xk−p+1 ]T , φ = [φ1 . . . φp ]T et θ = (φ, η). L’estimateur du maximum de vraisem-

blance consiste à trouver, pour une suite d’observations (x1 , . . . , xn ), la valeur de θ = (φ, η) qui maxi-
mise (5.9). Dans ce contexte, la fonction (5.9) à maximiser s’appelle la log-vraisemblance. D’où le nom
de l’estimateur obtenu. Dans le cas où la loi de Zt est gaussienne, 2 log pZ (z; σ 2 ) = − log(2πσ 2 )−z 2 /σ 2

90
et l’expression (5.9) s’écrit :
n
n−p 1 X
log pXp+1 ,...,Xn |X1 ,...,Xp (x1 , . . . , xn ; θ) = − log(2πσ 2 ) − 2 (xk − φT xk )2
2 2σ
k=p+1
n−p 1
=− log(2πσ 2 ) − 2 kX − X φk2
2 2σ
où X = [xp+1 . . . xn ]T et :
 
xp · · · x1
 xp+1 · · · x2 
 
X = .. 
 . 
xn−1 · · · xn−p

En annulant le gradient de la log-vraisemblance par rapport à φ, il vient X T (X − X φ̂) = 0 dont

on tire φ̂ = (X T X )−1 X T X qui est l’estimateur des moindres carrés. On notera que, contrairement
à la méthode de Yule-Walker, la matrice de type positif X T X , à inverser, n’a pas une structure de
Toëplitz. La conséquence majeure est que la suite des coefficients {φ̂k } qui en sont déduits ne sont pas
nécessairement ceux d’un AR causal. Il peut arriver que les zéros du polynôme φ̂(z) associé soient à
l’intérieur du cercle unité.
Dans le cas où la loi de Zt n’est pas gaussienne, l’expression d’un estimateur du maximum de vraisem-
blance ne possède pas de forme simple et on doit, en général, faire appel à des techniques numériques.

5.2 Estimation MA
Nous avonsPq vu que le modèle MA correspond à un filtre linéaire dont la fonction de transfert
k
θ(z) = 1 + k=1 θk z est un polynôme en z. On rencontre cette modélisation pour les canaux de
propagation comportant des trajets multiples (en nombre fini), chaque trajet introduisant un retard
et/ou une atténuation. C’est, par exemple, le cas des canaux de communication en radio-mobile ou
encore de certains canaux de propagation acoustique. Le problème majeur rencontré en modélisation
MA est l’impossibilité de retrouver à partir des propriétés du second ordre les paramètres du modèle.
En effet la densité spectrale d’un MA a pour expression :
¯ ¯2
σ 2 ¯¯ ¯
q
X ¯
f (λ) = ¯1 + θk e−ikλ ¯
2π ¯ ¯
k=1

Elle ne définit donc pas, de manière unique, un processus MA(q). Tous les processus MA(q) de fonction
de transfert :
m
Y 1 − zs∗ z
θ0 (z) = θ(z)
z − zs
s=1

où {zs }1≤s≤m≤q sont une sous-suite quelconque de m zéros de θ(z), ont même densité spectrale. En
effet (1−zs∗ e−iλ )/(e−iλ −zs ) est de module égal à 1. Par conséquent, partant de f (x), on peut construire
plusieurs processus MA(q) suivant que l’on place un zéro à l’intérieur où à l’extérieur du cercle unité.

91
Nous avons vu théorème 1.10 que, parmi toutes ces solutions, celle qui a tous ses zéros à l’extérieur du
cercle unité est inversible (on dit aussi que le processus est à phase minimale). Sous l’hypothèse que
le processus MA(q) observé est inversible, le problème de la détermination des paramètres à partir de
la suite des covariances a une solution unique. Malheureusement dans certaines situations pratiques,
en particulier en communications numériques, l’hypothèse de phase minimale n’est pas vérifiée. Dans
ce cas il faut faire appel à des statistiques d’ordre supérieur à 2 pour résoudre le problème. Notons
que, dans le cas gaussien, il est donc impossible de résoudre le problème puisque, par définition, les
moments de tout ordre d’une variable gaussienne sont fonction des moments d’ordre 2.
Dans la suite nous supposerons que le MA est inversible.
Exemple 5.2 : Estimation MA(1) : méthode des moments
Soit un processus MA(1) défini par Xt = Zt +θ1 Zt−1 . On suppose que |θ1 | ≤ 1 et donc θ(z) = 1+θ1 z s’annule
en z0 = 1/θ1 qui est à l’extérieur du cercle unité. Le modèle est donc inversible. La fonction d’autocorrélation
s’écrit :
(
θ1 /(1 + θ12 ) si h = ±1
ρ(h) =
0 si |h| ≥ 2

La méthode des moments consiste à substituer à ρ(1) la corrélation empirique ρ̂n (1) et à résoudre par rapport
à θ1 . En supposant que |θ1 | < 1, il vient :


−1 si ρ̂n (1) < −1/2
2 1/2
θ̂1 = (1 − (1 − 4ρ̂n (1)) )/2ρ̂(1) si |ρ̂n (1)| ≤ 1/2


+1 si ρ̂(1) > 1/2

Une fois θ̂1 estimé, on obtient une estimation de σ 2 en utilisant, par exemple, l’expression de γ(1) qui
donne, par la méthode des moments, σ̂ 2 = θ̂1 /γ̂(1). Malheureusement cet estimateur est de performances
inférieures à celles de l’estimateur du maximum de vraisemblance même dans le cas gaussien. De façon
plus précise l’estimateur n’est pas même consistant. Le problème est que l’estimateur précédent est construit
uniquement à partir du couple de statistiques ρ̂n (0) et ρ̂n (1). Or on montre que, quand n tend vers l’infini,
il n’y a pas de statistiques de dimension finie qui soit suffisante. On peut alors envisager de trouver un
estimateur du maximum de vraisemblance. Dans le cas où Zt est un bruit blanc gaussien, la log-vraisemblance
de l’observation a pour expression :

log pX1 ,...,Xn (x1 , . . . , xn ; θ1 , σ 2 ) =

 
x1
n 1 1  
− log(2πσ 2 ) − log det(C(θ1 )) − 2 [x1 ... xn ]C −1 (θ1 )  ... 
2 2 2σ
xn

où Γ(θ1 ) de dimension n × n a pour expression :

 
1 + θ12 θ1 0 ··· 0
 θ1 1 + θ12 θ1 ··· 0 
 
 .
.. .. .. .. 
C(θ1 ) =  . . . 
 
 0 ··· θ1 1 + θ12 θ1 
0 ··· 0 θ1 1 + θ12

La maximisation par rapport à θ1 et σ 2 ne conduit pas des expressions analytiques simples. Par contre nous
verrons un algorithme récursif qui permet de déterminer cet estimateur.

92
Méthode de Durbin
LaPméthode proposée par Durbin s’appuie sur le fait qu’un processus MA(q), défini par Xt =
Zt + qk=1 θk Zt−k , peut être approché par un AR(p) suffisamment P∞long. Plus précisément supposons
k
que θ(z) 6= 0 pour |z| ≤ 1. On a vuPque ψ(z) = 1/θ(z) = 1 − k=1 ψk z où {ψk } est une suite de
module sommable et que Zt = Xt − ∞ k=1 ψk Xt−k . Mais, puisque θ(z) est continue, il existe PM > 0 tel
p
que, pour tout |z| ≤ 1, on a |θ(z)| ≤ M et donc |ψ(z)| ≥ 1/M = m > 0. Posons ψp (z) = 1− k=1 ψk z k .
Alors il existe p suffisamment grand tel que, pour tout |z| ≤ 1, |ψ(z) − ψp (z)| < m/2. On en déduit
que m ≤ |ψ(z)| = |ψ(z) − ψp (z) + ψp (z)| ≤ |ψ(z) − ψp (z)| + |ψp (z)| ≤ m/2 + |ψp (z)| qui implique que
|ψp (z)| ≥ m/2 > 0. En conclusion, pour tout |z| ≤ 1, il existe p suffisamment P grand tel que |ψp (z)| > 0.
On en déduit que le processus défini par l’équation récurrente X̃t = Zt + pk=1 ψk Xt−k est un AR(p)
P h i ³P ´2
causal. De plus Xt − X̃t = ∞ k=p+1 ψ k Xt−k et donc E |Xt − X̃t |2 ≤ γ(0) ∞
k=p+1 |ψ k | qui tend
vers 0 quand p tend vers l’infini.
La méthode de Durbin, qui estime un MA(q) inversible comme un AR(p) causal long, comporte
donc une première étape pour estimer les p coefficients {ψ1 , . . . , ψp } de prédiction linéaire, obtenus
comme solution desP équations de Yule-Walker.
Pq Il faut ensuite estimer la suite {θk }. En principe on a
ψ(z)θ(z) = (1 − ∞ m=1 mψ z m )(1 +
k=1 kθ z k ) = 1. On en déduit que, pour tout h ≥ 1 :

min(h,q)
X
φh−k θk = 0
k=0

où θ0 = φ0 = 1 et φk = −ψk pour k ≥ 1. En adoptant une approche de type moindres carrés, on peut
Pmin(h,q)
alors minimiser la norme du vecteur e de composantes ²h = k=0 φ̂h−k θ̂k où 1 ≤ h ≤ p + q. Ce
qui s’écrit encore :    
−ψ̂1 1 0 ··· 0
 −ψ̂2   .. 
  −ψ̂1 1 . . . . 
 .   
 ..   .. .. ..    
   . . . 0  θ̂1 ²1
−ψ̂   
 p−1   ..   ..   .. 
 0  + −ψ̂p . 1  .  =  . 
   
 .   ..  θ̂q ²p+q
 ..   0 . −ψ̂ 1
   
 .   .. .. .. .. 
 ..   . . . . 
0 0 · · · 0 −ψ̂p

Avec des notations matricielles évidentes, cette équation peut encore s’écrire ψ̂ = −Ψ̂θ̂ +e. La solution
qui minimise eT e a pour expression :

θ̂ = −(Ψ̂T Ψ̂)−1 Ψ̂T ψ̂ (5.10)

On remarque que l’équation (5.10) a la même forme que la solution des équations de Yule-Walker en
prenant pour suite des “observations” les p + 1 quantités {ψ0 = 1, −ψ̂1 , . . . , −ψ̂p }. L’algorithme de
Durbin, qui estime un MA(q) à partir de n données, peut alors se résumer de la façon suivante :

93
· Choisir une valeur de p (q ¿ p ¿ n) et estimer les coeffi-
cients de l’AR(p) à partir des n observations.
· Estimer les coefficients de l’AR(q) à partir des p “obser-
vations” {1, −ψ̂1 , . . . , −ψ̂p }.

Dans la méthode de Durbin, qui estime un MA(q) comme un AR(p) long, se pose le problème du
choix optimal de p. Ce problème ne sera pas traité ici de façon générale. Nous nous limiterons à
l’exemple numérique qui suit et qui montre qu’il y a un compromis à trouver entre biais et variance.
Remarquons à ce sujet que, plus les zéros de θ(z) sont proches du cercle unité, plus la valeur de p doit
être choisie grande si on veut avoir une bonne précision et donc un biais faible. D’un autre côté, plus p
est grand, plus la dispersion de l’estimateur est grande, du fait d’une “mauvaise” estimation de certains
coefficients de covariance. Dans tous les cas la suite d’estimateurs n’est pas consistante. La méthode
peut cependant fournir une bonne valeur d’initialisation pour des algorithmes plus complexes, comme
celui du maximum de vraisemblance.
Exemple 5.3 : Estimation MA(1) : méthode de Durbin
Le tableau 5.1 donne la moyenne, la variance et le risque, estimés empiriquement à partir de 200 réalisations,
de l’estimateur de Durbin pour un processus MA(1) (où θ1 = 0.95) et pour différentes valeurs de p. La taille
de l’échantillon est n = 300. On observe que, quand p augmente, la variance augmente, tandis que la moyenne
et le risque passent par un minimum.

p 20 40 70 120 250
biais −0.1008 −0.0863 −0.0841 −0.0840 −0.0939
variance 0.0007 0.0009 0.0012 0.0016 0.0018
risque 0.0108 0.0083 0.0082 0.0087 0.0106

Tab. 5.1 – Biais, variance et risque empiriques de l’estimateur

de Durbin pour un processus MA(1) pour différentes valeurs de p.

Méthode des innovations partielles

X) =
Pp
Soit un processus MA(q) inversible. On note (Xt |Ht,p k=1 ψk,p Xt−k la prédiction linéaire
X
optimale de Xt à partir de {Xt−1 , . . . , Xt−p } et Zp,t = Xt −(Xt |Ht,p ) le processus d’innovation partielle.
Nous avons vu chapitre 4 que, pour un processus stationnaire au second ordre (voir expression (4.33)),
le processus d’innovation partielle tendait en moyenne quadratique, quand p tend vers l’infini, vers le
processus d’innovation
P qui est précisément Zt pour un MA(q) inversible. D’où l’idée de remplacer dans
l’équation Xt = qk=1 θk Zt−k , le processus Zt par une estimation du processus d’innovation partielle
Ẑp,t . Cette estimation peut être réalisée par une estimation des coefficients de prédiction suivie d’un
filtrage de la suite Xt observée par le filtre à réponse impulsionnelle finie {1, −ψ̂1,p , . . . , −ψ̂p,p }. Une
autre façon est d’estimer les coefficients de corrélation partielle et d’utiliser la structure de filtrage en
treillis donnée figure 4.1. Une fois la suite Ẑp,t estimée, on peut ensuite estimer la suite {θk }, par une

94
approche de type moindres carrés, en minimisant kx − Ẑ θ̂k2 où x = [Xp+q . . . Xn ]T et :
 
Ẑp,p+q . . . Ẑp,p
Ẑp,p+q+1 . . . Ẑp,p+1 
 
Ẑ =  .. 
 . 
Ẑp,n ... Ẑp,n−q+1

On obtient θ̂ = (Ẑ T Ẑ)−1 Ẑ T x. L’un des avantages de cette méthode est qu’elle peut être appliquée à
tout processus ARMA(p, q) causale et inversible.

Méthode du maximum de vraisemblance approchée

P
On considère le processus Xt = Zt + qk=1 θk Zt−k où Zt est un bruit blanc, centré, gaussien. Soit
{X1 , . . . , Xn } une suite de n observations. On peut alors écrire :
 
1 0 ··· ··· 0
        
X1 θ1 1 · · · · · · 0 Z1 Z0 Z1
 ..   .
. . .. . ..   .   .   . 
 . = .
  .  + Θ0 
 . ..  = Θ  ..  + Θ0 Z0
 .. .. 
Xn . . 1 0 Zn Z−(q−1) Zn
0 ··· θ1 1

où Θ0 est une matrice, de dimension n × q, dont seul le triangle supérieur, de dimension q × q, est
constitué de termes non nuls. Comme Zt est un processus aléatoire gaussien, Xt est aussi un processus
aléatoire gaussien. L’approche adoptée ici consiste à négliger le terme Θ0 Z0 . En remarquant que
detΘ = 1, la loi de X a donc pour densité :
 
x1
2 n 2 1 £ ¤  .. 
log pX1 ,...,Xn (x1 , . . . , xn ; θ, σ ) ≈ − log(2πσ ) − 2 x1 · · · xn C(θ)  . 
2 2σ
xn

où C(θ) = (Θ−1 )T Θ−1 . On note ckm (θ) les éléments de C(θ). La maximisation par rapport à σ 2
donne :
n
1 X
σ̂ 2 = ckm (θ)Xk Xm
n
k,m=1

En portant cette expression dans la log-vraisemblance, la maximisation à effectuer est équivalente à

la minimisation, par rapport à θ, de l’expression :
n
X
θ̂ n = arg min ckm (θ)Xk Xm
θ∈Θ
k,m=1

95
5.3 Estimation ARMA
Equations de Yule-Walker pour un ARMA
Considérons un processus ARMA(p, q) causal défini par :
p
X q
X
Xt = φk Xt−k + θk Zt−k + Zt
k=1 k=1
P
où φ(z) = 1− pk=1 φk z k 6= 0 pour |z| ≤ 1. On note γ(h) sa fonction de covariance. Alors en multipliant
les deux membres de l’équation récurrente par Xt−h , en prenant l’espérance et en utilisant le fait que
E [Zt Xt−h ] = 0 pour h ≥ q + 1, il vient :
p
X
γ(h) = φk γ(h − k)
k=1

En regroupant pour q + 1 ≤ h ≤ p + q les p équations sous forme matricielle, on obtient :

 
γ(q) γ(q − 1) · · · · · · γ(q − p + 1)    
 γ(q + 1) γ(q) · · · · · · γ(q + p − 2) φ1 γ(q + 1)
   
 .
.. ..  φ2  γ(q + 2) 
 .  .  =  ..  (5.11)
  .   
 .. ..  . .
 . . 
φp γ(q + p)
γ(q + p − 1) γ(q + p − 2) ··· γ(q)

Cette expression matricielle a une forme analogue aux équations de Yule-Walker d’un AR(p). On no-
tera cependant que la matrice n’est plus symétrique. En substituant aux covariances les covariances
empiriques γ̂(q −p+1), . . . , γ̂(q +p) on obtient une estimation de la suite φk . Contrairement à l’estima-
tion des coefficients d’un AR(p), par la résolution des équations de Yule-Walker, la résolution de (5.11)
ne donne pas nécessairement un polynôme φ̂(z) dont les racines sont toutes strictement à l’extérieur
du cercle unité. Une façon de procéder est de déterminer les racines de φ̂(z) et “d’inverser” celles qui
se trouvent à l’intérieur. Du point de vue spectral, cette construction est justifiée puisqu’elle ne change
pas la densité spectrale. En fait comme pour un processus MA(q) on peut améliorer l’estimation en
partant d’un système sur-dimensionné et en déterminant une solution de norme minimale.
Une fois la suite {φ̂1 , . . . , φ̂p } estimée, il reste à estimer {θP 2
1 , . . . , θq , σ }. Théoriquement si nous dis-
p
posions de la “vraie” suite {φ Pkq}, le processus et = Xt − k=1 φk Xt−k est simplement le processus
MA(q) défini par et = Zt + k=1 θk Zt−k . Une façon simple de procéder est donc de filtrer la suite
{X1 , . . . , Xn } par le filtre de réponse impulsionnelle {1, −φ̂1 , . . . , −φp } puis d’utiliser, par exemple,
la méthode de Durbin pour estimer θ1 , . . . , θq , σ 2 . Une autre façon est d’utiliser à nouveau l’idée de
Durbin qui est que θ(z)/φ(z) peut être approchée par un AR(m) causal suffisamment long. Notons
ψ1,m , . . . , ψm,m la suite des coefficients, obtenus par prédiction linéaire, de ce processus AR. On peut
P Pq Pp
alors écrire que (1 − m k
k=1 ψk,m z )(1 +
k
k=1 θk z ) = 1 −
k
k=1 φ̂k z . En notant ²k les coefficients de

96
z k pour p + 1 ≤ k ≤ m + q et en adoptant des notations matricielles évidentes, on peut écrire :
   
−ψp+1,m −ψp,m · · · −ψp−q+1,m
−ψp+2,m   .. .. 
  −ψp+1,m . . 
 ..   
 .   .. ..    
   . .  θ̂1 ²p+1
 −ψm,m   
   ..   ..   .. 
 0  +  −ψm,m .  .  =  . 
   
 ..   ..  θ̂q ²m+q
 .   0 . 
   
 ..   .. .. .. .. 
 .   . . . . 
0 0 · · · 0 −ψ m,m

qui peut encore écrire, de façon plus compacte, ψ̂ = −Ψ̂θ̂ + e. La solution qui minimise eT e a pour
expression :

θ̂ = −(Ψ̂T Ψ̂)−1 Ψ̂T ψ̂ (5.12)

notons ici que, contrairement à l’expression (5.10), la matrice à inverser dans (5.12) n’est pas une
matrice de Toëplitz et ne peut donc inverser, de façon rapide, par l’algorithme de Levinson.
Comme dans le cas de l’estimation MA(q), aucune de ces deux méthodes n’est vraiment précise.
Toutefois elles fournissent des estimées correctes pour l’initialisation d’algorithmes itératifs.

Méthode du maximum de vraisemblance approchée

P P
Comme dans le cas MA(q), partant de l’équation Xt = Zt + qk=1 θk Zt−k + pk=1 φk Xt−k où Zt
est un bruit blanc, centré, gaussien, on peut écrire :
   
1 0 ··· ··· 0 1 0 ··· ··· 0
−φ1 1 · · · · · · 0         
  Xp Xp−1 θ1 1 · · · · · · 0 Zp Zp−1
 .. .. ..  .  .   ... . . . . . .  . 
 . . .   .  + Φ0 
 ..  =    .  + Θ0  . 
 .. 
  .   .
 .. ..   .. .. 
 . . 1 0 Xn X1 . . 1 0 Zn Zp−q
0 ··· −φ1 1 0 ··· θ1 1

On peut alors déterminer une expression approchée de la log-vraisemblance conditionnelle de

{Xp , . . . , Xn } par rapport à {X1 , . . . , Xp−1 }, en négligeant le terme contenant {Zp−1 , . . . Zp−q }. Il
vient :
 
x1
2 n−p 2 1 £ ¤  .. 
log pXp ,...,Xn |X1 ,...,Xp−1 (x1 , . . . , xn ; θ, φ, σ ) ≈ − log(2πσ ) − 2 x1 · · · xn C(θ, φ)  . 
2 2σ
xn

où C(θ, φ) = (Θ−1 Φ)T Θ−1 Φ. La maximisation de log pX1 ,...,Xn (x1 , . . . , xn ; θ, φ, σ 2 ) par rapport à θ,
φ et σ 2 peut être faite par des techniques numériques.

97
Première partie

Annexes

98
Annexe A

Eléments de probabilité et de
statistique

Nous donnons dans cette annexe quelques éléments succincts de la théorie des probabilités et de
l’estimation statistique

A.1 Eléments de probabilité

A.1.1 Espace de probabilité
On se donne un espace abstrait Ω, appelé espace des épreuves, muni d’une tribu F, c’est à dire
d’une ensemble de parties de Ω vérifiant les propriétés suivantes :
1. Ω ∈ F,
2. si A ∈ F, alors Ac ∈ F (”stabilité par passage au complémentaire”),
S
3. si (An , n ∈ N) est une suite de parties de Ω, alors, n∈N An ∈ F (”stabilité par réunion
dénombrable”)
Un élément ω de Ω est appelé une épreuve ou une réalisation. L’ensemble Ω est souvent appelé
l’ensemble des épreuves ou des réalisations. Un élément d’une tribu s’appelle un un événement (en
théorie de la mesure, de tels éléments sont appelés ensembles mesurables). Deux événements A et B sont
dits incompatibles, si A ∩ B = ∅. L’ensemble vide est appelé l’événement impossible. A l’inverse, Ω est
l’événement certain. Le couple (Ω, F) constitué d’un ensemble d’épreuves et d’une tribu d’événements
est un espace probabilisable. L’ensemble des parties de Ω, P(Ω) est une tribu. Toutes les tribus définies
sur Ω sont des sous-ensembles de P(Ω). L’ensemble {∅, Ω} est aussi une tribu. Cette tribu est contenue
dans toutes les tribus définies sur Ω. L’intersection d’une famille quelconque de tribus est encore une
tribu.

Définition A.1. La tribu engendrée par une classe de parties A de Ω est la plus petite tribu contenant
A (c’est l’intersection de toutes les tribus contenant A)

Notons que toute classe A ⊂ P(Ω), et donc qu’il existe toujours au moins une tribu contenant A. On
note σ(A) la tribu engendrée par A La notion de tribu borélienne est liée à la structure ”topologique”

99
de l’ensemble de base : c’est la tribu engendrée par l’ensemble des ouverts de la topologie. Nous
considérerons dans ce chapitre uniquement la tribu borélienne de Rd , en commençant par le cas le
plus simple de la droite réelle R.

Définition A.2. La tribu borélienne ou tribu de Borel de R est la tribu engendrée par la classe des
intervalles ouverts. On la note B(R). Un élément de cette tribu est appelé une partie borélienne ou un
borélien.

Tout intervalle ouvert, fermé, semi-ouvert, appartient à B(R). Il en est de même de toute réunion
finie ou dénombrable d’intervalles (ouverts, fermés, ou semi-ouverts). La tribu B(R) est aussi la tribu
engendrée par l’une quelconque des quatre classes suivantes d’ensembles :

I = {] − ∞, x]; x ∈ R} I 0 = {] − ∞, x]; x ∈ Q}
J = {] − ∞, x[; x ∈ R} J 0 = {] − ∞, x[; x ∈ Q}

De d d
Qd façon similaire, la tribu borélienne B(R ) de R est la tribu engendrée par les rectangles ouverts
i=1 ]ai , bi [. Le théorème suivant sera d’un usage constant dans la suite

Théorème A.1 (Classe monotone). Soient C ⊂ M ⊂ P(Ω). On suppose que

– C est stable par intersection finie,
– Ω ⊂ M et pour A, B ∈ M, A ⊂ B implique que B \ A ∈ M,
– M est stable par limite croissante
Alors, σ(C) ⊂ M.

Probabilité
Définition A.3. On appelle probabilité sur (Ω, F), une application de P : F → [0, 1], qui vérifie
les propriétés suivantes
1. P(Ω) = 1,
2. (”σ-additivité) si (An , n ∈ N) est une suite d’éléments de F deux à deux disjoints, ( i.e.Ai ∩Aj = ∅
pour i 6= j) Ã !
[ X∞
P Ai = P(Ai ).
n∈N i=1

On vérifie aisément les propriétés suivantes : An ,A et B étant des événements

A ⊂ B, P(A) ≤ P(B), P(Ac ) = 1 − P(A),

P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
[ X
An ↑ B, P(An ) ↑ P(A), An ↓ A, P(An ) ↓ P(A), P( An ) ≤ P(An )
n n

Définition A.4. On dit qu’un ensemble A ⊂ Ω est P-négligeable (ou plus simplement négligeable, s’il
n’y a pas d’ambiguı̈té sur la mesure de probabilité) si il existe un ensemble B ∈ F, tel que A ⊂ B et
P(B) = 0.

100
Remarquons que les ensembles négligeables ne sont pas nécessairement des éléments de la tribu F.
Une propriété est dite P-presque sûre, si la propriété est vérifiée sur un ensemble dont le complémentaire
est P-négligeable.

Définition A.5. Le triplet (Ω, F, P) définit un espace de probabilité.

Définition A.6. On dira que la tribu F est complète si tous les ensembles négligeables de Ω sont
éléments de F.

Il est facile de construire une tribu F 0 qui contient F et d’étendre P à F 0 de telle sorte que F 0 soit
complète pour l’extension de P. Pour éviter des complications techniques inutiles, nous supposerons
désormais que toutes les tribus que nous manipulerons sont complètes. Rappelons pour conclure ce
paragraphe deux résultats techniques d’usage constant.

Définition A.7. On appelle un π-système une famille d’ensembles stable par intersection finie.

Théorème A.2. Soient µ et ν deux mesures sur (E, E) et soit C ⊂ B un π-système. On suppose que
pour tout C ∈ C, µ(C) = ν(C) < ∞. Alors µ(A) = ν(A) pour tout A ∈ σ(C).

Soit E un ensemble. Une famille E0 de sous-ensembles de E est appelé une algèbre si (i) E ∈ E0 ,
(ii) F ∈ E0 =⇒ F c ∈ E0 et (iii) F, G ∈ E0 =⇒ F ∪ G ∈ E0 . Une fonction d’ensembles µ définie sur
E est dite σ-additive,
S S si
Ppour toute union dénombrables d’éléments Fi ∈ E0 , Fi ∩ Fj = ∅, telle que
F
i i ∈ E 0 , µ( F
i i ) = i µ(Fi ).

Théorème A.3 (Théorème d’extension de Carathéodory). Soit E un ensemble et E0 une algèbre sur
E. Soit µ0 une fonction d’ensembles σ-additive, telle que µ0 (E) < ∞. Il existe une unique mesure µ
sur E := σ(E0 ) telle que µ = µ0 sur E0 .
Exemple A.1
Pour illustrer l’utilisation de ce théorème, rappelons la construction de la mesure de Lebesgue (voir chapitre
sur l’intégration sur l’intervalle [0, 1]. Soit C l’ensemble des parties de [0, 1] pouvant s’écrire sous la forme
d’une union finie d’intervalles semi-ouverts, semi-fermés, i.e.F ∈ C si

F = (a1 , b1 ] ∪ · · · ∪ (ar , br ].

On vérifie facilement que C est stable par intersection finie (C est en fait une algèbre). La tribu engendrée
par C, σ(C) = B([0, 1]) est la tribu borélienne sur [0, 1]. Pour F ∈ F0 considérons
X
λ0 (F ) = (bi − ai ).
i

On vérifie que λ0 est une fonction positive et additive. On peut démontrer

S que λ0 est σ-additive,
P i.e.pour toute
union dénombrable d’ensembles Fi ∈ F0 disjoints 2 à 2 tels que i Fi ∈ F0 , λ0 (F ) = i λ0 (Fi ) (cette partie
de la preuve n’est pas immédiate). Le théorème de Carathéodory permet de montrer que λ0 a une extension
unique λ sur B([0, 1]), appelée mesure de Lebesgue sur [0, 1].

A.1.2 Variables aléatoires

Définition A.8. Soit E un espace muni d’une tribu E. On appelle variable aléatoire (en abrégé v.a.)
à valeurs dans E toute application mesurable de (Ω, F) → (E, E).

101
Soit X une v.a. à valeurs dans (E, E). En vertu de la définition précédente, pour tout A ∈ E, on
a X −1 (A) ∈ F. Si E est dénombrable et E = P(E), on dit que X est une v.a. discrète. Si E = R¯+
et E = B(R̄+ ), on dit que X est une v.a. positive. Si E = R et E = B(R), on dit que X est une
v.a. réelle. Si E = Rd et E = B(Rd ), on dit que X est une variable vectorielle (ou vecteur aléatoire).
Soit (Xi , i ∈ I) une famille de v.a. à valeurs dans (E, E) (I étant un ensemble quelconque, non
nécessairement dénombrable).
Définition A.9. On appelle tribu engendrée par (Xi , i ∈ I) la plus petite tribu X de Ω qui soit telle
que tous les v.a. Xi soit X mesurable.
A titre d’illustration, soit Y : Ω → (R, B(R)) une v.a. ; σ(Y ), la tribu engendrée par Y est définie
par
σ(Y ) := ({ω : Y (ω) ∈ B}, B ∈ B(R)).
Si Z : Ω → R est σ(Y )-mesurable, s’il existe une fonction borélienne f : R → R telle que Z = f (Y )
De même, si Y1 , · · · , Yn : Ω → R sont des v.a.,
σ(Y1 , · · · , Yn ) = σ({Yk ∈ Bk }, Bk ∈ B(R), k = 1, · · · , n).
et Z : Ω → R est σ(Y1 , · · · , Yn ) mesurable s’il existe une fonction borélienne f : Rn → R telle que
Z = f (Y1 , · · · , Yn ).

Espérance d’une variable aléatoire

Nous rappelons dans le paragraphe suivant succinctement des éléments de théorie d’intégration. Le
lecteur se reportera avec profit au cours d’intégration. On dit qu’une variable aléatoire X de (Ω, F, P)
à valeurs réelle est étagée si
X n
X= ak IAk
k=1
avec Ak ∈ F, où IA est la fonction indicatrice de A. On note dans la suite eF l’ensemble des variables
étagées. Le résultat suivant est à la base de la construction de l’intégrale
Lemme A.1. Toute v.a. X positive est limite d’une suite croissante de fonctions étagées.
Il suffit de considérer la suite
n2n −1
X k
Xn (ω) = I n n + nIX(ω)≥n
2n {k/2 ≤X(ω)≤(k+1)/2 }
k=0
Pn
L’espérance d’une v.a. étagée X = k=1 ak IAk est définie par
Z n
X
E [X] := X(ω)dP(ω) = ak P(Ak ).
k=1

On remarque facilement que, si X, Y ∈ eF,

E [aX + bY ] = aE [X] + bE [Y ] , andX ≤ Y ⇒ E [X] ≤ E [Y ] .
Le résultat technique suivant est la clef de voûte de la construction

102
Lemme A.2. Soient Xn , Yn ∈ eF deux suites croissantes telles que lim ↑ Xn = lim ↑ Yn . Alors,
lim ↑ E [Xn ] = lim ↑ E [Yn ].

Notons F + l’ensemble des v.a. positives. Soit X ∈ F + . Le lemme A.1 montre qu’il existe une
suite Xn ∈ eF telle que Xn ↑ X ; la monotonicité de l’espérance assure que E [Xn ] ↑ E [X]. On pose
E [X] = lim ↑ E [Xn ]. Le lemme A.2 montre que cette limite ne dépend pas du choix de la suite Xn .
On a en particulier
n2 n
X k
E [X] = lim ↑ P({ω : k/2n ≤ X(ω) < (k + 1)/2n }) + nP({ω : X(ω) ≥ n}).
2n
k=0

Par passage à la limite, on obtient immédiatement que pour tout X, Y ∈ F + , et a, b ∈ R+ ,

E [aX + bY ] = aE [X] + bE [Y ] et que, si X ≤ Y , E [X] ≤ E [Y ]. On dira que X ∈ F + est intégrable si
E [X] < ∞. Notons f F l’ensemble des v.a. mesurables réelles. On pose

L1 = L1 (Ω, F, P) = {X ∈ f F, E [|] X| < ∞}

Si f ∈ L1 , nous définissons X + et X − les parties positives et négatives de X,

X + := X ∨ 0 and X − := (−X) ∨ 0

X + et X − sont des v.a. positives intégrables (car X + ≤ |X| et X − ≤ |X|) , et X = X + − X − .

L’espérance de X est définie par £ ¤ £ ¤
E [X] = E X + − E X − .
Il est facile de voir que L1 est un espace vectoriel (car |X + Y | ≤ |X| + |Y |, et par monotonicité de
l’espérance) et que X → E [X] est une forme linéaire positive. De plus, pour X ∈ L1 , |E [X] | ≤ E [|] X|.

Passages à la limite
Soit Xn une suite de v.a.s. Nous disons que Xn → X P-p.s., si

{ω : lim Xn (ω) = X(ω)}c

n→∞

est P-négligeable. Les propriétés suivantes découlent directement des théorèmes classiques de la théorie
de la mesure (à savoir, le théorème de convergence monotone, ou théorème de Beppo-Levi, le lemme
de Fatou, et le théorème de convergence dominée)

Proposition A.1. – (”Convergence monotone”) si 0 ≤ Xn ↑ X, alors E [Xn ] ↑ E [X] ≤ ∞

– (”Lemme de Fatou”) Si Xn ≥ 0, alors E [lim inf Xn ] ≤ lim inf E [Xn ],
– (”Convergence dominée”) Si, pour tout n ≥ 1, |Xn (ω)| ≤ Y (ω), P-ps, et Y ∈ L1 , alors
limn→∞ E [Xn ] = E [X]

Nous utiliserons de façon très fréquente dans la suite les résultats ci-dessus ; nous donnons toutefois
sans attendre quelques exemples d’applications très utiles :
P P
Exemple A.2 – Soit (Zk ) une suite de v.a.s positives. Alors E [ Zk ] = E [Zk ] ≤ ∞ (application de la
convergence monotone et de la linéarité de l’espérance).

103
P P
– Soit (Zk ) une suite de v.a.s positives, telle que E [Zk ] < ∞. Alors Zk est fini p.s. et donc Zk → 0
p.s.
Nous admettrons le résultat suivant (cf. le cours d’intégration)
Théorème A.4. Soit X une v.a. de (Ω, F) dans (E, E) et P une probabilité sur (Ω, F). La formule
PX (A) := P(X −1 (A)) définit une probabilité sur (E, E), appelée probabilité image de P par X. Cette
probabilité vérifie, pour toute fonction f positive mesurable
Z Z
f ◦ X(ω)dP(ω) = f (x)dPX (x)

Définition A.10. On appelle loi de X la probabilité image de P par X.

La loi d’une variable aléatoire réelle est donc une probabilité sur (R, B(R)). On définit souvent la
loi d’une variable aléatoire en spécifiant une ”densité” par rapport à une mesure positive sur (E, E).
Plus précisément, soit µ une mesure positive et soit g une fonction mesurable positive, telle que
Z
g(x)dµ(x) = 1.
E
Pour A ∈ E, on définit PX : E → [0, 1]
Z
PX (A) = g(x)dµ(x).
A
On vérifie aisément que PX défini par la relation précédente spécifie bien une mesure de probabilité
sur (E, E). Nous donnons ci-dessous quelques exemples élémentaires
– La mesure de Lebesgue sur [0, 1] est une probabilité, que l’on appelle généralement loi uni-
forme sur [0, 1]. Plus généralement, pour a < b, on appelle loi uniforme sur [a, b], la mesure de
probabilité (b − a)−1 I[a,b] (x)dx, où IA est l’indicatrice de l’ensemble A.
– La mesure sur R de densité π −1 (1 + x2 )−1 dx est de masse 1, et définit donc bien une mesure de
probabilité sur R. On remarque que le moment d’ordre 1 de cette mesure est infini. Cette loi est
appelée loi de Cauchy standard.
– La loi de densité pX (x), µ ¶
1 (x − µ)2
pX (x) = √ exp − .
σ 2π 2σ 2
par rapport à la mesure
R de Lebesgue est appelée ”loi gaussienne”. La moyenne de cette loi est
µ et sa variance, (x − µ)2 pX (x)λ(dx) = σ 2 .
Il est souvent pratique de spécifier la loi de probabilité d’une variable aléatoire réelle par la donnée de
sa fonction de répartition, FX : R → [0, 1], définie par
FX (x) = PX (] − ∞, x]) = P(X ≤ x).
La fonction T de répartition est une fonction croissante, continue à droite : on remarque en effet que
] − ∞, x] = ] − ∞, xn ], pour toute suite décroissante xn , telle que limn→∞ xn = x. La σ-additivité
impose donc que FX (x) = limn→∞ F (xn ), et donc plus généralement que limh→0+ FX (x + h) = FX (x).
Un raisonnement similaire montre que limh→0− FX (x + h) = PX (] − ∞, x[) =: FX (x−). La fonction
de répartition FX caractérise la loi PX , puisque pour tout intervalle ]a, b] (b > a), on a PX (]a, b]) =
FX (b) − FX (a) et qu’une mesure borélienne sur R est déterminée par la donnée des masses qu’elle
attribue aux intervalles de ce type (cf. cours d’intégration)

104
Quelques inégalités utiles
L’inégalité élémentaire suivante, appelée inégalité de Markov, joue un rôle fondamental
Proposition A.2. Soit Z une v.a et g : R → [0, ∞] une fonction borélienne croissante. Alors
E [g(Z)] ≥ E [g(Z)I(Z ≥ c)] ≥ g(c)P[Z ≥ c].
En prenant pour g(x) = |x|, nous avons en particulier, pour X ∈ L1 , P[|X| ≥ c] ≤ E [|X|] /c. Une
fonction c : G → R où G est un intervalle ouvert de R est dite convexe si, pour tout x, y ∈ G et tout
p, q, p + q = 1,
c(px + qy) ≤ pc(x) + qc(y).
A titre d’exemples, les fonctions |x|, x2 , eθx sont des fonctions convexes. La proposition suivante est
souvent utiles
Proposition A.3 (Inégalité de Jensen). Soit c : G → R une fonction convexe sur un sous-intervalle
ouvert G de R et soit X une variable aléatoire vérifiant les propriétés suivantes
E [|] X| < ∞, P[X ∈ G] = 1, E [|] c(X)| < ∞
Alors, E [c(X)] ≥ c(E [X]).

Variance, covariance, corrélation

Si la variable X admet un moment d’ordre 2, alors X admet un moment d’ordre 1 (par monotonicité
des semi-normes, L1 ⊂ L2 ). On pose alors,
£ ¤ £ ¤
var(X) := E (X − E [X])2 = E X 2 − (E [X])2
quantité que l’on appelle la variance de X. De même, lorsque X, Y ∈ L2 , nous pouvons définir,
cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] = E [XY ] − E [X] E [Y ]
quantité que l’on appelle la covariance de X et de Y . Les variables aléatoires sont dites décorrélées,
si le coefficient de covariance cov(X, Y ) = 0. Lorsque X := (X1 , · · · , Xd )T , d ∈ N est un vecteur
aléatoire, la matrice de covariance Γ(X) (ou matrice de variance / covariance) est définie comme la
matrice d × d dont les éléments sont donnés par
Γ(X)i,j = cov(Xi , Xj ) 1 ≤ i, j ≤ d
Les éléments diagonaux sont égaux à la variance des variables Xi ; les éléments hors-diagonaux sont
les coefficients de covariance. La matrice de covariance est une matrice symétrique (Γ(X) = Γ(X)T ) et
semi-définie positive. En effet, pour tout d-uplets de nombre réels ou complexes (a1 , a2 , · · · , ad ), nous
avons ¯ ¯2 
¯Xd ¯ X
¯ ¯
E ¯ ai (Xi − E [Xi ])¯  = ai a∗j Γ(X)i,j ≥ 0
¯ ¯
i=1 i,j

Notons que, pour tout vecteur a (déterministe)

Γ(X + a) = Γ(X)
et que, pour M une matrice (déterministe) p × d,
Γ(M X) = M Γ(X)M T .

105
Fonction caractéristique
Dans tout ce paragraphe, X désigne une variable aléatoire à valeurs dans Rd . On note PX sa loi.
L’application ΦX : Rd → C donnée par
Z
ΦX (λ) = E [exp(i(λ, X))] = exp(i(λ, x))PX (dx).
Rd

où (u, v) désigne le produit scalaire usuel dans Rd , s’appelle la fonction caractéristique de X. La
fonction caractéristique est la transformée de Fourier de la loi PX . Nous donnons ci-dessous quelques
propriétés élémentaires de la fonction caractéristique
– ΦX (0) = 1 et |ΦX (λ)| ≤ 1.
– La fonction caractéristique est continue sur Rd . Cette propriété est une conséquence immédiate
de la continuité de l’application λ −→ exp(i(λ, X) et du théorème de convergence dominé.
– Lorsque la loi PX admet une densité g par rapport à la mesure de Lebesgue, alors ΦX est la
transformée de g (au sens usuel). Le théorème de Rieman-Lebesgue implique que ΦX (λ) tend
vers 0 lorsque λ → ∞.
Comme son nom l’indique, la fonction caractéristique ”caractérise” la loi, dans le sens
Proposition A.4. Deux variables aléatoires à valeurs dans Rd ont même loi si et seulement si ΦX =
ΦY .
Le théorème précédent implique en particulier la proposition suivante
Proposition A.5. Soient X = (X1 , · · · , Xn ) ; n variables aléatoires réelles variables aléatoires
(X1 , · · · , Xn ) sont indépendantes si et seulement si
n
Y
ΦX (λ1 , · · · , λn ) = ΦXi (λi )
i=1

Indépendance. Mesures produits

Soient A et B deux événements. On dit que A et B sont indépendants si
P(A ∩ B) = P(A)P(B).
Les propriétés élémentaires des probabilités montrent que les événements A et B c , Ac et B, et Ac et
B c sont aussi indépendants. En effet :
P(Ac ∩ B) = P(Ω ∩ B) − P(A ∩ B) = P(B) − P(A)P(B) = (1 − P(A))P(B).
Les tribus A = {∅, A, Ac , Ω} et B = {∅, B, B c , Ω} sont donc indépendantes, au sens de la définition
suivante
Définition A.11. Soit (Bi , i ∈ I) une famille de tribu. On dit que cette famille est indépendante si,
pour tout sous-ensemble J fini de I,
 
\ Y
P Bj  = P(Bj ), Bj ∈ Bj
j∈J j∈J

106
Le lemme technique suivant donne un critère plus ”pratique” pour vérifier l’indépendance de tribus.

Lemme A.3. Soient G et H deux sous-tribus de F et soit I et J deux π-systèmes tels que G := σ(I) et
H := σ(J ). Alors, les tribus G et H sont indépendantes si et seulement si I et J sont indépendantes,
i.e.
P(I ∩ J) = P(I)P(J), I ∈ I, J ∈ J .

Démonstration. Supposons que les familles I et J sont indépendantes. Pour I ∈ I donné, considérons
les mesures
H → P(I ∩ H) et H → P(I)P(H).
Ces mesures sont définies (Ω, H) et coı̈ncident sur J . Le théorème A.2 montre que ces deux mesures
coı̈ncident sur H
P(I ∩ H) = P(I)P(H), I ∈ I, H ∈ H.
Pour H donné dans H, les mesures

G → P(G ∩ H) et G → P(G)P(H)

sont définies sur G et coı̈ncident sur I. Par le théorème extension, elles coı̈ncident sur G, et donc
P(G ∩ H) = P(G)P(H), pour tout G ∈ G et H ∈ H. ¥

De façon générale, on a

Proposition A.6. Soient (Ci , i ∈ I) une famille de π-systèmes indépendants. Alors les tribus
(σ(Ci ), i ∈ I) sont indépendantes.

Il résulte immédiatement de la définition A.11 que si Bi0 est une sous-tribu de Bi , la famille (Bi0 , i ∈ I)
est une famille indépendante si (Bi , i ∈ I) l’est. Nous avons aussi

Proposition A.7. Si la famille (Bi , i ∈ I) est indépendante et si (Ij , j ∈ J) est une partition de I, la
famille (σ(Bi , i ∈ Ij ), j ∈ J) est indépendante.

De cette définition découle toutes les notions d’indépendance dont nous aurons besoin dans la suite.
Si (Ai , i ∈ I) est une famille d’événements, on dira que cette famille est indépendante si la famille
(σ(Ai ), i ∈ I) l’est. Si (Xi , i ∈ I) est une famille de v.a., on dira que cette famille est indépendante si
la famille (σ(Xi ), i ∈ I) l’est. Si X est une v.a. et G une tribu, on dira que X et G sont indépendantes
si les tribus σ(X) et G sont indépendantes. Enfin, si (Xi , i ∈ I) et (Yj , j ∈ J) sont indépendantes si
les tribus (σ(Xi ), i ∈ I) et (σ(Yj ), j ∈ J) le sont.
Exemple A.3
Soient (X1 , X2 , X3 , X4 ) quatre v.a. indépendantes. Alors, les couples (X1 , X2 ) et (X3 , X4 ) sont indépendants,
puisque les tribus σ(X1 , X2 ) et σ(X3 , X4 ) le sont. Alors Y1 := f (X1 , X2 ) et Y2 = g(X3 , X4 ) (avec f, g
boréliennes) sont indépendantes car σ(Y1 ) ⊂ σ(X1 , X2 ) et σ(Y2 ) ⊂ σ(X3 , X4 ).

Avant d’aller plus loin, rappelons quelques résultats sur les mesures produits (on se reportera avec
profit au cours d’intégration). Soient (E1 , B1 , ν1 ) et (E2 , B2 , ν2 ) deux espaces mesurés et ν1 , ν2 deux
mesures σ-finies. Alors
B1 ⊗ B2 := σ(A1 × A2 , A1 ∈ B1 , A2 ∈ B2 )

107
est une tribu sur E1 × E2 appelée tribu produit de B1 et de B2 et il existe une unique mesure, notée
ν1 ⊗ ν2 définie sur B1 ⊗ B2 telle que

ν1 ⊗ ν2 (A1 × A2 ) = ν1 (A1 )ν2 (A2 ), A1 ∈ B1 , A2 ∈ B2 .

Pour toute fonction borélienne positive ou bornée f , nous avons (théorème de Fubini)
Z Z µZ ¶
f d(ν1 ⊗ ν2 ) = f (x1 , x2 )dν1 (x1 ) dν2 (x2 ),
Z µZ ¶
= f (x1 , x2 )dν2 (x2 ) dν1 (x1 )

Ces résultats s’étendent directement pour le produit de n espaces. Il résulte alors de ces rappels et du
théorème de classe monotone que

Théorème A.5. Soient (X1 , · · · , Xn ) des v.a. à valeurs dans (Ei , Ei ), i ∈ {1, · · · , n}. Il y a équivalence
entre
1. les v.a X1 , · · · , Xn sont indépendantes,
2. Pour tout Ak ∈ Ek ,
n
Y
P[X1 ∈ A1 , · · · , Xn ∈ An ] = P[Xk ∈ Ak ]
1

3. Pour tout Ak ∈ Ck , avec Ck π-système tel que σ(Ck ) = Ek ,

n
Y
P[X1 ∈ A1 , · · · , Xn ∈ An ] = P[Xk ∈ Ak ]
1

4. La loi du vecteur aléatoire (X1 , . . . , Xn ), notée P(X1 ,··· ,Xn ) est égale au produit des lois des v.a
Xk ,
P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn .

5. Pour toutes fonctions fk boréliennes positives (respectivement bornées, respectivement fk ∈

L1 (Ek , Ek , Pk )),
n
Y
E [f1 (X1 ) · · · fn (Xn )] = E [fk (Xk ]
1

Exemple A.4
Soient X, Y deux v.a.r. Alors, vu que σ([a, b[, a < b ∈ R) = B(R), il résulte du théorème précédent que X et
Y sont indépendantes si et seulement si

P(a ≤ X < b, c ≤ Y < d) = P(a ≤ X < b)P(c ≤ Y < d),

pour tout a, b, c, d. Dans ce cas, si E [|] X| < ∞, E [|] Y | < ∞, on a E [XY ] = E [X] E [Y ], résultat que l’on
utilise sans cesse en probabilité.

108
A.1.3 Espaces Lp (Ω, F, P) et Lp (Ω, F, P)
Soit (Ω, F, P) un espace de probabilité. Pour p > 0, on dit que X admet un moment d’ordre p
Z
E [|X|p ] = |X(ω)|p P (dω) < ∞.

Nous notons Lp (Ω, F, P) l’ensemble des variables aléatoires définies sur (Ω, F, P) admettant un moment
d’ordre p. Nous notons, pour X ∈ Lp , kXkp = E [|X|p ]1/p . Il est facile de voir que la fonction k • kp :
(Ω, F, P) 7→ R est positive. Cette fonction vérifie aussi l’inégalité triangulaire, appelée dans ce contexte,
inégalité de Minkovski
kX + Y kp ≤ kXkp + kY kp .
L’inégalité de Minkovski montre que, pour tout X, Y ∈ Lp (Ω, F, P) et tout α, β ∈ R, nous avons

kαX + βY kp ≤ |α|kXkp + |β|kY kp

et donc que Lp (Ω, F, P) est un espace vectoriel sur R. On omettra la dépendance en (Ω, F, P) lorsqu’il
n’y a pas d’ambiguı̈té sur l’espace de probabilité sous-jacent. La fonction x 7→ kxkp est positive et
vérifie l’inégalité triangulaire. Ce n’est toutefois pas une norme, car la relation kXkp = 0 entraı̂ne
seulement que X = 0 P-p.s (P(ω, X(ω) = 0) = 1). On dit que k • kp est une semi-norme. Comme nous
le verrons ci-dessous, il est possible de “quotienter” l’espace par la relation d’équivalence

X ≡ Y ⇐⇒ P[{ω ∈ Ω, X(ω) = Y (ω)}] = 1

On note Lp (Ω, F, P) l’espace quotient de L(Ω, F, P) par la relation d’équivalence ≡. Les éléments
de Lp (Ω, F, P) sont des classes d’équivalence. Si X et Y sont deux éléments de la même classe
d’équivalence, alors kXkp = kY kp . Lorsque l’on choisit un élément d’une classe d’équivalence on dit
que l’on choisit une version de X : X désigne selon les cas sa classe ou une version de la classe. Les
(semi)-normes k • kp sont monotones dans le sens suivant

Proposition A.8. Soit 1 ≤ p ≤ r < ∞ et Y ∈ Lr . Alors, Y ∈ Lp et kY kp ≤ kY kr .

Cette dernière inégalité découle directement de l’inégalité de Jensen appliquée avec c(x) = xr/p .
L’inégalité suivante est souvent utile

Proposition A.9. Soient p, q ≥ 1 tels que p−1 + q −1 = 1. Nous avons (inégalité de Hölder)

kXY k1 ≤ kXkp kY kq .

La proposition suivante (en particulier lorsque p = 2) joue un rôle clef.

Proposition A.10. Soit p ∈ [1, ∞). Soit (Xn ) une suite de Cauchy dans Lp (Ω, F, P), i.e.,

lim sup kXr − Xs kp = 0.

k→∞ r,s≥k

Il existe une variable aléatoire X ∈ Lp telle que Xr → X dans Lp , i.e. kXr − Xkp → 0. De plus, on
peut extraire de Xn une sous-suite Yk = Xnk qui converge vers X P-p.s.

109
Démonstration. C’est un résultat classique d’analyse ; nous en donnons toutefois une démonstration
de nature ”probabiliste” afin d’illustrer les résultats et les techniques introduites précédemment. Soit
kn ↑ ∞ une suite telle que
∀(r, s) ≥ kn , kXr − Xs k ≤ 2−n
Nous avons, par monotonicité des semi-normes k • kp , nous avons pour p ≥ 1,
£ ¤
E |Xkn+1 − Xkn | ≤ kXkn+1 − Xkn kp ≤ 2−n ,

ce qui implique, en appliquant le théorème de Fubini, que

hX i
E |Xkn+1 − Xkn | < ∞.

Ceci implique que la série de terme général Un := (Xkn+1 − Xkn ) converge absolument P-p.s., et donc
que X
Un = lim Xkn
n
n≥1

existe P-p.s. Définissons, pour tout ω ∈ Ω

X(ω) := lim sup Xkn (ω)

X est une v.a. (en tant que limite supérieure d’une suite de v.a.s) et limn Xkn = X, P-p.s. Soit ² > 0
et soit m tel que 2−m ≤ ². Pour tout r ≥ km , et tout n ≥ m, nous avons

kXr − Xkn kp ≤ ²

et l’application du lemme de Fatou montre que

µZ ¶1/p
p
kXr − Xkp ≤ lim inf |Xr (ω) − Xkm (ω)| P(dω) ≤ lim inf kXr − Xkn kp ≤ ².
m n

et donc limr→∞ kXr − Xkp = 0. L’inégalité de Minkovski montre que

kXkp ≤ kXr − Xkp + kXkp

et donc que X ∈ Lp . ¥

Le résultat précédent permet de montrer que l’espace quotient Lp (Ω, F, P) est complet.

A.1.4 Variables aléatoires Gaussiennes

Définition A.12 (v.a. gaussienne standardisée). On dit qu’une variable X est Gaussienne standar-
disée (ou standard) si la loi de X admet la densité (par rapport à la mesure de Lebesgue)

1 x2
f (x) = √ exp(− ). (A.1)
2π 2

110
Définition A.13. On dit qu’une variable aléatoire X est gaussienne de moyenne m et de variance
σ 2 , s’il existe une variable gaussienne standard Z telle que X = m + σZ.
Lorsqueσ > 0, X admet une densité par rapport à la mesure de Lebesgue sur R, densité donnée
par
1 (x − m)2
fm,σ2 (x) = √ exp(− ). (A.2)
2πσ 2σ 2
On note cette densité N (m, σ 2 ). Par abus de langage, nous identifierons les variables gaussiennes de
variance nulle aux mesures de Dirac au point m. Un calcul élémentaire montre que, pour tout λ ∈ R,
Z ∞
1 x2 λ2
√ exp(− ) exp(λx)dx = exp( ).
−∞ 2π 2 2
Par prolongement analytique, la fonction caractéristique d’une variable gaussienne standard est donc
donnée par
ΦX (λ) = exp(−λ2 /2).
Notons que si X est une variable aléatoire de fonction caractéristique ΦX (λ), la fonction caractéristique
de la variable aléatoire Y = a + bX est donnée par

ΦY (λ) = exp(iλa) exp(−b2 λ2 /2)

Par conséquent, la fonction caractéristique de la loi normale de moyenne m et de variance σ 2 est

donnée par
ΦX (λ) = exp(iλm − λ2 σ 2 /2) (A.3)
On en déduit la proposition suivante
Proposition A.11. Soient Xi , i ∈ {1, . . . , d}, d v.a.r gaussiennes indépendantes de moyenne µi et de
variance σi2 et soient ai ∈ R, i ∈ {1, · · · , d}. La v.a.r Y = a1 X1 + · · · + ad Xd est une v.a.r gaussienne
P P
de moyenne di=1 ai mi et de variance di=1 a2i σi2 .
Démonstration. en utilisant la proposition A.5, la fonction caractéristique de Y est donnée par
d
Y
φY (t) = φXk (ak t), (A.4)
k=1
" d d
#
X X
= exp it ak mk − a2k σk2 t2 /2 , (A.5)
k=1 k=1

et on conclut en utilisant la proposition A.4. ¥

Définition A.14 (vecteur gaussien). Un vecteur aléatoire X = [X1 , · · · , Xd ]T est dit gaussien, si
pour tout vecteur a ∈ Rd , aT X := a1 X1 + · · · + ad Xd est une v.a.r. gaussienne
Cette définition implique en particulier que chaque composante Xk est une v.a.r gaussienne. A
l’inverse, le fait que toutes les variables Xk soient gaussiennes ne suffit pas pour assurer que le vecteur
X est gaussien. Par construction, la famille de lois gaussiennes est stable par transformation linéaire.
Plus précisément

111
Lemme A.4. Soit X un vecteur gaussien à valeurs dans Rd de moyenne m et de matrice de covariance
K. Pour tout b ∈ Rr , et toute matrice M de dimension (r × d), le vecteur aléatoire Y = b + M X est
un vecteur gaussien à valeurs dans Rr , de moyenne b + M m et de covariance M KM T .
En effet, pour tout vecteur a ∈ Rr , aT Y = aT b + (aT M )X est une v.a. gaussienne. On a E [Y ] =
m + M E [X] et K(Y ) = M KM T . Le théorème de caractérisation suivant joue un rôle central
Théorème A.6. Soit X un vecteur aléatoire de moyenne m et de matrice de covariance K. Le vecteur
X est gaussien si et seulement si sa fonction caractéristique est donnée par
1
φX (λ) = exp[iλT m − λT Kλ]
2
Ce théorème montre que toute loi gaussienne est déterminée par la donnée de sa moyenne et de sa
matrice de covariance. Lorsque la matrice de covariance K est inversible, la loi d’un vecteur aléatoire
gaussien de moyenne m et de covariance K a une densité par rapport à la mesure de Lebesgue sur Rd
et cette densité est donnée par
µ ¶
1 1 T −1
p(x; m, K) = √ d p exp − (x − m) K (x − m)
2π det(K) 2

La loi d’un vecteur gaussien étant entièrement spécifiée par la donnée de sa moyenne et de sa matrice
de covariance, les notions d’indépendance et de décorrélation sont confondues (propriété qui n’est pas
vérifiée de façon générale).
Théorème A.7. Soit Y = [Y1 , · · · , YnT ]T un vecteur gaussien ((d1 + · · · + dn ) × 1). Les vecteurs Yi
(di × 1, i ∈ {1, · · · , n}) sont indépendants si et seulement si, pour toute suite de vecteurs ai (di × 1,
i ∈ {1, · · · , n}) cov[aTi Yi , aTj Yj ] = 0, i 6= j ∈ {1, · · · , n}.

A.1.5 Modes de convergence et Théorèmes limites

Les théorèmes limites sont au coeur même de la théorie des probabilités. Nous ne donnons ici que
quelques définitions et énoncés essentiels, en nous limitant aux notions que nous utiliserons dans la
suite. Le lecteur se reportera à Resnick ou Williams pour une introduction. Introduisons tout d’abord
les différents ”modes” de convergence. Soit (Xn , n ∈ N) une famille de v.a. définies sur un espace de
³P ´1/2
d
probabilité (Ω, F, P) et à valeurs dans (Rd , B(Rd )). On note |x| = x
k=1 k
2 la norme euclidienne.
Soit finalement X une v.a. définie sur (Ω, F, P) et à valeurs dans (Rd , B(Rd )).
Définition A.15 (Convergence p.s.). On dit que Xn converge presque-sûrement vers X (on note :
Xn →P−p.s. X) si et seulement si
n o
P ω : lim Xn (ω) = X(ω) = 1.
n→∞

De façon équivalente, Xn →P−p.s. X si et seulement si , pour tout δ > 0,

 
[ 
lim P {|Xk − X| ≥ δ = 0.
n→∞  
k≥n

112
Définition A.16 (Convergence dans Lr ). On dit que Xn converge dans Lr vers X (on note : Xn →Lr
X) si et seulement si
lim E [|Xn − X|r ] = 0.
n→∞

Définition A.17 (Convergence en probabilité). Soit {Xn } une suite de variables aléatoires et X une
autre variable aléatoire, toutes définies sur le même espace de probabilité {Ω, F, P }, à valeurs dans
Rk . On dit que Xn converge en P-probabilité vers X et l’on note Xn →P X, si et seulement si, pour
tout δ > 0, limn→∞ P [kXn − Xk > δ] = 0 où k · k désigne la norme euclidienne dans Rk .

Définition A.18 (Convergence en loi). On dit que Xn converge en loi (ou en distribution) vers X et
l’on note Xn →d X, si et seulement si l’une des trois conditions équivalentes est satisfaite :
1. pour toute fonction f continue bornée Rd → R,

lim E [f (Xn )] = E [f (X)] .

n→∞

2. pour tout u := (u1 , · · · , ud ),

£ ¤ £ ¤
lim E exp(iuT Xn ) = E exp(iuT X) ,
n→∞

3. Pour tout pavé A = [a1 , b1 ] × · · · × [ad , bd ] tel que P(X ∈ ∂A) = 0 (où ∂A désigne la frontière de
A),
lim P(Xn ∈ A) = P(X ∈ A).
n→∞

Le théorème suivant permet de hiérarchiser les différents modes de convergence.

Théorème A.8. 1. Si Xn →P−p.s. X, alors Xn →P X.

2. Si Xn →Lr X, alors Xn →P X.
3. Si Xn →P X, alors Xn →d X.
4. Si Xn →P X, alors on peut extraire une sous-suite (Xnk , k ∈ N), telle que Xnk →P−p.s. X.

Théorème de Helley et preuve du Théorème d’Herglotz

Théorème A.9. Soit µn une suite de probabilité sur (R, B(R), telle que, pour tout ² > 0, il existe
un ensemble compact K² , tel que µn (K² ) ≥ (1 − ²). Alors, pour toute sous-suite {µnk }, il existe une
sous-suite {µnk(j) } extraite de {µnk } et une probabilité µ telle que µnk(j) →d µ faiblement.

La suite γ étant de type positif, gN (t) ≥ 0. Notons µN la mesure (positive) de densité gN par
rapport à la mesure de Lebesgue sur T. On a
Z π µ ¶
−ipt |p|
µ̂N (p) = gN (t)e dt = 1 − γ(−p).
−π N

pour |p| ≤ N . En particulier on a µN (T) = γ(0). De toute sous-suite {νk = µNk } de la suite {µN }, on
peut extraire une sous-suite {νk } qui converge étroitement vers une mesure positive µ (dépendant a

113
priori du choix de la sous suite) de masse totale c(0) (théorème de Prohorov). On a, pour tout p pour
tout p ∈ Z
µ̂(p) = lim µ̂k (p) = γ(−p)
k

La limite ν̂(p) ne dépend pas du choix de la sous-suite, et donc de toute sous-suite de la suite {µN }, on
peut extraire une sous-suite qui converge
P vers la même mesure limite µ. On en déduit que la suite µN
converge étroitement vers µ. Lorsque k |γ(k)| < ∞, alors gN (t) converge vers f (t) par application
du théorème de convergence dominé. Les théorèmes suivants sont à la base des statistiques.

Théorème A.10 (Loi forte des grands nombres). Soient (Xn , n ∈ N) une suite de v.a. indépendantes
et identiquement distribuées (i.i.d) telles que E [|] X1 | < ∞. Alors,
n
1X
Xi →P−p.s. µ =: E [X1 ] .
n
i=1
Pn
Ce théorème montre que la moyenne empirique n−1 i=1 Xi d’une suite de v.a i.i.d intégrables
converge p.s. vers la moyenne de ces variables.

Théorème A.11 (Théorème

£ ¤de la limite centrale). Soient (Xn , n ∈ N) une suite de v.a. i.i.d. telles
que E [Xi ] = µ et E (Xi − µ)2 = σ 2 < ∞. Alors,
n
1 X
√ (Xi − µ) →d N (0, σ 2 ).
n
i=1
P
Ce théorème permet d’évaluer la ”vitesse” à laquelle la moyenne empirique n−1 n1 Xi converge
vers la moyenne E [X1 ] =: µ. Ceci permet en particulier de déterminer, en statistique, des intervalles
de confiance.

A.1.6 Espérance conditionnelle

Nous allons voir que, dans le cadre des variables aléatoires de carré intégrable, l’espérance condi-
tionnelle par rapport à une sous-tribu B est la projection orthogonale sur l’ensemble des variables
aléatoires de carré intégrable qui sont B-mesurables. Ainsi E [X|Y ] peut être vue comme la fonction
de Y qui fournit la meilleure prédiction quadratique de X. En général cette fonction n’est pas linéaire
de Y sauf dans le modèle gaussien. Nous allons tout d’abord donner une définition élémentaire de
l’espérance conditionnelle à partir d’événements simples, puis nous étendrons cette définition aux
variables aléatoires de carré intégrable. Enfin nous donnerons une définition plus générale pour les
variables aléatoires posotives ou intégrables.

Construction élémentaire
Soit (Ω, F, P) un espace de probabilité. Soit B ∈ F un événement tel que P(B) > 0 et A ∈ F un
autre événement. On appelle probabilité conditionnelle de A sachant B la quantité :

P(A ∩ B)
P(A|B) =
P(B)

114
En notant IA la variable aléatoire qui vaut 1 si ω ∈ A et 0 sinon (indicatrice de A), on peut alors
écrire que : Z
1
P(A|B) = IA dP
P(B) B
que l’on note E [IA |B]. En généralisant cette expression à toute variable aléatoire X intégrable, on
définit l’espérance conditionnelle de X sachant B par la quantité :
Z
1
E [X|B] = XdP
P(B) B
L’espérance conditionnelle E [X|B] représente l’espérance de la variable aléatoire X sachant que
l’événement B s’est réalisé.
Exemple A.5
Soit X une variable aléatoire à valeurs dans l’ensemble des entiers naturels N. La loi de X est spécifiée
P par
la donnée des probabilités pk = P(X = k), pour k ∈ N. La moyenne
P de X est donnée par E [X] = k∈N kp k.
Considérons l’événement B = {X ≥ k0 }. Nous avons P(B) = k≥k0 pk que nous supposerons non nul par
hypothèse. L’espérance conditionnelle de X sachant B est donnée par :
1 X
E [X|B] = P kpk
k≥k0 pk k≥k0

Considérons maintenant la tribu B = {∅, Ω, B, B c } (c’est-à-dire la plus petite tribu contenant B).
On appelle l’espérance conditionnelle de X sachant la tribu B la variable aléatoire, notée E [X|B] et
définie par :
E [X|B] = E [X|B] IB + E [X|B c ] IB c
Cette variable aléatoire prend, suivant le résultat de l’expérience, soit la valeur E [X|B] soit la valeur
E [X|B c ]. De façon plus générale, si {Bk , k ≥ 0} désigne une famille d’événements formant une partition
de Ω et telle que P(Bk ) > 0 et si B est la plus petite tribu engendrée par ces événements, on définit
l’espérance conditionnelle de X sachant B par la variable aléatoire :
X
E [X|B] = E [X|Bk ] IBk (A.6)
k≥0

On
R remarque que
R la variable aléatoire E [X|B] est B-mesurable et que, pour tout B ∈ B,
B E [X|B] dP = B XdP . On a donc la caractérisation suivante :

Proposition A.12. L’espérance conditionnelle de la variable aléatoire X sachant la tribu B est

l’unique variable aléatoire E [X|B] qui soit B-mesurable et telle que, pour tout B ∈ B, on ait :
Z Z
E [X|B] dP = XdP (A.7)
B B

D’après l’équation (A.7), on remarque que, pour tout B ∈ B, on a :

Z
(E [X|B] − X)IB dP = 0
Ω
P
et donc que toute variable aléatoire B-mesurable de la forme Y = k≥0 yk IBk (où yk est une suite de
réels), E [(E [X|B] − X)Y )] = 0.

115
Espérance conditionnelle pour les variables aléatoires de carré intégrable
Le théorème A.12, qui suit, généralise la notion précédente d’espérance conditionnelle aux variables
aléatoires de carré intégrable. Ce théorème est la conséquence directe de la structure Hilbertienne de
l’ensemble L2 (Ω, B, P) des variables aléatoires de carré intégrable et du théorème 4.2 de projection.

Théorème A.12. Soit {Ω, F, P} un espace de probabilité et B ⊂ F une sous-tribu de F. On note

L2 (Ω, F, P) (resp. L2 (Ω, F, P)) l’espace des variables aléatoires F-mesurables (resp. B-mesurables)
de carré intégrable. Soit X une variable aléatoire de L2 (Ω, F, P). Alors il existe une unique va-
riable aléatoire appartenant à L2 (Ω, B, P), notée E [X|B] et qui vérifie simultanément, pour tout
Y ∈ L2 (Ω, B, P), les deux relations suivantes :

kX − E [X|B] k2 ≤ kX − Y k2 (A.8)
(X − E [X|B] , Y ) = 0 (A.9)

Remarquons, que, si B est une sous-tribu de F, l’espace L2 (Ω, B, P) est un sous-espace linéaire de
L2 (Ω, F, P), fermé par application de la proposition A.10. Nous pouvons donc appliquer le théorème de
projection. Le théorème A.12 donne un sens à l’espérance conditionnelle pour des variables aléatoires
de carré intégrable. Pour étendre cette définition aux variables aléatoires positives et/ou intégrables,
nous avons besoin du lemme élémentaire d’unicité suivant :

Lemme A.5. Soient X et Y deux variables aléatoires B-mesurables toutes deux positives ou toutes
deux intégrables vérifiant, pour tout B ∈ B :
Z Z
XdP ≥ Y dP (resp. =)
B B

Alors, X ≥ Y (resp. =) P-p.s.

Théorème A.13. Soit X une variable aléatoire positive (resp. intégrable). Il existe une variable
aléatoire Y positive (resp. intégrable) B-mesurable, telle que, pour tout B ∈ B, on ait :
Z Z
XdP = Y dP
B B

Cette variable est unique à une équivalence près.

Démonstration. L’unicité découle du lemme A.5. Montrons l’existence. On suppose tout d’abord que
X ≥ 0. Pour n ∈ N, définissons Xn = X ∧ n := min(X, n). Xn ∈ L2 (Ω, F, P), et il existe donc une v.a.
Yn ≥ 0, B-mesurable, unique à une équivalence près, telle que, pour tout B ∈ B, on ait :
Z Z
Xn dP = Yn dP
B B

Par application de A.5, Yn est P-p.s. une suite positive et croissante. En effet, pour tout B ∈ B, on a :
Z Z Z Z
Yn+1 dP = Xn+1 dP ≥ Xn dP = Yn dP
B B B B

116
Définissons Y = lim ↑ Yn . Y est B-mesurable, et par application du théorème de Beppo-Levi, pour
tout B ∈ B, on a : Z Z Z Z
Y dP = lim ↑ Yn dP = lim ↑ Xn dP = XdP
B B B B
Notons que, si X est intégrable, alors Y l’est aussi (prendre B = Ω). Pour étendre le résultat au cas
intégrable, nous allons prouver que, pour X, Y deux v.a. positives intégrables, et pour a, b ∈ R, nous
avons (linéarité de l’espérance conditionnelle) :

E [aX + bY |F] = aE [X|F] + bE [Y |F]

Il suffit en effet de remarquer que, pour tout B ∈ B, on a :

et on conclut en utilisant A.5. Pour X ∈ L1 (Ω, F, P), on pose X = X + − X − , où X + = max(X, 0)

et X − = max(−X, 0) (on rappelle que, par définition, si X ∈ L1 (Ω, F, P), on a E [|X|] < +∞ et donc
on a aussi E [X + ] < +∞ et E [X − ] < +∞) et nous concluons en utilisant l’existence de l’espérance
conditionnelle pour les variables aléatoires positives et la linéarité de l’espérance conditionnelle. ¥

Proposition A.13. On note L1 (Ω, F, P) l’ensemble des variables aléatoires intégrables définies sur
l’espace de probabilité {Ω, F, P}. On note B une sous-tribu de F.
1. Pour tout couple de variables aléatoires X, Y ≥ 0 (resp. ∈ L1 (Ω, F, P)) et pour tout couple de
constantes a, b ≥ 0 (resp. réelles), on a E [aX + bY |B] = aE [X|B] + bE [Y |B].
2. Pour tout couple de variables aléatoires X, Y ≥ 0 (ou ∈ L1 (Ω, F, P)), l’inégalité X ≤ Y P-p.s.
implique E [X|B] ≤ E [Y |B] P-p.s.
3. Pour tout couple de variables aléatoires X, Y ≥ 0 (ou ∈ L1 (Ω, F, P)) où Y est B-mesurable, on
a E [(X − E [X|B])Y ] = 0.
4. Pour toute variable aléatoire X ∈ L1 (Ω, F, P) et toute variable aléatoire Y bornée et B-mesurable,
on a E [(X − E [X|B])Y ] = 0.

La proposition, qui suit, regroupe des propriétés essentielles de l’espérance conditionnelle.

Proposition A.14. On note L1 (Ω, F, P) l’ensemble des variables aléatoires intégrables définies sur
{Ω, F, P}.
1. Soit G la tribu grossière : G = {Ω, ∅}. Alors, pour tout X ≥ 0 (ou X ∈ L1 (Ω, F, P)), on a
E [X|G] = E [X].
2. Soit A ⊂ B deux sous-tribus de F. Alors, pour toute variable aléatoire X ≥ 0 (ou X ∈
L1 (Ω, F, P)), on a :
E [E [X|B] |A] = E [X|A]
3. Soit X ≥ 0 (ou X ∈ L1 (Ω, F, P)) une variable aléatoire indépendante de B alors on a E [X|B] =
E [X].

117
4. Soit X ≥ 0 (ou X ∈ L1 (Ω, F, P)) et Y ≥ 0 (ou Y ∈ L1 (Ω, F, P)) une variable aléatoire B-
mesurable, alors on a E [XY |B] = Y E [X|B].
Démonstration. Les fonctions mesurables par rapport à la tribu grossière sont les fonctions constantes.
Or, pour tout B ∈ G (B = ∅ ou B = Ω), on a :
Z Z
E [X] dP = XdP
B B

et donc la fonction constante E [X] vérifie (A.7), ce qui prouve le point (1). Prouvons maintenant (2).
Soit Y une variable aléatoire A-mesurable bornée. Notons que A ⊂ B implique que Y est aussi B-
mesurable. Par conséquent, par définition de l’espérance conditionnelle appliquée à la variable aléatoire
Z = E [X|B], on a successivement :

E [E [Z|A] Y ] = E [ZY ] = E [XY ] = E [E [X|A] Y ]

et donc, pour toute variable aléatoire Y qui est A-mesurable bornée, on a E [E [Z|A] Y ] = E [E [X|A] Y ].
Ce qui entraı̂ne que les deux variables aléatoires A-mesurables E [Z|A] et E [X|A] coı̈ncident, ce qui
prouve (2). Soit maintenant X une variable aléatoire indépendante de B. Alors, par définition de
l’indépendance, pour toute variable aléatoire Y qui est B-mesurable bornée, on a E [XY ] = E [X] E [Y ].
On en déduit que :
E [E [X|B] Y ] = E [XY ] = E [X] E [Y ] = E [E [X] Y ]
ce qui prouve (3). Considérons finalement (4). On a, pour toute variable aléatoire Z bornée B-
mesurable :
E [E [XY |B] Z] = E [Y XZ] = E [(E [Y |B] X)Z]
la dernière égalité est justifiée puisque XZ est B-mesurable. Comme la variable aléatoire E [Y |B] X
est elle-même B-mesurable, elle s’identifie à E [XY |B]. Ce qui prouve (4). ¥

Proposition A.15. Les propriétés suivantes sont l’extension à l’espérance conditionnelle de propriétés
fondamentales de l’espérance.
1. (Convergence monotone conditionnelle) Soit (Xn )n≥0 une suite de variables aléatoires telles que
0 ≤ Xn ↑ X. Alors E [Xn |B] ↑ E [X|B].
2. (Lemme de Fatou conditionnel) Soit (Xn )n≥0 une suite de variables aléatoires positives. Alors
E [lim inf Xn |B] ≤ lim inf E [Xn |B].
3. (Convergence dominée conditionnelle) Soit (Xn )n≥0 une suite de variables aléatoires telle que
|Xn | ≤ V P-p.s., avec E [V ] < ∞ et Xn → X P-p.s. Alors, E [Xn |B] → E [X|B] P-p.s.
4. (Inégalité de Jensen conditionnelle) Soit c : R → R convexe telle que E [|c(X)|] < ∞. Alors,
E [c(X)|B] ≤ c(E [X|B]).
5. (Contraction des normes) Pour p ≥ 1, kE [X|B] kp ≤ kXkp , où kY kp := (E [|Y |p ])1/p .
Définition A.19. Soit deux variables aléatoires définies sur le même espace de probabilité {Ω, F, P}.
On appelle espérance conditionnelle de X par rapport à Y :

E [X|Y ] = E [X|σ(Y )]

où σ(Y ) désigne la tribu engendré par Y (la plus petite tribu rendant Y mesurable).

118
A.2 Estimation statistique
Lors d’une expérience aléatoire, l’observation est modélisée comme un point d’un espace mesurable
{H, H} dont la loi de probabilité nous est inconnue. Le but de l’estimation ponctuelle est de fournir, à
partir d’une suite d’observations d’une expérience aléatoire, la valeur d’un paramètre relié à la loi de
probabilité inconnue. Dans la suite, le plus souvent, ce paramètre est un scalaire ou un vecteur de di-
mension fini. Un estimateur est alors défini comme une fonction mesurable, arbitraire, de l’observation
à valeurs dans l’espace du paramètre. D’où le problème de définir, au moyen de critères raisonnables, ce
que l’on entend par “un estimateur est bon” et comment, à partir d’un critère, construire, si possible, le
meilleur d’entre eux. Dans ce paragraphe nous donnons les définitions du biais et de la dispersion qua-
dratique ainsi que des propriétés asymptotiques. Toutes ces notions sont à la base de la comparaison
des estimateurs entre eux.

A.2.1 Biais, dispersion d’un estimateur

Définition A.20 (Modèle statistique). Un modèle statistique est un triplet {H, H, P} où {H, H} est
un espace mesurable et P est une famille de mesures de probabilité définies sur {H, H}.

Dans la suite, le plus souvent, les observations sont réelles : on aura alors, dans le cas des
échantillons de taille n finie, H = Rn et, dans le cas de l’étude des propriétés asymptotiques, H = RN .
En estimation statistique, il est d’usage de distinguer deux approches : l’approche liée aux modèles
paramétriques et celle liée aux modèles non-paramétriques. Dans le premier cas, la famille P possède
une structure dépendant d’un paramètre d’intérêt de dimension finie : si on connaı̂t alors la vraie
valeur du paramètre, on dispose très exactement de la loi de probabilité de l’observation. Dans le
second cas, on fait très peu d’hypothèses sur la famille P et la connaissance du paramètre d’intérêt
ne permet plus de reconstruire la loi de probabilité de l’observation. Dans ce dernier cas, il est même
possible que le paramètre d’intérêt ne soit plus de dimension finie.
Exemple A.6 : MA(1) gaussien
On observe la suite (X1 , . . . , Xn ) d’un processus MA(1) défini par Xt = Zt + θ1 Zt−1 où Zt est un bruit
gaussien, centré, blanc (fort) de variance σ 2 . Le modèle est paramétrique. La loi de l’observation ne dépend,
en effet, que de θ = (θ1 , σ 2 ) ∈ Θ = R × R+ . Sa densité a pour expression :
½ ¾
1 1
pX (x1 , . . . , xn ; θ) = p exp − 2 (x1 , . . . , xn )C −1 (θ1 )(x1 , . . . , xn )T
(2π)n/2 σ n det(C(θ1 )) 2σ

où  
1 + θ12 θ1 0 ··· 0
 θ1 1 + θ12 θ1 ··· 0 
 
 
C(θ1 ) =  ... 
 
 0 1 + θ12 θ1 
0 ··· 0 θ1 1 + θ12
Si on omet l’hypothèse gaussienne, on ne peut plus, connaissant uniquement θ, écrire la loi de l’observation.
Dans ce cas, le modèle est dit semi-paramétrique. Si, à présent, on omet aussi l’hypothèse que le processus est
un processus MA(1) et que l’on suppose uniquement que l’observation provient d’un processus stationnaire
au second ordre, il n’y a plus, à proprement parler, de paramètres d’intérêt de dimension finie. On dit alors
que le modèle est non-paramétrique.

119
Définition A.21 (Estimateur). Soit le modèle statistique {H, H, P}. On suppose que P ∈ P dépend
d’un paramètre θ élément d’un espace mesurable {Θ, B(Θ)}. On appelle estimateur de θ ∈ Θ toute
fonction mesurable de {H, H} dans {Θ, B(Θ)}.
Définition A.22 (Biais d’un estimateur). Soit {Rn , Bn , P} un modèle statistique, soit θ ∈ Θ ⊂ Rk
un paramètre à estimer et soit θ̂ : {Rn , Bn } 7→ {Θ, B(Θ)} un estimateur de θ. On appelle biais de θ̂ le
vecteur de Rk défini par : h i
b(θ, θ̂) = Eθ θ̂(X1 , . . . , Xn ) − θ (A.10)

Un estimateur est dit sans biais si b(θ, θ̂) = 0 pour tout θ ∈ Θ.

Définition A.23 (Dispersion et risque quadratique). Soit {Rn , Bn , P} un modèle statistique, soit
θ ∈ Θ ⊂ Rk un paramètre à estimer et soit θ̂ : {Rn , B n } 7→ {Θ, B(Θ)} un estimateur de θ. On appelle
matrice de dispersion de l’estimateur θ̂ la matrice, de dimension k × k, définie par :
h i
D(θ, θ̂) = Eθ (θ̂(X1 , . . . , Xn ) − θ)(θ̂(X1 , . . . , Xn ) − θ)T (A.11)

On dit que θ̂(1) (X1 , . . . , Xn ) est meilleur que θ̂(2) (X1 , . . . , Xn ), si, pour tout θ ∈ Θ, on a :

D(θ, θ̂(1) ) ≤ D(θ, θ̂(2) ) (A.12)

On appelle risque quadratique de θ̂ :

h i
R(θ, θ̂) = Eθ (θ̂(X1 , . . . , Xn ) − θ)T (θ̂(X1 , . . . , Xn ) − θ) = Trace(D(θ, θ̂))

La notation Eθ indique que l’espérance doit être calculée avec la loi de l’observation lorsque la
valeur du paramètre inconnu est précisément θ :
Z
Eθ = θ̂(X1 , . . . , Xn )Pθ (dx)
Rn

Il s’en suit qu’en règle générale, le biais et la dispersion quadratique dépendent du paramètre inconnu
θ. Il est important de noter que la relation (A.12) ne permet pas d’ordonner totalement les estimateurs,
dans le sens où deux estimateurs ne sont pas nécessairement comparables. Il est donc vain de vouloir
trouver un estimateur qui soit meilleur que tous les autres pour toute valeur de θ. Ajoutons par
ailleurs que, dans les situations rencontrées en pratique, le calcul explicite du biais et de la dispersion
est souvent impossible. On peut alors, pour juger des performances, soit calculer des bornes, la plus
utilisée étant la borne inférieure de Cramer-Rao, soit déterminer les performances lorsque la taille de
l’échantillon tend vers l’infini.
Théorème A.14 (Borne de Cramer-Rao). Soit une modèle statistique {H, H, P} dominé par la mesure
µ et soit Θ une partie ouverte de Rk . On note p(x; θ) la densité de Pθ ∈ P par rapport à µ. On suppose :
– que θ, p(x; θ) est, µ-presque partout, continûment dérivable,
– et que la matrice d’information de Fisher, de dimension k × k, :
Z
∂ log p(x; θ) ∂ log p(x; θ) T
F (θ) = p(x; θ)µ(dx)
H ∂θ ∂θ
est définie positive pour toute valeur du paramètre θ et continue par rapport à θ.

120
Soit θ̂(X1 , . . . , Xn ) un estimateur de θ. On note :
h i
b(θ, θ̂) = [b1 (θ, θ̂) . . . bk (θ, θ̂)]T = Eθ θ̂(X1 , . . . , Xn ) − θ

le biais de cet estimateur. Alors le risque quadratique vérifie :

R(θ, θ̂) ≥ (Ik + ∂θ b(θ, θ̂))F −1 (θ)(Ik + ∂θ b(θ, θ̂))T + b(θ, θ̂)b(θ, θ̂)T (A.13)

∂θ b(θ, θ̂) désigne la matrice de dimension k × k dont l’élément général est ∂bm (θ, θ̂)/∂θj . On montre
que : Z
F (θ) = − ∂θ22 log p(x; θ)p(x; θ)µ(dx) (A.14)
H

où ∂θ22 log p(x; θ) désigne la matrice Hessien d’élément général ∂ 2 log p(x; θ))/∂θj ∂θm .

Dans la classe des estimateurs sans biais, la borne de Cramer-Rao a pour expression :

R(θ, θ̂) ≥ F −1 (θ)

A.2.2 Comportement asymptotique d’un estimateur

Voyons à présent quelques résultats concernant les propriétés asymptotiques.

Définition A.24 (Consistance). Soit un modèle statistique dépendant du paramètre θ ∈ Θ ⊂ Rk et

soit θ̂n (X1 , · · · , Xn ) une suite d’estimateurs de θ. On dit que la suite θ̂n (X1 , · · · , Xn ) est consistante
si, pour tout θ ∈ Θ, la suite de vecteurs aléatoires θ̂n (X1 , · · · , Xn ) converge en Pθ -probabilité vers θ.

Définition A.25 (Normalité asymptotique). Soit un modèle statistique dépendant du paramètre θ ∈

Θ ⊂ Rk et soit θ̂n (X1 , · · · , Xn ) une suite d’estimateurs de θ. On dit que la suite θ̂n (X1 , · · · , Xn ) est
asymptotiquement normale si, il existe une constante α > 0 et une Γ(θ) définie positive telle que, pour
tout θ ∈ Θ :
nα (θ̂n (X1 , · · · , Xn ) − θ) →d N (0, Γ(θ)) (A.15)
où N (0, Γ) désigne la loi gaussienne centrée, de matrice de covariance Γ.

Dans le cas des suites i.i.d., la consistance et la normalité asymptotique sont, le plus souvent, la
conséquence directe, d’une part, de la loi des grands nombres et du théorème de la limite centrale et,
d’autre part, de théorèmes de continuité.

Théorème A.15 (Loi faible des grands nombres). Soit {Xn }n≥1 une suite de vecteurs aléatoires
de dimension k, indépendants et identiquement distribués, de moyenne E [X1 ] et de variances finies.
Alors :
n
1X
Xk →P E [X1 ]
n
k=1

121
Théorème A.16 (Théorème de la limite centrale). Soit {Xn }n≥1 une suite de vecteurs aléatoires de
dimension k, indépendants et identiquement distribués, de moyenne E [X1 ] et de matrice de covariance
cov(X1 ) supposée définie positive. Alors :
Ã n !
1/2 1X
n Xk − E [X1 ] →d N (0, cov(X1 ))
n
k=1

Théorème A.17. Soit {Xn }n≥0 une suite de vecteurs aléatoires à valeurs dans Rk . Supposons que
Xn →P X, et soit X un sous-ensemble borelien de Rk tel que P[X ∈ X ] = 1. Si g : Rk → Rm est
continue sur X alors g(Xn ) →P g(X),

Théorème A.18. Soit {Xn } une suite de vecteurs aléatoires de dimension k telle que :

nα (Xn − µ) →d N (0, Γ)

où α est une constante positive et Γ une matrice de covariance définie positive. Soit g = (g1 , · · · , gm ) :
Rk → Rm une fonction différentiable au point µ, de matrice différentielle D, de dimension m × k, au
point µ : · ¸
∂g` (µ)
D=
∂xj
telle que la matrice Φ = DΓ, de dimension m × m, soit définie positive. Alors :

nα (g(Xn ) − g(µ)) →d N (0, Φ)

Définition A.26 (Quantité pivotale). Pour des observations X1 , . . . , Xn issues d’un modèle pa-
ramétrique de paramètre θ, une quantité Tn fonction de X1 , . . . , Xn et de θ est dite pivotale si sa
distribution ne dépend pas du paramètre θ. Dans les cas où cette propriété n’est pas vérifiée à n fini
mais ou néanmoins Tn converge en distribution vers une loi ne dépendant pas de θ, la quantité1 Tn
est dite asymptotiquement pivotale.

Un exemple simple de cette situation est le cas d’un paramètre de centrage où les observations sont
supposées iid de loi f (x − µ) pour une loi f (x) connue, µ étant le paramètre.
P Dans ce cas, on vérifie
directement que pour l’estimateur de la moyenne empirique µ̂n = n−1 nt=1 Xt , la quantité µ̂n − µ est
pivotale. A n fini, cette propriété peut néanmoins être difficile à exploiter dans la mesure où la loi de
µ̂n − µ n’a pas forcément une expression simple (sa fonction caractéristique par contre vaut Φf ( nλ )n
√
où Φf (λ) est la fonction caractéristique associée à f ). On note cependant que n(µ̂n − µ) est une
quantité asymptotiquement
£ ¤ pivotale dans la mesure où le théorème de la limite centrale A.16 indique
que dès que E (Xi − µ)2 = σ 2 < ∞,
√
n(µ̂n − µ) →d N (0, σ 2 ) (A.16)

En pratique, même dans le modèle de centrage, il est fréquent que la variance σ 2 soit également
un paramètre inconnu à estimer. Il est néanmoins possible d’obtenir une quantité asymptotiquement
pivotale en remplaçant σ 2 par une estimation consistante :

122
Propriété A.1. Si µn est une séquence asymptotiquement normale telle que
√
n(µ̂n − µ) →d N (0, σ 2 )

et σn est un estimateur consistant de σ, on a

√ −1
nσn (µ̂n − µ) →d N (0, 1)
√ −1
ce qui implique que nσn (µ̂n − µ) est une quantité asymptotiquement pivotale.

Cette propriété montre que dès qu’un estimateur est asymptotiquement normal, il est général au
moins possible de trouver des quantités asymptotiquement pivotales. Cette propriété est capitale pour
la construction d’intervalles de confiance qui mesurent la fiabilité du résultat d’estimation ainsi que
pour le test, c’est à dire la validation d’hypothèses concernant certains paramètres du modèle.

Définition A.27 (Intervalle de confiance asymptotique). Un intervalle de confiance asymptotique de

niveau α pour le paramètre scalaire inconnu θ est une suite d’intervalles, de la forme Jn = [T1,n , T2,n ]
où T1,n = T1 (X1 , X2 , · · · , Xn ) et T2,n = T2 (X1 , X2 , · · · , Xn ) sont des variables aléatoires, telle que :

lim P(θ ∈ Jn ) = α (A.17)

n→∞

Dans le cas du paramètre de centrage en supposant que la variance σ est connue, nous avons,
d’après (A.16)
µ√ ¶ Z c µ 2¶
n 1 x
lim P(µ ∈ [T1,n , T2,n ]) = lim P (µ̂n − µ) ∈ [−c, c] = 2 √ exp − dx
n→∞ n→∞ σ 0 2π 2
√ √
où nous avons posé T1,n = µ̂n − cσ/ n et T2,n = µ̂n + cσ/ n. Et donc, si nous choisissons c de telle
sorte que l’intégrale soit égale à α, nous obtenons un intervalle Jn = [T1,n , T2,n ] qui vérifie l’expression
(A.17). Ainsi, par exemple, pour α = 0.95 on c = 1.96 et :
µ ¶
σ σ
lim P µ̂n − 1.96 √ ≤ µ ≤ µ̂n + 1.96 √ = 95% (A.18)
n→∞ n n

Dans le cas où σ est inconnu, il est possible de le remplacer par un estimateur consistant σn en vertu
de la propriété A.1.

Définition A.28 (Test asymptotique). Un test asymptotique pour l’hypothèse θ = θ0 est une fonction
Tn des observations X1 , . . . , Xn et de θ0 à valeur dans {0, 1} (1 pour l’acceptation de l’hypothèse, 0
pour son rejet) telle que
lim Pθ (Tn = 1) = 0 quand θ 6= θ0
n
et
lim Pθ0 (Tn = 1) = α
n

où 1 − α est dite probabilité d’erreur de première espèce (ou de rejet à tort de l’hypothèse θ = θ0 ).

123
L’existence de quantités pivotales est également un point clé pour le test puisque pour l’exemple
du paramètre de centrage, l’expression (A.18), donnant l’intervalle de confiance asymptotique avec un
niveau de confiance de 95% pour µ, peut être encore écrite sous la forme
µ ¶
σ σ
lim P µ − 1.96 √ ≤ µ̂n ≤ µ + 1.96 √ = 95%
n→∞ n n

Ainsi la fonction Tn permettant de tester que µ = µ0 dans ce modèle est donnée par I[ µ0 −1.96 √σn , µ0 +
1.96 √σn ](µ̂n ) où I désigne la fonction indicatrice. Par construction, limn Pµ0 (Tn = 1) = 95%. De plus
dès que µ̂n est un estimateur consistant du paramètre inconnu µ et dans la mesure où les bornes
√
de l’intervalle [µ0 − 1.96 √σn , µ0 + 1.96 √σn ] se rapprochent (à la vitesse 1/ n), il est immédiat que
limn Pµ (Tn = 1) = 0 lorsque µ 6= µ0 . Comme dans le cas de l’intervalle de confiance, la propriété A.1
permet également de traiter le cas où la variance limite σ 2 est inconnue (du moment que l’on dispose
d’un estimateur consistant de cette dernière).

124
Annexe B

Rappels sur la transformée de Fourier

Dans toute la suite, I désigne l’intervalle I = [−π, π] et B(I) la tribu de Borel de I construite sur
les ouverts de I.

Propriété B.1 (Transformée de Fourier discrète d’une suite sommable). Soit R(n) une suite com-
plexes de module sommable. Alors :
Z ∞
inλ 1 X
R(n) = e f (λ)dλ où f (λ) = R(n)e−inλ
I 2π n=−∞
R P
D’après l’absolue sommabilité de R(n), f (λ) existe. Du fait que I n |R(n)|dλ < +∞, l’applica-
tion directe du théorème de Fubini donne :
Z Z X∞ X∞ Z
inλ inλ 1 −ikλ 1
e f (λ)dλ = e R(k)e dλ = R(k) ei(n−k)λ dλ = R(n)
I I 2π 2π I
k=−∞ k=−∞

Propriété B.2 (Coefficients de Fourier

R d’une mesure finie). Soit ν une mesure non-négative, définie
sur {I, B(I)}, finie (i.e. telle que I ν(dλ) < +∞) et soit n ∈ Z. On appelle n-ième coefficient de
Fourier de ν : Z
ν̂(n) = eiλn ν(dλ)
I
Du fait que la mesure est finie |ν̂(n)| est fini.
1. L’application ν → ν̂ est injective.
2. La suite {ν̂} est de type non-négatif.
3. Soit {νn }n≥0 et ν des mesures finies. La suite de mesures {νn } converge étroitement vers la
mesure ν (quand n tend vers l’infini), si et seulement si, pour tout k ∈ Z, ν̂n (k) converge vers
ν̂(k) (quand n tend vers l’infini).

1. Cb (I) désigne l’ensemble des fonctions complexes, continues et bornées, définies sur I = [−π, π],
muni de la topologie associée à la norme uniforme Rkf k∞ = supλ∈[−π,π] R |f (λ)|. Précisons que
l’égalité ν1 = ν2 doit être comprise dans le sens où I f (λ)ν1 (dλ) = I f (λ)ν2 (dλ) pour toute
fonction f ∈ Cb (I). Le point 1 est alors une conséquence directe du fait que les combinaisons

125
linéaires d’exponentielles complexes, de la forme einλ , sont denses dans R Cb (I). L’application
qui, à tout f ∈ Cb (I) fait correspondre le nombre complexe cν (f ) = f (λ)ν(dλ) ∈ C est une
forme linéaire continue sur Cb (I), qui associe aux exponentielles complexes de la forme einλ les
coefficients de Fourier cν (ein• ) = ν̂(n). Par conséquent, si pour deux mesures ν et ν, les formes
linéaires associées, cν et cν , coı̈ncident pour les exponentielles complexes (i.e. ν̂(n) = ν̂(n)), alors
elles coı̈ncident pour toute fonction de Cb (I). Ce qui démontre le point 1.
2. Soit (z1 , z2 , · · · , zn ) des nombres complexes. On a :

X d Z Xd Z ¯¯Xd
¯2
¯
¯ ¯
zr zs∗ ν̂(r − s) = zs zr∗ ei(r−s)λ ν(dλ) = ¯ zr e−irλ ¯ ν(dλ) ≥ 0
r,s=1 I
r,s=1 I¯r=1
¯

3. Par définition, la suite de mesure νn converge étroitement vers ν si pour toute fonction f ∈ Cb (I),
limn cνn (f ) = cν (f ). En particulier, si on prend f = e−ik• (qui est continue et bornée), nous
avons cνn (eik• ) = ν̂n (k) → ν̂(k). Réciproquement, soit {νn } une suite de mesures finies sur I
telles que, pour tout k ∈ Z, limn ν̂n (k) = ν(k). Cette propriété implique en particulier que la
suite ν̂n (0) = νn (I) est convergente, et est donc bornée, supn≥0 ν̂n (0) < ∞. Remarquons aussi
que |ν̂n (k)| ≤ νn (0). Pour f ∈ L2 (I, dλ) (où dλ désigne la mesure de Lebesgue), définissons :
Z
fˆ(k) = f (t)e−ikt dt
I
P
Considérons la classe F de fonctions f vérifiant k∈Z |fˆ(k)| < ∞. La classe F est dense dans
Cb (I). Notons que, pour toute fonction f ∈ F, nous avons :
1 Xˆ
f (λ) = f (k)e−ikλ
2π
k∈Z

Par conséquent, en appliquant le théorème de Fubini, on a :

Z Z X
1 1 Xˆ
cνn (f ) = f (λ)νn (dλ) = fˆ(k)e−ikλ νn (dλ), = f (k)ν̂n (k)
I 2π I 2π
k∈Z k∈Z

Comme supk supn |ν̂n (k)| < ∞, le théorème de convergence dominée et le théorème de Fubini
impliquent que :
1 Xˆ 1 Xˆ
lim cνn (f ) = f (k) lim ν̂n (k) = f (k)ν̂(k) = cν (f )
n 2π n→+∞ 2π
k∈Z k∈Z

Soit maintenant f une fonction continue. Pour tout ² > 0, il existe f² ∈ F tel que kf − f² k∞ ≤ ²
et nous avons :
|νn (f ) − ν(f )| ≤ |νn (f² ) − ν(f² )| + |ν(f² ) − ν(f )|
≤ |νn (f² ) − ν(f² )| + kf − f² k∞ (|ν̂n (0)| + |ν̂(0)|)
et donc puisque f² ∈ F la limite du premier terme est 0 et on a :
lim sup |νn (f ) − ν(f )| ≤ 2²|ν̂(0)|
n

Comme ² est arbitraire, nous avons donc limn νn (f ) = ν(f ), ce qui conclut la preuve.

126
Annexe C

Compléments sur les espaces de Hilbert

Théorème C.1. Si E est un sous-ensemble d’un espace de Hilbert H, alors E ⊥ est un sous-espace
fermé.

Démonstration. Soit (xn )n≥0 une suite convergente d’éléments de E ⊥ . Notons x la limite de cette suite.
Par continuité du produit scalaire nous avons, pour tout y ∈ E,

(x, y) = lim (xn , y) = 0

n→∞

et donc x ∈ E ⊥ . ¥

Définition C.1 (Famille orthonormale). Soit E = {ej ; j ∈ T } un sous ensemble de H. On dit que E
est une famille orthonormale ssi (ei , ej ) = δ(i − j).
Exemple C.1

Propriété C.1 (Inégalité de Bessel). Si x est un vecteur d’un espace de Hilbert H et si E =

{e1 , · · · , ek } est une famille orthonormale finie, alors :
k
X
|(x, ei )|2 ≤ kxk2
i=

Démonstration. Notons E = span(E) le sous-espace P engendre par les vecteurs {e1 , P · · · , ek }. Nous
avons k(x|E)k ≤ kxk. On vérifie aisément que (x|E) = ki=1 (x, ei )ei et que k(x|E)k2 = ki=1 |(x, ei )|2 .
Remarquons en effet, pour tout j ∈ {1, . . . , k},
k
X
(x − (x, ei )ei , ej ) = (x, ej ) − (x, ej ) = 0
i=1

Définition C.2 (Famille orthonormale complète). Soit E = {ej ; j ∈ T } une famille orthonormale de
H. On dit que E est une famille orthonormale complète ssi esp(E) = H.

127
Lemme C.1. (i). Soit (Mn ) une suite croissante
T de sous-espaces vectoriels (s.e.v.) fermés d’un
espace de Hilbert H et notons M−∞ = n Mn . Alors, pour tout h ∈ H, nous avons

(h|M−∞ ) = lim (h|Mn )

n→−∞
S
(ii). Soit M∞ = n∈Z Mn . Alors, pour tout h ∈ H,

(h|M∞ ) = lim (h|Mn ).

n→∞

(iii). Soit {ek , k ∈ N} une famille orthonormale de h, ej ⊥ ek , for j 6= k, kej k = 1. Soit En =

S
span{el , 0 ≤ l ≤ n} et E∞ = n≥0 En . Alors
∞
X
(h|E∞ ) = a k ek .
k=0

Démonstration. (a) Comme Mn est un s.e.v. fermé de H et donc M−∞ est un s.e.v. fermé de H.
Le théorème de projection 4.2 prouve que (h|M−∞ ) existe. Pour m < n, définissons Mn ª Mm
le complément orthogonal de Mm dans Mn , c’est à dire l’ensemble des vecteurs x ∈ Mn tel que
x ⊥ Mm . Mn ª Mm est un s.e.v fermé de H. Notons que

(h|Mn ª Mm ) = (h|Mn ) − (h|Mm ).

On a, pour tout m ≥ 0,
∞
X
k(h|Mn ª Mn−1 )k2 = k(h|M0 ª M−m )k2 ≤ khk2 < ∞
n=−m

et donc la suite {(h|Mn ), n = 0, −1, −2, . . .} est une suite de Cauchy. Comme H est complet, (h|Mn )
converge dans H. Notons z := limm→−∞ (h|Mn ). Il reste à prouver que z = (h|M−∞ ). En appliquant
le théorème de projection 4.2, nous devons donc démontrer que (i) z ∈ M−∞ et (ii) h − z ⊥ M−∞ .
Comme (h|Mn ) ∈ Mp pour tout n ≤ p, nous avons donc limn→−∞ (h|Mn ) ∈ Mp pour tout p et donc
z ∈ M−∞ , ce qui établit (i). Pour prouver (ii), prenons p ∈ M−∞ . Nous avons p ∈ Mn pour tout
n ∈ Z, et donc, pour tout n ∈ Z, (h − (h|Mn ), p) = 0 et (ii) découle de la continuité du produit
scalaire. La preuve du point [(b)] est similaire et est laissée au lecteur à titre d’exercice Nous prouvons
finalement le point [(c)]. En appliquant [(b)], nous avons

(h|E∞ ) = lim (h|En ).

n→∞

On vérifie aisément que

n
X
(h|En ) = (h, ek )ek .
k=1
Notons en effet que (h|En ) ∈ En et, pour tout k ∈ {1, · · · , n},

(h − (h|En ), ek ) = (h, ek ) − (h, ek ) = 0.

On conclut la preuve en combinant les deux résultats précédents. ¥

128
Dans les espaces de Hilbert le fait qu’il existe une famille orthonormale complète dénombrable joue
un rôle important. Ce qui conduit à la définition suivante.

Définition C.3 (Espace de Hilbert séparable). On dit qu’un espace de Hilbert est séparable ssi il
existe une famille orthonormale complète dénombrable.

La plupart des espaces de Hilbert que nous rencontrerons seront séparables. En particulier le sous-
espace fermé engendré à partir d’une famille dénombrable d’un espace de Hilbert, que celui-ci soit
séparable ou non séparable, est séparable.

Théorème C.2. Soit H un espace de Hilbert séparable et soit {ei ; i ∈ N} une famille orthonormale
complète dénombrable. Alors :
P
1. ∀² > 0, il existe un entier k et une suite c0 , · · · , ck t.q. kx − ki=0 ci ei k < ².
P
2. x = +∞ i=0 (ei , xi )ei (série de Fourier),
P
3. kxk2 = +∞ 2
i=0 |(ei , xi )| (égalité de Parseval),
P+∞
4. (x, y) = i=0 (xi , ei )(ei , y),
5. x = 0 ssi (ei , x) = 0 pour tout i.

129
Annexe D

Compléments sur les matrices

Toutes les matrices et tous les vecteurs (colonne) considérés sont de dimensions finies à éléments
complexes. On suppose connue la définition du déterminant.

Notations
L’exposant T désigne la transposition, l’exposant H désigne la transposition-conjugaison. I désigne
une matrice identité de dimension adéquate. La matrice diag(a1 , . . . , aN ) désigne la matrice carrée
diagonale de dimension N , dont les éléments diagonaux sont a1 , . . . , aN . Une matrice carrée U est dite
unitaire si U U H = U H U = I. Une matrice carrée P est un projecteur si P 2 = P = P H . Par exemple, si
v désigne un vecteur, la matrice vv H /v H v est un projecteur. La trace d’une matrice est la somme de ses
éléments diagonaux. La trace vérifie Trace(A+B) = Trace(A)+Trace(B) et Trace(AB) = Trace(BA).

Matrice-bloc, déterminant et trace

Pour des matrices carrées ayant des dimensions appropriées, on a les formules suivantes :
◦ (AB)H = B H AH
◦ (AH )−1 = (A−1 )H
◦ det(A) = det(AT )
◦ det(AB) = det(A)det(B)
◦ det(I − AB) = det(IM − BA)
· ¸
A B
◦ det = det(A)det(D − CA−1 B)
C D
· ¸−1 · −1 ¸
A B A + A−1 B∆−1 CA−1 −A−1 B∆−1
◦ =
C D −∆−1 CA−1 ∆−1
où ∆ = D − CA−1 B
Lemme d’inversion matricielle : si A et B sont deux matrices carrées inversibles, alors pour toutes
matrices G et H de dimensions appropriées :
¡ ¢−1
(A + GBH)−1 = A−1 − A−1 G HA−1 G + B −1 HA−1

130
Valeurs propres
Pour une matrice carrée A de dimension N × N , les vecteurs propres représentent les directions
de l’espace CN qui sont invariantes. Ce sont par conséquent les vecteurs w définis par l’équation
Aw = λw. La trace est égale à la somme des valeurs propres et le déterminant à leur produit. Cela
s’écrit :
N
X N
Y
Trace(A) = λi et det(A) = λi
i=1 i=1

Image de A
Soit A une matrice de dimension M × N . On appelle image de A le sous-espace de CM noté I(A),
qui est engendré par les vecteurs-colonnes de A. On appelle noyau de A le sous-espace de CN noté
N (A), qui est solution de Ax = 0. On appelle rang-colonne de A la dimension de son espace image
rang(A) = dim I(A). C’est aussi le nombre de vecteurs-colonnes de A qui sont indépendants. On
montre que :
dim N (A) + dim I(A) = N
Si A est de rang-colonne plein, cad rang(A) = N , alors soit AH A est inversible. On définit de la même
manière un rang-ligne. Le rang de A est le minimum de son rang-colonne et de son rang-ligne. Dans
tous les cas le rang d’une matrice est inférieur à min(M, N ).

Valeurs singulières
Soit A une matrice de dimension M ×N et de rang r. Alors il existe deux matrices carrées unitaires
l’une notée U de taille M × M et l’autre notée V de taille N × N , telles que :
µ ¶
Σr 0
A=U VH
0 0
où Σr = diag(σ1 , . . . , σr ) avec σ1 ≥ · · · ≥ σr > 0. Les valeurs σi sont dites valeurs singulières de A.
– Les vecteurs colonnes de U de dimension M sont les vecteurs propres de AAH . Les r premiers
vecteurs colonnes de U forment une base orthonormée de l’image de A.
– Les vecteurs colonnes de V de dimension N sont les vecteurs propres de AH A. Les (N − r)
derniers vecteurs colonnes de V forment une base orthonormée du noyau de A.
On appelle pseudo-inverse de A la matrice de dimension N × M :
µ −1 ¶
+ Σr 0
A =V UH
0 0
Dans CM , la matrice carrée AA+ est le projecteur sur I(A). Dans CN , la matrice carrée (I − A+ A)
est le projecteur sur N (A). Si A est de rang plein, alors :
– pour M = N , A+ = A−1 ,
– pour M > N , A+ = (AH A)−1 AH
– et pour M < N , A+ = AH (AAH )−1
Le rapport entre la plus grande et la plus petite valeur singulière d’une matrice s’appelle son nombre
de conditionnement. Il mesure la difficulté numérique à calculer sa pseudo-inverse.

131
Matrice carrée positive
Une matrice carrée R est dite hermitienne si elle vérifie R = RH . Une matrice carrée hermitienne
R est dite non-négative, respectivement positive si pour tout vecteur a, on a aH Ra ≥ 0 (resp. > 0).
Pour les matrices non négatives, la décomposition en valeurs propres et la décomposition en valeurs
singulières coı̈ncident. Si R est positive, alors R−1 existe et est positive. Si R est non négative, toutes
ses valeurs propres sont réelles, non négatives et leur ordre de multiplicité est égal à la dimension
du sous-espace propre associé. Si R est une matrice non négative et si ses valeurs propres λi sont
distinctes, alors les vecteurs propres wi associés sont deux à deux orthogonaux et on a :
N
X
R= λi wi wiH
i=1

où tous les λi sont non négatifs. On en déduit que :

N
X
Rn = λni wi wiH
i=1

Il est facile d’étendre cette écriture à une fonction polynomiale quelconque. En particulier on en déduit
que R vérifie son équation caractéristique (det(A − λI) = 0). Par extension, pour toute fonction f
développable en série entière, on peut définir la fonction de matrice :
N
X
f (R) = f (λi )wi wiH
i=1

132

Vous aimerez peut-être aussi

FR Poly
Pas encore d'évaluation
FR Poly
131 pages
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
Pas encore d'évaluation
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
196 pages
Series Temporelles Lineaires XX
Pas encore d'évaluation
Series Temporelles Lineaires XX
89 pages
Processus Stationnaire d2lslsM
Pas encore d'évaluation
Processus Stationnaire d2lslsM
107 pages
Modèles ARMA pour Économistes
Pas encore d'évaluation
Modèles ARMA pour Économistes
37 pages
Séries Chronologiques MIASHS
Pas encore d'évaluation
Séries Chronologiques MIASHS
52 pages
Cours de Séries Chronologiques Master
Pas encore d'évaluation
Cours de Séries Chronologiques Master
47 pages
Modèles de Prévision Séries Temporelles Arthur Charpentier
0% (1)
Modèles de Prévision Séries Temporelles Arthur Charpentier
196 pages
Sigaux Aleatoire
Pas encore d'évaluation
Sigaux Aleatoire
94 pages
Tssi0 Dvi
Pas encore d'évaluation
Tssi0 Dvi
125 pages
Polycopié Série Temporelles Univarié
Pas encore d'évaluation
Polycopié Série Temporelles Univarié
137 pages
Ts
Pas encore d'évaluation
Ts
178 pages
Cours de Series Temporelles
Pas encore d'évaluation
Cours de Series Temporelles
178 pages
Cours de Series Temporelles Theorie Et Applications
Pas encore d'évaluation
Cours de Series Temporelles Theorie Et Applications
178 pages
Analyse de Series Chronologiques
Pas encore d'évaluation
Analyse de Series Chronologiques
47 pages
ARMA
Pas encore d'évaluation
ARMA
141 pages
Seri Chro PDF
Pas encore d'évaluation
Seri Chro PDF
41 pages
Séries Temporelles avec R
Pas encore d'évaluation
Séries Temporelles avec R
111 pages
Introduction à l'Économétrie
Pas encore d'évaluation
Introduction à l'Économétrie
122 pages
Econometrie
100% (7)
Econometrie
128 pages
DS Math BELGUERNA Abderrahmane
Pas encore d'évaluation
DS Math BELGUERNA Abderrahmane
112 pages
ST Cours
100% (1)
ST Cours
50 pages
Poly Processus
Pas encore d'évaluation
Poly Processus
87 pages
Resume Series Temporelles
Pas encore d'évaluation
Resume Series Temporelles
27 pages
Prédiction des Séries Chronologiques
Pas encore d'évaluation
Prédiction des Séries Chronologiques
58 pages
1 - Des ST Cours 2021
Pas encore d'évaluation
1 - Des ST Cours 2021
64 pages
Poly Processus
Pas encore d'évaluation
Poly Processus
81 pages
Ser
Pas encore d'évaluation
Ser
53 pages
Series Chronologiques Von Sach
Pas encore d'évaluation
Series Chronologiques Von Sach
211 pages
Poly Processus
Pas encore d'évaluation
Poly Processus
87 pages
Économétrie Financière: Concepts et Modèles
Pas encore d'évaluation
Économétrie Financière: Concepts et Modèles
171 pages
Hasbnclic 708
Pas encore d'évaluation
Hasbnclic 708
171 pages
Probastat 82
Pas encore d'évaluation
Probastat 82
156 pages
CoursPS PDF
Pas encore d'évaluation
CoursPS PDF
61 pages
Cours ST2012
Pas encore d'évaluation
Cours ST2012
40 pages
Polycopié Lescheb Ines
Pas encore d'évaluation
Polycopié Lescheb Ines
138 pages
Processus Aléatoires en Électronique
Pas encore d'évaluation
Processus Aléatoires en Électronique
99 pages
Modèles Économétriques Dynamiques
Pas encore d'évaluation
Modèles Économétriques Dynamiques
44 pages
Introduction aux Processus Stochastiques
Pas encore d'évaluation
Introduction aux Processus Stochastiques
49 pages
Processus de Markov
Pas encore d'évaluation
Processus de Markov
67 pages
Statistiques des processus stochastiques
Pas encore d'évaluation
Statistiques des processus stochastiques
80 pages
Économétrie Linéaire Appliquée
Pas encore d'évaluation
Économétrie Linéaire Appliquée
253 pages
Econométrie Linéaire Appliquée (PDFDrive)
Pas encore d'évaluation
Econométrie Linéaire Appliquée (PDFDrive)
253 pages
LF
Pas encore d'évaluation
LF
116 pages
Estimation Yule-Walker des AR
Pas encore d'évaluation
Estimation Yule-Walker des AR
47 pages
Modélisation des Séries Temporelles en Statistique
Pas encore d'évaluation
Modélisation des Séries Temporelles en Statistique
46 pages
Champ de Gibbs-Markov Sur Réseau
Pas encore d'évaluation
Champ de Gibbs-Markov Sur Réseau
4 pages
Serold
Pas encore d'évaluation
Serold
67 pages
PDF IntroductionauxProcessusStochastiques
Pas encore d'évaluation
PDF IntroductionauxProcessusStochastiques
44 pages
Processus Moyenne Mobile
Pas encore d'évaluation
Processus Moyenne Mobile
75 pages
Modélisation des Séries Temporelles
Pas encore d'évaluation
Modélisation des Séries Temporelles
52 pages
Rsa 1979 27 3 33 0
Pas encore d'évaluation
Rsa 1979 27 3 33 0
14 pages
TD 3 SC 2019
Pas encore d'évaluation
TD 3 SC 2019
2 pages
TD Arma
Pas encore d'évaluation
TD Arma
2 pages
Ressources Formation PowerPoint 2019 L Essentiel
Pas encore d'évaluation
Ressources Formation PowerPoint 2019 L Essentiel
48 pages
Markov Switching Vector Autoregressive MS VAR 1743760930
Pas encore d'évaluation
Markov Switching Vector Autoregressive MS VAR 1743760930
36 pages
ComptaNat Chapitre3 ISE1-1
Pas encore d'évaluation
ComptaNat Chapitre3 ISE1-1
15 pages
Séries Temporelles et Eviews
Pas encore d'évaluation
Séries Temporelles et Eviews
45 pages
Modèles Tobit: Cours et Applications
Pas encore d'évaluation
Modèles Tobit: Cours et Applications
52 pages
Evaluation Des Provisions Techniques en
Pas encore d'évaluation
Evaluation Des Provisions Techniques en
52 pages
Introduction aux Chaînes de Markov
100% (2)
Introduction aux Chaînes de Markov
287 pages
Files-D Attente
Pas encore d'évaluation
Files-D Attente
109 pages
Serie Chronologique
Pas encore d'évaluation
Serie Chronologique
3 pages
Prévision Taux de Change: Modèles ARMA/GARCH
Pas encore d'évaluation
Prévision Taux de Change: Modèles ARMA/GARCH
87 pages
Rapp Sci 09 PDF
Pas encore d'évaluation
Rapp Sci 09 PDF
18 pages
Processus Stochastiques et Markov
Pas encore d'évaluation
Processus Stochastiques et Markov
90 pages
Processus de comptage en mathématiques
Pas encore d'évaluation
Processus de comptage en mathématiques
63 pages
Processus Stationnaires en Statistique M1
Pas encore d'évaluation
Processus Stationnaires en Statistique M1
54 pages
Introduction aux Chaînes de Markov
Pas encore d'évaluation
Introduction aux Chaînes de Markov
88 pages
Exercices sur les Chaînes de Markov
100% (2)
Exercices sur les Chaînes de Markov
53 pages
Modèles de Taux d'Intérêt et Arbitrage
Pas encore d'évaluation
Modèles de Taux d'Intérêt et Arbitrage
16 pages
Modélisation des Files d'Attente ENSA
Pas encore d'évaluation
Modélisation des Files d'Attente ENSA
53 pages
Les Probabilités Du Texas Hold'em
Pas encore d'évaluation
Les Probabilités Du Texas Hold'em
14 pages
Chapitre 2 Processus Stochastique
Pas encore d'évaluation
Chapitre 2 Processus Stochastique
20 pages
Support Cours MEPS 2021 Chaines de Markov
100% (1)
Support Cours MEPS 2021 Chaines de Markov
9 pages
Chapitre Stationnarité
Pas encore d'évaluation
Chapitre Stationnarité
81 pages
CoursSeriesTemp Chap2
Pas encore d'évaluation
CoursSeriesTemp Chap2
80 pages
Chap 1 Théorie Et Traitement Du Signal
Pas encore d'évaluation
Chap 1 Théorie Et Traitement Du Signal
19 pages
Mémoire Saw Lass Finale
Pas encore d'évaluation
Mémoire Saw Lass Finale
65 pages
2 Processus Stoch
Pas encore d'évaluation
2 Processus Stoch
25 pages
Cours Processus Et Calcul Stochastique
Pas encore d'évaluation
Cours Processus Et Calcul Stochastique
79 pages
Processus M2 PDF
Pas encore d'évaluation
Processus M2 PDF
118 pages
Eval Perf Slides
Pas encore d'évaluation
Eval Perf Slides
113 pages
Modélisation Hydrologique à Siliana
Pas encore d'évaluation
Modélisation Hydrologique à Siliana
74 pages
Introduction Aux Processus Stochastiques
Pas encore d'évaluation
Introduction Aux Processus Stochastiques
49 pages
01 Geostatistics Intro
Pas encore d'évaluation
01 Geostatistics Intro
27 pages
PAA-Chaines de Markov-2020-2021
100% (1)
PAA-Chaines de Markov-2020-2021
32 pages