0% ont trouvé ce document utile (0 vote)
8 vues133 pages

Main

Le document présente une introduction aux séries temporelles, en se concentrant sur les processus aléatoires stationnaires au second ordre. Il aborde des concepts clés tels que la stationnarité, les processus ARMA, l'estimation des moyennes et des covariances, ainsi que la prédiction linéaire. Des exemples pratiques illustrent l'application de la modélisation stochastique dans divers domaines, tels que la santé, le trafic Internet et les indices financiers.

Transféré par

abdourapa123
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
8 vues133 pages

Main

Le document présente une introduction aux séries temporelles, en se concentrant sur les processus aléatoires stationnaires au second ordre. Il aborde des concepts clés tels que la stationnarité, les processus ARMA, l'estimation des moyennes et des covariances, ainsi que la prédiction linéaire. Des exemples pratiques illustrent l'application de la modélisation stochastique dans divers domaines, tels que la santé, le trafic Internet et les indices financiers.

Transféré par

abdourapa123
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Introduction aux séries temporelles

Olivier Cappé, Maurice Charbit, Eric Moulines

30 mars 2007
Table des matières

1 Processus aléatoires stationnaires au second ordre 3


1.1 Propriétés générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.1 Répartitions finies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.1.2 Stationnarité stricte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.1.3 Processus gaussiens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.2 Stationnarité au second ordre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.2.1 Covariance d’un processus stationnaire au second ordre . . . . . . . . . . . . . 9
1.2.2 Interprétation de la fonction d’autocovariance . . . . . . . . . . . . . . . . . . . 11
1.2.3 Mesure spectrale d’un processus stationnaire au second ordre à temps discret . 14
1.3 Filtrage des processus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.1 Processus MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.2 Processus AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.3 Processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.5 Preuves des théorèmes 1.4 et 1.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

2 Estimation de la moyenne et des covariances 35


2.1 Estimation de la moyenne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.2 Estimation des coefficients d’autocovariance et d’autocorrélation . . . . . . . . . . . . 37

3 Estimation spectrale non paramétrique 42


3.1 Le périodogramme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Estimateur à noyau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.3 Preuves des théorèmes 3.2, 3.3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4 Prédiction linéaire. Décomposition de Wold 56


4.1 Eléments de géométrie Hilbertienne . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Espace des variables aléatoires de carré intégrables . . . . . . . . . . . . . . . . . . . . 60
4.3 Prédiction linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.3.1 Estimation linéaire en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 62
4.3.2 Prédiction linéaire d’un processus stationnaire au second-ordre . . . . . . . . . 63
4.4 Algorithme de Levinson-Durbin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.5 Algorithme de Schur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
4.6 Décomposition de Wold . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

1
4.7 Preuves des théorèmes 4.2, 4.4 et 4.5 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

5 Estimation des processus ARMA 82


5.1 Estimation AR . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82
5.2 Estimation MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
5.3 Estimation ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

I Annexes 93

A Eléments de probabilité et de statistique 94


A.1 Eléments de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.1.1 Espace de probabilité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.1.2 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
A.1.3 Espaces Lp (Ω, F, P) et Lp (Ω, F, P) . . . . . . . . . . . . . . . . . . . . . . . . . 104
A.1.4 Variables aléatoires Gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . 105
A.1.5 Modes de convergence et Théorèmes limites . . . . . . . . . . . . . . . . . . . . 107
A.1.6 Espérance conditionnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109
A.2 Estimation statistique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.2.1 Biais, dispersion d’un estimateur . . . . . . . . . . . . . . . . . . . . . . . . . . 114
A.2.2 Comportement asymptotique d’un estimateur . . . . . . . . . . . . . . . . . . . 116

B Rappels sur la transformée de Fourier 120

C Compléments sur les espaces de Hilbert 122

D Compléments sur les matrices 125

2
Chapitre 1

Processus aléatoires stationnaires au


second ordre

Le paragraphe 1.1 définit le formalisme probabiliste permettant de décrire les processus aléatoires.
Les quelques exemples qui suivent illustrent la diversité des situations dans lesquelles la modélisation
stochastique (ou aléatoire) des séries temporelles joue un rôle important.
Exemple 1.1 : Battements cardiaques
La figure 1.1 représente l’évolution, sur une durée totale de 900 secondes, du rythme cardiaque d’un sujet au
repos. Ce rythme est mesuré en nombre de battements par minute toutes les 0.5 secondes.

110

100

90

80

70
0 200 400 600 800

Fig. 1.1 – Battements cardiaques : évolution du nombre de battements par


minute en fonction du temps mesuré en seconde.

Exemple 1.2 : Trafic internet


La figure 1.2 représente les temps d’inter-arrivées de paquets TCP, mesurés en secondes, sur la passerelle
du laboratoire Lawrence Livermore. La trace représentée a été obtenue en enregistrant 2 heures de trafic.
Pendant cette durée, environ 1.3 millions de paquets TCP, UDP, etc. ont été enregistrés, en utilisant la
procédure tcpdump sur une station Sun. D’autres séries de ce type peuvent être obtenues sur The Internet
Traffic Archive, http ://ita.ee.lbl.gov/.

3
0.25

0.2

0.15

0.1

0.05

0
0 2 4 6 8 10 12
5
x 10

Fig. 1.2 – Trace de trafic Internet : temps d’inter-arrivées de paquets TCP.

Exemple 1.3 : Parole


La figure 1.3 représente un segment de signal vocal échantillonné (la fréquence d’échantillonnage est de 8000
Hz). Ce segment de signal correspond à la réalisation du phonème ch (comme dans chat) qui est un son dit
fricatif, c’est-à-dire produit par les turbulences du flot d’air au voisinage d’une constriction (ou resserrement)
du conduit vocal.

Fig. 1.3 – Signal de parole échantillonné à 8000 Hz : son non voisé ch.

Exemple 1.4 : Indice financier


La figure 1.4 représente les cours d’ouverture journaliers de l’indice Standard and Poor 500, du 2 Janvier
1990 au 25 Août 2000. l’indice S&P500 est calculé à partir de 500 actions choisies parmi les valeurs cotées
au New York Stock Exchange (NYSE) et au NASDAQ en fonction de leur capitalisation, leur liquidité, leur

4
représentativité dans différents secteurs d’activité. Cet indice est obtenu en pondérant le prix des actions
par le nombre total d’actions, le poids de chaque valeur dans l’indice composite étant proportionnel à la
capitalisation.

1600

1400

1200

1000

800

600

400

200
500 1000 1500 2000 2500

Fig. 1.4 – Cours quotidien d’ouverture de l’indice S&P500 : entre Janvier


1990 et Août 2000.

1.1 Propriétés générales


Définition 1.1 (Processus aléatoire). Soient (Ω, F, P) un espace de probabilité, T un ensemble d’in-
dices et (E, E) un espace mesurable. On appelle processus aléatoire une famille {X(t), t ∈ T } de v.a.
à valeurs dans (E, E) indexées par t ∈ T .
Le paramètre t représente ici le temps. Lorsque T ⊂ Z, nous dirons que le processus est à temps
discret et, lorsque T ⊂ R, que le processus est à temps continu. Dans la suite de cet ouvrage, nous
nous intéresserons de façon prioritaire aux processus à temps discret T ⊂ Z. Quant à (E, E), nous
considérerons le plus souvent (R, B(R)) (où B(R) est la tribu borélienne de R) ou (Rd , B(Rd )). Dans le
premier cas, on dira que le processus aléatoire est scalaire. Dans le second, nous dirons que le processus
est vectoriel.
Notons qu’en fait un processus est une application X : Ω × T → E telle que :
– à chaque instant t ∈ T , l’application ω 7→ X(t, ω) ∈ (E, E) est une variable aléatoire,
– pour chaque épreuve ω ∈ Ω, l’application t 7→ X(t, ω) est une fonction de T → E qui s’appelle
la trajectoire associée à l’épreuve ω.

1.1.1 Répartitions finies


On note I l’ensemble des parties finies ordonnées de T . Un élément I de I s’écrit I = {t1 < t2 <
· · · < tn }. On note |I| le cardinal de I et PI la loi du vecteur aléatoire (X(t1 ), X(t2 ), · · · , X(tn )),
c’est-à-dire la mesure image par les variables aléatoires (X(t1 ), X(t2 ), · · · , X(tn )) de la probabilité P :
PI est la probabilité sur (E |I| , E ⊗|I| ) définie par
PI A1 × A2 × · · · × An = PX(t1 ) ∈ A1 , X(t2 ) ∈ A2 , · · · , X(tn ) ∈ An , (1.1)

5
où {A1 , · · · , An } sont des éléments quelconques de la tribu cE. La probabilité PI est une probabilité
fini-dimensionnelle du processus. Pour caractériser la loi d’un processus, il est nécessaire de disposer
de la famille des répartitions finies, indexée par l’ensemble des parties finies ordonnées I.

Définition 1.2. On appelle famille des répartitions finies l’ensemble des répartitions finies, (PI , I ∈
I).

La spécification de la mesure image PI permet de calculer la probabilité d’événements de la forme


P∩t∈I {X(t) ∈£A Qt } où (At , t ¤∈ I) sont des éléments de la tribu E, ou de manière équivalente, de calculer
l’espérance E t∈I ft (X(t) où (ft , t ∈ I) sont des fonctions boréliennes positives. Il est important
de noter que, la donnée des répartitions finies ne permet pas a priori d’évaluer la probabilité d’un
événement faisant intervenir un nombre infini d’indices de temps ; par exemple, pour un processus
à temps discret indexé par T = Z, les répartitions finies ne permettent pas, a priori, d’évaluer la
probabilité d’un événement de la forme {maxt∈Z X(t) ≥ a}. Soit J ⊂ I deux parties finies ordonnées.
Soit ΠI,J la projection canonique de E |I| sur E |J| , i.e.

ΠI,J ({x(tk ), k ∈ I}) = {x(tk ), k ∈ J}. (1.2)

La projection canonique préserve uniquement les coordonnées du vecteur appartenant au sous ensemble
d’indices J. L’équation (1.1) implique que :

PI ◦ ΠI,J = PJ (1.3)

et donc, pour tout ensemble A ∈ E ⊗|J| , on a PJ (A) = PI (ΠI,J (A)). Cette relation formalise le résultat
intuitif que la distribution fini-dimensionnelle d’un sous-ensemble J ⊂ I se déduit de la distribution
fini-dimensionnelle PI en “intégrant” par rapport aux variables X(ti ) sur l’ensemble des indices ap-
partenant au complémentaire de J dans I. Cette propriété montre que la famille des répartitions
finies d’un processus est fortement structurée. En particulier, les répartitions finies doivent, au moins,
vérifier les conditions de compatibilité (1.3). Nous allons voir dans la suite que cette condition est en
fait aussi suffisante.
Soit ΠI la projection canonique de T sur I,

ΠI ({x(t), t ∈ T }) = {x(t), t ∈ I}. (1.4)

Théorème 1.1 (Théorème de Kolmogorov). Soit {νI , I ∈ I} une famille de probabilités indexées
par l’ensemble des parties finies ordonnées de T telle, que pour tout I ∈ I, νI est une probabilité sur
(E I , E ⊗I ). Supposons de plus que la famille {νI , I ∈ I} vérifie les conditions de compatibilité (1.3),
pour tout I, J ∈ I, tel que I ⊂ J, νI ◦ ΠI,J = νJ . Il existe une probabilité unique P sur l’espace
mesurable (E T , E ⊗T ) où E ⊗T telle que, pour tout I ∈ I, νI = P ◦ ΠI .
Soit X = {Xt , t ∈ T } le processus aléatoire défini sur (E T , E T ) par X(t, ω) = ω(t). Les répartitions
finies du processus canonique X sur (E T , E T , P) sont données par {νI , I ∈ I} .

On appellera ce processus le processus canonique de répartitions finies (νI , I ∈ I) et la probabilité P


ainsi construite la loi du processus du processus canonique X. Cette loi est donc entièrement déterminée
par la donnée des répartitions finies.

6
Exemple 1.5 : Suite de v.a. indépendantes
Soit (νn , n ∈ N) une suite de probabilités sur (E, E). Pour I = {n1 < n2 < · · · < np ) on pose

νI = νn1 ⊗ · · · ⊗ νnp (1.5)

Il est clair que l’on définit ainsi une famille (νI , I ∈ I) compatible, c’est-à-dire, vérifiant la condition donnée
par l’équation (1.3). Donc, si Ω = E N , Xn (ω) = ωn et F = σ(Xn , n ∈ N), il existe une unique probabilité P
sur (Ω, F) telle que (Xn , n ∈ N) soit une suite de v.a. indépendantes de loi νn .

1.1.2 Stationnarité stricte


La notion de stationnarité joue un rôle central dans la théorie des processus aléatoires. On distingue
ci-dessous deux versions de cette propriété, la stationnarité “stricte” qui fait référence aux répartitions
finies à l’invariance des répartitions finies par translation de l’origine des temps, et une notion plus
faible, la stationnarité au second ordre, qui porte sur l’invariance par translation des moments d’ordre
un et deux (lorsque ceux-ci existent).

Définition 1.3 (Stationnarité stricte). Un processus aléatoire est stationnaire au sens strict si les
répartitions finies sont invariantes par translation de l’origine des temps, i.e. que, pour tout τ ∈ T et
toute partie finie I ∈ I, on a PI = PI+τ où I + τ = {t + τ, t ∈ I}.
Exemple 1.6 : Processus i.i.d et transformations
Soit {Z(t)} une suite de variables aléatoires indépendantes et identiquement distribuées (i.i.d). {Z(t)} est
un processus stationnaire au sens strict, car, pour toute partie finie ordonnée I = {t1 , < t2 < · · · < tn } nous
avons :
n
Y
PZ(t1 ) ∈ A1 , · · · , Z(tn ) ∈ An = PZ(0) ∈ Aj
j=1

Soient k un entier et g une fonction borélienne de Rk dans R. Il est facile de vérifier que le processus aléatoire
{X(t)} défini par
X(t) = g(Z(t), Z(t − 1), · · · , Z(t − k + 1))
est encore un processus aléatoire stationnaire au sens strict. Par contre, ce processus obtenu par transforma-
tion n’est plus i.i.d dans la mesure où, dès que k ≥ 1, X(t), X(t + 1), . . . , X(t + k − 1) bien qu’ils aient la
même distribution marginale sont, en général, dépendants car fonctions de variables aléatoires communes.
Un tel processus est dit k-dépendant dans la mesure où, par contre, τ ≥ k implique que X(t) et X(t + τ ) sont
indépendants (ils dépendent de deux groupes indépendants de k variables aléatoires).

Définition 1.4 (Processus


£ du second
¤ ordre). Le processus X = (X(t), t ∈ T ) à valeurs dans Rd est
dit du second ordre, si E kX(t)k < ∞, où kxk est la norme euclidienne de x ∈ Rd .
2

Notons que la moyenne µ(t) = E [X(t)] est un vecteur de dimension d dépendant de t et que la
fonction d’autocovariance définie par :
£ ¤
Γ(s, t) = cov(X(s), X(t)) = E (X(t) − µ(t))(X(s) − µ(s))T

est une matrice de dimension d × d dépendant à la fois de s et de t.

Propriété 1.1. Pour un processus du second ordre on a :


1. Γ(s, s) ≥ 0, l’égalité ayant lieu si et seulement si X(s) est presque sûrement égale à sa moyenne.

7
2. Symétrie hermitienne1
Γ(s, t) = Γ(t, s)T (1.6)

3. Type positif
Pour tout n, pour toute suite d’instants (t1 < t2 < · · · < tn ) et pour toute suite de vecteurs
complexes (a1 , · · · , an ) de dimension d, on a :
X
aH
k Γ(tk , tm )am ≥ 0 (1.7)
1≤k,m≤n

Pn H
Démonstration. Formons la combinaison linéaire Y = k=1 ak X(tk ). Y est une variable aléatoire
complexe. Sa variance, qui est positive, s’écrit

var(Y ) = E [(Y − E [Y ])(Y − E [Y ])∗ ] ≥ 0

On note Xc (t) = X(t) − E [X(t)] le processus centré. En développant var(Y ) en fonction de Xc (tk ), il
vient : " n #
X n
X X
var(Y ) = E λHk X c (t k ) X T
c (t k )λ k = λH
k Γ(tk , tm )λm
k=1 m=1 1≤k,m≤n

ce qui établit (1.7). ¥

Dans le cas scalaire (d = 1), on note en général γ(s, t) la covariance, en réservant la notation
Γ(s, T ) au cas des processus vectoriels (d > 1).

1.1.3 Processus gaussiens


Définition 1.5 (Variable aléatoire gaussienne réelle). On dit que X est une variable aléatoire réelle
gaussienne si sa loi de probabilité a pour fonction caractéristique :
£ ¤
φX (u) = E eiuX = exp(iµu − σ 2 u2 /2)

où µ ∈ R et σ ∈ R+ .

On en déduit que E [X] = µ et que var(X) = σ 2 . Si σ 6= 0, la loi possède une densité de probabilité
qui a pour expression : µ ¶
1 (x − µ)2
pX (x) = √ exp −
σ 2π 2σ 2
Définition 1.6 (Vecteur gaussien réel). Un vecteur aléatoire réel de dimension n (X1 , . . . , Xn ) est
un vecteur gaussien si toute combinaison linéaire de X1 , . . . , Xn est une variable aléatoire gaussienne
réelle.
1
L’exposant T sert à indiquer l’opération de transposition et l’exposant H l’opération de transposition et conjugaison.

8
Notons µ le vecteur moyenne de (X1 , . . . , Xn ) et ΓPla matrice de covariance. Par définition d’un
vecteur aléatoire gaussien, la variable aléatoire Y = nk=1 uk Xk = uT X est une variable aléatoire
réelle gaussienne. Par conséquent, sa loi est complètement déterminée par sa moyenne et sa variance
qui ont pour expressions respectives :
n
X n
X
T
E [Y ] = uk E [Xk ] = u µ et var(Y ) = uj uk cov(Xj , Xk ) = uT Γu
k=1 j,k=1

On en déduit l’expression, en fonction de µ et de Γ, de la fonction caractéristique de la loi de probabilité


d’un vecteur gaussien X(1), . . . , X(n) :
µ ¶
£ T
¤ T 1 T
φX (u) = E exp(iu X) = E [exp(iY )] = exp iu µ − u Γu (1.8)
2
De plus si Γ est de rang plein n, alors la loi de probabilité de X possède une densité dont l’expression
est : µ ¶
1 1 T −1
pX (x) = p exp − (x − µ) Γ (x − µ)
(2π)n/2 det(Γ) 2
Dans le cas où Γ est de rang r < n, c’est à dire où Γ possède n − r valeurs propres nulles, X se
trouve, avec probabilité 1, dans un sous espace de dimension r de Rn , dans la mesure où il existe r − n
combinaisons linéaires indépendantes ai telles que cov(aTi X) = 0.
Définition 1.7 (Processus gaussien réel). On dit qu’un processus réel X = {X(t), t ∈ T } est gaussien
si, pour toute suite finie d’instants {t1 < t2 < · · · < tn }, (X(t1 ), X(t2 ), · · · , X(tn )) est un vecteur
gaussien.
D’après (1.8), la famille des répartitions finies est donc caractérisée par la donnée de la fonction
moyenne µ : t ∈ T 7→ µ(t) ∈ R et de la fonction de covariance γ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R.
Réciproquement, donnons nous une fonction µ : t ∈ T 7→ m(t) ∈ R et une fonction de covariance
γ : (t, s) ∈ (T × T ) 7→ γ(t, s) ∈ R de type positif, c’est-à-dire telle que, pour tout n, toute suite
(u1 , · · · , un ) et toute suite (t1 , · · · , tn ) on ait :
n X
X n
uj uk γ(tj , tk ) ≥ 0 (1.9)
j=1 k=1

On peut alors définir, pour I = {t1 < · · · < tn }, une probabilité gaussienne νI sur Rn par :

νI := Nn (µI , ΓI ) (1.10)

où µI = (µ(t1 ), · · · , µ(tn )) et ΓI est la matrice positive d’éléments γI (m, k) = γ(tm , tk ), où 1 ≤ m, k ≤
n. La famille (νI , I ∈ I), ainsi définie, vérifie les conditions de compatibilité et l’on a ainsi établi,
d’après le théorème 1.1, le résultat suivant :
Théorème 1.2. Soit r 7→ µ(t) une fonction et (s, t) 7→ γ(s, t) une fonction de type positif (vérifiant
l’équation (1.9)). Il existe un espace de probability (Ω, F, P) et un processus aléatoire {X(t), t ∈ T }
gaussien défini sur cet espace vérifiant

µ(t) = E [X(t)] et γ(s, t) = E [(X(s) − µ(s))(X(t) − µ(t))]

9
1.2 Stationnarité au second ordre
Dans la suite du document, nous considérons principalement le cas de processus à temps discret
(avec T = Z) pour lesquels nous utiliserons la notation Xt plutôt que X(t), cette dernière étant
réservée aux processus à temps continus. Par ailleurs, et sauf indication du contraire, les processus
considérés sont en général à valeur dans R.
Définition 1.8 (Stationnarité au second ordre). Le processus {Xt , t ∈ T } est dit stationnaire au
second ordre si : £ ¤
– X est un processus du second ordre, i.e. E |Xt |2 < +∞,
– pour tout t ∈ T , E [Xt ] = µ,
– pour tout couple (s, t) ∈ T × T ,
£ ¤
γ(s, t) = E (Xt − µ)(Xs − µ)T = γ(t − s)

1.2.1 Covariance d’un processus stationnaire au second ordre


Propriété 1.2. La fonction d’autocovariance γ : T → R d’un processus stationnaire au second ordre
vérifie les propriétés suivantes qui sont une conséquence directe des propriétés 1.1.
1. Symétrie hermitienne :
γ(h) = γ(−h)
2. caractère positif Pour toute partie finie I = {t1 < · · · < tn } et toute suite (a1 , · · · , an ) de valeurs
complexes, λk ∈ C,
n X
X n
a∗k γ(k − j)aj ≥ 0
k=1 j=1

Ces propriétés découlent immédiatement des propriétés de la fonction d’autocovariance d’un pro-
cessus. Les matrices de covariance de sections de n valeurs consécutives du processus sont positives
d’après le point 2 de la propriété 1.2. Elles possèdent de plus une structure particulière, dite de Toëplitz
(caractérisée par le fait que (Γn )ij = γ(i − j)) :
£ ¤
Γn = E [(Xt − µX ) . . . (Xt−n+1 − µX )]T [(Xt − µX ) . . . (Xt−n+1 − µX )]
 
γ(0) γ(1) · · · γ(n − 1)
 γ(1) γ(0) · · · γ(n − 2)
 
= ..  (1.11)
 . 
γ(n − 1) γ(n − 2) · · · γ(0)

Définition 1.9 (Fonction d’autocorrélation). Pour un processus stationnaire, on appelle fonction


d’autocorrélation ρ(h) = γ(h)/γ(0). Il s’agit d’une quantité normalisée dans le sens où ρ(1) = 1 et
|ρ(k)| ≤ 1.
En effet, l’inégalité de Cauchy-Schwarz appliquée à γ(k) s’écrit
p
|γ(h)| = |E [(Xt+h − µX )(Xt − µX )]| ≤ E [(Xt+h − µX )2 ] E [(Xt − µX )2 ] = γ(0)

10
la dernière inégalité découlant de l’hypothèse de stationnarité. Attention, certaines références (livres et
publications), en général anciennes, utilisent (incorrectement) le terme de “fonction d’autocorrélation”
pour γ(h). Dans la suite de ce document, le terme autocorrélation est réservée à la quantité normalisée
ρ(h).
Exemple 1.7 : Processus retourné temporel
Soit Xt un processus aléatoire stationnaire au second ordre de moyenne µX et de fonction d’autocovariance
γX (h). On note Xtr = X−t le processus retourné temporel. Alors Xtr est un processus stationnaire au second
ordre de même moyenne et de même fonction d’autocovariance que le processus Xt . En effet on a :

E [Xtr ] = E [X−t ] = µX
r
cov(Xt+h , Xtr ) = cov(X−t−h , X−t ) = γX (−h) = γX (h)

Définition 1.10 (Bruit blanc). On appelle bruit blanc un processus aléatoire stationnaire au second
ordre, centré, de fonction d’autocovariance, γ(s, t) = γ(t − s) = σ 2 δt,s . On le notera {Xt } ∼ BB(0, σ 2 ).
Définition 1.11 (Bruit blanc fort). On appelle bruit blanc fort une suite du second ordre de variables £ ¤
aléatoires {Xt }, centrées, indépendantes et identiquement distribuées (i.i.d.) de variance E Xt2 =
σ 2 < ∞. On le notera {Xt } ∼ IID(0, σ 2 ).
£ ¤
Par définition si {Xt } ∼ IID(0, σ 2 ), E [Xt ] = 0, E Xt2 = σ 2 et pour tout h 6= 0, E [Xt+h Xt ] =
E [Xt+h ] E [Xt ] = 0. {Xt } est donc également stationnaire au second ordre, de fonction d’autocova-
riance γ(s, t) = σ 2 δ(t−s). La structure de bruit blanc fort est clairement plus contraignante que celle de
simple bruit blanc. En général, il est tout à fait inutile de faire un telle hypothèse lorsque l’on s’intéresse
à des modèles de signaux supposés stationnaires au second ordre. Il arrivera cependant dans la suite
que nous adoptions cette hypothèse plus forte afin de simplifier les développements mathématiques.
Notons que dans le cas d’une série temporelle gaussienne, ces deux notions sont confondues puisque
la loi gaussienne est complètement caractérisée par les moments du premier et du second ordre (un
bruit blanc gaussien est donc également un bruit blanc fort).
Exemple 1.8 : Processus MA(1)
Soit {Xt } le processus stationnaire au second ordre défini par :

Xt = Zt + θZt−1 (1.12)

où {Zt } ∼ BB(0, σ 2 ) et θ ∈ R. On vérifie aisément que E [Xt ] = 0 et que :


 2
 σ (1 + θ2 ) t = s
γ(t, s) = σ2 θ |t − s| = 1

0 |t − s| > 1
Le processus Xt est donc bien stationnaire au second ordre. Un tel processus est appelé processus à moyenne
ajusté d’ordre 1. Cette propriété se généralise, sans difficulté, à un processus MA(q). Nous reviendrons plus
en détail, paragraphe 1.4, sur la définition et les propriétés de ces processus.
Exemple 1.9 : Processus harmonique
Soient {Ak }1≤k≤N N variables aléatoires vérifiant cov(Ak , Al ) = σk2 δ(k − l) et {Φk }1≤k≤N , N variables
aléatoires indépendantes et identiquement distribuées (i.i.d), de loi uniforme sur [−π, π], et indépendantes de
{Ak }1≤k≤N . On définit :
N
X
Xt = Ak cos(λk t + Φk ) (1.13)
k=1

11
où {λk } ∈ [−π, π] sont N pulsations. Le processus Xt est appelé processus harmonique. On vérifie aisément
que E [Xt ] = 0 et que sa fonction d’autocovariance est donnée par :
N
1X 2
γ(h) = E [Xt+h Xt ] = σk cos(λk h)
2
k=1

Le processus harmonique est donc stationnaire au second ordre.


Exemple 1.10 : Marche aléatoire
Soit St le processus défini sur t ∈ N par St = X0 + X1 + · · · + Xt , où Xt est un£ bruit
¤ blanc. Un tel processus
est appelé une marche aléatoire. On en déduit que E [St ] = 0, que γ(t, t) = E Xt2 = tσ 2 et que, pour h > 0,
on a :
γ(t + h, t) = E [(St + Xt+1 + · · · + Xt+h )St ] = tσ 2
Le processus {St } n’est donc pas stationnaire au second ordre.
Exemple 1.11
Nous allons montrer que la suite définie, pour h ∈ Z, par :

 1 h = 0,
R(h) = ρ |h| = 1

0 |h| ≥ 2

est la fonction d’autocovariance d’un processus stationnaire au second ordre si et seulement si |ρ| ≤ 1/2.
Nous avons déjà montré exemple 1.8 que la fonction d’autocovariance d’un processus MA(1) est donnée par :
 2
 σ (1 + θ2 ) pour h = 0
γ(h) = σ2 θ pour |h| = 1

0 pour |h| > 1

La suite R(h) est donc la fonction d’autocovariance d’un processus MA(1) si et seulement si σ 2 (1 + θ2 ) = 1
et σ 2 θ = ρ. Lorsque |ρ| ≤ 1/2, ce système d’équations admet comme solution :
p
θ = (2ρ)−1 (1 ± 1 − 4ρ2 ) et σ 2 = (1 + θ2 )−1

Lorsque |ρ| > 1/2, ce système d’équations n’admet pas de solution réelles et la suite R(h) n’est donc pas la
fonction d’autocovariance d’un processus MA(1). On vérifie facilement que R(h) ne vérifie pas dans ce cas la
condition de positivité (en prenant ak = (−1)k pour ρ > 1/2 et ak = 1 dans le cas opposé). Pour |ρ| > 1/2,
R(h) n’est donc pas une séquence d’autocovariance.

1.2.2 Interprétation de la fonction d’autocovariance


Dans les exemples précédents, nous avons été amené à évaluer la fonction d’autocovariance de
processus pour quelques exemples simples de séries temporelles. Dans la plupart des problèmes d’intérêt
pratique, nous ne partons pas de modèles de série temporelle définis a priori, mais d’observations,
{x1 , · · · , xn } associées à une réalisation du processus. Afin de comprendre la structure de dépendance
entre les différentes observations, nous serons amenés à estimer la loi du processus, ou du moins des
caractéristiques de ces lois. Pour un processus stationnaire au second ordre, nous pourrons, à titre
d’exemple, estimer sa moyenne par la moyenne empirique :
n
X
−1
µ̂n = n xk
k=1

12
et les fonctions d’autocovariance et d’autocorrélation par les fonctions d’autocorrélation et d’autoco-
variance empiriques
n−|h|
X
γ̂(h) = n−1 (xk − µ̂n )(xk+|h| − µ̂n ) et ρ̂(h) = γ̂(h)/γ̂(0)
k=1

Lorsqu’il est a priori raisonnable de penser que la série considérée est stationnaire au second ordre,
la moyenne empirique, la fonction d’autocovariance empirique et la fonction d’autocorrélation em-
pirique sont de “bons” estimateurs, dans un sens que nous préciserons chapitre 2. L’analyse de la
fonction d’autocovariance empirique est un élément permettant de guider le choix d’un modèle ap-
proprié pour les observations. Par exemple, le fait que la fonction d’autocovariance empirique soit
proche de zéro pour tout h 6= 0 (proximité qu’il faudra définir dans un sens statistique précis) in-
dique par exemple qu’un bruit blanc est un modèle adéquat pour les données. La figure 1.5 représente
les 100 premières valeurs de la fonction d’autocorrélation empirique de la série des battements car-
diaques représentés figure 1.1. On observe que cette série est positivement corrélée c’est-à-dire que les
fonctions coefficients d’autocorrélation sont positifs et significativement non nuls. Nous avons, à titre
de comparaison, représenté aussi la fonction d’autocorrélation empirique d’une trajectoire de même
longueur d’un bruit blanc gaussien. Une forte corrélation peut être interprétée comme l’indice d’une

1 1

0.8
0.8

0.6
0.6
0.4
0.4
0.2

0.2
0

0 −0.2
0 50 100 0 50 100

Fig. 1.5 – Courbe de gauche : fonction d’autocorrélation empirique de la


série des battements cardiaques (figure 1.1). Courbe de droite : fonction d’au-
tocorrélation empirique d’une trajectoire de même longueur d’un bruit blanc
gaussien.

dépendance linéaire. Ainsi la figure 1.6 montre que le fait que ρ̂(1) = 0.966 pour la série des batte-
ments cardiaques se traduit par une très forte prédictabilité de Xt+1 en fonction de Xt (les couples
de points successifs s’alignent quasiment sur une droite). Nous montrerons au chapitre 4, que dans un
tel contexte, E [(Xt+1 − µ) − ρ(1)(Xt − µ)] = (1 − ρ2 )cov(Xt ), c’est à dire, compte tenu de la valeur
estimée pour ρ(1), que la variance de “l’erreur de prédiction” Xt+1 − [µ + ρ(1)(Xt − µ)] est 15 fois
plus faible que celle du signal original. L’indice S&P500 tracé (fig. 1.4) présente un cas de figure
plus difficile, d’une part parce que la série de départ ne saurait être tenue pour stationnaire et qu’il

13
110

105

100

95
Xt+1

90

85

80

75

70
70 75 80 85 90 95 100 105 110
Xt

Fig. 1.6 – Xt+1 en fonction de Xt pour la série des battements cardiaques de


la figure 1.1). Les tirets figurent la meilleure droite de régression linéaire de
Xt+1 sur Xt .

0.1

0.05

−0.05

−0.1
500 1000 1500 2000 2500

Fig. 1.7 – Log-Retour de la série S&P 500 (figure 1.4).

14
nous faudra considérer la série des évolutions journalières ; d’autre part, parce que selon le choix de la
transformation des données considérées, la série transformée présente ou non des effets de corrélation.
On définit tout d’abord les log-retours de l’indice S&P500 comme les différences des logarithmes de
l’indice à deux dates successives :
µ ¶
St − St−1
Xt = log(St ) − log(St−1 ) = log 1 +
St−1
La série des log-retours de la série S&P 500 est représentée figure 1.7. Les coefficients d’autocorrélation

1.2

0.8

0.6

0.4

0.2

−0.2
0 20 40 60 80 100

Fig. 1.8 – Fonction d’autocorrélation empirique de la série des log-retours de


l’indice S&P 500.

empiriques de la série des log-retours sont représentés figure 1.8. On remarque qu’ils sont approximati-
vement nuls pour h 6= 0 ce qui suggère de modéliser la série des log-retours par un bruit blanc (une suite
de variables décorrélées). Il est intéressant d’étudier aussi la série des log-retours absolus, A(t) = |Xt |.
On peut, de la même façon, déterminer la suite des coefficients d’autocorrélation empirique de cette
série, qui est représentée dans la figure 1.9. On voit, qu’à l’inverse de la série des log-retours, la série
des valeurs absolues des log-retours est positivement corrélée, les valeurs d’autocorrélation étant signi-
ficativement non nuls pour |h| ≤ 100. On en déduit, en particulier, que la suite des log-retours peut
être modélisée comme un bruit blanc, mais pas un £bruit blanc ¤ fort : en effet, pour un bruit blanc fort
Xt , nous avons, pour toute fonction f telle que E f (Xt )2 = σf2 < ∞, cov(f (Xt+h ), f (Xt ) = 0 pour
h 6= 0 (les variables f (Xt+h ) et f (Xt ) étant indépendantes, elles sont a fortiori non corrélées). Nous
reviendrons dans la suite du cours sur des modèles possibles pour de telles séries.

1.2.3 Mesure spectrale d’un processus stationnaire au second ordre à temps dis-
cret
Dans toute la suite, I désigne l’intervalle [−π, π] et B(I) la tribu de borélienne associée. Le théorème
d’Herglotz ci dessous établit l’équivalence entre la fonction d’autocovariance et une mesure finie définie
sur l’intervalle {I, B(I)}. Cette mesure, appelée mesure spectrale du processus, joue un rôle analogue
à celui de la représentation de Fourier pour les signaux déterministes. En particulier elle confère une
expression simple aux formules de filtrage linéaire.

15
1

0.8

0.6

0.4

0.2

0
0 20 40 60 80 100

Fig. 1.9 – Fonction d’autocorrélation empirique de la série des valeurs absolues


des log-retours de l’indice S&P 500.

Théorème 1.3 (Herglotz). Une suite {γ(h)}h∈Z est de type positif si et seulement si il existe une
mesure positive sur {I, B(I)} telle que :
Z
γ(h) = eihλ ν(dλ) (1.14)
I
P
Si la suite γ(h) est sommable (i.e. h |γ(h)| < ∞), la mesure ν possède une densité f (fonction
positive) par rapport à la mesure de Lebesgue sur {I, B(I)}, donnée par la série entière uniformément
convergente :
1 X
f (λ) = γ(h)e−ihλ ≥ 0

h∈Z

Lorsque γ est la fonction d’autocovariance d’un processus stationnaire au second ordre, la mesure ν
est appelée la mesure spectrale et la fonction f , lorsque qu’elle existe, est dite densité spectrale de
puissance.

Démonstration. Tout d’abord si γ(n) a la représentation (1.14), il est clair que γ(n) est de type positif.
En effet, pour tout n et toute suite {ak ∈ C}1≤k≤n , on a :

X Z X Z ¯¯X ¯2
¯
¯ ikλ ¯
ak a∗m γ(k − m) = ak a∗m eikλ e−imλ ν(dλ) = ¯ ak e ¯ ν(dλ) ≥ 0
k,m I k,m I¯ k
¯

Réciproquement, supposons que γ(n) soit une suite de type positif et considérons la suite de fonctions
indexée par n :
n n n−1 µ ¶ ∞
1 XX 1 X |k| 1 X
fn (λ) = γ(k − m)e−ikλ eimλ = 1− γ(k)e−ikλ = γn (k)e−ikλ
2πn 2π n 2π
k=1 m=1 k=−(n−1) k=−∞

16
où nous avons posé : µ ¶
|k|
γn (k) = I{−(n−1),··· ,(n−1)} (k) 1 − γ(k)
n
qui vérifie |γn (k)e−ikλ | ≤ |γ(k)| et limn→∞ γn (k) = γ(k). Par construction, fn (λ) est une fonction
positive (pour
P tout n) du fait de la positivité de la séquence d’autocovariance γ(k). En supposant de
plus2 que ∞ k=−∞ |γ(k)| < ∞, une application directe du théorème de convergence dominé montre
que :

X ∞ ∞
1 −ikλ 1 X −ikλ 1 X
lim fn (λ) = lim γn (k)e = lim γn (k)e = γ(k)e−ikt = f (λ)x
n→∞ 2π n→∞ 2π n→∞ 2π
k=−∞ k=−∞ k=−∞

et donc f (λ) est positive comme limite de Rfonctions


P positives. Une application directe du théorème de
Fubini (la permutation étant légitime car I ∞ k=−∞ |γ(k)|dλ < ∞), montre que, pour tout h ∈ Z, on
a: Z Z π
X∞
ihλ 1
f (λ)e dλ = γ(k) ei(h−k)λ dλ = γ(h)
I 2π −π
k=−∞

Propriété 1.3 (Corollaire du théorème d’Herglotz). Une suite R(h) à valeurs complexes absolument
sommable est de type positif si et seulement si la fonction :
+∞
1 X
f (λ) = R(h)e−ihλ

h=−∞

est positif pour tout λ ∈ I.


Exemple 1.12
En reprenant l’exemple 1.11, on vérifie immédiatement que R(h) est de module sommable et que :
1 X 1
f (λ) = R(h)e−ihλ = (1 + 2ρ cos(πλ))
2π 2π
k

et donc que la séquence est une fonction d’autocovariance uniquement lorsque |ρ| ≤ 1/2.

Exemple 1.13 : Densité spectrale de puissance du bruit blanc


La fonction d’autocovariance d’un bruit blanc est donnée par γ(h) = σ 2 δ(h), d’où l’expression de la densité
spectrale correspondante
σ2
f (λ) =

La densité spectrale d’un bruit blanc est donc constante. Cette propriété est à l’origine de la terminologie
“bruit blanc” qui provient de l’analogie avec le spectre de la lumière blanche constant dans toute la bande de
fréquences visibles.
2
Nous donnons ici une preuve élémentaire grâce à l’hypothèse que la suite des coefficients d’autocovariance est ab-
solument sommable. La démonstration, dans le cas général, requiert l’utilisation d’arguments plus complexes de théorie
des probabilités. Elle est donnée annexe A.

17
Exemple 1.14 : Densité spectrale de puissance du processus MA(1)
Le processus MA(1) introduit dans l’exemple 1.8 possède une séquence d’autocovariance donnée par γ(0) =
σ 2 (1+θ2 ), γ(1) = γ(−1) = σ 2 θ et γ(h) = 0 sinon (cf. exemple 1.8). D’où l’expression de sa densité spectrale :

σ2 σ 2 ¯¯ ¯2
f (λ) = (2θ cos(λ) + (1 + θ2 )) = 1 + θe−iλ ¯
2π 2π
La densité spectrale d’un tel processus est représentée figure 1.10 pour θ = −0.9 et σ 2 = 1 avec une échelle
logarithmique (dB).

−5
dB
−10

−15

−20

−25

−30
−π 0 +π

Fig. 1.10 – Densité spectrale (en dB) d’un processus MA-1, défini par
l’équation (1.12) pour σ = 1 et θ = −0.9.

Exemple 1.15 : Mesure spectrale du processus harmonique PN


La fonction d’autocovariance du processus harmonique Xt = k=1 Ak cos(λk t + Φk ) (voir exemple 1.9) est
donnée par :
N
1X 2
γ(h) = σk cos(λk h) (1.15)
2
k=1
£ ¤
où σk2 = E A2k . Cette suite de coefficients d’autocovariance n’est pas sommable et la mesure spectrale n’admet
pas de densité. En notant cependant que :
Z
1 π ihλ
cos(λk h) = e (δλk (dλ) + δ−λk (dλ))
2 −π

où δx0 (dλ) désigne la mesure de Dirac au point x0 (cette mesure associe la valeur 1 à tout borélien de [−π, π]
contenant x0 et la valeur 0 sinon), la mesure spectrale du processus harmonique peut s’écrire :
N N
1X 2 1X 2
ν(dλ) = σk δλk (dλ) + σk δ−λk (dλ)
4 4
k=1 k=1

Elle apparaı̂t donc comme une somme de mesures de Dirac, dont les masses σk2 sont localisées aux pulsations
des différentes composantes harmoniques.

18
Une remarque intéressante est que par rapport aux autres exemples étudiés, le processus har-
monique est très particulier en ce qu’il possède une fonction d’autocovariance, donnée par 1.15, non
absolument sommable (γ(h) ne tend pas même vers 0 pour les grandes valeurs de h) et que par la
suite, il admet une mesure spectrale mais pas une densité spectrale. La propriété suivante, à démontrer
à titre d’exercice, implique que le processus harmonique est en fait entièrement prédictible à partir de
quelques unes de ses valeurs passées.
Propriété 1.4. S’il existe un rang n pour lequel la matrice de covariance Γn définie en (1.11) est
non inversible, le processus correspondant Xt est Pprédictible dans le sens où il existe une combinaison
l
linéaire a1 , . . . al avec l ≤ n − 1 telle que Xt = k=1 ak Xt−k , l’égalité ayant lieu presque sûrement.
L’expression de la fonction d’autocovariance, obtenue en (1.15) pour le processus harmonique,
montre que les matrices de covariances associées s’écrivent comme la somme de 2N matrices com-
plexes de rang 1. Par conséquent, les matrices Γn ne sont pas inversibles dès que n > 2N , ce qui
implique que le processus harmonique est prédictible dès lors que l’on en a observé 2N valeurs. Ce
résultat est sans surprise compte tenu du fait que les trajectoires de ce processus sont des sommes de
sinusoı̈des de fréquences λ1 , . . . , λN dont seules les amplitudes et les phases sont aléatoires. La pro-
priété suivante donne une condition suffisante simple pour éviter ce type de comportements “extrêmes”.
Cette propriété implique en particulier que, pour une fonction d’autocovariance absolument sommable
(tous les exemples vus ci-dessus en dehors du processus harmoniques), les valeurs futures du processus
correspondant ne sont pas prédictibles sans erreur à partir d’un ensemble fini de valeurs passées du
processus. Nous reviendrons en détail sur ces problèmes de prédiction au chapitre 4.
Propriété 1.5. Soit γ(h) la fonction d’autocovariance d’un processus stationnaire au second ordre.
On suppose que γ(0) > 0 et que γ(h) → 0 quand h → ∞. Alors, quel que soit n, la matrice de
covariance définie en (1.11) est de rang plein et donc inversible .
Démonstration.
P PSupposons qu’il existe une suite de valeurs complexes (a1 , . . . , an ) non toutes nulles,
telle que nk=1 nm=1 ak a∗m γ(k − m) = 0. En notant νX la mesure spectrale de Xt , on peut écrire :

Xn X n Z Z ¯¯Xn
¯2
¯
∗ i(k−m)λ ¯ ikλ ¯
0= ak am e νX (dλ) = ¯ ak e ¯ νX (dλ)
k=1 m=1 I I¯ k=1
¯
¯P ¯2 ¯Pn ¯
ikλ ¯2 6=
Ce qui implique que ¯ nk=1 ak eikλ ¯ = 0 νX presque
P partout, c’est à dire que ν X ({λ : ¯
k=1 ak e
0}) = νX (I − Z) = 0 où Z = {λ1 , . . . , λM : nk=1Pank e
ikλm = 0} désigne l’ensemble fini (M < n)

des racines x ∈ I du polynôme trigonométrique ikλ . Par conséquent, les seuls éléments
k=1 ak e
de B(I), quiPpeuvent être de mesure non nulle pour νX , sont les singletons {λm }. Ce qui implique
M
que νX = am δλm (où am ≥ 0 ne peuvent être tous nuls si γ(0) 6= 0). Mais, dans ce cas,
PM m=1 ihλ
γ(h) = m=1 am e m , ce qui contredit l’hypothèse que γ(h) tend vers 0 quand n tend vers l’infini. ¥

Une autre preuve est donnée exercice ??.

1.3 Filtrage des processus


Dans ce paragraphe, nous nous intéressons au filtrage des processus. On introduit tout d’abord
l’opérateur de retard, noté B (comme backshift en anglais), dont l’effet sur le processus {Xt } défini sur

19
(Ω, F, P) est de retarder d’un échantillon les trajectoires dans le sens où (BXt )(ω) = Xt−1 (ω) (l’égalité
ayant lieu P-presque partout). On note B k = BP ◦ B k−1 pour k ≥ 2 les compositions successives de
l’opérateur B. Avec cette notation, l’opérateur k ψk B k , où {ψk } est une séquence réelle, désigne
l’opérateur de filtrage linéaire qui, au processus Xt , fait correspondre le processus
à !
X X
Yt = ψk B k Xt = ψk Xt−k
k k
P
Pour plus de concision, on utilisera souvent les notations ψ(B) = k ψk B k et Yt = ψ(B)Xt .
Le premier problème à résoudre est de déterminer les conditions sous lesquelles Yt est stationnaire
si Xt l’est. Il est clair que si ψ(B) = B k (le filtrage est un simple retard de k échantillon),
P Yt est
bien stationnaire de même fonction d’autocovariance que Xt . De même, si ψ(B) = k ψk B , où la k

suite {ψk } est différente de 0 pour un nombre fini d’indices (filtre à réponse impulsionnelle finie), on
a directement par linéarité de l’espérance :
X
µY = E [Yt ] = µX ψk
k

et XX
γY (h) = E [(Yt+h − µY )(Yt − µY )] = ψk ψm γX (h + k − j)
j k

où µX et γX (h) sont respectivement la moyenne et la fonction d’autocovariance du processus {Xt }


(nous avions déjà traité le cas particulier d’un filtre causal d’ordre 1 dans l’exemple 1.14). Les ex-
pressions ci-dessus montrent que {Yt } est alors stationnaire au second ordre. La question devient plus
délicate lorsque l’on considère des filtres à réponse impulsionnelle infinie puisque Yt doit alors être
défini comme la limite, dans un sens à préciser, d’une suite de variables aléatoires.
P
Théorème 1.4. Soit {ψk }k∈Z une suite absolument sommable, i.e. ∞ k=−∞ |ψk | < ∞ et soit {Xt } un
processus aléatoire tel que supt∈Z E [|Xt |] < ∞. Alors, pour tout t ∈ Z, la suite :
n
X
Yn,t = ψs Xt−s
s=−n

converge presque sûrement, quand n tend vers l’infini, vers une limite Yt que nous notons

X
Yt = ψs Xt−s .
s=−∞

De plus, la variable aléatoire Yt est intégrable, i.e. E [|Yt |] < ∞ et la suite {Yn,t }n≥0 converge vers Yt
en norme L1 ,
lim E [|Yn,t − Yt |] = 0 .
n→∞
£ ¤ £ ¤
Supposons que supt∈Z E Xt2 < ∞. Alors, E Yt2 < ∞ et la suite {Yn,t }n≥0 converge en moyenne
quadratique vers la variable aléatoire Yt , c’est à dire que
£ ¤
lim E |Yn,t − Yt |2 = 0 .
n→∞

20
Démonstration. Voir le paragraphe 1.5 en fin de chapitre. ¥
Le résultat suivant établi que le processus obtenu par filtrage linéaire d’un processus stationnaire
du second ordre est lui-même stationnaire au second ordre, à condition que la réponse impulsionnelle
{ψk } soit de module sommable.
Théorème 1.5 (Filtrage des processus stationnaires au second ordre). Soit {ψk } une suite telle que
P ∞
k=−∞ |ψk | < ∞ et soit {Xt } un processus stationnaire au second ordre de moyenne
P∞ µX = E [Xt ]
et de fonction d’autocovariance γX (h) = cov(Xt+h , Xt ). Alors le processus Yt = s=−∞ ψs Xt−s est
stationnaire au second ordre de moyenne :

X
µY = µX ψk (1.16)
k=−∞

de fonction d’autocovariance :

X ∞
X
γY (h) = ψj ψk γX (h + k − j) (1.17)
j=−∞ k=−∞

et de mesure spectrale :
νY (dλ) = |ψ(e−iλ )|2 νX (dλ) (1.18)
P
où ψ(e−iλ ) = k ψk e−ikλ est la transformée de Fourier à temps discret de la suite {ψk }k∈Z .
Démonstration. Voir le paragraphe 1.5 à la fin de ce chapitre. ¥
La relation (1.18) qui donne la mesure spectrale du processus filtré en fonction de la fonction de
transfert du filtre et de la mesure d’entrée du processus d’entrée est particulièrement simple. Elle
montre par exemple que la mise en série de deux filtres α(B), β(B) de réponses impulsionnelles
absolument sommables conduit à une mesure spectrale |α(e−iλ )|2 |β(e−iλ )|2 νX (dλ) pour le processus
de sortie (ce qui montre au passage que l’ordre d’application des filtres est indifférent).
Définition 1.12 (Processus linéaire). Nous dirons que {Xt } est un processus linéaire s’il existe un
bruit blanc Zt ∼ BB(0, σ 2 ) et une suite de coefficients {ψk }k∈Z absolument sommable telle que :

X
Xt = µ + ψk Zt−k (1.19)
k=−∞

où µ désigne une valeur arbitraire.


Il résulte directement de la discussion ci-dessus qu’un processus linéaire est stationnaire au second
ordre, que sa moyenne est égale à µ, que sa fonction d’autocovariance est donnée par :

X
2
γX (h) = σ ψj ψj+h
j=−∞

et que sa mesure spectrale admet une densité dont l’expression est :


σ2
fX (λ) = |ψ(e−iλ )|2 (1.20)

P
où ψ(e−iλ ) = k ψk e−ikλ .

21
1.4 Processus ARMA
Dans ce paragraphe nous nous intéressons à une classe importante de processus du second ordre,
les processus autorégressifs à moyenne ajustée ou processus ARMA. Il s’agit de restreindre la classe
des processus linéaires en ne considérant que les filtres dont la fonction de transfert est rationnelle.

1.4.1 Processus MA(q)


Définition 1.13 (Processus MA(q)). On dit que le processus {Xt } est à moyenne ajustée d’ordre q
(ou MA(q)) si {Xt } est donné par :

Xt = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.21)

où Zt ∼ BB(0, σ 2 ).

La terminologie ”moyenne ajustée” est la traduction, assez malheureuse, du nom anglo-saxon


”moving average” (moyenne mobile) En utilisant les résultats du théorème 1.5, on obtient E [Xt ] = 0,
et 
 σ 2 Pt−|h| θk θ
t=0 k+|h| si 0 ≤ |h| ≤ q
γX (h) = (1.22)
 0 sinon

Enfin, d’après la formule (1.20), le processus admet une densité spectrale dont l’expression est :
¯ ¯2
σ2 ¯ q
X ¯
¯ ¯
fX (λ) = ¯1 + θk e−ikλ ¯
2π ¯ ¯
k=1

Un exemple de densité spectrale pour le processus MA(1) est représenté figure 1.10. De manière
générale, la densité spectrale d’un processus M A(q) possède des anti-résonnances
Pq au voisinage des
k
pulsations correspondant aux arguments des racines du polynôme θ(z) = k=1 θk z . On démontrera,
à titre d’exercice, la propriété suivante qui indique que toute suite de coefficients covariance {γ(h)} non
nulle sauf pour un nombre fini d’indices temporels (i.e. le cardinal de l’ensemble {h ∈ Z, γ(h) 6= 0})
peut être considérée comme la suite des coefficients d’autocovariance d’un modèle linéaire à moyenne
mobile.

Propriété 1.6. Soit γ(h) une fonction d’autocovariance telle que γ(h) = 0 pour |h| > q. Alors, il
existe un bruit blanc {Zt } et un polynôme θ(z) de degré inférieur ou
P égal à q tels que γ(h) soit la
fonction d’autocovariance du processus M A(q) défini par Xt = Zt + qk=1 θk Zt−k .

1.4.2 Processus AR(p)


Définition 1.14 (Processus AR(p)). On dit que le processus {Xt } est un processus autorégressif
d’ordre p (ou AR(p)) si {Xt } est un processus stationnaire au second-ordre et s’il est solution de
l’équation de récurrence :
Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt (1.23)
où Zt ∼ BB(0, σ 2 ) est un bruit blanc.

22
Le terme “autorégressif” provient de la forme de l’équation (1.23) dans laquelle la valeur courante
du processus s’exprime sous la forme d’une régression (terme synonyme de combinaison linéaire) des
p valeurs précédentes du processus plus un bruit additif.
L’existence et l’unicité d’une solution stationnaire au second ordre de l’équation (1.23) constituent
des questions délicates (qui ne se posaient pas lorsque nous avions défini les modèles MA). Nous
détaillons ci-dessous la réponse à cette question dans le cas le cas p = 1.

Cas : |φ1 | < 1


L’équation de récurrence s’écrit :
Xt = φ1 Xt−1 + Zt (1.24)
Puisque |φ1 | < 1, la fraction rationnelle ψ(z) = (1 − φ1 z)−1 a un développement en série entière de la
forme :
+∞
X
1
ψ(z) = = φk1 z k
1 − φ1 z
k=0

qui converge sur le disque {z ∈ C : |z| < |φ1 |−1 }. Considérons alors le filtre linéaire de réponse
impulsionnelle ψk = φk1 pour k ≥ 0 et ψk = 0 sinon. Comme ψk est absolument sommable, le processus

X ∞
X
Yt = ψk Zt−k = φk1 Zt−k
k=0 k=0

est bien défini et est stationnaire au second ordre. Par construction Yt est solution de (1.24) ce que
l’on peut également vérifier directement en notant que :
+∞
X
Xt = Zt + φ1 φk1 Zt−1−k = Zt + φ1 Xt−1
k=0

L’unicité de la solution est garantie par l’hypothèse de stationnarité au second ordre. Supposons en
effet que {Xt } et {Yt } soient deux processus stationnaires au second-ordre et que ces deux processus
soient solutions de l’équation de récurrence (1.24). On a alors par différence (Xt −Yt ) = φ1 (Xt−1 −Yt−1 ),
relation qui itérée k fois implique

(Xt − Yt ) = φk1 (Xt−k − Yt−k ) .

Par suite,
£ ¤1 £ ¤1
E [|Xt − Yt |] = φk1 E [|Xt−k − Yt−k |] ≤ φk1 (E [|Xt−k |] + E [|Yt−k |]) ≤ φk1 (E X02 2 + E Y02 2 )

où k peut être pris quelconque. Comme φ1 est en module plus petit que 1, on en déduit que
E [|Xt − Yt |] = 0 et donc que Xt = Yt presque sûrement. La fonction d’autocovariance de Xt so-
lution stationnaire de (1.24) est donnée par la formule (1.17) qui s’écrit ;

X |h|
2 k+|h| φ1
γX (h) = σ φk1 φ1 = σ2 (1.25)
1 − φ21
k=0

23
5

−5
0 100 200 300 400 500
5

−5
0 100 200 300 400 500
10

−10
0 100 200 300 400 500

Fig. 1.11 – Trajectoires de longueur 500 d’un processus AR(1)) gaussien.


Courbe du haut : φ1 = −0.7. Courbe du milieu : φ1 = 0.5. Courbe du bas :
φ1 = 0.9

Lorsque φ1 > 0, le processus Xt est positivement corrélé, dans le sens où tous ses coefficients d’au-
tocovariance sont positifs. Les exemples de trajectoires représentées sur la figure 1.11 montrent que
des valeurs de φ1 proches de 1 correspondent à des trajectoires “persistantes” (dont, par exemple,
les temps successifs de passage par zéro sont relativement espacés). Inversement, des valeurs de φ1
négatives conduisent à des trajectoires où une valeur positive a tendance à être suivie par une valeur
négative. La densité spectrale de Xt est donnée par

1.5

0.5

0 −π +π
0

Fig. 1.12 – Densité spectrale d’un processus AR(1), défini par (1.24) pour
σ = 1 et φ1 = 0.7.

¯∞ ¯2
σ2 ¯X ¯ σ2 1
¯ ¯
fX (λ) = ¯ φk1 e−ikλ ¯ = (1.26)
2π ¯ ¯ 2π |1 − φ1 e−iλ |2
k=0

24
La figure 1.12 donne la forme de cette densité spectrale pour φ1 = 0.7.

Cas |φ1 | > 1


Nous allons montrer que le processus retourné temporel vérifie une équation récurrente qui nous
ramène au cas précédent. Pour cela posons Xtr = X−t . En portant Xtr dans l’équation (1.24), on
obtient
Xtr = X−t = φ1 X−t−1 + Z−t = φ1 Xt+1
r
+ Z−t
qui peut encore s’écrire :
Xtr = φ−1 r
1 Xt−1 + Wt (1.27)
où Wt = −φ−1 2 2 2
1 Z−t−1 est un bruit blanc de variance σW = σ /φ1 . L’équation (1.27) est maintenant du
−1
type que (1.23) puisque |φ1 | < 1. Par conséquent il existe un unique processus stationnaire solution
de l’équation 1.27 donné par

X
Xtr = φ−k
1 Wt−k (1.28)
k=0

Comme {Xtr } est stationnaire au second ordre, le processus



X ∞
X
Xt = r
X−t = φ−k
1 W−t+k =− φ−k
1 Zt+k (1.29)
k=0 k=1

l’est également (cf. exemple 1.7) avec la même moyenne et la même fonction d’autocovariance. Les
expressions de la fonction d’autocovariance et de la densité spectrale du processus sont donc données
respectivement par (1.25) et (1.26) à condition de substituer φ1 par 1/φ1 . Un point remarquable à
propos de l’expression de la solution stationnaire donnée par (1.29) est que celle ci est entièrement
anti-causale, dans le sens où elle ne dépend que des valeurs futures du bruit Zt . Cette remarque
montre qu’il ne faut pas se laisser tromper par l’apparence de la relation de récurrence (1.27) : la
solution stationnaire ne s’exprime par forcément comme un filtrage causal du bruit Zt , point que nous
développerons au paragraphe 1.4.2.

Cas |φ1 | = 1
Nous avons déjà montré à propos de l’exemple 1.10 que lorsque φ1 = 1, un processus X£ t vérifiant
¤
Xt = Xt−1 +Zt ne peut avoir une variance constante£ ¤ au cours du temps (on a montré que E Xt2 |X0 =
tσ 2 , où σ 2 est la variance de Zt , et donc E Xt2 = tσ 2 ). A fortiori, un tel processus ne peut être
stationnaire au second ordre. En utilisant la même technique, on montre aisément que l’équation de
récurrence (1.24) ne peut avoir de solution stationnaire lorsque |φ1 | = 1. Une remarque intéressante
est que dans le cas où φ1 = 1, le processus Zt = Xt − Xt−1 est par hypothèse stationnaire. On peut
donc utiliser le modèle Xt − Xt−1 = Zt pour un signal Xt non-stationnaire dont les incréments sont
supposés stationnaires. C’est implicitement la stratégie que nous avons adoptée pour analyser la série
de l’indice S&P500 représentée figure 1.4 au paragraphe 1.2.2 (en utilisant en plus une transformation
logarithmique des données).

25
Cas général
Le théorème suivant étend les résultats précédents à un processus AR(p).
Théorème 1.6 (Existence des processus AR(p)). L’équation récurrente :
Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt (1.30)
où Zt ∼ BB(0, σ 2 ) admet une solution stationnaire au second ordre si et seulement si le polynôme :
φ(z) = 1 − φ1 z − · · · − φp z p 6= 0 pour |z| = 1
et cette solution est unique. Elle a pour expression :

X
Xt = ψk Zt−k (1.31)
k=−∞

où ψk est la suite des coefficients du développement en série de Laurent de 1/φ(z) au voisinage du
cercle unité.
Démonstration. La condition φ(z) 6= 0 pour |z| = 1 implique que φ(z) 6= 0 dans une couronne
1 − δ ≤ |z| ≤ 1 + δ et donc que la fonction ψ(z) = 1/φ(z) est analytique dans cette couronne. Il s’en
suit que 1/φ(z) admet, pour 1 − δ ≤ |z| ≤ 1 + δ, un développement en série de Laurent qui s’écrit :

X
1
= ψk z k = ψ(z) (1.32)
φ(z)
k=−∞

où la suite {ψk } est de module sommable et vérifie ψ0 = 1. Nous pouvons alors considérer le filtre
de réponse impulsionnelle {ψk }. D’après le théorème 1.5, nous pouvons appliquer ce filtre aux deux
membres de l’équation récurrente φ(B)Xt = Zt . Nous obtenons (ψ(B)φ(B))Xt = Xt = ψ(B)Zt . On
en déduit que l’unique solution stationnaire de l’équation (1.30) est donnée par (1.31). ¥

AR(p) causal
On peut distinguer trois cas suivant la position des racines de φ(z) par rapport au cercle unité :
– Les racines du polynôme φ(z) sont strictement à l’extérieur du cercle unité. Alors la fonction
ψ(z) = 1/φ(z) est analytique sur le disque {z : |z| < ρm }, où ρm > 1 est le module de la racine
de φ(z) de module le plus petit. En particulier ψ(z) est analytique en 0 et donc ψk = 0 pour
k < 0. Il s’en suit que :
X∞
Xt = ψk Zt−k
k=0
On note que Xt s’exprime causalement en fonction de Zt dans le sens où Xt dépend uniquement
des valeurs présente et passées de Zt . On dit dans ce cas que le modèle autorégressif est causal.
– Les racines du polynôme φ(z) sont strictement à l’intérieur du cercle unité. Alors la fonction
1/φ(z) est analytique dans la couronne {z : |z| > ρM }, où ρM < 1 est le module de la racine de
φ(z) de module le plus grand. On en déduit que ψk = 0 pour k ≥ 0 et donc que Xt s’exprime
anti-causalement en fonction de Zt , dans le sens où Xt dépend uniquement des valeurs futures
de Zt . On dit dans ce cas que le modèle autorégressif est anti-causal.

26
– Le polynôme φ(z) a des racines de part et d’autre du cercle unité. La suite ψk est alors bilatérale.
Dans ce cas Xt dépend à la fois des valeurs passées, présente et futures de Zt . On dit dans ce
cas que le modèle autorégressif est bilatérale.

Théorème 1.7 (AR(p) causal). L’équation récurrente :

Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt

où Zt ∼ BB(0, σ 2 ) admet une solution stationnaire au second ordre causale si et seulement si φ(z) =
1 − φ1 z − · · · − φp z p 6= 0 pour |z| ≤ 1. Cette solution est unique et a pour expression :

X
Xt = ψk Zt−k (1.33)
k=0

où ψk est la suite des coefficients du développement en série de Laurent de 1/φ(z) dans le disque
{z : |z| ≤ 1}.

Démonstration. Il nous reste à montrer que, si l’équation


P récurrente possède une solution stationnaire
au second ordre causale c’est-à-dire telle que Xt = ∞ k=0 ψk Zt−k avec ψk de module sommable, alors
φ(z) 6= 0 pour |z| ≤ 1.
PEn effetk partons de φ(B)Xt = Zt et remplaçons Xt par ψ(B)Zt , où nous
supposons que ψ(z) = ∞ k=0 ψk z est analytique pour |z| ≤ 1. Alors on a (φ(B)ψ(B))Zt = Zt et donc

φ(z)ψ(z) = 1 pour |z| ≤ 1

qui implique que φ(z) 6= 0 pour |z| ≤ 1. ¥

Sauf indication contraire nous ne considérons, dans la suite, que des processus autorégressifs causaux.
La propriété de causalité joue en effet un rôle essentiel pour l’estimation des paramètres (cf. les
équations de Yule-Walker ci-dessous) ainsi que dans les problèmes de prédiction étudiés au chapitre 4.
Par ailleurs, cette restriction n’en est pas vraiment une comme le montre l’exercice suivant :
Exercice 1.1
Soit M(p) un modèle AR(p) de paramètres σ 2 , φ1 , . . . φp qui admet une solution stationnaire (φ(z) 6= 0 pour
|z| = 1). Montrer qu’il existe toujours un modèle M0 (p) AR(p) stable et causal possédant la même fonction
d’autocovariance que M(p) (indication : utiliser des facteurs passe-tout de la forme (a1 − z)/(1 − a∗1 z) où
φ(a1 ) = 0).

Equations de Yule-Walker
Les équations de Yule-Walker fournissent une relation linéaire entre les paramètres φ1 , . . . , φp et σ 2
de l’équation (1.23), définissant un processus AR(p), et la fonction d’autocovariance de ce processus.
Nous nous plaçons dans le cas où le processus AR(p) est causal et donc, pour k > 0 E [Zt Xt−k ] = 0
d’après (1.33). On en déduit que :
p
X
E [Zt Xt ] = E [Zt Zt ] + φj E [Zt Xt−j ] = σ 2
j=1

27
P
et par suite en remplaçant, dans E [Zt Xt ], Zt par Xt − pj=1 φj Xt−j il vient :
 
Xp Xp
2 
σ = E [Zt Xt ] = E (Xt − 
φj Xt−j )Xt = γ(0) − φk γ(k) (1.34)
j=1 k=1

En multipliant, pour k > 0, les deux membres h de l’équation (1.23)i par Xt−k et en en prenant
P
l’espérance, on obtient 0 = E [Zt Xt−k ] = E (Xt − pj=1 φj Xt−j )Xt−k . On en déduit que la fonc-
tion d’autocovariance vérifie, pour tout k > 0, l’équation de récurrence :
p
X
γ(k) − φj γ(k − j) = 0 (1.35)
j=1

En regroupant, sous forme matricielle, les p équations (1.35) pour 1 ≤ k ≤ p, on obtient :


    
γ(0) γ(1) · · · γ(p − 1) φ1 γ(1)
 γ(1) γ(0) · · · γ(p − 2)    
  φ2  γ(2)
 .. .   .  = .  (1.36)
 . ..   ..   .. 
γ(p − 1) γ(p − 2) · · · γ(0) φp γ(p)

Les équations (1.34) et (1.36) sont appelées équations de Yule-Walker. Nous retrouverons ces équations,
dans le cadre de la prédiction linéaire au chapitre 4 (équations (4.8) et (4.9)). Ces équations permettent
également de déterminer les valeurs des paramètres du modèle à partir d’estimation de la fonction
d’autocovariance (cf. chapitre 5).

Calcul des covariances d’un processus AR(p) causal


Partant des paramètres du modèle, il est également possible de calculer la fonction d’autocovariance
du processus à partir des équations (1.34) et (1.36) en les réécrivant sous la forme
       2 
1 −φ1 · · · −φp 1 0 ··· 0 γ(0)/2 σ
 −φ1 −φ 0   −φ 1 · · · 0    γ(1)   
 p   1     0 
 .. . . .  +  . .. .. .    .  =  .  (1.37)
 . .. .. ..   .. . . ..   ..   .. 
−φp 0 ··· 0 −φp · · · −φ1 1 γ(p) 0

Partant alors de φ1 , . . . , φp , σ 2 , on calcule γ(0), . . . , γ(p) puis, en utilisant (1.35), on calcule γ(k) pour
tout k > p. Une autre façon de procéder consiste à calculer récursivement la suite ψk en remarquant
que 1 = ψ(z)φ(z) = (ψ0 + ψ1 z + . . . )(1 − φ1 z − · · · − φp z p ) et donc, par identification, que :

ψ0 = 1, ψ1 = φ1 ψ0 , ψ2 = φ2 ψ1 + φ1 ψ1 , etc.

puis d’appliquer la formule (1.17) pour un processus d’entrée de fonction d’autocovariance σ 2 δ(h) qui
s’écrit

X
γ(h) = σ 2 ψk ψk+|h|
k=0

28
Densité spectrale
P
Réécrivons l’équation (1.23) sous la forme Xt − pk=1 φk Xt−k = Zt . Le premier membre est un
processus stationnaire au second ordre puisque il représente le filtrage, par un filtre de réponse impul-
¯sionnelle finie, du processus
¯ Xt . Ce processus possède donc une densité spectrale qui a pour expression
¯1 − Pp φk e−ikλ ¯2 fX (λ) où fX (λ) désigne la densité spectrale de Xt . Cette densité spectrale est
k=1
aussi égale à celle du second membre Zt , c’est à dire à σ 2 /2π. Par conséquent,

σ2 1
f (λ) = ¯ P ¯ (1.38)
2π ¯1 − p φk e−ikλ ¯2
k=1

1.4.3 Processus ARMA


La notion de processus ARMA généralise les notions de processus MA et AR.
Théorème 1.8 (Existence des processus ARMA(p, q)). Soit l’équation récurrente :

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.39)

où Zt ∼ BB(0, σ 2 ). On pose φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θp z p . On suppose


que φ(z) et θ(z) n’ont pas de zéros communs. Alors l’équation (1.39) admet une solution stationnaire
au second ordre si et seulement si le polynôme φ(z) 6= 0 pour |z| = 1. Cette solution est unique et a
pour expression :
X∞
Xt = ψk Zt−k (1.40)
k=−∞

où ψk est la suite des coefficients du développement en série de Laurent de θ(z)/φ(z) au voisinage du
cercle unité.
Démonstration. Comme φ(z) 6= 0 pour |z| = 1, 1/φ(z) est développable en série de Laurent au
voisinage du cercle unité, suivant :

X
1
ξ(z) = = ξk z k
φ(z)
k=−∞

où la suite {ξk } est de module sommable et vérifie ξ0 = 1. D’après le théorème 1.5, nous pouvons
donc appliquer le filtre de réponse impulsionnelle {ξk } aux deux membres de l’équation récurrente
φ(B)Xt = θ(B)Z
P t . Nous obtenons (ξ(B)φ(B))Xt = Xt = ψ(B)Zt où ψ(B) = ξ(B)θ(B). On en déduit
que ψ(z) = k ψk z k avec :
X q
ψk = ξk + θj ξk−j
j=1

où {ψk } est absolument sommable. ¥

Dans le cas où φ(z) et θ(z) ont des zéros communs, deux configurations sont possibles :
– Les zéros communs ne sont pas sur le cercle unité. Dans ce cas on se ramène au cas sans zéro
commun en annulant les facteurs communs.

29
– Certains des zéros communs se trouvent sur le cercle unité. L’équation (1.39) admet une infinité
de solutions stationnaires au second ordre.
Du point de vue de la modélisation, la présence de zéros communs ne présente aucun intérêt puisqu’elle
est sans influence sur la densité spectrale de puissance. Elle conduit de plus à une ambiguı̈té sur l’ordre
réel des parties AR et MA.

ARMA(p, q) causal
Comme dans le cas d’un processus AR(p), on peut distinguer trois cas, suivant que les zéros de φ(z)
sont à l’extérieur, à l’intérieur ou de part et d’autre du cercle unité. Dans le cas où les zéros P
de φ(z) sont
à l’extérieur du cercle unité, la suite ξk est causale (ξk = 0 pour k < 0) et donc ψk = ξk + qj=1 θj ξk−j
est aussi causale. Par conséquent le processus Xt s’exprime causalement en fonction de Zt .

Théorème 1.9 (ARMA(p, q) causal).

Xt − φ1 Xt−1 − · · · − φp Xt−p = Zt + θ1 Zt−1 + · · · + θq Zt−q (1.41)

où Zt ∼ BB(0, σ 2 ). On pose φ(z) = 1 − φ1 z − · · · − φp z p et θ(z) = 1 + θ1 z + · · · + θp z p . On suppose


que φ(z) et θ(z) n’ont pas de zéros communs. Alors l’équation (1.41) admet une solution stationnaire
causale au second ordre si et seulement si le polynôme φ(z) 6= 0 pour |z| ≤ 1. Cette solution est unique
et a pour expression :
X∞
Xt = ψk Zt−k (1.42)
k=0

où ψk est la suite des coefficients du développement en série de Laurent de θ(z)/φ(z) dans le disque
{z : |z| ≤ 1}.

Démonstration. Il suffit de remarquer que la condition sur φ(z) implique que 1/φ(z) possède un
développement causal au voisinage du cercle unité. ξ(B) correspond donc à une opération de filtrage
causal (voir preuve du théorème 1.8 pour les notations), ce qui implique qu’il en va de même pour
ξ(B)φ(B). ¥

Calcul des covariances d’un processus ARMA(p, q) causal


Une première méthode consiste à utiliser l’expression (1.17) qui s’écrit, compte tenu du fait que
{Zt } est un bruit blanc,

X
2
γ(h) = σ ψk ψk+|h|
k=0

où la suite {ψk } se détermine de façon récurrente à partir de l’égalité ψ(z)θ(z) = φ(z) par identification
du terme en z k . Pour les premiers termes on trouve :

ψ0 = 1
ψ1 = θ1 + ψ0 φ1
ψ2 = θ2 + ψ0 φ2 + ψ1 φ1
···

30
La seconde méthode utilise une formule de récurrence, vérifiée par la fonction d’autocovariance d’un
processus ARMA(p, q), qui s’obtient en multipliant les deux membres de (1.39) par Xt−k et en en
prenant l’espérance. On obtient :
X
γ(k) − φ1 γ(k − 1) − · · · − φp γ(k − p) = σ 2 θj ψj−k pour 0 ≤ k < max(p, q + 1) (1.43)
k≤j≤q

γ(k) − φ1 γ(k − 1) − · · · − φp γ(k − p) = 0 pour k ≥ max(p, q + 1) (1.44)

où nous avons utilisé la causalité du processus pour écrire que E [Zt Xt−k ] = 0 pour tout k ≥ 1.
Le calcul de la suite {ψk } pour k = 1, . . . , p se fait comme précédemment. En reportant ces valeurs
dans (1.43) pour 0 ≤ k ≤ p, on obtient (p+1) équations linéaires aux (p+1) inconnues (γ(0), . . . , γ(p))
que l’on peut résoudre. Pour déterminer les valeurs suivantes on utilise l’expression (1.44).

Inversibilité d’un processus ARMA(p, q)


Théorème 1.10 (ARMA(p, q) inversible). Soit Xt un processus ARMA(p, q). On suppose que φ(z)
et θ(z) n’ont pas de zéros communs. Alors il existe une suite {πk } causale absolument sommable telle
que :
X∞
Zt = πk Xt−k (1.45)
k=0

si et seulement si θ(z) 6= 0 pour z ≤ 1. On dit alors que le modèle ARMA(p, q) est inversible. La suite
πk est la suite des coefficients du développement en série de φ(z)/θ(z) dans le disque {z : |z| ≤ 1}.

La preuve de ce théorème est tout à fait analogue à celle du théorème 1.9. Remarquons que la
notion d’inversibilité, comme celle de causalité, est bien relative au modèle ARMA(p, q) lui-même et
pas uniquement au processus Xt comme le montre l’exercice suivant.
Exercice 1.2
Soit Xt un processus stationnaire au second ordre solution de l’équation de récurrence (1.41) où le modèle
ARMA(p, q) correspondant est supposé sans zéro commun mais pas nécessairement inversible. Montrer qu’il
existe un bruit blanc Z̃t tel que Xt soit solution de

φ(B)Xt = θ̃(B)Z̃t

où le modèle ARMA(p, q) défini par φ1 , . . . φp et θ̃1 , . . . θ̃q est inversible (indication : considérer des facteurs
passe-tout).

Un modèle ARMA(p, q) est causal et inversible lorsque les racines des polynômes φ(z) et θ(z) sont
toutes situées à l’extérieur du filtre unité. Dans ce cas, Xt et Zt se déduisent mutuellement l’un de
l’autre par des opérations de filtrage causal, la réponse impulsionnelle de chacun de ces filtres étant à
phase minimale (c’est à dire inversible causalement).

Densité spectrale d’un processus ARMA(p, q)


Théorème 1.11 (Densité spectrale d’un processus ARMA(p, q)). Soit Xt un processus ARMA(p, q)
(pas nécessairement causal ou inversible) défini par φ(B)Xt = θ(B)Zt où Zt ∼ BB(0, σ 2 ) et où θ(z) et

31
φ(z) sont des polynômes de degré q et p n’ayant pas de zéros communs. Alors Xt possède une densité
spectrale qui a pour expression :
¯ Pq ¯2
σ 2 ¯1 + k=1 θk e−ikλ ¯
f (λ) = ¯ P ¯ (1.46)
2π ¯1 − p φk e−ikλ ¯2
k=1

32
1.5 Preuves des théorèmes 1.4 et 1.5
P
Théorème 1.4. Soit {ψk }k∈Z une suite telle que ∞ k=−∞ |ψk | < ∞ et soit {Xt } un processus aléatoire
tel que supt∈Z E [|Xt |] < ∞. Alors, pour tout t ∈ Z, la suite :
n
X
Yn,t = ψs Xt−s
s=−n

converge presque sûrement, quand n tend vers l’infini, vers une


P £ 2limite
¤ que nous notons £ 2 ¤ Yt =

s=−∞ ψs Xt−s et limn→∞ E [|Yn,t − Yt |] = 0. Si de plus supt E X (t) <£ ∞, alors ¤ E Yt < ∞
et Yn,t converge en moyenne quadratique vers Yt , c’est à dire que limn→∞ E |Yn,t − Yt |2 = 0.
P
Démonstration. Notons pour tout t ∈ Z et n ∈ N, |Y |n,t = +n s=−n |ψs ||Xt−s . La suite {|Y |n,t }n≥0 est
une suite de variables aléatoires intégrables. Le théorème de convergence dominé (see Proposition ??)
montre que
lim E [|Y |n,t ] = E [|Y |t ]
n→∞
P
où |Y |t = ∞s=−∞ |ψs ||Xt−s |. Comme,

+n
X ∞
X
E [|Y |n,t ] = |ψs |E [|Xt−s |] ≤ sup E [|Xt |] |ψs | ,
s=−n t∈Z s=−∞

on a donc " #

X
E |ψs ||Xt−s | < ∞ .
s=−∞

Par conséquent, il existe un ensemble A ∈ F, vérifiant PA = 1 tel que, pour tout ω ∈ A, nous ayons

X
|ψs ||Xt−s (ω)| < ∞
s=−∞

Pour ω ∈ A, la série de terme générique s 7→ ψs Xt−s (ω) est normalement sommable, ce qui implique
que, pour tout ω ∈ A, la suite n 7→ Yn,t (ω) converge.
Notons, pour tout ω ∈ Ω, Yt (ω) = lim sup Yn,t (ω). ω 7→ Yt (ω) est une variable aléatoire comme
limite supérieure de variables aléatoires et pour tout ω ∈ A, nous avons limn→∞ Yn,t (ω) = Yt (ω) et
donc la suite n 7→ Yn,t converge P-p.s vers Yt .
Remarquons également que la suite n 7→ Yn,t est une suite de Cauchy dans L1 (Ω, F, P). En effet,
pour tout p ≥ q, nous avons :
p
X
E [|Yp,t − Yq,t |] ≤ sup E [|Xt |] |ψs | −→ 0
t∈Z q,p→∞
s=q+1

Fixons ² > 0 et choisissons n tel que

sup E [|Yp,t − Yq,t |] ≤ ²


p,q≥n

33
Par application du lemme de Fatou nous avons alors, pour tout q ≥ n,
· ¸
E lim inf |Yp,t − Yq,t | = E [|Yt − Yq,t |] ≤ lim inf E [|Yp,t − Yq,t |] ≤ ²
p→∞ p→∞

et donc lim supq→∞ E [|Yq,t − Yt |] ≤ ². Comme ² est arbitraire, nous avons donc limq→∞ E [|Yq,t − Yt |] =
0. L’inégalité triangulaire
E [|Yt |] ≤ E [|Yt − Yn,t |] + E [|Yn,t |]
£ ¤
montre enfin que Yt ∈ L1 (Ω, F, P). Considérons maintenant le cas où supt∈Z E Xt2 < ∞. Remarquons
£ ¤
tout d’abord que E [|Xt |] ≤ (E Xt2 )1/2 et donc que cette condition implique que supt∈Z E [|Xt |] < ∞.
La suite m 7→ Ym,t est une suite de Cauchy dans L2 (Ω, F, P). En effet, pour p ≥ q, nous avons
 2
p
X p
X
£ ¤
E (Yp,t − Yq,t )2 = E  ψs Xt−s  = ψj ψk E [Xt−j Xt−k ]
s=q+1 j,k=q+1
 2
p
X p
X
£ ¤ £ ¤
≤ |ψj ||ψk | sup E Xt = sup E Xt 
2 2
|ψj |
j,k=q+1 t∈Z t∈Z j=q+1

Comme précédemment fixons ² > 0 et choisissons n tel que :


£ ¤
sup E |Yp,t − Yq,t |2 ≤ ².
p,q≥n

Par application du lemme de Fatou, nous avons :


· ¸
£ ¤ £ ¤
E lim inf (Yp,t − Yq,t ) = E (Yt − Yq,t )2 ≤ lim inf E (Yp,t − Yq,t )2 ≤ ²
2
p→∞ p→∞
£ ¤ £ ¤
et donc : lim supq→∞ E (Yt − Yq,t )2 ≤ ². Comme ² est arbitraire, lim supq→∞ E (Yt − Yq,t )2 = 0, en
d’autres termes, la suite {Yq,t }q≥0 converge en moyenne quadratique vers Yt . Finalement, nous avons :
£ ¤ £ ¤ £ 2¤
E Yt2 ≤ 2(E (Yt − Yq,t )2 + E Yq,t )<∞

et Yt est donc une variable de carré intégrable. ¥


P∞
Théorème 1.5. Soit {ψk } une suite telle que k=−∞ |ψk | < ∞ et soit {Xt } un processus stationnaire
au second ordre dePmoyenne µX = E [Xt ] et de fonction d’autocovariance γX (h) = cov(Xt+h , Xt ). Alors
le processus Yt = ∞ s=−∞ ψs Xt−s est stationnaire au second ordre de moyenne :


X
µY = µX ψk (1.47)
k=−∞

de fonction d’autocovariance :

X ∞
X
γY (h) = ψj ψk γX (h + k − j) (1.48)
j=−∞ k=−∞

34
et de mesure spectrale :
νY (dλ) = |ψ(e−iλ )|2 νX (dλ) (1.49)
P
où ψ(e−iλ ) = k ψk e−ikλ est la fonction de transfert du filtre. Enfin l’intercovariance entre les pro-
cessus Yt et Xt a pour expression :

X
γY X (h) = E [(Yt+h − µY )(Xt − µX )] = ψk γX (h − k) (1.50)
k=−∞
£P∞ ¤
Démonstration. Comme E s=−∞ |ψs |E [|Xt−s |] < ∞, le théorème de Fubini implique
" ∞ # ∞
X X
E ψs Xt−s = ψs E [Xt−s ]
s=−∞ s=−∞

ce qui établit (1.47).


Pn Pour la fonction d’autocovariance, notons tout d’abord que, pour tout n, le
processus Yn,t = s=−n ψs Xt−s est stationnaire au second ordre et que nous avons
n
X n
X
cov(Yn,t , Yn,t+h ) = ψj ψk γX (h + k − j)
j=−n k=−n

Remarquons ensuite que

cov(Yt , Yt+h ) = cov(Yn,t + (Yt − Yn,t ), Yn,t+h + (Yt+h − Yn,t+h ))


= cov(Yn,t , Yn,t+h ) + cov(Yt − Yn,t , Yn,t+h )
+ cov(Yn,t , Yt+h − Yn,t+h ) + cov(Yt − Yn,t , Yt+h − Yn,t+h )
=A+B+C +D

L’inégalité :
 2

X
var(Yn,t − Yt ) = lim var(Yn,t − Yp,t ) ≤  |ψj | γX (0)
p→∞
j=n+1

permet ensuite de déduire, quand n tend vers l’infini, les limites suivantes

|B| ≤ (var(Yt − Yn,t ))1/2 (var(Yn,t+h ))1/2 → 0


|C| ≤ (var(Yt+h − Yn,t+h ))1/2 (var(Yn,t ))1/2 → 0
|D| ≤ (var(Yt+h − Yn,t+h ))1/2 (var(Yt − Yn,t ))1/2 → 0

et donc cov(Yt , Yt+h ) = limn→∞Rcov(Yn,t , Yn,t+h ), ce qui démontre l’expression (1.48) 3 . En reportant
dans cette expression γX (h) = I eihλ νX (dλ) où νX désigne la mesure spectrale du processus {Xt },
nous obtenons Z

X X∞
γY (h) = ψj ψk ei(h+k−j)λ νX (dλ)
j=−∞ k=−∞ I

3
Nous venons ici de démontrer directement la propriété de continuité de la covariance dans L2 que nous verrons
comme une conséquence de la structure d’espace de Hilbert au chapitre 4.

35
En remarquant ensuite que
 2

X ∞ Z
X ∞
X
|ψj ||ψk |νX (dλ) ≤ γX (0)  |ψj |
j=−∞ k=−∞ I j=−∞

nous pouvons appliquer le théorème de Fubini et permuter les signes somme et intégrale dans l’ex-
pression de γY (h). Ce qui donne :
Z ∞
X ∞
X Z
γY (h) = eihλ ψj ψk eikλ e−ijλ = eihλ |ψ(e−iλ )|2 νX (dλ)
I j=−∞ k=−∞ I

On en déduit que νY (dλ) = |ψ(e−iλ )|2 νX (dλ). Pour déterminer l’expression de l’intercovariance entre
les processus entre les processus Yt et Xt , il suffit de noter |cov(Yt+h , Xt )|2 ≤ γY (0)γX (0) < +∞ et
que :
n
X
E [(Yt+h − µY )(Xt − µX )] = lim cov(Yn,t+h , Xt ) = lim ψk cov(Xt+h−k Xt )
n→∞ n→∞
k=−n

X
= ψk γX (h − k)
k=−∞

Ce qui conclut la preuve. ¥

36
Chapitre 2

Estimation de la moyenne et des


covariances

2.1 Estimation de la moyenne


Soit {Xt } un processus aléatoire à temps discret stationnaire au second ordre, de moyenne E [Xt ] =
µ, et de fonction d’autocovariance γ(h). On suppose avoir observé n échantillons consécutifs X1 , . . . Xn
du processus. L’estimateur de µ que nous considérons est la moyenne empirique définie par :
n
1X
µ̂n = Xt (2.1)
n
t=1

On constate tout d’abord que µ̂n est un estimateur sans biais de la moyenne µ car
n
1X
E [µ̂n ] = E [Xt ] = µ (2.2)
n
t=1

du fait de la stationnarité. Le risque quadratique de l’estimateur, qui mesure sa dispersion autour de


la valeur inconnue µ de la moyenne, a pour expression
£ ¤
R(µ̂n , µ) = E (µ̂n − µ)2
" n n
# n n n−1 µ ¶
1 XX 1 XX 1 X |h|
=E 2 (Xt − µ)(Xs − µ) = 2 γ(t − s) = 1− γ(h) (2.3)
n n n n
s=1 t=1 s=1 t=1 h=−n+1

D’où la proposition suivante :


Proposition 2.1. Soit {XtP } un processus stationnaire au second
P ordre de moyenne µ et de fonction
d’autocovariance γ(h) avec |γ(h)| < ∞. Alors, µ̂n = n−1 nt=1 Xt vérifie

£ ¤ 1 X
lim nE (µ̂n − µ)2 = 2πf (0) où f (λ) = γ(τ )e−iτ λ . (2.4)
n→∞ 2 pi τ =−∞

c’est à dire que µ̂n converge en moyenne quadratique vers µ, à la vitesse n. De plus limn→∞ µ̂n = µ
P-p.s.

37
Démonstration. Lorsque γ(h) est absolument sommable, le théorème de la convergence dominée ap-
pliquée à (2.3) montre que

X µ ¶ ∞
X
|h|
lim nR(µ̂n , µ) = lim 1 − γ(h) = γ(h) = 2πf (0)
n→∞ n→∞ n
h=−∞ h=−∞
P
où f (λ) = (2π)−1 ∞ h=−∞ γ(h)e
−ihλ est la densité spectrale du processus {X }. La preuve de la
t
convergence presque sûre de µ̂n est traitée par l’exercice ??. ¥

Cette proposition montre que la loi des grands nombres, établie classiquement pour des variables
aléatoires indépendantes, est également valable pour un processus stationnaire au second ordre, du
moment que la fonction d’autocovariance décroı̂t suffisamment rapidement à l’infini. Sous cette condi-
tion, il est possible d’estimer la moyenne£ à partir d’une ¤seule réalisation de celui-ci. La proposition 2.1

nous donne accès à la valeur limite de E ( n(µ̂n − µ))2 . Cependant pour construire des intervalles de
confiance pour les paramètres estimés (cf. définition A.27) ou pour tester des hypothèses concernant la
valeur des paramètres (voir définition A.28), il est nécessaire d’obtenir un résultat plus précis portant

sur la distribution limite de n(µ̂n − µ). L’obtention de théorèmes de type limite centrale pour des
suites de variables aléatoires dépendantes est un sujet délicat, qui a donné lieu à une vaste littérature.
Il n’est bien entendu pas question ici de présenter une théorie générale et nous nous contentons donc
d’énoncer un résultat valable dans le cas de processus linéaire fort. Le fait de devoir émettre une
hypothèse aussi contraignante sur la loi du processus dans un contexte où, en fait, seules les propriétés
au second ordre nous intéressent est bien sûr frustrant, mais il traduit la (relative) difficulté technique
d’un tel résultat (la preuve de ce théorème est omise).
P
Théorème
P 2.1. Soit {Xt } un processus linéaire fort de P moyenne µ. On a Xt = µ + ∞ k=−∞ ψk Zt−k
avec k |ψk | < ∞ et Zt ∼ IID(0, σ 2 ). On pose µ̂n = n−1 nt=1 Xt . Alors :

n(µ̂n − µ) →d N (0, 2πf (0)) (2.5)
P
où f (0) = σ 2 |ψ̂(0)|2 /(2π), ψ̂(λ) = ∞j=−∞ ψj e
ijλ , est la densité spectrale de X en 0.
t

Exemple 2.1 : Moyenne empirique pour un processus AR(1) (fort)


Soit Xt un processus autorégressif d’ordre 1 fort, de moyenne µ, solution stationnaire au second ordre défini
par l’équation de récurrence
Xt − µ = φ(Xt−1 − µ) + Zt
où {Zt } ∼ IID(0, σ 2 ) et |φ| < 1. Nous rappelons que la fonction d’autocovariance d’un processus AR(1) pour
|φ| < 1 est donnée par
σ2
γX (k) = φ|k|
(1 − φ2 )
et que la densité spectrale de ce processus a pour expression

σ2
f (λ) = 2
2π |1 − φe−iλ |

Dans ce cas, la variance limite qui intervient dans l’équation (2.5), est donnée par 2πf (0) = σ 2 /(1 − φ)2 .
Cette valeur est à comparer avec la variance de Xt donnée par γ(0) = σ 2 /(1 − φ2 ). On constate que le rapport
2πf (0)/γ(0) = (1 + φ)/(1 − φ) tend vers 0 lorsque φ → −1 et vers +∞ lorsque φ → 1. Ce qui implique

38
par exemple lorsque l’on considère l’intervalle de confiance asymptotique de niveau 95% pour la moyenne
µ donné par [µ̂n − 1.96σn−1/2 /(1 − φ), µ̂n + 1.96σn−1/2 /(1 − φ)] que l’estimation de la moyenne est bien
meilleure (plus précise) que si les données étaient iid lorsque φ est proche de −1. Inversement, lorsque φ est
proche de 1, l’intervalle de confiance est beaucoup plus large, c’est à dire l’estimation est significativement
moins précise, pour un nombre n d’échantillons comparable, que si les données étaient indépendantes. Cette
constatation somme toute assez logique est à mettre en rapport avec l’allure des trajectoires représentées sur
la figure 1.11.

2.2 Estimation des coefficients d’autocovariance et d’auto-


corrélation
Considérons à nouveau un processus {Xt } stationnaire au second ordre, de moyenne µ et de fonction
d’autocovariance γ(h) supposée de module sommable. Pour estimer la suite γ(h), nous considérons les
estimateurs, dits de covariances empiriques, définis par :
( Pn−|h|
n−1 t=1 (Xt+|h| − µ̂n )(Xt − µ̂n ) si |h| ≤ n − 1
γ̂n (h) = (2.6)
0 sinon
P
où µ̂n = n−1 nt=1 Xt . Remarquons que le nombre d’observations, dont nous disposons, étant
précisément égal à n, il n’existe pas de paires d’observations séparées de plus de n − 1 intervalles
de temps et donc l’expression (2.6) ne permet pas d’estimer les valeurs de γ(h) pour |h| ≥ n. De plus,
lorsque |h| est proche de n, il est clair que l’estimateur (2.6) de la covariance n’est pas fiable, dans la
mesure où on ne dispose que de peu de paires d’observations (Xt , Xt+|h| ), ce qui implique que l’effet
de moyennage statistique ne peut pas jouer. La partie la plus utile de la fonction d’autocovariance
empirique est celle qui correspond au valeurs du décalage h significativement plus faibles que le nombre
d’observations n. A échantillon fini, γ̂n (h) est un estimateur biaisé de γ(h). Un calcul simple montre
par exemple que
(n−1) µ ¶
1 X |k|
E [γ̂n (0)] = γ(0) − 1− γ(k)
n n
k=−(n−1)

Toutefois on peut montrer que, pour tout h, l’estimateur donné par (2.6) est asymptotiquement sans
biais dans le sens où limn→∞ E [γ̂n (h)] = γ(h) à la vitesse 1/n. Une propriété importante de cet
estimateur est que la suite γ̂n (h) est de type positif. En effet, si on définit le périodogramme par1
¯ ¯2
1 ¯¯X ¯
n
¯
In (λ) = ¯ (Xt − µ̂n )e−itλ ¯ (2.7)
2πn ¯ ¯
t=1

Par construction, In (λ) est une fonction positive pour λ ∈ [−π, π]. Par ailleurs,
Z n n Z
π
iλh 1 XX 1 π
e In (λ)dλ = (Xt − µ̂n )(Xs − µ̂n ) eiλ(h−t+s) = γ̂n (h)
−π n 2π −π
t=1 s=1

Par conséquent, d’après le théorème d’Herglotz 1.3, la suite γ̂n (h) est de type positif.
1
Le périodogramme joue un rôle fondamental pour l’estimation de la densité spectrale étudiée au chapitre 3.

39
Propriété 2.1. Si γ̂n (0) > 0 alors, pour tout p ≤ n, la matrice Γ̂n,p définie par
 
γ̂n (0) γ̂n (1) · · · γ̂n (p − 1)
 γ̂n (1) γ̂n (0) · · · γ̂n (p − 2)
 
Γ̂n =  ..  (2.8)
 . 
γ̂n (p − 1) γ̂n (p − 2) · · · γ̂n (0)
est de rang plein et est donc inversible.
Démonstration. La suite γ̂n (h) est de type positif, γ̂n (0) > 0 et γ̂n (h) tend vers 0 quand n tend vers
l’infini. On en déduit, d’après la propriété 1.5, que, pour tout p, la matrice est inversible. ¥

L’estimateur dit “non biaisé” de la fonction d’autocovariance obtenu en remplaçant n−1 par
(n − |h|)−1 dans l’expression (2.6) ne possède pas cette propriété. Ajouté au fait que ces deux esti-
mateurs sont asymptotiquement équivalent, l’estimateur non biaisé présente peu d’intérêt dans le cas
des séries temporelles. Les coefficients d’autocovariance empiriques interviennent quasiment dans tous
les problèmes d’inférence statistique portant sur les processus stationnaires. A l’instar de la moyenne
empirique, il est donc indispensable de disposer de résultats concernant leur distribution. Cependant,
même pour les modèles de processus les plus simples, il est en général impossible de préciser la distri-
bution exacte de la suite de variables aléatoires γ̂n (0), . . . , γ̂n (k) à n fini. Nous ne considérons ici que
des résultats asymptotiques concernant la distribution limite jointe de γ̂n (0), . . . , γ̂n (k), pour k fixé,
lorsque n tends vers l’infini. Il s’avère que le résultat le plus simple à utiliser (dans le cas général) est
celui qui concerne la fonction d’autocorrélation empirique plutôt que la covariance. On rappelle que
les coefficients d’autocorrélation sont définis par
γ(h)
ρ(h) =
γ(0)
et qu’ils vérifient |ρ(h)| ≤ ρ(0) = 1 (cf. paragraphe 1.2). On définit les coefficients d’autocorrélation
empiriques par
γ̂n (h)
ρ̂n (h) = (2.9)
γ̂n (0)
où γ̂(h) est donné par (2.6).
P P
Théorème 2.2. Soit {Xt } un processus linéaire
£ ¤ défini par Xt −µ = ∞ s=−∞ ψs Zt−s avec s |ψs | < ∞.
On suppose que Zt ∼ IID(0, σ 2 ) vérifie E Zt4 < ∞. Pour k ≥ 1, on note ρ bn = (ρ̂n (1), . . . , ρ̂n (k))T ,
ρ = (ρ(1), . . . , ρ(k))T et W la matrice de dimension k × k définie, pour 1 ≤ `, m ≤ k, par l’élément :

X
W`,m = (ρ(s + `) + ρ(s − `) − 2ρ(s)ρ(`))(ρ(s + m) + ρ(s − m) − 2ρ(s)ρ(m)) (2.10)
s=1

Alors : √
n(b
ρn − ρ) →d N (0, W ) (2.11)
Il est remarquable de noter que la distribution des coefficients d’autocorrélation ne dépend pas
des moments du processus Zt (on a uniquement supposé que Zt ∼ IID(0, σ 2 ) avec un moment du
4ème ordre fini). Comme dans le cas du théorème 2.1, on constate qu’il est nécessaire d’admettre des
hypothèses relativement fortes pour garantir ce résultat dont nous omettons la démonstration.

40
Exemple 2.2 : Bruit blanc fort
Soit {Xt } ∼ IID(0, σ 2 ). Dans ce cas ρ(h) = 0 pour tout h 6= 0 et la matrice de covariance asymptotique W
est égale à la matrice identité. L’expression (2.11) montre que, pour n suffisamment grand, les coefficients
d’autocorrélation empiriques ρ̂n (1), · · · , ρ̂n (k) sont indépendants, gaussiens de moyenne nulle et de variance
égale à 1/n. On en déduit que, pour tout h 6= 0 :

P−1.96n−1/2 ≤ ρ̂n (h) ≤ 1.96n−1/2 ≈ 0.95 (2.12)

Ce résultat peut être utilisé pour tester l’hypothèse que les valeurs observées sont celles d’un bruit blanc fort.
En effet si ρ̂n (1) sort de l’intervalle (−1.96n−1/2 , 1.96n−1/2 ), alors on peut, avec confiance, rejeter une telle
hypothèse. Nous avons représenté figure 2.1 les 60 premiers coefficients d’autocorrélation empiriques d’un

0.8

0.6

0.4

0.2

−0.2

0 10 20 30 40 50

Fig. 2.1 – Fonction d’autocorrélation empirique pour un échantillon de bruit


blanc fort, gaussien, centré, de variance σ 2 = 1 et de longueur n = 500. Les
droites en pointillé représentent la plage asymptotique autour de la vraie valeur
ρ(h) = 0, plage où il y a 95% de chance de trouver ρ̂n (h).

échantillon de longueur n = 500, d’un bruit blanc fort, gaussien, centré, de variance σ 2 = 1. A partir de la
formule (2.12), nous avons reporté l’intervalle asymptotique [−1.96n−1/2 , 1.96n−1/2 ] autour de la vraie valeur
ρ(h) = 0 où il y a 95% de chance de trouver ρ̂n (h) sous l’hypothèse que l’observation est un bruit IID. Sur
la réalisation considérée, cette hypothèse est très vraisemblable puisque seules quelques valeurs, sur les 60
coefficients empiriques calculés, sortent de cet intervalle. Ce type de tracé où l’on représente les coefficients
d’autocorrélation empiriques ainsi que la limite de la zone crédible (à 95% par exemple) pour les estimateurs
correspondants dans le cas du bruit blanc (fort) est très classique dans le domaine des séries temporelles où
il est désigné sous le nom de corrélogramme. Il permet de détecter visuellement les décalages temporels pour
lesquels l’hypothèse de décorrélation n’est pas admissible (comme dans le cas de la figure 2.2 par exemple).
Il ne constitue cependant pas un test formel du caractère blanc dans la mesure où il ignore les éventuels
effets conjoints concernant plusieurs Pkdécalages temporels. Un test de blancheur suggéré par 2.11 consiste par
exemple à vérifier que la valeur de l=1 ρ̂n (l)2 correspond bien à une valeur inférieure à 95% pour la fonction
de répartition de la loi ξk2 du chi carré à k degrés de liberté.

Exemple 2.3 : Processus MA(1)


On considère le processus MA(1) défini par Xt = Zt +θ1 Zt−1 où Zt est un bruit blanc fort, centré, de variance

41
σ 2 . Ici, la suite des coefficients d’autocorrélation est donnée par :




 1 pour h = 0


θ1
ρ(h) = pour |h| = 1
 1 + θ12




 0 pour |h| ≥ 2

On en déduit, d’après (2.10), que les éléments diagonaux de la matrice de covariance de la distribution limite
des coefficients d’autocovariance empiriques ont pour expression :
½
1 − 3ρ2 (1) + 4ρ4 (1) pour |h| = 1
Wh,h =
1 + 2ρ(1)2 pour |h| ≥ 2

Par conséquent la zone crédible à 95% pour les coefficients d’autocorrélation empiriques sont donnés, pour
h = 1, par : h i
1/2 1/2
ρ̂n (1) ∈ ρ(1) − 1.96W1,1 n−1/2 ρ(1) + 1.96W1,1 n−1/2

et, pour h ≥ 2, par : h i


1/2 1/2
ρ̂n (h) ∈ −1.96W2,2 n−1/2 + 1.96W2,2 n−1/2

Notons ici que ces régions dépendent, par l’intermédiaire de ρ(1), de la quantité a priori inconnue θ1 . Nous
avons représenté figure 2.2 les 60 premiers coefficients d’autocorrélation empiriques d’un échantillon de lon-
gueur n = 500 d’un processus MA(1) défini par θ1 = −0.8 et σ = 1. Les traits en pointillé représentent
les bornes asymptotiques autour des vraies valeurs au niveau 95%. Pour une réalisation particulière, nous

0.5

−0.5

0 10 20 30 40 50

Fig. 2.2 – Fonction d’autocorrélation empirique d’un échantillon de longueur


n = 500) d’un processus MA(1) pour θ1 = −0.8 et donc ρ(1) = −0.4878. Les
traits en pointillé représentent les plages où il y a 95% de chance de trouver
ρ̂n (h) si h ≥ 2.

avons obtenu ρ̂n (1) = −0.4924. Cela permet d’affirmer avec une grande confiance que le processus n’est pas
un bruit blanc car cette valeur est très en dehors de la plage ±1.96n−1/2 = ±0.0877 correspondant à l’hy-
pothèse que Xt soit un bruit blanc (cf. exemple 2.2). D’autre part, les résultats reportés figure 2.2 montrent
que l’hypothèse que le processus observé est MA(1) de paramètre θ1 = −0.8 est vraisemblable. En effet, les

42
coefficients d’autocorrélation empiriques sont clairement à l’intérieur des plages théoriques déduites du calcul
asymptotique.

Exemple 2.4 : Processus autorégressif fort d’ordre 1


On considère le processus aléatoire Xt défini par :

Xt = φXt−1 + Zt

où {Zt } ∼ IID(0, σ 2 ) et où |φ| < 1. La fonction d’autocorrélation d’un tel processus est donnée par ρ(h) = φ|h|
et les éléments diagonaux de la matrice de covariance W sont donnés par
h
X ∞
X
Wh,h = φ2h (φ−m − φm )2 + φ2m (φ−i − φi )2
m=1 m=h+1
2h 2 2 −1
= (1 − φ )(1 + φ )(1 − φ ) − 2hφ2h

Considérons la séquence, de longueur n = 1800, des battements cardiaques représentés figure 1.1 (chapitre 1).
La figure 1.6 qui représente les couples (Xt , Xt−1 ) suggère fortement la présence d’une relation linéaire
entre les variables Xt et Xt−1 et invite donc à tester la validité d’un modèle autorégressif d’ordre 1. Pour
estimer le paramètre φ du modèle autorégressif, une méthode naturelle, compte tenu de l’allure de la fonction
d’autocorrélation de l’AR(1), consiste à utiliser comme estimateur φ̂n = ρ̂n (1) qui donne φ̂n = 0.966. Pour
tester la validité du modèle, deux solutions s’offrent à nous : (i) tester que les résidus de prédiction donnés
par Ẑt = Xt − µ̂n − φ̂n (Xt−1 − µ̂n ) sont compatibles avec un modèle de bruit blanc, (ii) vérifier directement que
les coefficients d’autocorrélation empiriques sont compatibles avec ceux d’un modèle AR(1). Les résidus de
prédiction sont reportés figure 2.3 et la fonction d’autocorrélation de ces résidus figure 2.4, où nous avons aussi
indiqué les bornes de la zone crédible à 95% pour le bruit blanc avec un nombre d’observations n = 1800.
Les corrélations empiriques, en particulier pour h = 2, sont significativement à l’extérieur des intervalles
de confiance du bruit blanc, ce qui conduit à rejeter le modèle de bruit blanc pour les résidus et donc le
modèle autorégressif d’ordre 1 pour les observations. Les résultats de l’analyse de la suite des coefficients
d’autocorrélation empiriques du processus et des zones crédibles à 95% sous l’hypothèse d’un modèle AR(1)
avec φ = 0.966 sont reportés figure 2.5. On observe que les premières valeurs des coefficients de corrélation
sont nettement à l’extérieur de cette zone, ce qui contribue ici encore à rejeter le modèle AR(1).

43
20

10

−10

−20
0 200 400 600 800 1000 1200 1400 1600 1800

Fig. 2.3 – Série des battements cardiaques : Résidu de prédiction Ẑt = (Xt −
µ̂n ) − φ̂n (Xt−1 − µ̂n ).

1.2

0.8

0.6

0.4

0.2

−0.2
0 10 20 30 40 50 60 70 80 90

Fig. 2.4 – Série des battements cardiaques : coefficients d’autocorrélation em-


piriques des résidus de prédiction Ẑt = (Xt − µ̂n ) − φ̂n (Xt−1 − µ̂n ) et zones
crédibles à 95% pour le bruit blanc (n = 1800).

44
1

0.8

0.6

0.4

0.2

−0.2

−0.4
0 10 20 30 40 50 60 70 80 90

Fig. 2.5 – Série des battements cardiaques : coefficients d’autocorrélation em-


piriques de la série et bornes des zones crédibles à 95% pour un modèle AR(1)
de paramètre φ = 0.966.

45
Chapitre 3

Estimation spectrale non paramétrique

Dans le chapitre précédent, nous nous sommes intéressés à l’estimation de la fonction d’autocova-
riance. Dans certaines applications, il est plus pertinent d’essayer de modéliser la densité spectrale,
qui décrit la façon dont l’énergie du processus se répartit en fréquence. L’information spectrale est
souvent plus riche et plus facile à interpréter que la fonction d’autocovariance, révélant des structures
(par exemple, cycles ou pseudo-cycles) qui ne sont pas directement visibles sur la forme d’onde ni
même sur la suite des corrélations. Pour nous en convaincre considérons l’exemple de la forme d’onde
représentée figure 3.1. Il s’agit d’un segment d’environ 40 millisecondes extrait d’un enregistrement
d’un son produit par un harmonica. La forme d’onde est complexe, reflétant les deux caractéristiques
essentielles du signal produit par cet instrument : des composantes cycliques liées aux vibrations des
lames métalliques modulant de façon quasi-périodique le flux d’air et un bruit de friction. La fonc-
tion d’autocorrélation, que nous avons représentée à gauche figure 3.2, révèle en effet des structures
temporelles complexes mais cette représentation n’est pas apte à réellement mettre en évidence la
présence de (pseudo)-cycles. Ceux-ci apparaissent, par contre, clairement quand on observe le module
de la transformée de Fourier du signal (à droite figure 3.2). Cette représentation fréquentielle n’est
toutefois pas tout à fait satisfaisante, car elle est très “bruitée”, ce qui rend difficile son interprétation.
Cette variabilité est simplement la traduction, dans le domaine de Fourier, de la variabilité que nous
observons dans la forme d’onde. L’objet de ce chapitre est de trouver une méthode d’estimation

spectrale qui, tout en préservant les structures cycliques, soit capable de lisser les fluctuations.

3.1 Le périodogramme
Nous supposons dans cette partie que {Xt } est un processus stationnaire au second-ordre de
moyenne
P µ et de fonction de covariance γ(h) , E [(Xt+h − µ)(Xt − µ)] absolument sommable :
|γ(h)| < ∞. Sous ces hypothèses, le processus {Xt } admet une densité spectrale donnée par :

1 X
fX (λ) = γ(h)e−ihλ

h=−∞

46
0.03

0.02

0.01

−0.01

−0.02
seconde
−0.03
0 0.005 0.01 0.015 0.02 0.025 0.03 0.035 0.04

Fig. 3.1 – Signal d’harmonica échantillonné à 11.025 kHz (temps en seconde).

1 20

10

0.5 0

−10

0 −20

−30

−0.5 −40

−50
Hz
−1 −60
0 10 20 30 40 0 1000 2000 3000 4000 5000

Fig. 3.2 – A gauche, suite des 40 premiers coefficients de corrélation du signal


représenté figure 3.1. A droite, transformée de Fourier (en dB) de ce signal
(fréquence en Hz).

47
Pour estimer la densité spectrale de {Xt }, il est naturel de s’intéresser au périodogramme, défini
comme le module au carré de la transformée de Fourier discrète des observations {X1 , X2 , · · · , Xn } :
n
1 X
InX (λk ) = |dX
n (λk )|
2
où dX
n (λk ) =√ Xt e−itλk (3.1)
2πn t=1

où λk = 2πk/n sont les fréquences de Fourier. Remarquons ici que la relation :
n−1
X
e−itλk = 0 pour λk = 2πk/n et k ∈ {1, . . . , (n − 1)}
t=0

montre que le périodogramme aux fréquences de Fourier λk , non nulles modulo 2π, est invariant par
ajout d’une constante. Le périodogramme a été introduit par Sir Arthur Schuster (1898) pour étudier
les “périodes cachées” apparaissant dans la série de tâches solaires. L’analyse spectrale des séries tem-
porelles s’est ensuite considérablement développée avec l’apparition de moyens de calculs performants,
et la découverte d’algorithmes de transformée de Fourier rapides (voir Brillinger, 1981).
Malheureusement nous allons voir dans la suite que le périodogramme n’est pas un “bon” estimateur
de la densité spectrale, dans le sens où cet estimateur n’est pas consistant (il ne converge pas vers la
vraie densité quand n tend vers l’infini). Néanmoins, il est à la base de la construction de la plupart
des estimateurs de densité spectrale.
Rappelons tout d’abord que, comme nous l’avons déjà noté dans le chapitre 2 (voir expression (2.7)),
le périodogramme est aussi égal à la transformée de Fourier discrète de la suite des coefficients d’au-
tocovariance empiriques. En effet partant de :
n−|h| n
X X
γ̂(h) = n−1 (Xt − µ̂n )(Xt+|h| − µ̂n ) où µ̂n = n−1 Xt
t=1 t=1

on vérifie aisément que


1
InX (0) = n|µ̂n |2 (3.2)

n−1
X
1
InX (λk ) = γ̂(h) exp(−ihλk ) pour λk 6= 0 (3.3)

h=−(n−1)

Pour estimer la densité spectrale fX (λ) à toutes les fréquences, il est pratique d’étendre le
périodogramme pour les valeurs de fréquences normalisées ne coı̈ncidant pas avec les fréquences de
Fourier. Ceci peut être fait de différentes manières ; nous suivrons l’extension adoptée par Fuller (1976)
qui consiste à définir le périodogramme comme la fonction constante par morceaux donnée par :

 I X (λk ) si λk − π/n < λ ≤ λk + π/n et 0 ≤ λ ≤ π
X n
In (λ) = (3.4)
 I X (−λ) si −π ≤ λ < 0
n

Par construction, cette définition garantit que le périodogramme est une fonction paire, qui coı̈ncide
avec l’équation (3.1) aux fréquences λk = 2πk/n. De façon plus concise on peut alors écrire que :
InX (λ) = InX (g(n, λ))

48
où g(n, λ) désigne, pour λ ∈ [0, π], le multiple de 2π/n le plus proche de λ et, pour λ ∈ [−π, 0),
g(n, λ) = g(n, −λ). La proposition suivante établit que le périodogramme est asymptotiquement sans
biais.

Théorème 3.1. Soit {Xt } un processus stationnaire de moyenne µ et de fonction d’autocovariance


γ(h) absolument sommable. Alors quand n → +∞ on a :
£ ¤ 1
E InX (0) − nµ2 −→ fX (0)
£ ¤ 2π
et E InX (λ) −→ fX (λ) pour λ 6= 0

Démonstration. Remarquons que, pour λ 6= 0, on a :


(n−1)
X µ ¶
£ ¤ 1 |h|
E InX (g(n, λ)) = 1− γ(τ )e−ihg(n,λ)
2π n
h=−(n+1)

Posons γn (h, λ) = (2π)−1 I[−n,n] (h)(1 − |h|/n)γ(h)e−ihg(n,λ) . Nous avons |γn (h, λ)| ≤ |γ(h)| et
limn→∞ γn (h, x) = γ(h)e−ihλ . On conclut en appliquant le théorème de convergence dominée. ¥

Pour comprendre les propriétés statistiques du périodogramme, nous allons tout d’abord nous
intéresser à la distribution statistique du périodogramme d’un bruit blanc fort, c’est-à-dire d’une suite
de variables aléatoires indépendantes et identiquement distribuées, de moyenne nulle et de variance
finie.

Théorème 3.2. Soit {Zt } une suite de variables aléatoires i.i.d., de moyenne nulle et de variance
σ 2 < ∞. Sa distribution spectrale a pour densité fZ (λ) = σ 2 /2π.
1. Soient 0 < ω1 < . . . < ωm < π, m fréquences fixes. Le vecteur aléatoire [InZ (ω1 ), · · · , InZ (ωm )]
converge en loi vers un vecteur de variables aléatoires indépendantes, distribuées suivant une loi
exponentielle, de moyenne σ 2 /2π.
£ ¤
2. Supposons que E Zt4 < ∞, alors :

 2f 2 (λ ) + κ /4π 2 n λ ∈ {0, π}
Z Z k 4 k
var{In (λk )} = (3.5)
 f 2 (λk ) + κ4 /4π 2 n 0 < λk < π
Z

et cov{InZ (λj ), InZ (λk )} = κ4 /4π 2 n pour λj 6= λk (3.6)

où λk = 2πk/n sont les fréquences de Fourier et où κ4 est le cumulant d’ordre 4 de la variable
Z1 défini par : £ ¤ £ ¤
κ4 = E Z14 − 3(E Z12 )2

3. Supposons que les variables aléatoires Zt soient gaussiennes. Alors κ4 = 0 et, pour tout n, les
variables aléatoires InZ (λk )/fZ (λ), k ∈ {1, · · · , (n − 1)/2} sont indépendantes et identiquement
distribuées suivant une loi exponentielle1 de moyenne 1.
1
Cette loi a pour densité p(u) = e−u I(u ≥ 0).

49
Démonstration. Elle est donnée en fin de chapitre. ¥

La relation (3.5) du théorème 3.2 montre que la variance de l’estimateur du périodogramme ne tend
pas vers 0 lorsque le nombre d’échantillons tend vers l’infini. Le périodogramme est bien un estimateur
asymptotiquement p sans biais de la densité spectrale du bruit blanc, mais n’est pas consistant. On
voit même que var(InZ (λk )) est de l’ordre de σ 2 et donc les fluctuations autour de la vraie valeur
sont de l’ordre de grandeur de ce que l’on cherche à estimer. C’est ce que montre la figure 3.3 où
nous avons représenté le périodogramme en dB d’un bruit blanc pour différentes valeurs de n. On
observe sur ces réalisations qu’à certaines fréquences de Fourier les écarts avec la vraie valeur σ 2 /2π
restent très importants même lorsque n augmente. Nous avons aussi reporté (droite en pointillé) le
seuil de confiance à α = 90% de la loi asymptotique de In (λk )/fZ (λk ). Ce seuil a pour expression
s = − log(1 − α).

n = 64 n = 128
0 0

−10 −10

−20 −20

−30 −30
0 π 0 π
n = 256 n = 512
0 0

−10 −10

−20 −20

−30 −30
0 π 0 π

Fig. 3.3 – Périodogramme en dB d’un bruit blanc de variance 1 en fonction


de la fréquence λ ∈ (0, π), pour différentes valeurs de n. La droite en trait plein
représente la densité spectrale théorique σ 2 /2π et la droite en pointillé le seuil
de confiance à 90%.

Partant du théorème 3.2, valable pour les processus i.i.d., nous allons voir qu’il est encore possible
d’étendre ce théorème à la classe plus large des processus linéaires forts centrés dont nous rappelons
la définition.

Définition 3.1 (Processus linéaire fort). Le processus {Xt } est linéaire fort, s’il existe un bruit blanc
fort Zt ∼ IID(0, σ 2 ) et une suite de coefficients {ψk }k∈Z absolument sommable telle que :

X
Xt = ψk Zt−k (3.7)
k=−∞

50
On rappelle que Xt est stationnaire au second ordre, que E [Xt ] = 0 et que sa densité spectrale est
donnée par :
σ2
fX (λ) = |ψ(e−iλ )|2 (3.8)

Le théorème 3.3 montre qu’il existe une relation analogue à (3.8) entre le périodogramme InX (λ) du
processus {Xt } et le périodogramme InZ (λ) du bruit blanc fort {Zt } qui définit Xt .
P
Théorème 3.3. Soit {Xt } un processus linéaire fort. Supposons que ∞ j=−∞ |ψj ||j|
1/2 < ∞ et que
£ 4¤
E Zt < ∞. On a alors :
InX (λk ) = |ψ(e−iλk )|2 InZ (λk ) + Rn (λk )
où le terme Rn (λk ) vérifie2 :
£ ¤
max E |Rn (λk )|2 = O(n−1 )
k∈{1,··· ,b(n−1)/2c}

Démonstration. Elle est donnée en fin de chapitre. ¥

On comprend alors qu’en utilisant l’“approximation” donnée par le théorème 3.3 on puisse étendre
le théorème 3.2 aux processus linéaires forts.

Théorème 3.4. Soit {Xt } un processus linéaire défini par :



X
Xt = ψk Zt−k
k=−∞
£ ¤
2 ) vérifiant E Z 4 < ∞. On suppose que
P 1/2 |ψ | < ∞
où {Zt } est un bruit
P blanc fort IID(0, σ t k |k| k
−iλ
et que ψ(e ) = k ψk e −ikλ 6= 0. On note :

σ 2 ¯¯ ¯2
¯
fX (λ) = ¯ψ(e−iλ )¯

1. Soient 0 < ω1 < · · · < ωm < π, m fréquences fixes. Le vecteur aléatoire
[InX (ω1 )/fX (ω1 ), · · · , InX (ωm )/fX (ωm )] converge en loi vers un vecteur de variables aléatoires
indépendantes, distribuées suivant une loi exponentielle, de moyenne 1.
2. On a :

 2f 2 (λk ) + O(n−1/2 ) λk ∈ {0, π}
X
var(InX (λk )) =
 f 2 (λ ) + O(n−1/2 ) 0 < λ < π
X k k

cov(InX (λj ), InX (λk )) = O(n−1 ) λj 6= λk

Démonstration. La preuve est une conséquence directe des théorèmes 3.3 et 3.2. ¥
2
Notation : O(n−α ) désigne une suite dépendant de n qui vérifie, quand n → ∞, O(n−α )/n−α → c 6= 0 et o(n−α )
vérifie o(n−α )/n−α → 0.

51
En conséquence, comme pour le bruit blanc fort, la variance du périodogramme d’un processus
linéaire fort est, à une fréquence de Fourier, de l’ordre de grandeur du carré de la densité spectrale
à cette fréquence. La figure 3.4 illustre ce résultat : elle montre le périodogramme, évalué sur 1024
échantillons, d’un processus AR(2) gaussien. L’écart-type du périodogramme est proportionnelle à la
densité spectrale, ce qui rend bien entendu l’interprétation du périodogramme difficile. Le théorème

50

45

40

35

30

25

20

15

10

5
n = 1024
0
0 π

Fig. 3.4 – Périodogramme pour un AR(2) de paramètres [1, −1, 0.9] et σ 2 = 1


calculé sur n = 1024 échantillons, en fonction de la fréquence λ ∈ (0, π).

3.4 implique qu’asymptotiquement les variables aléatoires [In (λ1 ), . . . , In (λN/2 )] se comportent comme
un tableau de variables indépendantes distribuées marginalement comme W fX (λk ) où W suit une loi
exponentielle. Il s’agit donc d’une structure de bruit de type multiplicatif, où le paramètre d’intérêt,
à savoir la densité spectrale, est multipliée par le “bruit” W . L’application d’une transformation
logarithmique conduit naturellement à une structure de bruit additif : asymptotiquement le log-
périodogramme est égal à la log-densité spectrale observée dans un bruit approximativement additif
et de variance constante. Figure 3.4, nous avons représenté le spectre évalué en dB ainsi que l’intervalle
de confiance à α = 90% de la loi asymptotique de InX (λk )/fX (λk ) soit :
© ª
lim P InX (λk )/fX (λk ) > c = 1 − e−c = α
n→∞

qui donne c = − log(1 − α).

3.2 Estimateur à noyau


Nous présentons ici une technique permettant de construire un estimateur non paramétrique de
la densité spectrale, l’estimateur à noyau. Cette approche, qui effectue un lissage du périodogramme
en fréquence, exploite les propriétés du périodogramme que nous avons mises en évidence dans le

52
20

15

10

5
n = 1024
0

−5

−10

−15

−20

−25

−30
0 π

Fig. 3.5 – Périodogramme en dB pour un AR(2) de paramètres [1, −1, 0.9] et


σ 2 = 1 calculé sur n = 1024 échantillons, en fonction de la fréquence λ ∈ (0, π).
La courbe en pointillé donne le seuil de confiance à 90%.

paragraphe précédent. Nous supposons dans toute cette partie que {Xt } est un processus linéaire
fort, satisfaisant les conditions d’applications du théorème 3.4.

D’après le théorème 3.4, à la limite des grands échantillons, les coordonnées du périodogramme
aux fréquences de Fourier λk = 2πk/n sont des variables décorrélées d’écart type σ 2 |ψ(e−iλk )|2 /(2π).
La fonction λ → |ψ(e−iλ )|2 est continue, elle varie donc “peu” sur de “petits” intervalles de fréquence.
Ceci suggère de construire un estimateur de la densité spectrale à la fréquence λ en moyennant les
coordonnées du périodogramme aux fréquences de Fourier dans un “voisinage” de la fréquence λ.
Nous appelons un noyau une fonction W : R → R+ satisfaisant les propriétés suivantes :
– W
R 1(u) = 0 pour |u| > R 11, i.e. le noyau a un support compact
– −1 W (u)du = 1 et −1 uW (u)du = 0,
– W est deux fois continûment différentiables et W 0 (−1) = limu→−1+ W 0 (u) = 0 et W 0 (1) =
limu→1− W 0 (u) = 0.
Soit {bn }n≥0 une suite décroissante au sens large de réels positifs, satisfaisant

lim bn = 0 . (3.9)
n→∞

Nous considérons l’estimateur à noyau de la densité spectrale, défini par


n
ˆX 2π X £ −1 ¤
fn (λ) = W bn (λ − λk ) InX (λk ) . (3.10)
nbn
k=1

Le paramètre bn est appelé largeur de bande, i.e. en modifiant bn nous agissons sur la ”largeur” du
noyau b−1 −1
n W (bn ·). Nous allons, de façon informelle, caractériser la façon dont le paramètre bn influe

53
sur la qualité de l’estimateur et essayer de déduire de ce comportement heuristique, des procédures
permettant de choisir de manière automatique ce paramètre. Nous allons touth d’abord i étudier le
biais de cet estimateur, à savoir la différence entre la moyenne de l’estimateur E fˆn (λ) et fX (λ), à
X

une fréquence λ 6= 0, π (mod) 2π (pour traiter ces valeurs £ X limites,


¤ il conviendrait−1d’utiliser d’autres
noyaux). En utilisant le théorème 3.3, nous savons que E In (λk ) = fX (λk ) + O(n ). Par conséquent
h i n
2π X £ −1 ¤
E fˆnX (λ) = W bn (λ − λk ) f (λk ) + O(n−1 ) ,
nbn
k=1
Z 2π
1
= W [b−1 −1
n (λ − µ)]f (µ)dµ + O(n ) ,
bn 0
Z b−1
n λ
= W (ν)f (λ + bn ν)dν → fX (λ) .
−b−1
n (2π−λ)

h i
Ceci montre que limn→∞ E fˆnX (λ) = f (λ), i.e. fˆn,b (λ) est un estimateur asymptotiquement sans
biais de la densité spectrale f (λ). Pour comprendre de façon plus précise la façon dont le biais dépend
de la largeur de bande bn , nous supposons dans la suite que la densité spectrale fX est deux fois
continûment différentiable. Nous avons donc, pour tout λ ∈ [−π, π] et ν ∈ [−1, +1],

0 1
fX (λ + bn ν) = fX (λ) + bn fX (λ)ν + b2n fX 00
(λ)ν 2 + o(b2n )
2
R +1
où le terme o(b2n ) est uniforme en λ et en ν. En utilisant le fait que, pour −1 νW (ν)dν = 0, nous
aurons donc, pour tout n tel que −b−1 −1
n (2π − λ) < −1 et bn λ > 0,

h i Z 1
ˆX 1 2 00
E fn (λ) = fX (λ) + bn fX (λ) ν 2 W (ν)dν + o(b2n ), (3.11)
2 −1

ce qui montre que le biais de l’estimateur fˆnX (λ) est une fonction qui croı̂t comme le carré de la largeur
de bande bn et qui est proportionnelle à la dérivée seconde de la densitéR spectrale en λ. Notons que
1
comme nous avons supposé que le noyau a exactement un moment nul, −1 νW (ν)dν = 0, le biais ne
dépend pas de la dérivée de la densité spectrale f 0 (λ) en λ. Il est facile de voir qu’il est possible de
réduire le terme de biais en considérant des noyaux d’ordre supérieur.
Pour comprendre les performances de cet estimateur de la densité spectrale, nous allons évaluer
son biais et sa variance. Pour simplifier l’analyse, nous supposerons dans la suite que la fonction
λ → |ψ(e−iλ )|2 est trois fois différentiable sur [−π, π] et que la dérivée troisième est bornée. En
utilisant les résultats du théorème 3.3 nous avons :
h i X
E fˆnX (λ) = Wm,n (k)fX (g(n, λ) + 2πk/n) + O(n−1 ) (3.12)
|k|≤m

où fX (λ) = (2π)−1 σ 2 |ψ(e−iλ )|2 est la densité spectrale du processus {Xt }. Comme la fonction fX est
deux fois continûment différentiables, nous avons, pour |k| ≤ m,
0 00
fX (g(n, λ) + 2πk/n) = fX (g(n, λ)) + fX (g(n, λ)(2πk/n) + (1/2)fX (g(n, λ)(2πk/n)2 + Rk,m,n

54
000 (λ)|(m/n)3 pour |k| ≤ m. Comme la fenêtre de pondération est symétrique,
où Rk,m,n ≤Pc max |fX
nous avons |k|≤m Wm,n (k)k = 0, ce qui implique en utilisant (??)(ii) :
X
00
Wm,n (k)fX (g(n, λ) + 2πk/n) = fX (g(n, λ)) + (1/2)fX (g(n, λ))W m,n + Rm,n
|k|≤m

4π 2 X 2
où W m,n = k Wm,n (k)
n2
|k|≤m

000 (λ)|(m/n)3 . En prenant par exemple la fenêtre de pondération rectangulaire,


et où |Rm,n | ≤ c max |fX
nous avons W m,n ∝ m2 /n2 ce qui montre que le biais de l’estimateur varie comme le carré du nombre
de points de fréquence pris en compte dans le calcul de la moyenne pondérée. Le calcul de la variance
de cet estimateur s’écrit :
·³ h i´2 ¸
ˆX ˆ
E fn (λ) − E fX,n (λ) fm,n fX
=W 2
(g(n, λ)) + Qm,n
X
fm,n = 1
où W 2
Wm,n (k)
4π 2
|k|≤m
P
0 (λ)|] 2
et où |Qm,n | ≤ c max[|fX |k|≤m Wm,n (k)(m/n). On voit ici que la troisième des conditions (??)
assure que la variance tend vers 0 quand n tend vers l’infini. En s’appuyant encore sur l’exemple
de la fenêtre rectangulaire, nous avons Wfm,n ∝ 1/m ce qui montre que la variance de l’estimateur
est inversement proportionnelle au nombre de points pris en compte dans le calcul de la moyenne
locale. En conclusion dans le cas d’une fenêtre rectangulaire, le paramètre m (qui détermine le nombre
de coordonnées de périodogramme moyennées) a un effet néfaste pour le biais et bénéfique pour la
variance de l’estimateur. Le risque quadratique de l’estimateur (qui prend en compte ces deux effets)
a pour expression :
·³ ´2 ¸ ¡ 00 ¢2
ˆ
E fX,n (λ) − fX (λ) ≈ (1/4) fX (g(n, λ)W m,n + Wfm,n f 2 (g(n, λ))
X,m

Il est naturel de choisir le paramètre m de façon à minimiser l’erreur quadratique moyenne. Dans le
cas où Wm,n (k) = 1/(2m + 1), cette optimisation peut être effectuée de façon explicite. Une autre
fenêtre couramment utilisée est la fenêtre triangulaire définie par :
( ³ ´
1
m 1 − |k|
m pour |k| ≤ m
Wm,n (k) =
0 sinon
Elle vérifie les conditions (??) et présente l’avantage d’assurer au spectre estimé d’être positif. Les
résultats obtenus avec la fenêtre rectangulaire ont un caractère général : l’utilisation de fenêtre de
pondération permet d’obtenir un risque qui tend vers 0 quand n tend vers l’infini. Ce résultat s’ac-
compagne en général d’un biais asymptotiquement non nul. En règle générale, la valeur de m, qui
détermine la largeur de la fenêtre, doit tendre vers l’infini, quand n → +∞, mais suffisamment len-
tement pour que le rapport n/m tende aussi vers l’infini. Il faut donc ajouter aux conditions (??) la
condition suivante :
m(n) → ∞ et m(n)/n → 0 quand n → ∞
Typiquement on aura m(n) = nα avec 0 < α < 1.

55
3.3 Preuves des théorèmes 3.2, 3.3
Théorème 3.2. Soit {Zt } une suite de variables aléatoires i.i.d., de moyenne nulle et de variance
σ 2 < ∞.
1. Soient 0 < λ1 < . . . < λm < π, m fréquences fixes. Le vecteur aléatoire [InZ (λ1 ), · · · , InZ (λm )]
converge en loi vers un vecteur de variables aléatoires indépendantes, distribuées suivant une loi
exponentielle, de moyenne σ 2 .
£ ¤
2. Supposons que E Zt4 < ∞, alors :
 µ ¶
2

 σ2

 2 + κ4 n−1 λk ∈ {0, π}
Z 2π
var(In (λk )) = µ 2 ¶2 (3.13)

 σ

 + κ4 n−1 0 < λk < π

et 4π 2 cov(InZ (λj ), InZ (λk )) = κ4 n−1 pour λj 6= λk (3.14)

où λk = 2πk/n sont les fréquences de Fourier et où κ4 est le cumulant d’ordre 4 de la variable
Z1 défini par : £ ¤ £ ¤
κ4 = E Z14 − 3(E Z12 )2

3. Supposons que les variables aléatoires Zt soient gaussiennes. Alors κ4 = 0 et, pour tout n, les
variables aléatoires (4π/σ 2 )InZ (λk ), k ∈ {1, · · · , (n − 1)/2} sont indépendantes et identiquement
distribuées suivant une loi du χ2 centrée à deux degrés de liberté.

Démonstration. (i). Notons :


( Pn
αnZ (λk ) = (1/2πn)−1/2 t=1 Zt cos(λk t)
P (3.15)
βnZ (λk ) = (1/2πn)−1/2 nt=1 Zt sin(λk t)

les parties réelles et imaginaire de la transformée de Fourier discrète de {Zt } aux points de
fréquences λk = 2πk/n. Pour une fréquence arbitraire λ, nous avons :
1¡ Z ¢
InZ (λ) = αn (g(n, λ))2 + βnZ (g(n, λ))2
2
Rappelons que si une suite de vecteurs aléatoires Yn converge en loi vers une variable aléatoire
Y et que φ est une fonction continue, alors φ(Yn ) converge en loi vers φ(Y ). Il suffit donc de
montrer que le vecteur aléatoire :

(αnZ (λ1 ), βnZ (λ1 ), · · · , αnZ (λm ), βnZ (λm )) (3.16)

converge en loi vers une distribution normale de moyenne nulle et de matrice de covariance
asymptotique (σ 2 /4π)I2m , où I2m est la matrice identité (2m × 2m). Nous allons tout d’abord
nous intéresser au cas m = 1. La preuve découle alors du théorème suivant :

56
Théorème 3.5 (Lindeberg). Soit Un,t , où t = 1, . . . , n et n = 1, 2, . . . , une suite triangulaire de
variables aléatoires centrées dePvariance finies. Pour
Pn tout n, les variables {Un,1 , . . . , Un,n } sont
n 2
indépendantes. On pose Yn = t=1 Un,t et wn = t=1 var(Un,t ). Alors si pour tout ² > 0 :
n
X 1 £ 2 ¤
lim 2
E Un,t I(|Un,t | ≥ ²wn ) = 0
n→∞ wn
t=1

on a :
Yn /wn →d N (0, 1)

Soit u et v deux réels quelconques fixés et λ ∈ (0, π). Considérons la variable Yn = uαnZ (g(n, λ))+
vβnZ (g(n, λ)) que nous pouvons encore écrire :
n
X 1
Yn = Un,t où Un,t = √ (u cos(g(n, λ)t) + v sin(g(n, λ)t))Zt
t=1
2πn

Notons que, pour n fixé les variables aléatoires {Un,t } sont indépendantes. D’autre part, pour
tout λ 6= 0, on vérifie aisément que :
n
X n
X n
X
n
cos2 (g(n, λ)t) = sin2 (g(n, λ)t) = et cos((g(n, λ)t) sin(g(n, λ)t) = 0
2
t=1 t=1 t=1

Par suite, on peut écrire que :


n
Pn 1 X 2
wn2 = t=1 var(Un,t ) = (u cos2 (g(n, λ)t) + v 2 sin2 (g(n, λ)t) + 2uv cos((g(n, λ)t) sin(g(n, λ)t)))
2πn
t=1
1 2
= (u + v 2 ) = w12


Par suite, en posant c0 = (|u| + |v|)/2πw1 et ²0 = ² 2πw1 /(|u| + |v|), on a :
n
X n
1 £ 2 ¤ c0 X £ √ ¤ £ √ ¤
2
E Un,t I(|U n,t | ≥ ²w n ) ≤ E Zt2 I(|Zt | ≥ ²0 n) = c0 E Z12 I(|Z1 | ≥ ²0 n)
wn n
t=1 t=1
£ √ ¤ £ ¤ √
Le£ dernier ¤ terme tend vers
£ 0¤ puisque on a E Z12 I(|Z1 | ≥ ²0 n) ≤ E |Z1 |3 /²0 n et que
E |Z1 |3 < ∞ puisque E |Z1 |4 < ∞. La preuve s’étend aisément à un ensemble de fréquences
λ1 , . . . , λm en utilisant la méthode de Cramer-Wold que nous rappelons :
Proposition 3.1 (Cramér-Wold). Soit {Vn }n≥0 une suite de vecteurs aléatoires réels de dimen-
sion m. Vn →d W si et seulement si, pour toute suite {λ1 , · · · , λm } ∈ Rm , la variable aléatoire
Yn = λ1 Vn,1 + · · · + λm Vn,m →d λ1 W1 + · · · + λm Wm .
(ii). Par définition de InZ (λk ), nous avons au premier ordre :
n
X
£ ¤
E InZ (λk ) = (2πn)−1 E [Zs Zt ] eiλk (t−s) = (2π)−1 σ 2 (3.17)
s,t=1

57
Au second ordre nous avons :
n
X
£ ¤
E InZ (λj )InZ (λk ) = (2πn)−2 E [Zs Zt Zu Zv ] ei(λj (t−s)+λk (v−u)) (3.18)
s,t,u,v=1

En utilisant que les variables aléatoires Z£t sont


¤ indépendantes, centrées, de même variance σ 2 et
4 4
de moment d’ordre 4 fini et en posant E Z1 = κ4 + 3σ , on obtient :

E [Zs Zt Zu Zv ] = κ4 δs,t,u,v + σ 4 (δs,t δu,v + δs,u δt,v + δs,v δt,u ) (3.19)

En portant cette expression dans (3.18), nous avons :


 ¯ n ¯2 ¯ n ¯2 
£ Z ¤ ¯X ¯ ¯X ¯
Z −2 −1 −2 −2 4  2 ¯ i(λj +λk )t ¯ ¯ i(λk −λj )t ¯ 
E In (λj )In (λk ) = (2π) n κ4 + (2π) n σ n +¯ e ¯ +¯ e ¯
¯ ¯ ¯ ¯
t=1 t=1

et donc :
£ ¤ £ ¤ £ ¤
cov(InZ (λj ), InZ (λk )) = E InZ (λj )InZ (λk ) − E InZ (λj ) E InZ (λk )
¯ ¯2 ¯ n ¯2 
¯Xn ¯ ¯X ¯
−2 −1 −2 −2 4 ¯ i(λj +λk )t ¯ ¯ i(λk −λj )t ¯ 
= (2π) n κ4 + (2π) n σ ¯ e ¯ +¯ e ¯
¯ ¯ ¯ ¯
t=1 t=1

ce qui permet de conclure.


(iii). Lorsque {Zt } est une variable gaussienne centrée, le vecteur :
£ ¤
Qn = αnZ (λ1 ) βnZ (λ1 ) · · · αnZ (λñ ) βnZ (λñ )

est gaussien comme transformée linéaire d’un vecteur gaussien. Il suffit donc de calculer le
vecteur-moyenne et sa matrice de covariance. Il est facile de vérifier que le vecteur-moyenne
est nul et que, pour 0 < λk 6= λj < π, nous avons :
£ ¤ £ ¤
E (αnZ (λk ))2 = E (βnZ (λk ))2 = (4π)−1
£ ¤
E αnZ (λk )βnZ (λk ) = 0
£ ¤ £ ¤
E αnZ (λk )αnZ (λj ) = E βnZ (λk )βnZ (λj ) = 0
£ ¤
E αnZ (λk )βnZ (λj ) = 0

La matrice de covariance est donc σ 2 Iñ /4π où Iñ est la matrice identité de taille ñ. Par conséquent
les composantes de Qn sont indépendantes. Rappelons que :

InZ (λk ) = (αnZ (λk ))2 + (βnZ (λk ))2

De l’indépendance des composantes de Qn , on déduit que les variables aléatoires InZ (λk ) sont elles-
même indépendantes et que 4πInZ (λk )/σ 2 est la somme du carré de deux variables gaussiennes
centrées, indépendantes, de même variance 1, dont la distribution de probabilité est la loi dite
du χ2 à deux degrés de liberté. Ce qui conclut la preuve.
¥

58
P∞ 1/2 < ∞ et que
Théorème 3.3. Soit {Xt } un processus linéaire. Supposons que j=−∞ |ψj ||j|
£ 4¤
E Zt < ∞. On a alors :
InX (λk ) = |ψ(e−iλk )|2 InZ (λk ) + Rn (λk )
où le terme Rn (λk ) vérifie :
£ ¤
max E |Rn (λk )|2 = O(n−1 )3
k∈{1,··· ,b(n−1)/2c}

Démonstration. Notons respectivement dX Z


n (λk ) et dn (λk ) les transformées de Fourier discrètes des
suites {X1 , · · · , Xn } et de {Z1 , · · · , Zn } au point de fréquence 2πk/n avec k ∈ {1, . . . , b(n − 1)/2c.
Nous pouvons écrire successivement :
n
X
dX
n (λk ) = (2πn) −1/2
Xt e−iλk t
t=1

à n
!
X X
= (2πn)−1/2 ψj e−iλk j Zt−j e−iλk (t−j)
j=−∞ t=1
 

X n−j
X
= (2πn)−1/2 ψj e−iλk j  Zt e−iλk t 
j=−∞ t=1−j

à n
!
X X
−1/2 −iλk j −iλk t
= (2πn) ψj e Zt e + Un,j (λk )
j=−∞ t=1

= ψ(e−iλk )dZ
n (λk ) + Yn (λk )

où nous avons posé :


n−j
X n
X
Un,j (λk ) = Zt e−iλk t − Zt e−iλk t (3.20)
t=1−j t=1

X
et Yn (λk ) = (2πn)−1/2 ψj e−iλk j Un,j (λk ) (3.21)
j=−∞

On remarque que, pour |j| < n, Un,j (λk ) est une somme de 2|j| variables indépendantes centrées de
variance σ 2 tandis que, pour |j| ≥ n, Un,j (λk ) est la somme de 2n variables centrées indépendantes de
variance σ 2 . Par conséquent, partant de (3.20), on a :
£ ¤
E |Un,j (λk )|2 ≤ 2σ 2 min(|j|, n) (3.22)

ainsi que : £ ¤
E |Un,j (λk )|4 ≤ CR σ 4 (min(|j|, n))2 (3.23)
£ 4
¤
où CR < ∞ est une constante. Pour montrer (3.23), il suffit de poser E Zt = ησ 4 et d’utiliser
l’inégalité (3.24) pour p = 4.
3
Notation : quand n → ∞, O(n−α )/n−α → c 6= 0 tandis que o(n−α )/n−α → 0.

59
Propriété 3.1 (Inégalité de Rosenthal (Petrov, 1985)). Soient (X1 , . . . , Xn ) des variables
indépendantes (mais pas nécessairement identiquement distribuées) et soit p ≥ 2. Alors il existe une
constante universelle C(p) < ∞ telle que :
"¯ n ¯ # Ã !p/2 
¯X ¯p Xn
£ 2¤ Xn
¯ ¯
E ¯ Xk ¯ ≤ C(p)  E Xk + E [|Xk |p ] (3.24)
¯ ¯
k=1 k=1 k=1

£ ¤
Utilisons à présent (3.23) pour majorer E |Yn (λk )|4 . En adoptant la notation kXkp = (E [|X|p ])1/p
(pour p > 0) on a, d’après l’inégalité triangulaire (inégalité de Minkovski) kX + Y kp ≤ kXkp + kY kp :

X
sup kYn (λk )k4 ≤ sup (2πn)−1/2 |ψj |kUn,j (λk )k4
k∈{1,··· ,b(n−1)/2c} k∈{1,··· ,b(n−1)/2c} j=−∞

D’après (3.23), kUn,j (λk )k4 ≤ cσ min(|j|, n)1/2 . Par conséquent :



X
sup kYn (λk )k4 ≤ cσ(2πn)−1/2 |ψj | min(|j|, n)1/2
k∈{1,··· ,b(n−1)/2c} j=−∞

Maintenant on peut écrire :



X ∞
X
|ψj | min(|j|, n)1/2 ≤ |ψj ||j|1/2
j=−∞ j=−∞

Par conséquent kYn (λk )k4 est d’un ordre égal à O(n−1/2 ).
Nous pouvons à présent exprimer Rn (λk ) = InX (λk ) − |ψ(e−iλk )|2 InZ (λk ) en fonction de Yn (λk ) =
dX
n (λk ) − ψ(e
−iλk )dZ (λ ). Il vient :
n k

Rn (λk ) = |ψ(e−iλk )dZ 2


n (λk ) + Yn (λk )| − |ψ(e
−iλk 2 Z
)| In (λk )
= ψ(e−iλk )dZ
n (λk )Yn (−λk ) + ψ(e
iλk Z
)dn (−λk )Yn (λk ) + |Yn (λk )|2

D’après l’inégalité de Hölder, kXY kr ≤ kXkp kY kq si p−1 + q −1 = r−1 . En faisant p = q = 4 et r = 2,


il vient :
£ ¤ X
(E |Rn (λk )|2 )1/2 = kRn (λk )k2 ≤ 2 |ψj |kdZ
n (λk )k4 kYn (λk )k4 + kYn (λk )k4
j

Z (λ )k est de l’ordre de σ/ 2π. Par conséquent kR (λ )k est de l’ordre
D’après le théorème
£ 3.2, ¤kd n k 4 n k 2
de n−1/2 et E |Rn (λk )|2 = kRn (λk )k22 de l’ordre de 1/n. Ce qui conclut la preuve. ¥

60
Chapitre 4

Prédiction linéaire. Décomposition de


Wold

4.1 Eléments de géométrie Hilbertienne


Définition 4.1 (Espace pré-hilbertien). Soit H un espace vectoriel sur l’ensemble des nombres com-
plexes C. L’espace H est appelé pré-hilbertien si H est muni d’un produit scalaire :
(¦, ¦) : x, y ∈ H × H 7→ (x, y) ∈ R
qui vérifie les propriétés suivantes :
(i). (x, y) = (y, x)∗
(ii). (αx + βy, z) = α(x, z) + β(y, z)
(iii). (x, x) ≥ 0, l’égalité ayant lieu si et seulement si x = 0.
L’application : p
k ¦ k : x ∈ H 7→ (x, x) ≥ 0
définit une norme pour tout vecteur x.
Exemple 4.1 : Espace Rn
L’ensemble des vecteurs colonnes x = [x1 ··· xn ]T , où xk ∈ R, est un espace vectoriel dans lequel la
relation :
n
X
(x, y) = xk yk
k=1
définit par un produit scalaire.
Exemple 4.2 : Espace l2 (Z) P∞
L’ensemble des suites numériques complexes {xk }k∈Z vérifiant k=−∞ |xk |2 < ∞ est un espace vectoriel sur
C. On munit cet espace du produit intérieur :

X ∞
X
(x, y) = xk yk∗ ≤ (1/2) (|xk |2 + |yk |2 ) < ∞
k=−∞ k=−∞

On vérifie aisément les propriétés (i-iii) de la définition 4.1. L’espace ainsi défini est donc un espace pré-
Hilbertien, que l’on note l2 (Z).

61
Exemple 4.3 : Fonctions de carré intégrable
L’ensemble H des fonctions boréliennes définies sur un R intervalle T de R, à valeurs complexes et de carré
intégrable par rapport à la mesure de Lebesgue (f ∈ H : T |f (t)|2 dt < ∞) est un espace vectoriel. Considérons
alors le produit intérieur : Z
(f, g) ∈ H × H 7→ f (t)g ∗ (t)dt
T

On montre aisément que (f, g) < ∞ ainsi que les propriétés (i) et (ii) de la définition 4.1. Par contre la
propriété (iii) nést pas vérifiée puisque :

(f, f ) = 0 6⇒ ∀t ∈ T f (t) = 0

En effet une fonction f qui est nulle sauf sur un ensemble de mesure nulle pour la mesure de Lebesgue, vérifie
(f, f ) = 0. L’space H muni du produit (f, g) nést donc pas un espace pré-Hilbertienne. Nous verrons dans
la suite qu’il est possible de lever cette difficulté en considérant les classes d’équivalence des fonctions égales
presque partout.

On montre aisément les propriétés suivantes :

Théorème 4.1. Pour tout x, y ∈ H × H, nous avons :


(i). Inégalité de Cauchy-Schwarz : |(x, y)| ≤ kxkkyk,
(ii). Inégalité triangulaire : |kxk − kyk| ≤ kx − yk ≤ kxk + kyk,
(iii). Identité du parallélogramme :

kx + yk2 + kx − yk2 = 2kxk2 + 2kyk2

Définition 4.2 (Convergence dans H). Soit xn une suite de vecteurs et x un vecteur d’un espace H
muni d’un produit scalaire. On dit que xn tend vers x si et seulement si kxn − xk → 0 quand n → +∞.
On note xn → x.

Propriété 4.1. Si dans un espace de Hilbert la suite xn → x, alors xn est bornée.

Démonstration. D’après l’inégalité triangulaire, on a :

kxn k = k(xn − x) + xk ≤ kxn − xk + kxk

Proposition 4.1 (Continuité du produit scalaire). Soit xn → x et yn → y deux suites convergentes


de vecteurs d’un espace pré-hilbertien H. Alors quand n → +∞ : (xn , yn ) → (x, y). En particulier, si
xn → x, kxn k → kxk.

Démonstration. D’après l’inégalité triangulaire puis l’inégalité de Schwarz, nous avons :

(x, y) − (xn , yn ) = ((x − xn ) + xn , (y − yn ) + yn ) − (xn , yn )


= (x − xn , y − yn ) + (x − xn , yn ) + (xn , y − yn )
≤ kxn − xkkyn − yk + kxn − xkkyn k + kyn − xkkxn k

Il suffit ensuite d’évoquer la convergence et la bornitude des suites xn et yn . ¥

62
Définition 4.3 (Suite de Cauchy). Soit xn une suite de vecteurs d’un espace pré-hilbertien H. On dit
que xn est une suite de Cauchy si et seulement si :

kxn − xm k → 0

quand n, m → +∞.
Notons quén vertu de l’inégalité triangulaire toute suite convergente est une suite de Cauchy. La
réciproque est fausse : une suite de Cauchy peut ne pas être convergente. En voici un contre-exemple :
Exemple 4.4 : Suite de Cauchy non convergente
RSoit
π
C([−π, π]) l’espace des fonctions continues sur [−π, π]. L’espace C([−π, π]), muni du produit

−π
f (x)g (x)dx, est un espace pré-hilbertien. Considérons la suite de fonctions :
n
X 1
fn (x) = cos(kx)
k
k=1

Les fonctions fn (x), qui sont indéfiniment continûment différentiables, appartiennent à C(−π, π). Montrons
que cette suite est une suite de Cauchy. En effet, pour m > n, on a :
m
X 1
kfn − fm k2 = π −→ 0 quand (n, m) → ∞
k2
k=n+1
P∞
D’autre part on montre aisément que la limite de cette suite f∞ (x) = k=1 k −1 cos(kx) = log | sin(x/2)| nést
pas continue et n’appartient donc pas à C([−π, π]).

Définition 4.4 (Espace de Hilbert). On dit qu’un espace vectoriel est complet si toute suite de suite
de Cauchy de H converge dans H. On dit H est un espace de Hilbert si H est pré-hilbertien et complet.
Proposition 4.2 (L2 ([−π, π], dx)). L’espace des fonctions de carré intégrable pour la mesure de
Lebesgue, définie sur l’intervalle [−π, π] muni de sa tribu de Borel B([−π, π]), est un espace de Hilbert.
Définition 4.5 (Sous espace vectoriel). Un sous-espace E d’un espace vectoriel H est un sous-ensemble
de H tel que, pour tout x, y ∈ E et tout scalaire α, β, αx + βy ∈ E. Un sous-espace vectoriel est dit
propre si E =
6 H.
Définition 4.6 (Sous-espace fermé). Soit E un sous-espace d’un espace de Hilbert H. On dit que E
est fermé, si toute suite {xn } de E, qui converge, converge dans E.
Exemple 4.5 : Contre-exemple
Soit L2 ([−π, π], dx) l’espace de Hilbert des fonctions de carré intégrable pour la mesure de Lebesgue sur
[−π, π]. Comme le montre l’exemple 4.4, l’ensemble des fonctions continues sur [−π, π] est un sous-espace
vectoriel de L2 ([−π, π], dx) mais nést pas fermé.

Définition 4.7 (Sous espace engendré par un sous-ensembe). Soit X un sous-ensemble de H. Nous
notons span{X } le sous-espace vectoriel des combinaisons linéaires finies d’éléments de X et span{X }
la fermeture de span(X ) dans H.
Définition 4.8 (Orthogonalité). Deux vecteurs x, y ∈ H sont dit orthogonaux, si (x, y) = 0, ce que
nous notons x ⊥ y. Si S est un sous-ensemble de H, la notation x ⊥ S, signifie que x ⊥ s pour tout
s ∈ S. Nous notons S ⊥ T si tout élément de S est orthogonal à tout élément de T .

63
Supposons qu’il existe deux sous-espaces A et B tels que H = A + B, dans le sens où, pour tout
vecteur h ∈ H, il existe a ∈ A et b ∈ B, tel que h = a + b. Si en plus A ⊥ B nous dirons que H est la
somme directe de A et B, ce que nous notons H = A ⊕ B.
Définition 4.9 (Complément orthogonal). Soit E un sous-ensemble d’un espace de Hilbert H. On
appelle ensemble orthogonal de E, l’ensemble défini par :

E ⊥ = {x ∈ H : ∀y ∈ E (x, y) = 0}

Le théorème suivant, appelé théorème de projection, joue un rôle central en analyse Hilbertienne.
Nous en donnons une démonstration complète en fin de chapitre, et nous encourageons le lecteur à
s’arrêter sur cette démonstration pour comprendre l’essence de la construction.
Théorème 4.2 (De projection). Soit E est un sous-espace fermé d’un espace de Hilbert H et soit x
un élément quelconque de H, alors :
(i). il existe un unique élément noté (x|E) ∈ E tel que :

kx − (x|E)k = inf kx − wk
w∈E

(ii). (x|E) ∈ E et kx − (x|E)k = inf w∈E kx − wk si et seulement si (x|E) ∈ E et x − (x|E) ⊥ E.


Démonstration. Elle est donnée en fin de chapitre. ¥

Proposition 4.3. Soit H un espace de Hilbert et (¦|E) la projection orthogonale sur le sous-espace
fermé E. On a :
1. l’application x ∈ H 7→ (x|E) ∈ E est linéaire :

∀α, β ∈ C, (αx + βy|E) = α(x|E) + β(y|E)

2. kxk2 = k(x|E)k2 + kx − (x|E)k2 (Pythagore),


3. La fonction (¦|E) : H → H est continue,
4. x ∈ E si et seulement si (x|E) = x,
5. x ∈ E ⊥ si et seulement si (x|E) = 0,
6. Soient E1 et E2 deux sous espaces vectoriels fermés de H, tels que E1 ⊂ E2 . Alors :

∀x ∈ H, ((x|E2 )|E1 ) = (x|E1 )

7. Soient E1 et E2 deux sous-espaces vectoriels fermés de H, tels que E1 ⊥ E2 . Alors :

∀x ∈ H, (x|E1 ⊕ E2 ) = (x|E1 ) + (x|E2 ).

Exemple 4.6 : Projection sur un vecteur


Soit H un espace de Hilbert, C = span{v} le sous-espace engendré par un vecteur v ∈ H et x un vecteur
quelconque de H. On a alors (x|C) = αv avec α = (x, v)/kvk2 . Si on note ² = x − (x|C), on a :
¡ ¢ (x, v)
k²k2 = kxk2 1 − kρk2 où ρ= avec |ρ| ≤ 1
kxkkvk

64
Appliquons ce résultat à H = Cn et au vecteur v(λ0 ) de composantes vt = n−1/2 eiλ0 t où t ∈ {1, . . . , n} et
où la pulsation de Fourier λ0 ∈ (−π, π). On vérifie que kv(λ0 )k = 1. Soit x = (x1 , . . . , xn )T un vecteur
quelconque de Cn . La projection orthogonale de x sur span{v(λ0 )} s’écrit αv(λ0 ) avec :
n
X n
1 X
α= xt vt∗ = √ xt e−iλ0 t
t=1
n t=1

qui est la transformée de Fourier à temps discret de la suite xt calculée précisément à la pulsation λ0 .

Exemple 4.7 : Droite de régression


On est parfois conduit à chercher une relation linéaire entre deux suites de valeurs {xt }1≤t≤n et {yt }1≤t≤n .
Cela revient à trouver la suite ŷt = α1 + α2 xt qui s’approche quadratiquement au plus près de la suite yt .
D’après le théorème de projection, il suffit déxprimer que le vecteur ŷ ∈ Rn de composantes ŷn est la projection
orthogonale de y = (y1 , . . . , yn )T sur E = span{u, x} où u = (1, . . . , 1)T et x = (x1 , . . . , xn )T . Par conséquent
α1 et α2 sont solutions du système de deux équations :

(y − (α1 + α2 x), 1) = 0 et (y − (α1 + α2 x), x) = 0

qui s’écrit encore : · P ¸· ¸ · P ¸


Pn P t x2t α1 = P t yt
t xt t xt α2 t xt yt

Si la matrice est inversible la solution est unique.

Exemple 4.8 : Modèle linéaire et méthode des moindres carrés


On considère, pour 1 ≤ t ≤ n, la suite d’observations :
P
X
xt = at,k θk + zt
k=1

où {at,k }, avec 1 ≤ k ≤ P , 1 ≤ t ≤ n et n > P , sont des valeurs connues. {θk } est une suite de paramètres à
estimer et zt est un terme d’incertitude qui modélise par exemple des erreurs de mesure. Avec des notations
matricielles évidentes on peut écrire X = Aθ + Z. On note A le sous-espace de RnPengendré par les colonnes
n
de A. L’estimation, dite des moindres carrés, consiste à trouver θ qui minimise t=1 zt2 . Ce problème peut
alors se formaliser de la façon suivante : déterminer le vecteur de A le plus proche de X. La solution est la
projection orthogonale (X|A) qui, d’après le point (ii) du théorème de projection, vérifie :

AT (X − (X|A)) = 0 ⇔ AT (X|A) = AT X

On sait que le vecteur (X|A) est unique. Par contre la résolution, par rapport à θ, de l’équation (X|A) = Aθ
n’a pas nécessairement une solution unique. Elle dépend du rang de la matrice A.
– Si A est de rang plein P , AT A est inversible et θ = (AT A)−1 AT X qui est alors unique.
– Si A est de rang strictement inférieur à P , alors il existe une infinité de valeurs de θ telle que AT Aθ =
AT X. Elles diffèrent toutes par un vecteur u de l’espace nul de A défini par Au = 0.

4.2 Espace des variables aléatoires de carré intégrables


Les espaces de Hilbert donnent un cadre théorique pratique pour l’analyse des processus du second-
ordre. Soit {Ω, F, P} un espace de probabilité. Considérons L2 (Ω, F, P) l’espace des variables aléatoires
réelles, de carré intégrable sur {Ω, F, P}, cést à dire toutes les variables aléatoires réelles vérifiant

65
£ ¤
E X 2 < ∞. Il est facile de vérifier que si X et Y sont deux éléments de L2 (Ω, F, P) alors, pour
tout α, β ∈ R, nous avons αX + βY ∈ L2 (Ω, F, P), et que L2 (Ω, F, P) est un espace vectoriel sur R.
Considérons alors le produit intérieur défini par :
Z
2 2
X, Y ∈ L × L 7→ E [XY ] = X(ω)Y (ω)P(dω)

ainsi que la forme positive : £ ¤


X ∈ L2 7→ E1/2 X 2 ≥ 0
Bien que cette
£ ¤ forme soit positive et vérifie l’inégalité triangulaire, ce nést pas une norme, car la
relation E X 2 = 0 implique seulement que X = 0 P-p.s. (voir annexe A.1.3), et donc que X peut être
différent de 0 sur un sous-ensemble de Ω de mesure nulle pour P. Pour lever cette difficulté, considérons
dans L2 la relation d’égalité presque sûre définie par :

X = Y (P-p.s.) ⇔ P{ω ∈ Ω : X(ω) 6= Y (ω)} = 0

On vérifie aisément que cette relation est réflexive, symétrique et transitive, ce qui définit une relation
d’équivalence. Définissons alors L2 (Ω, F, P) comme l’espace quotient de L2 (Ω, F, P) par la relation
d’équivalence définie ci-dessus. Les éléments de L2 (Ω, F, P) sont à présent des classes d’équivalence.
Soient X̄ et Ȳ deux éléments de L2 (Ω, F, P) et soient X, X 0 deux représentants (éléments) de X̄ et
Y, Y 0 deux représentants de Ȳ . Nous avons d’après les égalités presque sûres :
£ ¤
E [XY ] = E X 0 Y 0

ce qui nous permet de définir un produit intérieur dans L2 (Ω, F, P) par :

(X̄, Ȳ ) = E [XY ]

où X et Y sont respectivement deux représentants quelconques de X̄ et de Ȳ . A présent le produit


intérieur (X̄, Ȳ ) munit L2 (Ω, F, P) d’une structure pré-hilbertienne. En effet (X̄, X̄) = 0 ⇔ X̄ = 0̄.
Dans la suite, pour simplifier l’écriture, nous noterons de la même manière les classes et les
représentants des classes et confondrons X ∈ L2 (Ω, F, P) et sa classe d’équivalence X̄ ∈ L2 (Ω, F, P).
Ainsi nous noterons le produit scalaire dans L2 (Ω, F, P) sous la forme :

(X, Y ) = E [XY ]

étant sous-entendu que (X, Y ) fait référence au produit intérieur dans l’espace quotient.
Le résultat suivant est central.
Proposition 4.4. L’espace L2 (Ω, F, P) est un espace de Hilbert.
Ce résultat est une conséquence immédiate de la propriété A.10 donnée annexe A.

Définition 4.10 (Convergence en moyenne quadratique). Soit {Xn } une suite de L2 (Ω, F, P). Nous
dirons que Xn converge en moyenne quadratique vers X ∈ L2 (Ω, F, P), si et seulement si :
£ ¤
lim kXn − Xk = lim E1/2 (Xn − X)2 = 0
n→∞ n→∞

66
Notons ici que E [X] = (X, 1). La propriété suivante est alors une conséquence directe de la
continuité du produit scalaire.
Propriété 2
£ 2 ¤ 4.2. Soit {X
£ n }2 ¤une suite de L (Ω, F, P) qui converge vers X. Alors E [X] = limn→∞ E [Xn ]
et E X = limn→∞ E Xn .
Exemple 4.9
Considérons un bruit blanc {Zt }t∈Z , cést-à-dire une suite de variables centrées et orthonormées de
L2 (Ω, F, P). On a EP [Zt ] = (Zt , 1) = 0 et (Zt , Zs ) = δt,s pour tout couple (t, s) ∈ Z × Z. Soit {at } une
suite réelle telle que t≥0 a2t < +∞. Alors la suite :
n
X
Xn = at Zt
t=0

est une suite de variables aléatoires de L2 (Ω, F, P) centrées. Cette suite converge en moyenne quadratique
dans L2 (Ω, F, P). En effet pour tout m ≥ n :
¯ ¯2 
¯ X
m ¯ Xm Xm m
X
¯ ¯
kXn − Xm k2 = E ¯ at Zt ¯  = at as (Zt , Zs ) = a2t
¯ ¯
t=n+1 t=n+1 s=n+1 t=n+1
P 2
Pm 2
Comme t≥0 at< +∞, t=n+1 at tend vers 0 quand n, m tendent vers l’infini et Xn est une suite de Cauchy
dans L (Ω, F, P). Elle admet donc, en vertu de la proposition 4.4, une limite dans L2 (Ω, F, P
2
P) que nous notons
X. D’après la propriété 4.2, E [X] = limn→∞ E [Xn ] = 0 et var(X) = limn→∞ var(Xn ) = t≥0 |at |2 .

4.3 Prédiction linéaire


4.3.1 Estimation linéaire en moyenne quadratique
Soient X et {Y1 , · · · , Yp } des variables aléatoires réelles de L2 (Ω, F, P). On cherche à déterminer
la meilleure approximation de X par une combinaison linéaire des variables Yk . Nous supposons ici
que nous connaissons les quantités µ = E [X], νk = E [Yk ] ainsi que les coefficients de covariance
cov(X, Yk ) et cov(Yk , Y` ), pour tout 1 ≤ k, ` ≤ p. En pratique, rappelons que nous avons vu chapitre 2
comment il est possible, sous certaines hypothèses, de les estimer “correctement” à partir d’une suite
d’observations.
On considère l’espace fermé de dimension finie Y = span({1, Y1 , · · · , Yp }) et on cherche l’élément Y ∈ Y
qui minimise la norme de l’erreur déstimation kX − Y k2 . Il découle immédiatement du théorème de
projection que le prédicteur linéaire optimal est la projection orthogonale (X|Y) de X sur Y qui vérifie
(X − (X|Y)) ⊥ Y. On en déduit que :

 (X − (X|Y), 1) = 0
(4.1)
 (X − (X|Y), Y ) = 0 pour k ∈ {1, · · · , p}
k

Ce sont ces (p + 1) équations qui vont nous donner la solution cherchée.P En effet (X|Y) ∈ Y implique
(Y est de dimension finie) qu’il se met sous la forme (X|Y) = a0 + pk=1 ak (Yk −νk ). Reste à déterminer
a0 , a1 , . . . , ap . Partant de la première expression de (4.1), on obtient :
p
X
(X − a0 − ak (Yk − νk ), 1) = (X, 1) − a0 = 0 (4.2)
k=1

67
qui donne a0 = µ. En faisant a0 = µ dans la seconde expression de (4.1), on a alors pour k ∈ {1, . . . , p} :
p
X p
X
(X − µ − aj (Yj − νj ), Yk − νk ) = (X − µ, Yk − νk ) − aj (Yj − νj , Yk − νk ) = 0 (4.3)
j=1 j=1

qui montrent que {a1 , · · · , ap } sont solution d’un système de p équations linéaires à p incon-
nues. Ce système d’équations peut se mettre sous forme plus compacte en utilisant la ma-
trice Γ = [cov(Yk , Y` )]1≤k,`≤p des coefficients de covariance de (Y1 , · · · , Yp ) et le vecteur γ =
[cov(X, Y1 ), · · · , cov(X, Yp )]T des coefficients de covariance entre X et les composantes Yk . Avec ces
notations, le vecteur α = [a1 , · · · , ap ]T est solution de l’équation :
Γα = γ (4.4)
Ce système linéaire admet une unique solution si la matrice Γ est inversible. Notons enfin quén vertu
de l’identité de Pythagore, nous avons :
kXk2 = k(X|Y)k2 + kX − (X|Y)k2
et donc la norme minimale de l’erreur de prédiction a pour expression :
kX − (X|Y)k2 = kXk2 − k(X|Y)k2
Nous allons à présent appliquer ce résultat à la prédiction d’un processus stationnaire au second-ordre
à partir de son passé immédiat en prenant X = Xt et Yk = Xt−k avec k = {1, . . . , p}.

4.3.2 Prédiction linéaire d’un processus stationnaire au second-ordre


Soit {Xt , t ∈ Z} un processus stationnaire au second-ordre, de moyenne E [X0 ] = µ et de fonction
d’autocovariance γ(h) = cov(Xh , X0 ). On cherche à “prédire” la valeur du processus à la date t à
partir d’une combinaison linéaire des p derniers échantillons du passé {Xt−1 , · · · , Xt−p }. Ce problème
est bien entendu un cas particulier du problème précédent où nous avons X = Xt et Yk = Xt−k , pour
k ∈ {1, . . . , p} et où :
Ht−1,p = span{1, Xt−1 , Xt−2 , · · · , Xt−p } (4.5)
Formons la matrice de covariance Γp du vecteur [Xt−1 , · · · , Xt−p ] :
 
γ(0) γ(1) ··· γ(p − 1)
 .. 
 γ(1) γ(0) γ(1) . 
 
 .. .. .. .. 
Γp =  . . . .  (4.6)
 
 .. 
 . γ(1) 
γ(p − 1) γ(p − 2) ··· γ(1) γ(0)
Cette matrice est dite de Toëplitz, ses éléments étant égaux le long de ses diagonales. Notons γ p le
vecteur [γ(1), γ(2), · · · , γ(p)]T le vecteur des coefficients de corrélation. D’après l’équation (4.4), les
coefficients {φk,p }1≤k≤p du prédicteur linéaire optimal défini par :
p
X
(Xt |Ht−1,p ) − µ = φk,p (Xt−k − µ) (4.7)
k=1

68
sont solutions du système d’équations :

Γp φp = γ p (4.8)

D’autre part l’erreur de prédiction minimale a pour expression :

σp2 = kXt − (Xt |Ht−1,p )k2 = (Xt , Xt − (Xt |Ht−1,p ))


= (Xt , Xt ) − (Xt − µ, (Xt |Ht−1,p )) − (µ, (Xt |Ht−1,p ))
X p
= γ(0) − φk,p γ(k) = γ(0) − φTp γ p (4.9)
k=1

Les équations (4.8) et (4.9) sont appelées équations de Yule-Walker. Notons la propriété importante
suivante : pour p fixé, la suite des coefficients {φk,p }1≤k≤p du prédicteur linéaire optimal et la variance
de l’erreur minimale de prédiction ne dépendent pas de t. Les équations (4.8) et (4.9) peuvent encore
être réécrites à partir des coefficients de corrélation ρ(h) = γ(h)/γ(0). Il vient :
    
ρ(0) ρ(1) ··· ρ(p − 1) φ1,p ρ(1)
 .. 
 ρ(1) ρ(0) ρ(1) .  φ2,p  ρ(2)
  .  

 .. 

 .. . . .  .
 . .. .. ..  .  
= . 
 (4.10)
  .   . 
 ..  . .
 . ρ(1)   .   . 
ρ(p − 1) ρ(p − 2) · · · ρ(1) ρ(0) φp,p ρ(p)

Exemple 4.10 : Prédiction avant/arrière


Soit Xt = Zt + θ1 Zt−1 où Zt ∼ BB(0, σ 2 ). On note ρ(h) la fonction d’autocorrélation de Xt .
1. ρ(0) = (1 + θ12 , ρ(±1) = θ1 et ρ(h) = 0 pour |h| ≥ 2.
2. Déterminons la prédiction de X3 en fonction de X2 et X1 . D’après le théorème de projection
(X3 |span{X2 , X1 }) = α1 X1 + α1 X2 vérifie (X3 − α2 X2 − α1 X1 , Xj ) = 0 pour j = 1, 2. On en déduit que :
· ¸· ¸ · ¸
1 + θ12 θ1 α2 θ
= 1
θ1 1 + θ12 α1 0

3. Déterminons la prédiction de X3 en fonction de X4 et X5 . D’après le théorème de projection


(X3 |span{X4 , X5 }) = α4 X4 + α5 X5 vérifie (X3 − α4 X4 − α5 X5 , Xj ) = 0 pour j = 4, 5. On en déduit que :
· ¸· ¸ · ¸
1 + θ12 θ1 α4 θ
= 1
θ1 1 + θ12 α5 0
Par conséquent α1 = α5 et α2 = α4 .
4. Déterminons la prédiction de X3 en fonction de X1 , X2 , X4 et X5 . Pour déterminer
(X3 |span{X1 , X2 , X4 , X5 }) = β1 X1 + β2 X2 + β4 X4 + β5 X5 Il suffit de remarquer que span{X1 , X2 } ⊥
span{X3 , X5 } et donc :

(X3 |span{X1 , X2 , X4 , X5 }) = (X3 |span{X1 , X2 }) + (X3 |span{X4 , X5 })

Exemple 4.11 : Cas d’un processus AR(m) causal


Soit le processus AR(m) causal solution stationnaire de l’équation récurrente :

Xt = φ1 Xt−1 + · · · + φm Xt−m + Zt

69
Pm
où Zt ∼ B(0, σ 2 ) et où φ(z) = 1 − k=1 φk z k P 6= 0 pour |z| ≤ 1. Comme la solution est causale on a, pour
m
tout h ≥ 1,
PmE [Z t Xt−h ] = 0 et donc E [(X Pm k=1 φk Xt−k )Xt−h ] = 0 qui signifie que, pour tout p ≥ m,
t −
(i) (Xt − P k=1 φk Xt−k ) ⊥ Ht−1,p et (ii) k=1 φk Xt−k ∈ Ht−1,p . Par conséquent, d’après le théorème de
m
projection, k=1 φk Xt−k = (Xt |Ht−1,p ) et donc, pour tout p ≥ m :
½
φk pour 1 ≤ k ≤ m
φk,p =
0 pour k>m

La projection orthogonale d’un AR(m) causal sur son passé immédiat de longueur p ≥ m coı̈ncide avec
la projection orthogonale sur les m dernières valeurs et les coefficients de prédiction sont précisément les
coefficients de l’équation récurrente.

Dans le cas où la matrice de covariance Γp , supposée connue, est inversible, le problème de la
détermination des coefficients de prédiction φp et de la variance de l’erreur de prédiction σp2 a une
solution unique. Rappelons que, d’après la propriété 1.5, si γ(0) > 0 et si limn→∞ γ(n) = 0, alors la
matrice Γp est inversible à tout ordre.
Il est facile de démontrer que :

(Xt |span{1, Xt−1 , . . . , Xt−p }) = µ + (Xt − µ|span{Xt−1 − µ, . . . , Xt−p − µ}) (4.11)

Par conséquent, dans le problème de la prédiction, il n’y a aucune perte de généralité à considérer
que le processus est centré. S’il ne l’était pas, il suffirait, d’après l’équation (4.11), déffectuer le calcul
des prédicteurs sur le processus centré Xtc = Xt − µ puis d’ajouter µ. Dans la suite, sauf indication
contraire, les processus sont supposés centrés.
Les coefficients de prédiction d’un processus stationnaire au second ordre fournissent une
décomposition particulière de la matrice de covariance Γp+1 sous la forme d’un produit de matrice
triangulaire.

Théorème 4.3. Soit {Xt } un processus stationnaire au second ordre, centré, de fonction d’autocova-
riance γ(h). On note :
 
1 0 ··· ··· 0  2 
 .. ..  σ0 0 · · · 0
−φ1,1 1 . .
  0 σ2 · · · 0 
 .. . . . . .
.   1 
Ap+1 =  . . . .  Dp+1 =  . .
  . . .
.
 .. .. 
 . . 0 0 · · · σ2 p
−φp,p −φp−1,p · · · −φ1,p 1

On a alors :
Γp+1 = A−1 −T
p+1 Dp+1 Ap+1 (4.12)

Démonstration. Posons Fk = span{Xk , · · · , X1 } et montrons tout d’abord que, pour k 6= `, nous


avons :
(Xk − (Xk |Fk−1 ), X` − (X` |F`−1 )) = 0 (4.13)
En effet, pour k < `, on a Xk − (Xk |Fk−1 ) ∈ Fk ⊆ F`−1 . On a aussi X` − (X` |F`−1 ) ⊥ F`−1 et donc
X` − (X` |F`−1 ) ⊥ Xk − (Xk |Fk−1 ), ce qui démontre (4.13). D’autre part, par définition des coefficients

70
de prédiction, on peut écrire successivement :
    
1 0 ··· 0 X1 X1
 −φ1,1 1 ··· 0  X2   X2 − (X2 |F1 ) 
    
Ap+1 Xp+1 =  . ..  .. = .. 
 .. .  .   . 
−φp,p −φp−1,p · · · 1 Xp+1 Xp+1 − (Xp+1 |Fp )

qui donne : £ ¤
E Ap+1 Xp+1 XTp+1 ATp+1 = Ap+1 Γp+1 ATp+1 = Dp+1
où, par définition, σk2 = kXk − (Xk |Fk−1 )k2 , ce qui démontre (4.12) puisque la matrice Ap+1 est
inversible, son déterminant étant égal à 1. Ajoutons que l’inverse d’une matrice triangulaire supérieure
est elle-même triangulaire supérieure. ¥

Dans la suite nous notons Ht−1,p = span{Xt−1 , . . . , Xt−p } et nous appelons erreur de prédiction
directe d’ordre p ou innovation partielle d’ordre p le processus :
p
X
²+
t,p = Xt − (Xt |Ht−1,p ) = Xt − φk,p Xt−k (4.14)
k=1

D’après l’équation (4.12) lorsque la matrice Γp+1 est inversible, la variance σp2 = k²+ 2
t,p k est strictement
2 2
positive. Il est clair, d’autre part, que la suite σp est décroissante et donc que σp possède une limite
quand p tend vers l’infini. Cela conduit à la définition suivante, dont nous verrons paragraphe 4.6
quélle joue un rôle fondamental dans la décomposition des processus stationnaires au second ordre.

Définition 4.11 (Processus régulier/déterministe). Soit {Xt } un processus aléatoire stationnaire au


second ordre. On note σp2 la variance de l’innovation partielle d’ordre p et σ 2 = limp→+∞ σp2 . On dit
que le processus {Xt } est régulier si σ 2 6= 0 et déterministe si σ 2 = 0.

Nous avons déjà noté (voir équation (4.8)) que, pour p fixé, la suite {φk,p } ne dépend pas de t et
donc que le processus ²+t,p (relativement à l’indice t) est stationnaire au second ordre, centré. On a
aussi la formule suivante :
(²+ + 2
t,p , ²t,q ) = σmax(p,q) (4.15)

En effet soit q > p. Par construction, nous avons ²+ +


t,q ⊥ Ht−1,q , et comme Ht−1,p ⊆ Ht−1,q , ²t,q ⊥ Ht−1,p
et en particulier ²+
t,q ⊥ (Xt |Ht−1,p ) puisque (Xt |Ht−1,p ) ∈ Ht−1,p . Par conséquent, pour q > p, on a :

(²+ + + 2
t,p , ²t,q ) = (Xt − (Xt |Ht−1,p ), ²t,q ) = (Xt , Xt − (Xt |Ht−1,q )) = (Xt , Xt − (Xt |Ht−1,q )) = σq

ce qui démontre (4.15).


Notons ici que le problème de la recherche des coefficients de prédiction pour un processus stationnaire
au second ordre se ramène à celui de la minimisation de l’intégrale :
Z π
1
|ψ(e−iλ )|2 νX (dλ)
2π −π

71
sur l’ensemble Pp des polynômes à coefficients réels de degré p de la forme ψ(z) = 1 + ψ1 z + · · · + ψp z p .
En effet, en utilisant la relation (1.18) de filtrage des mesures spectrales, on peut écrire que la variance
de k²+ 2
t,p k , qui minimise de l’erreur de prédiction, a pour expression :
Z π
1
σp2 = |φp (e−iλ )|2 νX (dλ) (4.16)
2π −π

où :
p
X
φp (z) = 1 − φk,p z k
k=1

désigne le polynôme prédicteur d’ordre p.

Théorème 4.4. Si {Xt } est un processus régulier, alors, pour tout p, φp (z) 6= 0 pour |z| ≤ 1. Tous
les zéros des polynômes prédicteurs sont à l’extérieur du cercle unité.

Démonstration. Elle est donnée en fin de chapitre. ¥

Une conséquence directe du théorème 4.4 est qu’à toute matrice de covariance de type défini positif,
de dimension (p + 1) × (p + 1), on peut associer un processus AR(p) causal dont les (p + 1) premiers
coefficients de covariance sont précisément la première ligne de cette matrice. Ce résultat nést pas
général. Ainsi il existe bien un processus AR(2) causal ayant γ(0) = 1 et γ(1) = ρ, comme premiers
coefficients de covariance, à condition toutefois que la matrice de covariance soit positive cést-à-dire
que |ρ| < 1, tandis qu’il néxiste pas, pour cette même matrice de processus MA(2). Il faut en effet, en
plus du caractère positif, que |ρ| ≥ 1/2 (voir exemple 1.11).

4.4 Algorithme de Levinson-Durbin


La solution directe du système des équations de Yule-Walker requiert de l’ordre de p3 opérations : la
résolution classique de ce système implique en effet la décomposition de la matrice Γp sous la forme du
produit d’une matrice triangulaire inférieure et de sa transposée, Γp = Lp LTp (décomposition de Cho-
leski) et la résolution par substitution de deux systèmes triangulaires. Cette procédure peut s’avérer
coûteuse lorsque l’ordre de prédiction est grand (on utilise généralement des ordres de prédiction de
l’ordre de quelques dizaines à quelques centaines), ou lorsque, à des fins de modélisation, on est amené
à évaluer la qualité de prédiction pour différents horizons de prédiction. L’algorithme de Levinson-
Durbin exploite la structure géométrique particulière des processus stationnaires au second ordre pour
établir une formule de récurrence donnant les coefficients de prédiction à l’ordre (p + 1) à partir
des coefficients de prédiction obtenus à l’ordre p. Supposons que nous connaissions les coefficients de
prédiction linéaire et la variance de l’erreur de prédiction à l’ordre p, pour p ≥ 0 :
p
X
(Xt |Ht−1,p ) = φk,p Xt−k et σp2 = kXt − (Xt |Ht−1,p )k2
k=1

Nous avons besoin ici d’introduire l’erreur de prédiction rétrograde à l’ordre p définie par :

²−
t,p = Xt − (Xt |Ht+p,p ) = Xt − (Xt |span{Xt+1 , · · · , Xt+p })

72
Elle représente la différence entre l’échantillon courant Xt et la projection orthogonale de Xt sur les
p échantillons {Xt+1 , · · · , Xt+p } qui suivent l’instant courant. Le qualificatif rétrograde est clair :
il traduit le fait que l’on cherche à prédire la valeur courante en fonction des valeurs futures. Indi-
quons que l’erreur rétrograde joue un rôle absolument essentiel dans tous les algorithmes rapides de
résolution des équations de Yule-Walker. Remarquer tout d’abord que les coefficients de prédiction
rétrograde coı̈ncident avec les coefficients de prédiction directe. Cette propriété, que nous avons ren-
contrée exemple 4.10, est fondamentalement due à la propriété de réversibilité des processus station-
naires au second ordre. En effet, si Yt = X−t , alors Yt a même moyenne et même fonction de covariance
que Xt (voir exemple 1.7 chapitre 1) et par conséquent, en utilisant aussi l’hypothèse de stationnarité,
on a simultanément pour tout u, v ∈ Z :
p
X p
X
(Xt+u |Ht+u−1,p ) = φk,p Xt+u−k et (Xt+v |Ht+v+p,p ) = φk,p Xt+v+k
k=1 k=1

ainsi que :

σp2 = k²+ 2 −
t+u,p k = k²t+v,p k
2
(4.17)

En particulier on a :
 p

 X

 (Xt |Ht−1,p ) =
 φk,p Xt−k
k=1 (4.18)
p
X p
X



 (Xt−p−1 |Ht−1,p ) =
 φk,p Xt−p−1+k = φp+1−k,p Xt−p−1+k
k=1 k=1

Cherchons maintenant à déterminer, à partir de ces projections à l’ordre p, la projection de Xt à l’ordre


p + 1 sur le sous-espace Ht−1,p+1 = span{Xt−1 , · · · , Xt−p−1 }. Pour cela décomposons cet espace en
somme directe de la façon suivante :

Ht−1,p+1 = Ht−1,p ⊕ span{Xt−p−1 − (Xt−p−1 |Ht−1,p )} = Ht−1,p ⊕ span{²−


t−p−1,p }

Un calcul simple montre (voir exemple 4.6) que

(Xt |²− −
t−p−1,p ) = α²t−p−1,p avec α = (Xt , ²− −
t−p−1,p )/k²t−p−1,p k
2

et donc que
(Xt |Ht−1,p+1 ) = (Xt |Ht−1,p ) + kp+1 (Xt−p−1 − (Xt−p−1 |Ht−1,p )) (4.19)
où, en utilisant aussi (4.17), on peut écrire :

(Xt , ²−
t−p−1,p ) (Xt , ²−
t−p−1,p )
kp+1 = = (4.20)
σp2 k²+ −
t+u,p kk²t+v,p k

En portant à présent (4.18) dans (4.19), on obtient l’expression :


p+1
X p
X
(Xt |Ht−1,p+1 ) = φk,p+1 Xt−k = (φk,p − kp+1 φp+1−k,p )Xt−k + kp+1 Xt−p−1
k=1 k=1

73
On en déduit les formules de récurrence donnant les coefficients de prédiction à l’ordre p + 1 à partir
de ceux à l’ordre p :
½
φk,p+1 = φk,p − kp+1 φp+1−k,p pour k ∈ {1, · · · , p}
(4.21)
φp+1,p+1 = kp+1

Déterminons maintenant la formule de récurrence donnant kp+1 . En utilisant encore (4.18) et (4.19),
on obtient :
p
X p
X
(Xt , (Xt−p−1 |Ht−1,p )) = φk,p E [Xt Xt−p−1+k ] = φk,p γ(p + 1 − k)
k=1 k=1

Partant de l’expression de (Xt , ²−


t−p−1,p ) on en déduit que :
p
X
(Xt , ²−
t−p−1,p ) = (Xt , Xt−p−1 − (Xt−p−1 |Ht−1,p )) = γ(p + 1) − φk,p γ(p + 1 − k)
k=1

et donc d’après (4.20) : Pp


γ(p + 1) − k=1 φk,p γ(p + 1 − k)
kp+1 =
σp2
2
Il nous reste maintenant à déterminer l’erreur de prédiction σp+1 à l’ordre (p+1). En utilisant l’équation
(4.19), on a

²+
t,p+1 = Xt − (Xt |Ht−1,p+1 ) = Xt − (Xt |Ht−1,p ) − kp+1 (Xt−p−1 − (Xt−p−1 |Ht−1,p ))

dont on déduit d’après (4.20) :


2
σp+1 = k²+ 2 2 2 2 2 2
t,p+1 k = σp + kp+1 σp − 2kp+1 (Xt − (Xt |Ht−1,p ), Xt−p−1 − (Xt−p−1 |Ht−1,p )) = σp (1 − kp+1 )

Pour initialiser l’algorithme, nous faisons p = 0. Dans ce cas la meilleure


£ prédiction
¤ de Xt est E [Xt ] = 0
et la variance de l’erreur de prédiction est alors donnée par σ02 = E (Xt − 0)2 = γ(0). Au pas suivant
on a k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ12 = γ(0)(1 − k12 ).
Partant d’une suite de (K + 1) coefficients de covariance γ(0), . . . , γ(K), l’algorithme de Levinson
détermine les coefficients de prédiction {φm,p }1≤m≤p,1≤p≤K :

Valeurs initiales :
· k1 = γ(1)/γ(0), φ1,1 = γ(1)/γ(0) et σ12 = γ(0)(1 − k12 )
Pour p = {2, . . . , K} répéter :
³ P ´
−2
· kp = σp−1 γ(p) − p−1 k=1 φk,p−1 γ(p − k)
· φp,p = kp
· pour m ∈ {1, · · · , p − 1} faire :

φm,p = φm,p−1 − kp φp−m,p−1


2 (1 − k 2 )
· σp2 = σp−1 p

74
Le coefficient kp possède la propriété remarquable d’être de module inférieur à 1. Notons tout d’abord
que (Xt |Ht−1,p ) ⊥ ²− −
t−p−1,p puisque (Xt |Ht−1,p ) ∈ Ht−1,p et que ²t−p−1,p ⊥ Ht−1,p . Partant de (4.20)
on peut écrire que :

(Xt − (Xt |Ht−1,p ), Xt−p−1 − (Xt−p−1 |Ht−1,p )) (²+ −


t,p , ²t−p−1,p )
kp+1 = = + (4.22)
k²+ −
t,p k k²t−p−1,p k k²t,p k k²− t−p−1,p k

En utilisant l’inégalité de Schwarz, on montre que |kp+1 | ≤ 1. Remarquons aussi que kp+1 ap-
paraı̂t comme le coefficient de corrélation entre l’erreur de prédiction directe et l’erreur de prédiction
rétrograde. Dans la littérature ce coefficient est appelé coefficient d’autocorrélation partielle.

Définition 4.12 (Fonction d’autocorrélation partielle). Soit Xt un processus aléatoire, stationnaire


au second ordre, de fonction de covariance γ(h). On appelle fonction d’autocorrélation partielle la
suite kp définie par :


 (Xt , Xt−1 )
 Corr(Xt , Xt−1 ) = pour p = 1
kXt k kXt−1 k
kp = (Xt − (Xt |Ht−1,p−1 ), Xt−p − (Xt−p |Ht−1,p−1 )) (4.23)

 + −
 Corr(² , ²
t,p−1 t−p,p−1 ) = pour p ≥ 2
kXt − (Xt |Ht−1,p−1 )k kXt−p − (Xt−p |Ht−1,p−1 )k

Dans (4.23), l’expression pour p = 1 est en accord avec celle pour p ≥ 2 dans la mesure où on peut
noter que ²+ −
t,0 = Xt et que ²t−1,0 = Xt−1 . Notons aussi que, dans l’expression de kp , Xt et Xt−p sont
projetés sur le même sous-espace span{Xt−1 , . . . , Xt−p+1 }. Le résultat remarquable est que la suite
des coefficients de corrélation partielle est donnée par :

kp = φp,p (4.24)

où φp,p est défini au moyen des équations de Yule-Walker (4.10). Dans le cas particulier d’un processus
AR(m) causal, on a alors : 
φp,p pour 1 ≤ p < m
kp = φm pour p=m

0 pour p>m
Notons enfin que contrairement à la fonction d’autocorrélation partielle d’un AR(m) qui est nulle pour
un intervalle de temps supérieur à m, celle d’un MA(q) ne va pas à 0. Elle est cependant bornée en
valeur absolue par une exponentielle décroissante.

4.5 Algorithme de Schur


Partant des coefficients d’autocorrélation, l’algorithme de Levinson-Durbin évalue à la fois les
coefficients des prédicteurs linéaires optimaux et les coefficients d’autocorrélation partielle. Dans cer-
tains cas, seuls les coefficients d’autocorrélation partielle sont nécessaires. Il en est ainsi, par exemple,
lorsque l’on cherche à calculer les erreurs de prédiction directe et rétrograde à partir du processus Xt .
Montrons, en effet, que les erreurs de prédiction à l’ordre (p + 1) s’expriment, en fonction des erreurs

75
de prédictions à l’ordre p, à l’aide d’une formule de récurrence ne faisant intervenir que la valeur du
coefficient de corrélation partielle :

 ²+ = ²+ −
t,p+1 t,p − kp+1 ²(t−1)−p,p
(4.25)
²− = ²− − kp+1 ²+
t−(p+1),p+1 (t−1)−p,p t,p

Reprenons les expressions de l’erreur de prédiction directe et de l’erreur de prédiction rétrograde :


p
X p
X
²+
t,p = Xt − φk,p Xt−k et ²−
t−p−1,p = Xt−p−1 − φk,p Xt−p−1+k
k=1 k=1

En utilisant directement la récursion de Levinson-Durbin, équations (4.21), dans l’expression de l’erreur


de prédiction directe à l’ordre p + 1, nous obtenons :
p+1
X
²+
t,p+1 = Xt − φk,p+1 Xt−k
k=1
à p
! Ã p
!
X X
= Xt − φk,p Xt−k − kp+1 Xt−p−1 − φk,p Xt−p−1+k
k=1 k=1
= ²+ −
t,p − kp+1 ²t−p−1,p (4.26)

De façon similaire, nous avons :


p+1
X
²−
t−p−1,p+1 = Xt−p−1 − φk,p+1 Xt−p−1+k
k=1
à p
! Ã p
!
X X
= Xt−p−1 − φk,p Xt−p−1+k − kp+1 Xt − φk,p Xt−k
k=1 k=1
= ²− +
t−p−1,p − kp+1 ²t,p (4.27)

Partant de la suite des autocorrélations, l’algorithme de Schur calcule récursivement les coefficients de
corrélation partielle, sans avoir à déterminer les valeurs des coefficients de prédiction. Historiquement,
l’algorithme de Schur a été introduit pour tester le caractère défini positif d’une suite (ou de façon
équivalente, la positivité des matrices de Toëplitz construites à partir de cette suite). En effet, comme
nous l’avons montré ci-dessus, une suite de coefficients de covariance est définie positive si et seulement
si les coefficients de corrélation partielle sont de module strictement inférieur à 1. Déterminons à présent
cet algorithme. En faisant t = 0 dans l’équation (4.26), en multipliant à gauche par Xm et en utilisant
la stationnarité, il vient :

(Xm , ²+ + − + −
0,p+1 ) = (Xm , ²0,p ) − kp+1 (Xm , ²−p−1,p ) = (Xm , ²0,p ) − kp+1 (Xm+p+1 , ²0,p ) (4.28)

En faisant t = p + 1 dans l’équation (4.27), en multipliant à gauche par Xm+p+1 et en utilisant la


stationnarité, il vient :

(Xm+p+1 , ²− − + − +
0,p+1 ) = (Xm+p+1 , ²0,p ) − kp+1 (Xm+p+1 , ²p+1,p ) = (Xm+p+1 , ²0,p ) − kp+1 (Xm , ²0,p ) (4.29)

76
En faisant m = 0 dans (4.29), il vient :

(Xp+1 , ²− − + − +
0,p+1 ) = (Xp+1 , ²0,p ) − kp+1 (Xp+1 , ²p+1,p ) = (Xp+1 , ²0,p ) − kp+1 (X0 , ²0,p ) (4.30)

Mais on a aussi :

(Xp+1 , ²−
0,p+1 ) = (Xp+1 , X0 − (X0 |span{X1 , · · · , Xp+1 })) = 0

Nous pouvons donc déduire de l’équation (4.30) :

(Xp+1 , ²−
0,p )
kp+1 = (4.31)
(X0 , ²+
0,p )

En couplant les équations (4.28), (4.29) et (4.31) et en partant des conditions initiales :

(Xm , ²+ −
0,0 ) = γ(m) et (Xm+1 , ²0,0 ) = γ(m + 1)

on peut déterminer les coefficients de corrélation partielle directement, sans avoir à évaluer explicite-
ment les coefficients de prédiction.
On note u(m, p) = (Xm , ²+ −
0,p ) et v(m, p) = (Xm+p+1 , ²0,p ). Partant des (K +1) coefficients de covariance
{γ(0), . . . , γ(K)}, l’algorithme de Schur calcule les K premiers coefficients de corrélation partielle :

Initialement faire pour m = {0, . . . , K − 1} :


· u(m, 0) = γ(m)
· v(m, 0) = γ(m + 1)
Puis répéter pour p = {1, . . . , K} :
v(0, p − 1)
· k(p) =
u(0, p − 1)
· et pour m = {0, . . . , K − p − 1} faire :

 u(m, p) = u(m, p − 1) − k(p)v(m, p − 1)
 v(m, p) = v(m + 1, p − 1) − k(p)u(m + 1, p − 1)

La complexité de l’algorithme de Schur est équivalente à l’algorithme de Levinson.

Filtres en treillis
En notant e(t, p) = [²+ − T
t,p ²t−p,p ] et en utilisant l’opérateur de retard D, les expressions (4.25)
peuvent se mettre sous la forme matricielle :
· ¸
1 −kp+1 D
e(t, p + 1) = e(t, p)
−kp+1 D 1

Les erreurs initiales (p = 0) sont e(t, 0) = [Xt Xt ]T . Ces équations débouchent sur une structure
de filtrage dite en treillis qui calcule, au moyen des coefficients de corrélation partielle, les erreurs de

77
x(t) ε + (t,p)
-k1 -kp

ε − (t,p)
-k1 -kp
z− 1 z− 1

Fig. 4.1 – Filtre d’analyse en treillis. Ce filtre permet de construire les erreurs
de prédiction directe et rétrograde à partir du processus et de la donnée des
coefficients de corrélation partielle.

prédiction directe et rétrograde à partir du signal Xt . Ce filtre d’analyse est représenté figure 4.1. Les
équations (4.25) peuvent encore s’écrire :

 ²+ = ²+ −
t,p t,p+1 + kp+1 ²(t−1)−p,p
²− = ²− − kp+1 ²+
t−(p+1),p+1 (t−1)−p,p t,p

qui donne le schéma de filtrage de la figure 4.2.

ε + (t,p)

− kp − k1 x(t)

ε − (t,p) kp k1
z− 1 z− 1 z− 1

Fig. 4.2 – Filtre de synthèse en treillis. Ce filtre permet de reconstruire le


processus à partir de la suite des erreurs de prédiction directe et de la donnée
des coefficients de corrélation partielle.

4.6 Décomposition de Wold


Un des résultats fondamentaux de la théorie des processus stationnaires au second-ordre est la
décomposition de Wold. Cette décomposition permet de décomposer n’importe quel processus sta-
tionnaire au second-ordre comme la somme de la sortie d’un filtre linéaire invariant dans le temps
excité par un bruit blanc et d’un processus déterministe (définition 4.11). La preuve de ce résultat est
de nature géométrique. L’idée de base est la suivante. Soit HtX = span{Xs , s ≤ t}. HtX est appelé le
passé linéaire du processus à la date t. Par construction, HtX ⊂ Ht+1X , et nous disposons ainsi d’une

famille de sous-espace emboı̂tés de H∞ X =∪ X X


T t∈Z Ht . H∞ est l’enveloppe linéaire du processus. L’espace
X
t∈Z Ht , appelé le passé infini du processus (X) jouera aussi un rôle particulier. Par définition Xt
X . Le théorème de projection dit qu’il
appartient à HtX , mais il n’appartient généralement pas à Ht−1
X ) et appartenant à HX tel que :
existe un unique élément noté (Xt |Ht−1 t−1

X X
²t = Xt − (Xt |Ht−1 ) ⊥ Ht−1

78
Dans ce contexte ²t s’appelle l’innovation (linéaire) du processus. Il découle de cette construction
géométrique que le processus d’innovation est un processus orthogonal dans le sens où :

∀s 6= t, ²s ⊥ ² t (4.32)

En effet, pour s < t, nous pouvons écrire ²s ∈ HsX ⊂ Ht−1


X et ² ⊥ HX . Et donc ² ⊥ ² .
t t−1 s t
La proposition qui suit montre que le processus d’innovation est la limite des processus d’innovations
partielles à l’ordre p.

Proposition 4.5. Pour tout Y ∈ L2 (Ω, F, P) et tout t ∈ Z nous avons :


X
lim (Y |Ht,p ) = (Y |HtX )
p→∞

X = span{X , X
où Ht,p t t−1 , · · · , Xt−p+1 }.

Exemple 4.12 : Bruit blanc


X X
Supposons que {Xt } soit un bruit blanc. Nous avons (Xt |Ht−1,p ) = 0 pour tout p et donc (Xt |Ht−1 ) = 0.
X
Nous avons donc ²t = Xt − (Xt |Ht−1 ) = Xt : le processus Xt coı̈ncide avec son innovation. Ceci signifie
qu’un bruit blanc ne peut être prédit de façon linéaire à partir de son passé.

Exemple 4.13 : Prédiction d’un processus AR(p) causal


On considère le processus AR(p) causal défini par l’équation récurrente Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt où
Zt ∼ BB(0, σ 2 ). Nous avons vu que HtX = HZ t
et que, pour tout k ≥ 1, on avait E [Xt−k Zt ] (confère équation
X
(??)). Par conséquent Zt ⊥ Ht−1 et HtX = Ht−1 X
⊕ span{Zt }. On en déduit que :
p
X p
X
X X X
(Xt |Ht−1 )= φk (Xt−k |Ht−1 ) + (Zt |Ht−1 )= φk Xt−k
k=1 k=1

X
Pp
et donc Xt − (Xt |Ht−1 ) = Xt − k=1 φk Xt−k = Zt . Par conséquent le bruit blanc Zt , qui intervient dans
l’équation
Pp récurrente d’un AR causal, est précisément l’innovation du processus AR. Ce résultat montre que
k=1 φ k X t−k est la projection de X(t) sur tout le passé Ht−1 et quélle coı̈ncide avec la projection orthogonale
sur le passé Ht−1,p de durée p. Par conséquent, pour tout m ≥ p, la suite des coefficients de prédiction est
{φ1 , . . . , φp , 0, . . . , 0}. Ce résultat est faux pour un AR non causal.
| {z }
m−p

Exemple 4.14 : Processus harmonique


Soit le processus harmonique Xt = A cos(λ0 t + Φ) où A est une variable aléatoire, centrée, de variance
2
σA et Φ une variable aléatoire, indépendante de A et distribuée suivant une loi uniforme sur [−π, π]. Le
2
processus Xt est stationnaire au second-ordre, centré, de fonction d’autocovariance γ(τ ) = (σA /2) cos(λ0 τ ).
Les coefficients du prédicteur linéaire optimal à l’ordre 2 sont donnés par :
· ¸ · ¸−1 · ¸ · ¸
φ1,2 1 cos(λ0 ) cos(λ0 ) cos(λ0 )
= =
φ2,2 cos(λ0 ) 1 cos(2λ0 ) −1

On vérifie facilement que σ22 = kXt − (Xt |Ht−1,2


X
)k2 = 0. Par conséquent, on a :
X X
Xt = (Xt |Ht−1,2 ) = 2 cos(λ0 )Xt−1 − Xt−2 ∈ Ht−1
X
et donc la projection (Xt |Ht−1 ) = Xt , ce qui implique que ²t = 0. A l’inverse du bruit blanc, le processus est
entièrement prédictible à partir de son passé.

79
En appliquant la proposition 4.5 à Xt , nous pouvons écrire :
X
lim (Xt |Ht−1,p X
) = (Xt |Ht−1 ) et lim ²+ = ²t (4.33)
p→∞ p→∞ t,p

Le processus d’innovation ²t est donc la limite en moyenne quadratique de la suite des innovations
partielles ²+ X
t,p = Xt − (Xt |Ht−1,p ). Une conséquence immédiate est que le processus d’innovation est
un processus stationnaire au second ordre. En utilisant, en effet, la continuité du produit scalaire et
la stationnarité au second ordre de l’innovation partielle d’ordre p, on peut écrire :

(²t+τ , ²t ) = lim (²+ + + +


t+τ,p , ²t,p ) = lim (²τ,p , ²0,p ) (4.34)
p→∞ p→∞

qui ne dépend que de τ . En particulier nous avons :

σ 2 = k²t k2 = lim kXt − (Xt |Ht,p


X
)k2 = lim σp2
p→∞ p→∞
£ ¤
Dans le cas du bruit blanc on obtient σ 2 = E Xt2 6= 0 et donc, d’après la définition 4.11, le bruit
blanc est un processus régulier. D’un autre côté, le processus harmonique, pour lequel σ 2 = 0, est
déterministe. Nous remarquons aussi que la somme d’un bruit blanc et d’un processus harmonique est
un processus régulier.
La structure géométrique emboı̂tée des espaces {HtX } et l’orthogonalité des innovations fournissent,
pour tout s < t, la formule suivante de décomposition en somme directe :

HtX = HsX ⊕ span{²s+1 , · · · , ²t } (4.35)

Notons, tout d’abord, que ²t = Xt − (Xt |Ht−1X ) ∈ HX et que ² ⊥ HX , ce qui implique que HX ⊕
t t t−1 t−1
X X ), HX = span{² + (X |HX ), {X , s ≤
span{²t } ⊆ Ht . D’un autre côté, puisque Xt = ²t + (Xt |Ht−1 t t t t−1 s
t − 1}} = span{²t , {Xs , s ≤ t − 1}}, ce qui entraı̂ne que HtX ⊆ Ht−1 X ⊕ span{² }. En conclusion
t
HtX = Ht−1X ⊕ span{Z }. En réitérant ce raisonnement, on en déduit la décomposition (4.35). Cette
t
décomposition orthogonale de l’espace HtX nést pas sans rappeler la décomposition de Gram-Schmidt.
Notons qu’à l’inverse de la décomposition de Gram-Schmidt classique, nous procédons ici dans le sens
rétrograde. Définissons pour tout s ≥ 0 :

(Xt , ²t−s )
ψs = (4.36)
σ2
Remarquons que ψs ne dépend pas de t. En effet, la continuité du produit scalaire et la stationnarité
conjointe du processus Xt et de l’innovation partielle impliquent que :

(Xt , ²t−s ) = lim (Xt , ²+ +


t−s,p ) = lim (X0 , ²−s,p )
p→∞ p→∞

Lemme 4.1. La suite {ψs } est de carré sommable et ψ0 = 1.


X ), ² ) = 0 entraı̂ne que :
Démonstration. Remarquons, tout d’abord, que la relation ((Xt |Ht−1 t

X ), ² )
(Xt − (Xt |Ht−1
(Xt , ²t ) t
ψ0 = 2
= 2
=1
σ σ

80
D’autre part, pour tout s ≥ 0, la projection orthogonale de Xt sur Ht,s ² = span{² , ²
t t−1 , · · · , ²t−s+1 }
²
Ps−1
s’écrit, du fait de l’orthogonalité du processus d’innovation, (Xt |Ht,s ) = k=0 ψk ²t−k . On en déduit
² )k2 = σ 2
Ps−1 2
que k(Xt |Ht,s k=0 ψk . On a alors d’après l’égalité de Pythagore (proposition 4.3) :

s−1
X
²
k(Xt |Ht,s )k2 =σ 2
ψk2 = kXt k2 − kXt − (Xt |Ht,s
²
)k2 ≤ kXt k2
k=0

ce qui conclut la preuve. ¥


P
La suite (ψs )s≥0 étant de carré sommable, la suite s → Xt,s = sk=0 ψk ²t−k est, pour t fixé, une
suite de Cauchy dans L2 (Ω, F, P). Elle admet donc, quand s → ∞, une limite que nous notons :

X
Ut = ψk ²t−k
k=0

et qui est un processus stationnaire au second-ordre. On a, en effet :


s
X
E [Ut ] = (Ut , 1) = lim ψk (²t−k , 1) = 0
s→∞
k=0

et
às s
! Ã s s
!
X X X X
E [Ut+τ Ut ] = (Ut+τ , Ut ) = lim ψk ²t+τ −k , ψk ²t−k = lim ψk ²τ −k , ψk ²−k
s→∞ s→∞
k=0 k=0 k=0 k=0

qui est indépendant de t.


Le théorème suivant, connu sous le nom de décomposition de Wold, est vraisemblablement le résultat
le plus important de la théorie des processus stationnaires au second-ordre.

Théorème 4.5 (Décomposition de Wold). Soit Xt un processus stationnaire au second ordre et ²t


son processus
P∞ d’innovation. On suppose que Xt est un processus régulier (σ 2 = k²t k2 6= 0). On note
Ut = k=0 ψk ²t−k où ψk = (Xt , ²t−k )/σ 2 . Alors il existe un processus Vt tel que :

Xt = Ut + Vt , (4.37)

et tel que :
(i). pour tout (t, s), (Vt , ²s ) = 0, qui implique que (Vt , Us ) = 0,
X ) est la projection orthogonale de X sur HX =
T∞ X
(ii). Vt = (Xt |H−∞ t −∞ t=−∞ Ht ,
U ) est l’innovation de U . De plus, H² = HU .
(iii). Ut est un processus régulier et ²t = Ut − (Ut |Ht−1 t t t
X .
(iv). Vt est un processus déterministe et HtV = H−∞

Démonstration. Elle est donnée en fin de chapitre. ¥

81
Un processus {Xt } tel que H−∞ X = {0} est dit purement non déterministe. Pour un tel processus

la partie déterministe de la décomposition de Wold est identiquement nulle. Par exemple, le processus
régulier Ut de la décomposition de Wold est purement non déterministe. En effet, en appliquant
la décomposition de Wold au processus Ut on a, pour tout t, Ut = Ut + Vt avec Vt = 0 et donc,
U
d’après le point (iv), H−∞ = {0}. Le théorème de Wold permet donc de décomposer tout processus
stationnaire au second-ordre sous la forme d’une somme de deux processus orthogonaux, le premier
étant purement non déterministe et le second étant déterministe. La partie purement non-déterministe
s’exprime comme le filtrage d’un bruit blanc par un filtre linéaire invariant dans le temps de réponse
impulsionnelle {ψk } causale (ψk = 0 pour k < 0) et de carré sommable (pas nécessairement de module
sommable).
Exemple 4.15 : Processus MA(1)
Soit {Zt } un bruit blanc et soit le processus Xt = Zt + θ1 Zt−1 . Remarquons que, par construction, HtX ⊆ HtZ
mais que l’inclusion réciproque nést pas nécessairement vérifiée. Montrons par contre que, pour |θ1 | < 1, nous
avons effectivement HtX = HtZ . En effet, en réitérant p fois l’équation Xt = Zt + θ1 Zt−1 et en résolvant par
rapport à Zt , nous obtenons :

Zt = Xt − θ1 Xt−1 + θ12 Xt−2 + · · · + (−1)p θ1p Xt−p − (−1)p θ1p+1 Zt−p

En prenant la limite en p, nous en déduisons que, si |θ1 | < 1, alors :



X
Zt = (−θ1 )k Xt−k
k=0

ce qui montre que HtZ ⊂ HtX et donc que HtX = HtZ . Dans ce cas, nous pouvons écrire :
X X X Z Z
(Xt |Ht−1 ) = (Zt |Ht−1 ) + θ1 (Zt−1 |Ht−1 ) = (Zt |Ht−1 ) + θ1 (Zt−1 |Ht−1 ) = 0 + θ1 Zt−1
Z X
en remarquant que (Zt |Ht−1 ) = 0 car Zt est un bruit blanc. On en déduit que Xt −(Xt |Ht−1 ) = Xt −θ1 Zt−1 =
Zt . Par conséquent, lorsque |θ1 | < 1, le processus Zt est l’innovation du processus Xt . Notons que Xt est
purement non déterministe et que les coefficients de la décomposition de Wold sont simplement donnés par
ψ0 = 1, ψ1 = θ, et ψk = 0 pour k > 1.

82
4.7 Preuves des théorèmes 4.2, 4.4 et 4.5
Théorème 4.2. Soit E est un sous-espace fermé d’un espace de Hilbert H et soit x un élément
quelconque de H, alors :
(i). il existe un unique élément x̂ ∈ E tel que :

kx − x̂k = inf kx − wk
w∈E

(ii). x̂ ∈ E et kx − x̂k = inf w∈E kx − wk si et seulement si x̂ ∈ E et x − x̂ ⊥ E.


Démonstration. (i). Soit x ∈ H. On note h = inf w∈E kx−wk ≥ 0. Alors il existe une suite w1 , w2 , · · · ,
de vecteurs de E tels que :
lim kx − wm k2 = h2 ≥ 0 (4.38)
m→+∞

L’identité du parallélogramme, ka−bk2 +ka+bk2 = 2kak2 +2kbk2 avec a = wm −x et b = wn −x,


montre que :

kwm − wn k2 + kwm + wn − 2xk2 = 2kwm − xk2 + 2kwn − xk2

Comme (wm + wn )/2 ∈ E, nous avons kwm + wn − 2xk2 = 4k(wm + wn )/2 − xk2 ≥ 4h2 . D’après
4.38, pour tout ² > 0,il existe N tel que et ∀m, n > N :

kwm − wn k2 ≤ 2(h2 + ²) + 2(h2 + ²) − 4h2 = 4².

qui montre que wn est une suite de Cauchy et donc que wn tend vers une limite dans E, puisque
l’espace E est fermé. On note y cette limite. On en déduit, par continuité de la norme, que
ky − xk = h. Montrons que cet élément est unique. Supposons qu’il existe un autre élément
z ∈ E tel que kx − zk2 = kx − yk2 = h2 . Alors l’identité du parallélogramme donne :

0 ≤ ky − zk2 = −4k(y + z)/2 − xk2 + 2kx − yk2 + 2kx − zk2 ≤ −4h2 + 2h2 + 2h2 = 0

où nous avons utilisé que (y + z)/2 ∈ E et que k(y + z)/2 − xk2 ≥ h2 . Il s’en suit que y = z. x̂
est appelé la projection orthogonale de x sur E.
(ii). Soit x̂ la projection orthogonale de x sur E. Alors, si il existe u ∈ E tel que x − u ⊥ E, on peut
écrire :

kx − x̂k2 = (x − u + u − x̂, x − u + u − x̂) = kx − uk2 + ku − x̂k2 + 2(u − x̂, x − u)


= kx − uk2 + ku − x̂k2 + 0 ≥ kx − uk2

et donc u = x̂. Réciproquement supposons que u ∈ E et x − u 6⊥ E. Alors choisissons y ∈ E tel


que kyk = 1 et tel que c = (x − u, y) 6= 0 et notons x̃ = u + cy ∈ E. On a :

kx − x̃k2 = (x − u + u − x̃, x − u + u − x̃) = kx − uk2 + ku − x̃k2 + 2(u − x̃, x − u)


= kx − uk2 + c2 − 2c(y, x − u) = kx − uk2 − c2 < kx − uk2

Par conséquent x̃ ∈ E est strictement plus proche de x que ne l’est u.


¥

83
Théorème 4.4. Soit le processus {Xt } régulier. Alors, pour tout p, φp (z) 6= 0 pour |z| ≤ 1. Tous les
zéros des polynômes prédicteurs sont à l’extérieur du cercle unité.

Démonstration. Nous allons tout d’abord montrer que le prédicteur optimal n’a pas de racines sur
le cercle unité. Raisonnons par contradiction. Supposons que le polynôme φp (z) ait deux racines
complexes conjuguées, de la forme exp(±iπθ), sur le cercle unité. (on traite de façon similaire le cas
de racines réelles, θ = 0 ou π). Nous pouvons écrire :

φp (z) = φ∗p (z)(1 − 2 cos(θ)z + z 2 )

On note ν̄X (dλ) = νX (dλ)|φ∗p (e−iλ )|2 . ν̄X est une mesure positive sur [−π, π] de masse finie. On note
γ̄(τ ) la suite des coefficients de Fourier associés à ν̄X :
Z π
1
γ̄(τ ) = eiτ λ ν̄X (dλ)
2π −π

Nous avons donc :


Z π Z π
2 1 −iλ −2iλ 1
σp = (1 − 2 cos(θ)e +e )ν̄X (dλ) = inf |1 + ψ1 e−iλ + ψ2 e−2iλ |2 ν̄X (dλ).
2π −π ψ∈P2 2π −π

Comme on l’a dit (page 67), la minimisation de σp2 par rapport à ψ1 et ψ2 est équivalent à la résolution
des équations de Yule-Walker à l’ordre p = 2 pour la suite des covariances γ̄(h). Par conséquent la
suite des coefficients {1, −2 cos(θ), 1} doit vérifier l’équation :
    2 
γ̄(0) γ̄(1) γ̄(2) 1 σp
 γ̄(1) γ̄(0) γ̄(1)   −2 cos(θ)  =  0 
γ̄(2) γ̄(1) γ̄(0) 1 0

De cette équation il s’en suit (les première et troisième lignes sont égales) que σp2 = 0. Ce qui est
contraire à l’hypothèse que le processus est régulier.
Démontrons maintenant que les racines des polynômes prédicteurs sont toutes strictement à l’extérieur
du cercle unité. Raisonnons encore par l’absurde. Supposons que le polynôme prédicteur à l’ordre p
ait m racines {ak , |ak | < 1, 1 ≤ k ≤ m} à l’intérieur du cercle unité et (p − m) racines {b` , |b` | > 1, 1 ≤
` ≤ p − m} à l’extérieur du cercle unité. Le polynôme prédicteur à l’ordre p s’écrit donc :
m
Y p−m
Y
φp (z) = (1 − a−1
k z) (1 − b−1
` z)
k=1 `=1

Considérons alors le polynôme :


m
Y p−m
Y
φ̄p (z) = (1 − a∗k z) (1 − b−1
` z)
k=1 `=1

Il a d’une part toutes ses racines strictement à l’extérieur du cercle unité et d’autre part il vérifie
|φ̄p (e−iλ )|2 < |φp (e−iλ )|2 . On a en effet |1−a∗k e−iλ | = |1−ak eiλ | = |ak ||1−a−1
k e
−iλ | et donc |φ̄ (e−iλ )|2 =
p

84
¡Qm 2
¢
k=1 |ak | |φp (e−iλ )|2 , ce qui démontre le résultat annoncé compte tenu du fait que |ak | < 1. On en
déduit alors que :
Z π
1
|φ̄p (e−iλ )|2 νX (dλ) < σp2
2π −π

ce qui contredit que φp (z) = inf ψ∈Pp (2π)−1 −π |ψ(e−iλ )|2 νX (dλ). ¥

Théorème 4.5. Soit Xt un processus stationnaire au second ordre et ²t son processus


P∞d’innovation.
2 2
On suppose que Xt est un processus régulier (σ = k²t k 6= 0). On note Ut = k=0 ψk ²t−k où
ψk = (Xt , ²t−k )/σ 2 . Alors il existe un processus Vt tel que :

Xt = Ut + Vt , (4.39)

et tel que :
(i). pour tout (t, s), (Vt , ²s ) = 0, qui implique que (Vt , Us ) = 0,
X ) est la projection orthogonale de X sur HX =
T∞ X
(ii). Vt = (Xt |H−∞ t −∞ t=−∞ Ht ,
U ) est l’innovation de U . De plus, H² = HU .
(iii). Ut est un processus régulier et ²t = Ut − (Ut |Ht−1 t t t
(iv). Vt est un processus déterministe et HtV = H−∞ X .

P
Démonstration. (i). Par définition, Vt = Xt − ∞ X X
k=0 ψk ²t−k ∈ Ht . Pour s > t, ²s ⊥ Ht , et donc
2
(Vt , ²s ) = 0. Pour s ≤ t, (Vt , ²s ) = (Xt , ²s ) − ψt−s σ qui est égal à 0 par définition de ψk .
(ii). Montrons tout d’abord que Vt ∈ H−∞ X . La preuve se fait par récurrence. Nous avons V ∈ HX
t t
et Vt ⊥ ²t (d’après la propriété précédente). Comme HtX = Ht−1 X ⊕ span{² }, on en déduit
t
que Vt ∈ Ht−1 X . Supposons à présent que V ∈ HX , pour s ≥ 0. Comme V ⊥ ² et que
t t−s t Tt−s
X X ∞
Ht−s = Ht−s−1 ⊕ span{²t−s }, nous P avons Vt ∈ Ht−s−1 . On a donc Vt ∈ H−∞ = s=−∞ HsX .
X X

Il reste à montrer que (Xt − Vt ) = ∞ X


k=0 ψk ²t−k est orthogonal à H−∞ . Pour cela considérons
X
Y ∈ H−∞ . Nous avons :
̰ ! s
X X
(Xt − Vt , Y ) = ψk ²t−k , Y = lim ψk (²t−k , Y )
s→+∞
k=0 k=0

Mais, par définition, Y P X implique que, pour tout t, Y ∈ HX . Comme ²


∈ H−∞ X
t t−k ⊥ Ht−s−1 pour
s X
0 ≤ k ≤ s, nous avons k=0 ψk (²t−k , Y ) = 0. Et donc, pour tout Y ∈ H−∞ , on a :

(Xt − Vt , Y ) = (Ut , Y ) = 0 (4.40)

(iii). Notons que (4.40) implique que, pour tout t, Ut ⊥ H−∞ X et donc HtU = span{Us , s ≤ t} ⊥ H−∞ X .
U X
On peut alors poser Lt = Ht ⊕ H−∞ . La décomposition Xt = Ut + Vt et la propriété précédente
(Vt = (Xt |H−∞X )) impliquent que, pour tout t, HX ⊂ L , et donc ² ∈ L . Comme, pour tout
t t t t
t, ²t ⊥ Ht−u pour tout u ≥ 0, ²t ⊥ Y pour tout Y ∈ H−∞ X , puisque, en particulier, Y ∈ H
P∞ t−u .
Nous avons ² ⊥ H X . Et donc ² ∈ HU . Cela entraı̂ne que ψ ² ∈ H U . Notons que
P∞ t −∞ t t k=1 k t−k t−1
U
k=1 ψk ²t−k = Ut − ²t (ψ0 = 1). Par conséquent, pour tout Y ∈ Ht−1 on a :
à ∞
!
X
Ut − ψk ²t−k , Y = (²t , Y ) = 0
k=1

85
P∞ U
Cela implique que k=1 ψk ²t−k est la projection orthogonale de Ut sur Ht−1 et donc que :
U
²t = Ut − (Ut |Ht−1 )

Cela signifie que ²t est le processus d’innovation de Ut . Comme, par hypothèse, σ 2 = k²t k2 6= 0,
Ut est donc régulier. Remarquons que, comme ²t ∈ HtU , nous avons Ht² ⊂ HtU . Comme, par
construction, HtU ⊂ Ht² , nous avons HtU = Ht² .
(iv). Montrons tout d’abord que, pour tout t, on a :

HtV = span{Vs , s ≤ t} = H−∞


X
(4.41)
X
P+∞
Pour tout t, Vt ∈ H−∞ et donc HtV ⊆ H−∞ X . D’un autre côté, puisque X =
t k=0 ψk ²t−k + Vt ,
HtX = Ht² ⊕ HtV . Et donc, quel que soit Y ∈ H−∞X , alors Y ∈ HX pour tout s, de telle sorte que
s−1
(Y, ²s ) = 0 et donc Y ∈ HtV , ce qui implique que H−∞
X ⊆ HV . Ce qui démontre (4.41). Partant
t
V ) = (V |HX ) = (V |HV ) = V et que kV − (V |HV )k2 = 0 :
de (4.41), on déduit que (Vt |Ht−1 t −∞ t t t t t t−1
Vt est donc déterministe.
¥

86
Chapitre 5

Estimation des processus ARMA

Dans ce chapitre nous nous intéressons aux problèmes de l’estimation des paramètres d’un pro-
cessus ARMA(p, q) à partir d’une suite de n observations. Nous supposons que les données ont été
préalablement traitées de façon à supprimer d’éventuelles tendances affine et/ou saisonnière. L’estima-
tion des paramètres d’un processus ARMA(p, q) comprend aussi, en principe, l’estimation des ordres
p et q. Ce problème est complexe et ne sera pas traité dans ce chapitre. Nous supposons donc que p
et q sont connus et nous nous intéressons uniquement à l’estimation des paramètres {φk ; 1 ≤ k ≤ p},
{θk ; 1 ≤ k ≤ q} et σ 2 intervenant dans l’équation récurrente définissant le processus (voir équation
(1.39) chapitre 1). Dans le cas de l’estimation d’un processus AR(p), on verra que, pour obtenir de
bons estimateurs de {φk ; 1 ≤ k ≤ p} et de σ 2 , il suffit de partir des (p + 1) premiers coefficients
d’autocovariance empirique et de résoudre les équations de Yule-Walker. Cela signifie que, quel que
soit n, les observations n’interviennent, dans l’expression de l’estimateur, que par un nombre fixé, égal
à p + 1, de valeurs de la covariance empirique :
n−h
1X
γ̂n (h) = (Xt+h − µ̂n )(Xt − µ̂n )
n
t=1

−1
Pn
où 0 ≤ h ≤ p et µ̂n = n t=1 Xt . Cela n’est plus vrai pour un processus ARMA(p, q) avec q > 1
(comme par exemple pour un MA(q)) : la construction de bons estimateurs ne peut se faire avec
un nombre fixé (indépendant de n) de valeurs de la suite des covariances empiriques. Cela rend plus
complexe l’estimation ARMA. Il s’en suit que, contrairement au cas de l’estimation AR, il existe de
nombreuses méthodes. La solution retenue en pratique établit un compromis entre biais, variance et
complexité de mise en œuvre.

5.1 Estimation AR
Nous avons établi, chapitre 1, une relation simple (équations (1.36) de Yule-Walker) entre les (p+1)
coefficients du modèle et les (p + 1) premiers coefficients d’autocovariance d’un processus AR(p) causal
défini par l’équation récurrente :

Xt = φ1 Xt−1 + · · · + φp Xt−p + Zt

87
£ ¤T £ ¤T
En posant φ = φ1 . . . φ1 , γ p = γ(1) . . . γ(p) et :
 
γ(0) γ(1) ··· γ(p)
γ(1) γ(0) ··· γ(p − 1)
 
Γp =  . .. 
 .. . 
γ(p) γ(p − 1) · · · γ(0)

les équations de Yule-Walker ont pour expression matricielle :

Γp φ = γ p (5.1)
σ 2 = γ(0) − φT γ p

En substituant, dans ces relations, les covariances γ(h) par les covariances empiriques γ̂(h), on obtient
un système linéaire qui fournit les estimateurs φ̂n et σ̂n2 comme solution de :

Γ̂p φ̂n = γ̂ p (5.2)


T
σ̂n2 = γ̂(0) − φ̂n γ̂ p (5.3)

On a vu chapitre 2 que, si γ̂(0) > 0, alors Γ̂p est de rang plein. En divisant alors les deux membres de
Γ̂p φ̂n = γ̂ p par γ̂(0) et en introduisant l’autocorrélation empirique ρ̂(h) = γ̂(h)/γ̂(0), on aboutit aux
deux équations :

φ̂n = Ĉp−1 ρ̂p (5.4)


σ̂n2 = γ̂(0)(1 − ρ̂Tp Ĉp−1 ρ̂p ) (5.5)
£ ¤T
où ρ̂p = ρ̂(1) . . . ρ̂(p) et :
 
ρ̂(0) ρ̂(1) ··· ρ̂(p)
ρ̂(1) ρ̂(0) ··· ρ̂(p − 1)
 
Ĉp =  . .. 
 .. . 
ρ̂(p) ρ̂(p − 1) · · · ρ̂(0)

Le fait que la matrice R̂p (comme la matrice Ĉp ) soit, par construction, de Toëplitz et de type défini
positif (voir théorème 4.4 chapitre 4) implique que les coefficients estimés φ̂p sont tels que le polynôme
P
φ̂(z) = 1 − pk=1 φ̂k z k a toutes ses racines strictement à l’extérieur du cercle unité : cette façon de
procéder aboutit donc nécessairement à un processus AR(p) causal. Ses (p + 1) premiers coefficients de
covariance coı̈ncident alors avec les coefficients de covariance empiriques. La méthode qui consiste pour
estimer des paramètres à substituer, dans une relation telle que (5.1), les moments par des estimateurs
consistants, porte le nom de méthode des moments. En règle générale, elle conduit à des estimateurs
des paramètres qui sont moins efficaces que ceux obtenus par la méthode des moindres carrés ou
encore par la méthode du maximum de vraisemblance. Cependant, dans le cas d’un modèle AR(p)
gaussien, on montre que les estimateurs φ̂ et σ̂ 2 , donnés par (5.2) et (5.3), ont le même comportement
asymptotique, quand n tend vers l’infini, que ceux du maximum de vraisemblance. Nous avons vu,

88
chapitre 4 exemple 4.13, que les coefficients de l’équation récurrente d’un AR(p) causal sont directement
reliés aux coefficients du meilleur prédicteur linéaire donnant Xt à partir de ses valeurs passées : plus
précisément, pour tout m ≥ p, la suite des m coefficients de prédiction φm = {φ1,m , . . . , φm,m } coı̈ncide
avec {φ1 , . . . , φp , 0, . . . , 0}. Par conséquent, pour un AR(p) causal, l’algorithme de Levinson-Durbin
fournit une résolution rapide aux équations de Yule-Walker. On voit aussi que, si, ne connaissant pas
la vraie valeur de p, on prend un ordre m > p, on peut espérer que les (m − p) derniers coefficients de
prédiction seront de faibles valeurs.
Les théorèmes suivants précisent le comportement asymptotique de la suite φ et permettent alors de
construire des intervalles de confiance ou de fournir des tests d’hypothèse.

Théorème 5.1. Soit Xt un processus AR(p) causal où Zt ∼ IID(0, σ 2 ) et soit un échantillon
{X1 , . . . , Xn } de taille n. On note φ̂n = Ĉp−1 ρ̂p et σ̂n2 = γ̂(0)(1 − ρ̂Tp Ĉp−1 ρ̂p ). Alors, quand n → ∞, on
a : 
 σ̂ 2 →P σ 2
n
√ (5.6)
 n(φ̂ − φ) → N (0, σ 2 Γ−1 )
n d p

Théorème 5.2. Soit Xt un processus AR(p) causal où Zt ∼ IID(0, σ 2 ) et soit un échantillon
−1 ρ̂ où m > p. Alors, quand n → ∞, on a :
{X1 , . . . , Xn } de taille n. On note φ̂n = Ĉm m

n(φ̂n − φm ) →d N (0, σ 2 Γ−1
m ) (5.7)

où φm = {φ1 , . . . , φp , 0, . . . , 0} est la suite du meilleur prédicteur linéaire de Xt en fonction de


{Xt−1 , . . . , Xt−m }.

En particulier, le m-ème coefficient de corrélation partielle k̂n (m) = φ̂m,m vérifie :



n k̂n (m) →d N (0, 1) (5.8)

On en déduit le résultat pratique suivant : si un modèle autorégressive est approprié pour une suite
d’observations, il doit y avoir une valeur m à partir de laquelle les valeurs observées de k̂n (m) sont
compatibles avec la distribution N (0, 1/n). En particulier si m est supérieur à l’ordre du modèle, k̂n (m)

doit être compris entre ±1.96/ n avec une probabilité proche de 95%. Ce résultat suggère d’utiliser

comme estimateur de p la plus petite valeur r au delà de laquelle |k̂n (m)| < 1.96/ n pour tout
m > r. Cette valeur peut servir de valeur initiale à des algorithmes plus performants d’estimation de p.

Exemple 5.1 : Suite des coefficients de réflexion d’un processus AR(2)


Le théorème 5.2 montre que le coefficient de réflexion φm,m pour m > 1 se comporte comme une variable
aléatoire gaussienne de moyenne nulle et de variance de l’ordre de 1/n. Nous avons représenté figure 5.1 les
suites, obtenues au cours de 7 simulations, de φm,m en fonction de m pour un échantillon AR(2) de longueur
n = 500. Les valeurs des paramètres sont φ1 = 1.6, φ2 = −0.9 et σ 2 = 1. Le calcul théorique donne φ1,1 = 0.8,
φ2,2 = −0.9 et, pour m ≥ 2, φm,m = 0. Nous avons aussi représenté l’intervalle de confiance à 95% pour
m ≥ 2.

89
1

0.5

−0.5

m
−1
1 2 3 4 5 6 7 8 9 10

Fig. 5.1 – Suites, obtenues au cours de 7 simulations, des coefficients de


réflexion en fonction de m, pour un échantillon de longueur n = 500 d’un
processus AR(2) défini par φ1 = 1.6, φ2 = −0.9 et σ 2 = 1.

Méthode du maximum de vraisemblance


Considérons un AR(p) causal où Zt ∼ IID(0, σ 2 ) dont la loi de probabilité a pour densité pZ (z; η)
où η désigne un paramètre vectoriel à estimer. Soit (X1 , . . . , Xn ) une observation de taille n. On peut
alors écrire :


Xp+1 = φ1 Xp + · · · + φp X1 + Zp+1

..
 .

X = φ X
n 1 n−1 + · · · + φp Xn−p + Zn

Rappelons que, pour un AR(p) causal (φ(z) 6= 0 pour |z| ≤ 1), les variables aléatoires {X1 , . . . , Xp }
appartiennent à HpZ = span{Zs ; s ≤ p}. Par conséquent, le vecteur aléatoire [X1 , . . . , Xp ] est une
fonction mesurable de {Zs ; s ≤ p}. Comme les variables aléatoires Zt sont supposées (conjointe-
ment) indépendantes, les variables aléatoires {X1 , . . . , Xp } sont indépendantes des variables aléatoires
{Zp+1 , . . . , Zn }. On en déduit que la loi conditionnelle de (Xp+1 , . . . , Xn ) par rapport à (X1 , . . . , Xp )
a pour log-densité :
n
X ¡ ¢
log pXp+1 ,...,Xn |X1 ,...,Xp (x1 , . . . , xn ; θ) = log pZ xk − φT xk ; η (5.9)
k=p+1

où xk = [xk . . . xk−p+1 ]T , φ = [φ1 . . . φp ]T et θ = (φ, η). L’estimateur du maximum de vraisem-


blance consiste à trouver, pour une suite d’observations (x1 , . . . , xn ), la valeur de θ = (φ, η) qui maxi-
mise (5.9). Dans ce contexte, la fonction (5.9) à maximiser s’appelle la log-vraisemblance. D’où le nom
de l’estimateur obtenu. Dans le cas où la loi de Zt est gaussienne, 2 log pZ (z; σ 2 ) = − log(2πσ 2 )−z 2 /σ 2

90
et l’expression (5.9) s’écrit :
n
n−p 1 X
log pXp+1 ,...,Xn |X1 ,...,Xp (x1 , . . . , xn ; θ) = − log(2πσ 2 ) − 2 (xk − φT xk )2
2 2σ
k=p+1
n−p 1
=− log(2πσ 2 ) − 2 kX − X φk2
2 2σ
où X = [xp+1 . . . xn ]T et :
 
xp · · · x1
 xp+1 · · · x2 
 
X = .. 
 . 
xn−1 · · · xn−p

En annulant le gradient de la log-vraisemblance par rapport à φ, il vient X T (X − X φ̂) = 0 dont


on tire φ̂ = (X T X )−1 X T X qui est l’estimateur des moindres carrés. On notera que, contrairement
à la méthode de Yule-Walker, la matrice de type positif X T X , à inverser, n’a pas une structure de
Toëplitz. La conséquence majeure est que la suite des coefficients {φ̂k } qui en sont déduits ne sont pas
nécessairement ceux d’un AR causal. Il peut arriver que les zéros du polynôme φ̂(z) associé soient à
l’intérieur du cercle unité.
Dans le cas où la loi de Zt n’est pas gaussienne, l’expression d’un estimateur du maximum de vraisem-
blance ne possède pas de forme simple et on doit, en général, faire appel à des techniques numériques.

5.2 Estimation MA
Nous avonsPq vu que le modèle MA correspond à un filtre linéaire dont la fonction de transfert
k
θ(z) = 1 + k=1 θk z est un polynôme en z. On rencontre cette modélisation pour les canaux de
propagation comportant des trajets multiples (en nombre fini), chaque trajet introduisant un retard
et/ou une atténuation. C’est, par exemple, le cas des canaux de communication en radio-mobile ou
encore de certains canaux de propagation acoustique. Le problème majeur rencontré en modélisation
MA est l’impossibilité de retrouver à partir des propriétés du second ordre les paramètres du modèle.
En effet la densité spectrale d’un MA a pour expression :
¯ ¯2
σ 2 ¯¯ ¯
q
X ¯
f (λ) = ¯1 + θk e−ikλ ¯
2π ¯ ¯
k=1

Elle ne définit donc pas, de manière unique, un processus MA(q). Tous les processus MA(q) de fonction
de transfert :
m
Y 1 − zs∗ z
θ0 (z) = θ(z)
z − zs
s=1

où {zs }1≤s≤m≤q sont une sous-suite quelconque de m zéros de θ(z), ont même densité spectrale. En
effet (1−zs∗ e−iλ )/(e−iλ −zs ) est de module égal à 1. Par conséquent, partant de f (x), on peut construire
plusieurs processus MA(q) suivant que l’on place un zéro à l’intérieur où à l’extérieur du cercle unité.

91
Nous avons vu théorème 1.10 que, parmi toutes ces solutions, celle qui a tous ses zéros à l’extérieur du
cercle unité est inversible (on dit aussi que le processus est à phase minimale). Sous l’hypothèse que
le processus MA(q) observé est inversible, le problème de la détermination des paramètres à partir de
la suite des covariances a une solution unique. Malheureusement dans certaines situations pratiques,
en particulier en communications numériques, l’hypothèse de phase minimale n’est pas vérifiée. Dans
ce cas il faut faire appel à des statistiques d’ordre supérieur à 2 pour résoudre le problème. Notons
que, dans le cas gaussien, il est donc impossible de résoudre le problème puisque, par définition, les
moments de tout ordre d’une variable gaussienne sont fonction des moments d’ordre 2.
Dans la suite nous supposerons que le MA est inversible.
Exemple 5.2 : Estimation MA(1) : méthode des moments
Soit un processus MA(1) défini par Xt = Zt +θ1 Zt−1 . On suppose que |θ1 | ≤ 1 et donc θ(z) = 1+θ1 z s’annule
en z0 = 1/θ1 qui est à l’extérieur du cercle unité. Le modèle est donc inversible. La fonction d’autocorrélation
s’écrit :
(
θ1 /(1 + θ12 ) si h = ±1
ρ(h) =
0 si |h| ≥ 2

La méthode des moments consiste à substituer à ρ(1) la corrélation empirique ρ̂n (1) et à résoudre par rapport
à θ1 . En supposant que |θ1 | < 1, il vient :


−1 si ρ̂n (1) < −1/2
2 1/2
θ̂1 = (1 − (1 − 4ρ̂n (1)) )/2ρ̂(1) si |ρ̂n (1)| ≤ 1/2


+1 si ρ̂(1) > 1/2

Une fois θ̂1 estimé, on obtient une estimation de σ 2 en utilisant, par exemple, l’expression de γ(1) qui
donne, par la méthode des moments, σ̂ 2 = θ̂1 /γ̂(1). Malheureusement cet estimateur est de performances
inférieures à celles de l’estimateur du maximum de vraisemblance même dans le cas gaussien. De façon
plus précise l’estimateur n’est pas même consistant. Le problème est que l’estimateur précédent est construit
uniquement à partir du couple de statistiques ρ̂n (0) et ρ̂n (1). Or on montre que, quand n tend vers l’infini,
il n’y a pas de statistiques de dimension finie qui soit suffisante. On peut alors envisager de trouver un
estimateur du maximum de vraisemblance. Dans le cas où Zt est un bruit blanc gaussien, la log-vraisemblance
de l’observation a pour expression :

log pX1 ,...,Xn (x1 , . . . , xn ; θ1 , σ 2 ) =


 
x1
n 1 1  
− log(2πσ 2 ) − log det(C(θ1 )) − 2 [x1 ... xn ]C −1 (θ1 )  ... 
2 2 2σ
xn

où Γ(θ1 ) de dimension n × n a pour expression :


 
1 + θ12 θ1 0 ··· 0
 θ1 1 + θ12 θ1 ··· 0 
 
 .
.. .. .. .. 
C(θ1 ) =  . . . 
 
 0 ··· θ1 1 + θ12 θ1 
0 ··· 0 θ1 1 + θ12

La maximisation par rapport à θ1 et σ 2 ne conduit pas des expressions analytiques simples. Par contre nous
verrons un algorithme récursif qui permet de déterminer cet estimateur.

92
Méthode de Durbin
LaPméthode proposée par Durbin s’appuie sur le fait qu’un processus MA(q), défini par Xt =
Zt + qk=1 θk Zt−k , peut être approché par un AR(p) suffisamment P∞long. Plus précisément supposons
k
que θ(z) 6= 0 pour |z| ≤ 1. On a vuPque ψ(z) = 1/θ(z) = 1 − k=1 ψk z où {ψk } est une suite de
module sommable et que Zt = Xt − ∞ k=1 ψk Xt−k . Mais, puisque θ(z) est continue, il existe PM > 0 tel
p
que, pour tout |z| ≤ 1, on a |θ(z)| ≤ M et donc |ψ(z)| ≥ 1/M = m > 0. Posons ψp (z) = 1− k=1 ψk z k .
Alors il existe p suffisamment grand tel que, pour tout |z| ≤ 1, |ψ(z) − ψp (z)| < m/2. On en déduit
que m ≤ |ψ(z)| = |ψ(z) − ψp (z) + ψp (z)| ≤ |ψ(z) − ψp (z)| + |ψp (z)| ≤ m/2 + |ψp (z)| qui implique que
|ψp (z)| ≥ m/2 > 0. En conclusion, pour tout |z| ≤ 1, il existe p suffisamment P grand tel que |ψp (z)| > 0.
On en déduit que le processus défini par l’équation récurrente X̃t = Zt + pk=1 ψk Xt−k est un AR(p)
P h i ³P ´2
causal. De plus Xt − X̃t = ∞ k=p+1 ψ k Xt−k et donc E |Xt − X̃t |2 ≤ γ(0) ∞
k=p+1 |ψ k | qui tend
vers 0 quand p tend vers l’infini.
La méthode de Durbin, qui estime un MA(q) inversible comme un AR(p) causal long, comporte
donc une première étape pour estimer les p coefficients {ψ1 , . . . , ψp } de prédiction linéaire, obtenus
comme solution desP équations de Yule-Walker.
Pq Il faut ensuite estimer la suite {θk }. En principe on a
ψ(z)θ(z) = (1 − ∞ m=1 mψ z m )(1 +
k=1 kθ z k ) = 1. On en déduit que, pour tout h ≥ 1 :

min(h,q)
X
φh−k θk = 0
k=0

où θ0 = φ0 = 1 et φk = −ψk pour k ≥ 1. En adoptant une approche de type moindres carrés, on peut
Pmin(h,q)
alors minimiser la norme du vecteur e de composantes ²h = k=0 φ̂h−k θ̂k où 1 ≤ h ≤ p + q. Ce
qui s’écrit encore :    
−ψ̂1 1 0 ··· 0
 −ψ̂2   .. 
  −ψ̂1 1 . . . . 
 .   
 ..   .. .. ..    
   . . . 0  θ̂1 ²1
−ψ̂   
 p−1   ..   ..   .. 
 0  + −ψ̂p . 1  .  =  . 
   
 .   ..  θ̂q ²p+q
 ..   0 . −ψ̂ 1
   
 .   .. .. .. .. 
 ..   . . . . 
0 0 · · · 0 −ψ̂p

Avec des notations matricielles évidentes, cette équation peut encore s’écrire ψ̂ = −Ψ̂θ̂ +e. La solution
qui minimise eT e a pour expression :

θ̂ = −(Ψ̂T Ψ̂)−1 Ψ̂T ψ̂ (5.10)

On remarque que l’équation (5.10) a la même forme que la solution des équations de Yule-Walker en
prenant pour suite des “observations” les p + 1 quantités {ψ0 = 1, −ψ̂1 , . . . , −ψ̂p }. L’algorithme de
Durbin, qui estime un MA(q) à partir de n données, peut alors se résumer de la façon suivante :

93
· Choisir une valeur de p (q ¿ p ¿ n) et estimer les coeffi-
cients de l’AR(p) à partir des n observations.
· Estimer les coefficients de l’AR(q) à partir des p “obser-
vations” {1, −ψ̂1 , . . . , −ψ̂p }.

Dans la méthode de Durbin, qui estime un MA(q) comme un AR(p) long, se pose le problème du
choix optimal de p. Ce problème ne sera pas traité ici de façon générale. Nous nous limiterons à
l’exemple numérique qui suit et qui montre qu’il y a un compromis à trouver entre biais et variance.
Remarquons à ce sujet que, plus les zéros de θ(z) sont proches du cercle unité, plus la valeur de p doit
être choisie grande si on veut avoir une bonne précision et donc un biais faible. D’un autre côté, plus p
est grand, plus la dispersion de l’estimateur est grande, du fait d’une “mauvaise” estimation de certains
coefficients de covariance. Dans tous les cas la suite d’estimateurs n’est pas consistante. La méthode
peut cependant fournir une bonne valeur d’initialisation pour des algorithmes plus complexes, comme
celui du maximum de vraisemblance.
Exemple 5.3 : Estimation MA(1) : méthode de Durbin
Le tableau 5.1 donne la moyenne, la variance et le risque, estimés empiriquement à partir de 200 réalisations,
de l’estimateur de Durbin pour un processus MA(1) (où θ1 = 0.95) et pour différentes valeurs de p. La taille
de l’échantillon est n = 300. On observe que, quand p augmente, la variance augmente, tandis que la moyenne
et le risque passent par un minimum.

p 20 40 70 120 250
biais −0.1008 −0.0863 −0.0841 −0.0840 −0.0939
variance 0.0007 0.0009 0.0012 0.0016 0.0018
risque 0.0108 0.0083 0.0082 0.0087 0.0106

Tab. 5.1 – Biais, variance et risque empiriques de l’estimateur


de Durbin pour un processus MA(1) pour différentes valeurs de p.

Méthode des innovations partielles


X) =
Pp
Soit un processus MA(q) inversible. On note (Xt |Ht,p k=1 ψk,p Xt−k la prédiction linéaire
X
optimale de Xt à partir de {Xt−1 , . . . , Xt−p } et Zp,t = Xt −(Xt |Ht,p ) le processus d’innovation partielle.
Nous avons vu chapitre 4 que, pour un processus stationnaire au second ordre (voir expression (4.33)),
le processus d’innovation partielle tendait en moyenne quadratique, quand p tend vers l’infini, vers le
processus d’innovation
P qui est précisément Zt pour un MA(q) inversible. D’où l’idée de remplacer dans
l’équation Xt = qk=1 θk Zt−k , le processus Zt par une estimation du processus d’innovation partielle
Ẑp,t . Cette estimation peut être réalisée par une estimation des coefficients de prédiction suivie d’un
filtrage de la suite Xt observée par le filtre à réponse impulsionnelle finie {1, −ψ̂1,p , . . . , −ψ̂p,p }. Une
autre façon est d’estimer les coefficients de corrélation partielle et d’utiliser la structure de filtrage en
treillis donnée figure 4.1. Une fois la suite Ẑp,t estimée, on peut ensuite estimer la suite {θk }, par une

94
approche de type moindres carrés, en minimisant kx − Ẑ θ̂k2 où x = [Xp+q . . . Xn ]T et :
 
Ẑp,p+q . . . Ẑp,p
Ẑp,p+q+1 . . . Ẑp,p+1 
 
Ẑ =  .. 
 . 
Ẑp,n ... Ẑp,n−q+1

On obtient θ̂ = (Ẑ T Ẑ)−1 Ẑ T x. L’un des avantages de cette méthode est qu’elle peut être appliquée à
tout processus ARMA(p, q) causale et inversible.

Méthode du maximum de vraisemblance approchée


P
On considère le processus Xt = Zt + qk=1 θk Zt−k où Zt est un bruit blanc, centré, gaussien. Soit
{X1 , . . . , Xn } une suite de n observations. On peut alors écrire :
 
1 0 ··· ··· 0
        
X1 θ1 1 · · · · · · 0 Z1 Z0 Z1
 ..   .
. . .. . ..   .   .   . 
 . = .
  .  + Θ0 
 . ..  = Θ  ..  + Θ0 Z0
 .. .. 
Xn . . 1 0 Zn Z−(q−1) Zn
0 ··· θ1 1

où Θ0 est une matrice, de dimension n × q, dont seul le triangle supérieur, de dimension q × q, est
constitué de termes non nuls. Comme Zt est un processus aléatoire gaussien, Xt est aussi un processus
aléatoire gaussien. L’approche adoptée ici consiste à négliger le terme Θ0 Z0 . En remarquant que
detΘ = 1, la loi de X a donc pour densité :
 
x1
2 n 2 1 £ ¤  .. 
log pX1 ,...,Xn (x1 , . . . , xn ; θ, σ ) ≈ − log(2πσ ) − 2 x1 · · · xn C(θ)  . 
2 2σ
xn

où C(θ) = (Θ−1 )T Θ−1 . On note ckm (θ) les éléments de C(θ). La maximisation par rapport à σ 2
donne :
n
1 X
σ̂ 2 = ckm (θ)Xk Xm
n
k,m=1

En portant cette expression dans la log-vraisemblance, la maximisation à effectuer est équivalente à


la minimisation, par rapport à θ, de l’expression :
n
X
θ̂ n = arg min ckm (θ)Xk Xm
θ∈Θ
k,m=1

95
5.3 Estimation ARMA
Equations de Yule-Walker pour un ARMA
Considérons un processus ARMA(p, q) causal défini par :
p
X q
X
Xt = φk Xt−k + θk Zt−k + Zt
k=1 k=1
P
où φ(z) = 1− pk=1 φk z k 6= 0 pour |z| ≤ 1. On note γ(h) sa fonction de covariance. Alors en multipliant
les deux membres de l’équation récurrente par Xt−h , en prenant l’espérance et en utilisant le fait que
E [Zt Xt−h ] = 0 pour h ≥ q + 1, il vient :
p
X
γ(h) = φk γ(h − k)
k=1

En regroupant pour q + 1 ≤ h ≤ p + q les p équations sous forme matricielle, on obtient :


 
γ(q) γ(q − 1) · · · · · · γ(q − p + 1)    
 γ(q + 1) γ(q) · · · · · · γ(q + p − 2) φ1 γ(q + 1)
   
 .
.. ..  φ2  γ(q + 2) 
 .  .  =  ..  (5.11)
  .   
 .. ..  . .
 . . 
φp γ(q + p)
γ(q + p − 1) γ(q + p − 2) ··· γ(q)

Cette expression matricielle a une forme analogue aux équations de Yule-Walker d’un AR(p). On no-
tera cependant que la matrice n’est plus symétrique. En substituant aux covariances les covariances
empiriques γ̂(q −p+1), . . . , γ̂(q +p) on obtient une estimation de la suite φk . Contrairement à l’estima-
tion des coefficients d’un AR(p), par la résolution des équations de Yule-Walker, la résolution de (5.11)
ne donne pas nécessairement un polynôme φ̂(z) dont les racines sont toutes strictement à l’extérieur
du cercle unité. Une façon de procéder est de déterminer les racines de φ̂(z) et “d’inverser” celles qui
se trouvent à l’intérieur. Du point de vue spectral, cette construction est justifiée puisqu’elle ne change
pas la densité spectrale. En fait comme pour un processus MA(q) on peut améliorer l’estimation en
partant d’un système sur-dimensionné et en déterminant une solution de norme minimale.
Une fois la suite {φ̂1 , . . . , φ̂p } estimée, il reste à estimer {θP 2
1 , . . . , θq , σ }. Théoriquement si nous dis-
p
posions de la “vraie” suite {φ Pkq}, le processus et = Xt − k=1 φk Xt−k est simplement le processus
MA(q) défini par et = Zt + k=1 θk Zt−k . Une façon simple de procéder est donc de filtrer la suite
{X1 , . . . , Xn } par le filtre de réponse impulsionnelle {1, −φ̂1 , . . . , −φp } puis d’utiliser, par exemple,
la méthode de Durbin pour estimer θ1 , . . . , θq , σ 2 . Une autre façon est d’utiliser à nouveau l’idée de
Durbin qui est que θ(z)/φ(z) peut être approchée par un AR(m) causal suffisamment long. Notons
ψ1,m , . . . , ψm,m la suite des coefficients, obtenus par prédiction linéaire, de ce processus AR. On peut
P Pq Pp
alors écrire que (1 − m k
k=1 ψk,m z )(1 +
k
k=1 θk z ) = 1 −
k
k=1 φ̂k z . En notant ²k les coefficients de

96
z k pour p + 1 ≤ k ≤ m + q et en adoptant des notations matricielles évidentes, on peut écrire :
   
−ψp+1,m −ψp,m · · · −ψp−q+1,m
−ψp+2,m   .. .. 
  −ψp+1,m . . 
 ..   
 .   .. ..    
   . .  θ̂1 ²p+1
 −ψm,m   
   ..   ..   .. 
 0  +  −ψm,m .  .  =  . 
   
 ..   ..  θ̂q ²m+q
 .   0 . 
   
 ..   .. .. .. .. 
 .   . . . . 
0 0 · · · 0 −ψ m,m

qui peut encore écrire, de façon plus compacte, ψ̂ = −Ψ̂θ̂ + e. La solution qui minimise eT e a pour
expression :

θ̂ = −(Ψ̂T Ψ̂)−1 Ψ̂T ψ̂ (5.12)

notons ici que, contrairement à l’expression (5.10), la matrice à inverser dans (5.12) n’est pas une
matrice de Toëplitz et ne peut donc inverser, de façon rapide, par l’algorithme de Levinson.
Comme dans le cas de l’estimation MA(q), aucune de ces deux méthodes n’est vraiment précise.
Toutefois elles fournissent des estimées correctes pour l’initialisation d’algorithmes itératifs.

Méthode du maximum de vraisemblance approchée


P P
Comme dans le cas MA(q), partant de l’équation Xt = Zt + qk=1 θk Zt−k + pk=1 φk Xt−k où Zt
est un bruit blanc, centré, gaussien, on peut écrire :
   
1 0 ··· ··· 0 1 0 ··· ··· 0
−φ1 1 · · · · · · 0         
  Xp Xp−1 θ1 1 · · · · · · 0 Zp Zp−1
 .. .. ..  .  .   ... . . . . . .  . 
 . . .   .  + Φ0 
 ..  =    .  + Θ0  . 
 .. 
  .   .
 .. ..   .. .. 
 . . 1 0 Xn X1 . . 1 0 Zn Zp−q
0 ··· −φ1 1 0 ··· θ1 1

On peut alors déterminer une expression approchée de la log-vraisemblance conditionnelle de


{Xp , . . . , Xn } par rapport à {X1 , . . . , Xp−1 }, en négligeant le terme contenant {Zp−1 , . . . Zp−q }. Il
vient :
 
x1
2 n−p 2 1 £ ¤  .. 
log pXp ,...,Xn |X1 ,...,Xp−1 (x1 , . . . , xn ; θ, φ, σ ) ≈ − log(2πσ ) − 2 x1 · · · xn C(θ, φ)  . 
2 2σ
xn

où C(θ, φ) = (Θ−1 Φ)T Θ−1 Φ. La maximisation de log pX1 ,...,Xn (x1 , . . . , xn ; θ, φ, σ 2 ) par rapport à θ,
φ et σ 2 peut être faite par des techniques numériques.

97
Première partie

Annexes

98
Annexe A

Eléments de probabilité et de
statistique

Nous donnons dans cette annexe quelques éléments succincts de la théorie des probabilités et de
l’estimation statistique

A.1 Eléments de probabilité


A.1.1 Espace de probabilité
On se donne un espace abstrait Ω, appelé espace des épreuves, muni d’une tribu F, c’est à dire
d’une ensemble de parties de Ω vérifiant les propriétés suivantes :
1. Ω ∈ F,
2. si A ∈ F, alors Ac ∈ F (”stabilité par passage au complémentaire”),
S
3. si (An , n ∈ N) est une suite de parties de Ω, alors, n∈N An ∈ F (”stabilité par réunion
dénombrable”)
Un élément ω de Ω est appelé une épreuve ou une réalisation. L’ensemble Ω est souvent appelé
l’ensemble des épreuves ou des réalisations. Un élément d’une tribu s’appelle un un événement (en
théorie de la mesure, de tels éléments sont appelés ensembles mesurables). Deux événements A et B sont
dits incompatibles, si A ∩ B = ∅. L’ensemble vide est appelé l’événement impossible. A l’inverse, Ω est
l’événement certain. Le couple (Ω, F) constitué d’un ensemble d’épreuves et d’une tribu d’événements
est un espace probabilisable. L’ensemble des parties de Ω, P(Ω) est une tribu. Toutes les tribus définies
sur Ω sont des sous-ensembles de P(Ω). L’ensemble {∅, Ω} est aussi une tribu. Cette tribu est contenue
dans toutes les tribus définies sur Ω. L’intersection d’une famille quelconque de tribus est encore une
tribu.

Définition A.1. La tribu engendrée par une classe de parties A de Ω est la plus petite tribu contenant
A (c’est l’intersection de toutes les tribus contenant A)

Notons que toute classe A ⊂ P(Ω), et donc qu’il existe toujours au moins une tribu contenant A. On
note σ(A) la tribu engendrée par A La notion de tribu borélienne est liée à la structure ”topologique”

99
de l’ensemble de base : c’est la tribu engendrée par l’ensemble des ouverts de la topologie. Nous
considérerons dans ce chapitre uniquement la tribu borélienne de Rd , en commençant par le cas le
plus simple de la droite réelle R.

Définition A.2. La tribu borélienne ou tribu de Borel de R est la tribu engendrée par la classe des
intervalles ouverts. On la note B(R). Un élément de cette tribu est appelé une partie borélienne ou un
borélien.

Tout intervalle ouvert, fermé, semi-ouvert, appartient à B(R). Il en est de même de toute réunion
finie ou dénombrable d’intervalles (ouverts, fermés, ou semi-ouverts). La tribu B(R) est aussi la tribu
engendrée par l’une quelconque des quatre classes suivantes d’ensembles :

I = {] − ∞, x]; x ∈ R} I 0 = {] − ∞, x]; x ∈ Q}
J = {] − ∞, x[; x ∈ R} J 0 = {] − ∞, x[; x ∈ Q}

De d d
Qd façon similaire, la tribu borélienne B(R ) de R est la tribu engendrée par les rectangles ouverts
i=1 ]ai , bi [. Le théorème suivant sera d’un usage constant dans la suite

Théorème A.1 (Classe monotone). Soient C ⊂ M ⊂ P(Ω). On suppose que


– C est stable par intersection finie,
– Ω ⊂ M et pour A, B ∈ M, A ⊂ B implique que B \ A ∈ M,
– M est stable par limite croissante
Alors, σ(C) ⊂ M.

Probabilité
Définition A.3. On appelle probabilité sur (Ω, F), une application de P : F → [0, 1], qui vérifie
les propriétés suivantes
1. P(Ω) = 1,
2. (”σ-additivité) si (An , n ∈ N) est une suite d’éléments de F deux à deux disjoints, ( i.e.Ai ∩Aj = ∅
pour i 6= j) Ã !
[ X∞
P Ai = P(Ai ).
n∈N i=1

On vérifie aisément les propriétés suivantes : An ,A et B étant des événements

A ⊂ B, P(A) ≤ P(B), P(Ac ) = 1 − P(A),


P(A ∪ B) = P(A) + P(B) − P(A ∩ B),
[ X
An ↑ B, P(An ) ↑ P(A), An ↓ A, P(An ) ↓ P(A), P( An ) ≤ P(An )
n n

Définition A.4. On dit qu’un ensemble A ⊂ Ω est P-négligeable (ou plus simplement négligeable, s’il
n’y a pas d’ambiguı̈té sur la mesure de probabilité) si il existe un ensemble B ∈ F, tel que A ⊂ B et
P(B) = 0.

100
Remarquons que les ensembles négligeables ne sont pas nécessairement des éléments de la tribu F.
Une propriété est dite P-presque sûre, si la propriété est vérifiée sur un ensemble dont le complémentaire
est P-négligeable.

Définition A.5. Le triplet (Ω, F, P) définit un espace de probabilité.

Définition A.6. On dira que la tribu F est complète si tous les ensembles négligeables de Ω sont
éléments de F.

Il est facile de construire une tribu F 0 qui contient F et d’étendre P à F 0 de telle sorte que F 0 soit
complète pour l’extension de P. Pour éviter des complications techniques inutiles, nous supposerons
désormais que toutes les tribus que nous manipulerons sont complètes. Rappelons pour conclure ce
paragraphe deux résultats techniques d’usage constant.

Définition A.7. On appelle un π-système une famille d’ensembles stable par intersection finie.

Théorème A.2. Soient µ et ν deux mesures sur (E, E) et soit C ⊂ B un π-système. On suppose que
pour tout C ∈ C, µ(C) = ν(C) < ∞. Alors µ(A) = ν(A) pour tout A ∈ σ(C).

Soit E un ensemble. Une famille E0 de sous-ensembles de E est appelé une algèbre si (i) E ∈ E0 ,
(ii) F ∈ E0 =⇒ F c ∈ E0 et (iii) F, G ∈ E0 =⇒ F ∪ G ∈ E0 . Une fonction d’ensembles µ définie sur
E est dite σ-additive,
S S si
Ppour toute union dénombrables d’éléments Fi ∈ E0 , Fi ∩ Fj = ∅, telle que
F
i i ∈ E 0 , µ( F
i i ) = i µ(Fi ).

Théorème A.3 (Théorème d’extension de Carathéodory). Soit E un ensemble et E0 une algèbre sur
E. Soit µ0 une fonction d’ensembles σ-additive, telle que µ0 (E) < ∞. Il existe une unique mesure µ
sur E := σ(E0 ) telle que µ = µ0 sur E0 .
Exemple A.1
Pour illustrer l’utilisation de ce théorème, rappelons la construction de la mesure de Lebesgue (voir chapitre
sur l’intégration sur l’intervalle [0, 1]. Soit C l’ensemble des parties de [0, 1] pouvant s’écrire sous la forme
d’une union finie d’intervalles semi-ouverts, semi-fermés, i.e.F ∈ C si

F = (a1 , b1 ] ∪ · · · ∪ (ar , br ].

On vérifie facilement que C est stable par intersection finie (C est en fait une algèbre). La tribu engendrée
par C, σ(C) = B([0, 1]) est la tribu borélienne sur [0, 1]. Pour F ∈ F0 considérons
X
λ0 (F ) = (bi − ai ).
i

On vérifie que λ0 est une fonction positive et additive. On peut démontrer


S que λ0 est σ-additive,
P i.e.pour toute
union dénombrable d’ensembles Fi ∈ F0 disjoints 2 à 2 tels que i Fi ∈ F0 , λ0 (F ) = i λ0 (Fi ) (cette partie
de la preuve n’est pas immédiate). Le théorème de Carathéodory permet de montrer que λ0 a une extension
unique λ sur B([0, 1]), appelée mesure de Lebesgue sur [0, 1].

A.1.2 Variables aléatoires


Définition A.8. Soit E un espace muni d’une tribu E. On appelle variable aléatoire (en abrégé v.a.)
à valeurs dans E toute application mesurable de (Ω, F) → (E, E).

101
Soit X une v.a. à valeurs dans (E, E). En vertu de la définition précédente, pour tout A ∈ E, on
a X −1 (A) ∈ F. Si E est dénombrable et E = P(E), on dit que X est une v.a. discrète. Si E = R¯+
et E = B(R̄+ ), on dit que X est une v.a. positive. Si E = R et E = B(R), on dit que X est une
v.a. réelle. Si E = Rd et E = B(Rd ), on dit que X est une variable vectorielle (ou vecteur aléatoire).
Soit (Xi , i ∈ I) une famille de v.a. à valeurs dans (E, E) (I étant un ensemble quelconque, non
nécessairement dénombrable).
Définition A.9. On appelle tribu engendrée par (Xi , i ∈ I) la plus petite tribu X de Ω qui soit telle
que tous les v.a. Xi soit X mesurable.
A titre d’illustration, soit Y : Ω → (R, B(R)) une v.a. ; σ(Y ), la tribu engendrée par Y est définie
par
σ(Y ) := ({ω : Y (ω) ∈ B}, B ∈ B(R)).
Si Z : Ω → R est σ(Y )-mesurable, s’il existe une fonction borélienne f : R → R telle que Z = f (Y )
De même, si Y1 , · · · , Yn : Ω → R sont des v.a.,
σ(Y1 , · · · , Yn ) = σ({Yk ∈ Bk }, Bk ∈ B(R), k = 1, · · · , n).
et Z : Ω → R est σ(Y1 , · · · , Yn ) mesurable s’il existe une fonction borélienne f : Rn → R telle que
Z = f (Y1 , · · · , Yn ).

Espérance d’une variable aléatoire


Nous rappelons dans le paragraphe suivant succinctement des éléments de théorie d’intégration. Le
lecteur se reportera avec profit au cours d’intégration. On dit qu’une variable aléatoire X de (Ω, F, P)
à valeurs réelle est étagée si
X n
X= ak IAk
k=1
avec Ak ∈ F, où IA est la fonction indicatrice de A. On note dans la suite eF l’ensemble des variables
étagées. Le résultat suivant est à la base de la construction de l’intégrale
Lemme A.1. Toute v.a. X positive est limite d’une suite croissante de fonctions étagées.
Il suffit de considérer la suite
n2n −1
X k
Xn (ω) = I n n + nIX(ω)≥n
2n {k/2 ≤X(ω)≤(k+1)/2 }
k=0
Pn
L’espérance d’une v.a. étagée X = k=1 ak IAk est définie par
Z n
X
E [X] := X(ω)dP(ω) = ak P(Ak ).
k=1

On remarque facilement que, si X, Y ∈ eF,


E [aX + bY ] = aE [X] + bE [Y ] , andX ≤ Y ⇒ E [X] ≤ E [Y ] .
Le résultat technique suivant est la clef de voûte de la construction

102
Lemme A.2. Soient Xn , Yn ∈ eF deux suites croissantes telles que lim ↑ Xn = lim ↑ Yn . Alors,
lim ↑ E [Xn ] = lim ↑ E [Yn ].

Notons F + l’ensemble des v.a. positives. Soit X ∈ F + . Le lemme A.1 montre qu’il existe une
suite Xn ∈ eF telle que Xn ↑ X ; la monotonicité de l’espérance assure que E [Xn ] ↑ E [X]. On pose
E [X] = lim ↑ E [Xn ]. Le lemme A.2 montre que cette limite ne dépend pas du choix de la suite Xn .
On a en particulier
n2 n
X k
E [X] = lim ↑ P({ω : k/2n ≤ X(ω) < (k + 1)/2n }) + nP({ω : X(ω) ≥ n}).
2n
k=0

Par passage à la limite, on obtient immédiatement que pour tout X, Y ∈ F + , et a, b ∈ R+ ,


E [aX + bY ] = aE [X] + bE [Y ] et que, si X ≤ Y , E [X] ≤ E [Y ]. On dira que X ∈ F + est intégrable si
E [X] < ∞. Notons f F l’ensemble des v.a. mesurables réelles. On pose

L1 = L1 (Ω, F, P) = {X ∈ f F, E [|] X| < ∞}

Si f ∈ L1 , nous définissons X + et X − les parties positives et négatives de X,

X + := X ∨ 0 and X − := (−X) ∨ 0

X + et X − sont des v.a. positives intégrables (car X + ≤ |X| et X − ≤ |X|) , et X = X + − X − .


L’espérance de X est définie par £ ¤ £ ¤
E [X] = E X + − E X − .
Il est facile de voir que L1 est un espace vectoriel (car |X + Y | ≤ |X| + |Y |, et par monotonicité de
l’espérance) et que X → E [X] est une forme linéaire positive. De plus, pour X ∈ L1 , |E [X] | ≤ E [|] X|.

Passages à la limite
Soit Xn une suite de v.a.s. Nous disons que Xn → X P-p.s., si

{ω : lim Xn (ω) = X(ω)}c


n→∞

est P-négligeable. Les propriétés suivantes découlent directement des théorèmes classiques de la théorie
de la mesure (à savoir, le théorème de convergence monotone, ou théorème de Beppo-Levi, le lemme
de Fatou, et le théorème de convergence dominée)

Proposition A.1. – (”Convergence monotone”) si 0 ≤ Xn ↑ X, alors E [Xn ] ↑ E [X] ≤ ∞


– (”Lemme de Fatou”) Si Xn ≥ 0, alors E [lim inf Xn ] ≤ lim inf E [Xn ],
– (”Convergence dominée”) Si, pour tout n ≥ 1, |Xn (ω)| ≤ Y (ω), P-ps, et Y ∈ L1 , alors
limn→∞ E [Xn ] = E [X]

Nous utiliserons de façon très fréquente dans la suite les résultats ci-dessus ; nous donnons toutefois
sans attendre quelques exemples d’applications très utiles :
P P
Exemple A.2 – Soit (Zk ) une suite de v.a.s positives. Alors E [ Zk ] = E [Zk ] ≤ ∞ (application de la
convergence monotone et de la linéarité de l’espérance).

103
P P
– Soit (Zk ) une suite de v.a.s positives, telle que E [Zk ] < ∞. Alors Zk est fini p.s. et donc Zk → 0
p.s.
Nous admettrons le résultat suivant (cf. le cours d’intégration)
Théorème A.4. Soit X une v.a. de (Ω, F) dans (E, E) et P une probabilité sur (Ω, F). La formule
PX (A) := P(X −1 (A)) définit une probabilité sur (E, E), appelée probabilité image de P par X. Cette
probabilité vérifie, pour toute fonction f positive mesurable
Z Z
f ◦ X(ω)dP(ω) = f (x)dPX (x)

Définition A.10. On appelle loi de X la probabilité image de P par X.


La loi d’une variable aléatoire réelle est donc une probabilité sur (R, B(R)). On définit souvent la
loi d’une variable aléatoire en spécifiant une ”densité” par rapport à une mesure positive sur (E, E).
Plus précisément, soit µ une mesure positive et soit g une fonction mesurable positive, telle que
Z
g(x)dµ(x) = 1.
E
Pour A ∈ E, on définit PX : E → [0, 1]
Z
PX (A) = g(x)dµ(x).
A
On vérifie aisément que PX défini par la relation précédente spécifie bien une mesure de probabilité
sur (E, E). Nous donnons ci-dessous quelques exemples élémentaires
– La mesure de Lebesgue sur [0, 1] est une probabilité, que l’on appelle généralement loi uni-
forme sur [0, 1]. Plus généralement, pour a < b, on appelle loi uniforme sur [a, b], la mesure de
probabilité (b − a)−1 I[a,b] (x)dx, où IA est l’indicatrice de l’ensemble A.
– La mesure sur R de densité π −1 (1 + x2 )−1 dx est de masse 1, et définit donc bien une mesure de
probabilité sur R. On remarque que le moment d’ordre 1 de cette mesure est infini. Cette loi est
appelée loi de Cauchy standard.
– La loi de densité pX (x), µ ¶
1 (x − µ)2
pX (x) = √ exp − .
σ 2π 2σ 2
par rapport à la mesure
R de Lebesgue est appelée ”loi gaussienne”. La moyenne de cette loi est
µ et sa variance, (x − µ)2 pX (x)λ(dx) = σ 2 .
Il est souvent pratique de spécifier la loi de probabilité d’une variable aléatoire réelle par la donnée de
sa fonction de répartition, FX : R → [0, 1], définie par
FX (x) = PX (] − ∞, x]) = P(X ≤ x).
La fonction T de répartition est une fonction croissante, continue à droite : on remarque en effet que
] − ∞, x] = ] − ∞, xn ], pour toute suite décroissante xn , telle que limn→∞ xn = x. La σ-additivité
impose donc que FX (x) = limn→∞ F (xn ), et donc plus généralement que limh→0+ FX (x + h) = FX (x).
Un raisonnement similaire montre que limh→0− FX (x + h) = PX (] − ∞, x[) =: FX (x−). La fonction
de répartition FX caractérise la loi PX , puisque pour tout intervalle ]a, b] (b > a), on a PX (]a, b]) =
FX (b) − FX (a) et qu’une mesure borélienne sur R est déterminée par la donnée des masses qu’elle
attribue aux intervalles de ce type (cf. cours d’intégration)

104
Quelques inégalités utiles
L’inégalité élémentaire suivante, appelée inégalité de Markov, joue un rôle fondamental
Proposition A.2. Soit Z une v.a et g : R → [0, ∞] une fonction borélienne croissante. Alors
E [g(Z)] ≥ E [g(Z)I(Z ≥ c)] ≥ g(c)P[Z ≥ c].
En prenant pour g(x) = |x|, nous avons en particulier, pour X ∈ L1 , P[|X| ≥ c] ≤ E [|X|] /c. Une
fonction c : G → R où G est un intervalle ouvert de R est dite convexe si, pour tout x, y ∈ G et tout
p, q, p + q = 1,
c(px + qy) ≤ pc(x) + qc(y).
A titre d’exemples, les fonctions |x|, x2 , eθx sont des fonctions convexes. La proposition suivante est
souvent utiles
Proposition A.3 (Inégalité de Jensen). Soit c : G → R une fonction convexe sur un sous-intervalle
ouvert G de R et soit X une variable aléatoire vérifiant les propriétés suivantes
E [|] X| < ∞, P[X ∈ G] = 1, E [|] c(X)| < ∞
Alors, E [c(X)] ≥ c(E [X]).

Variance, covariance, corrélation


Si la variable X admet un moment d’ordre 2, alors X admet un moment d’ordre 1 (par monotonicité
des semi-normes, L1 ⊂ L2 ). On pose alors,
£ ¤ £ ¤
var(X) := E (X − E [X])2 = E X 2 − (E [X])2
quantité que l’on appelle la variance de X. De même, lorsque X, Y ∈ L2 , nous pouvons définir,
cov(X, Y ) := E [(X − E [X])(Y − E [Y ])] = E [XY ] − E [X] E [Y ]
quantité que l’on appelle la covariance de X et de Y . Les variables aléatoires sont dites décorrélées,
si le coefficient de covariance cov(X, Y ) = 0. Lorsque X := (X1 , · · · , Xd )T , d ∈ N est un vecteur
aléatoire, la matrice de covariance Γ(X) (ou matrice de variance / covariance) est définie comme la
matrice d × d dont les éléments sont donnés par
Γ(X)i,j = cov(Xi , Xj ) 1 ≤ i, j ≤ d
Les éléments diagonaux sont égaux à la variance des variables Xi ; les éléments hors-diagonaux sont
les coefficients de covariance. La matrice de covariance est une matrice symétrique (Γ(X) = Γ(X)T ) et
semi-définie positive. En effet, pour tout d-uplets de nombre réels ou complexes (a1 , a2 , · · · , ad ), nous
avons ¯ ¯2 
¯Xd ¯ X
¯ ¯
E ¯ ai (Xi − E [Xi ])¯  = ai a∗j Γ(X)i,j ≥ 0
¯ ¯
i=1 i,j

Notons que, pour tout vecteur a (déterministe)


Γ(X + a) = Γ(X)
et que, pour M une matrice (déterministe) p × d,
Γ(M X) = M Γ(X)M T .

105
Fonction caractéristique
Dans tout ce paragraphe, X désigne une variable aléatoire à valeurs dans Rd . On note PX sa loi.
L’application ΦX : Rd → C donnée par
Z
ΦX (λ) = E [exp(i(λ, X))] = exp(i(λ, x))PX (dx).
Rd

où (u, v) désigne le produit scalaire usuel dans Rd , s’appelle la fonction caractéristique de X. La
fonction caractéristique est la transformée de Fourier de la loi PX . Nous donnons ci-dessous quelques
propriétés élémentaires de la fonction caractéristique
– ΦX (0) = 1 et |ΦX (λ)| ≤ 1.
– La fonction caractéristique est continue sur Rd . Cette propriété est une conséquence immédiate
de la continuité de l’application λ −→ exp(i(λ, X) et du théorème de convergence dominé.
– Lorsque la loi PX admet une densité g par rapport à la mesure de Lebesgue, alors ΦX est la
transformée de g (au sens usuel). Le théorème de Rieman-Lebesgue implique que ΦX (λ) tend
vers 0 lorsque λ → ∞.
Comme son nom l’indique, la fonction caractéristique ”caractérise” la loi, dans le sens
Proposition A.4. Deux variables aléatoires à valeurs dans Rd ont même loi si et seulement si ΦX =
ΦY .
Le théorème précédent implique en particulier la proposition suivante
Proposition A.5. Soient X = (X1 , · · · , Xn ) ; n variables aléatoires réelles variables aléatoires
(X1 , · · · , Xn ) sont indépendantes si et seulement si
n
Y
ΦX (λ1 , · · · , λn ) = ΦXi (λi )
i=1

Indépendance. Mesures produits


Soient A et B deux événements. On dit que A et B sont indépendants si
P(A ∩ B) = P(A)P(B).
Les propriétés élémentaires des probabilités montrent que les événements A et B c , Ac et B, et Ac et
B c sont aussi indépendants. En effet :
P(Ac ∩ B) = P(Ω ∩ B) − P(A ∩ B) = P(B) − P(A)P(B) = (1 − P(A))P(B).
Les tribus A = {∅, A, Ac , Ω} et B = {∅, B, B c , Ω} sont donc indépendantes, au sens de la définition
suivante
Définition A.11. Soit (Bi , i ∈ I) une famille de tribu. On dit que cette famille est indépendante si,
pour tout sous-ensemble J fini de I,
 
\ Y
P Bj  = P(Bj ), Bj ∈ Bj
j∈J j∈J

106
Le lemme technique suivant donne un critère plus ”pratique” pour vérifier l’indépendance de tribus.

Lemme A.3. Soient G et H deux sous-tribus de F et soit I et J deux π-systèmes tels que G := σ(I) et
H := σ(J ). Alors, les tribus G et H sont indépendantes si et seulement si I et J sont indépendantes,
i.e.
P(I ∩ J) = P(I)P(J), I ∈ I, J ∈ J .

Démonstration. Supposons que les familles I et J sont indépendantes. Pour I ∈ I donné, considérons
les mesures
H → P(I ∩ H) et H → P(I)P(H).
Ces mesures sont définies (Ω, H) et coı̈ncident sur J . Le théorème A.2 montre que ces deux mesures
coı̈ncident sur H
P(I ∩ H) = P(I)P(H), I ∈ I, H ∈ H.
Pour H donné dans H, les mesures

G → P(G ∩ H) et G → P(G)P(H)

sont définies sur G et coı̈ncident sur I. Par le théorème extension, elles coı̈ncident sur G, et donc
P(G ∩ H) = P(G)P(H), pour tout G ∈ G et H ∈ H. ¥

De façon générale, on a

Proposition A.6. Soient (Ci , i ∈ I) une famille de π-systèmes indépendants. Alors les tribus
(σ(Ci ), i ∈ I) sont indépendantes.

Il résulte immédiatement de la définition A.11 que si Bi0 est une sous-tribu de Bi , la famille (Bi0 , i ∈ I)
est une famille indépendante si (Bi , i ∈ I) l’est. Nous avons aussi

Proposition A.7. Si la famille (Bi , i ∈ I) est indépendante et si (Ij , j ∈ J) est une partition de I, la
famille (σ(Bi , i ∈ Ij ), j ∈ J) est indépendante.

De cette définition découle toutes les notions d’indépendance dont nous aurons besoin dans la suite.
Si (Ai , i ∈ I) est une famille d’événements, on dira que cette famille est indépendante si la famille
(σ(Ai ), i ∈ I) l’est. Si (Xi , i ∈ I) est une famille de v.a., on dira que cette famille est indépendante si
la famille (σ(Xi ), i ∈ I) l’est. Si X est une v.a. et G une tribu, on dira que X et G sont indépendantes
si les tribus σ(X) et G sont indépendantes. Enfin, si (Xi , i ∈ I) et (Yj , j ∈ J) sont indépendantes si
les tribus (σ(Xi ), i ∈ I) et (σ(Yj ), j ∈ J) le sont.
Exemple A.3
Soient (X1 , X2 , X3 , X4 ) quatre v.a. indépendantes. Alors, les couples (X1 , X2 ) et (X3 , X4 ) sont indépendants,
puisque les tribus σ(X1 , X2 ) et σ(X3 , X4 ) le sont. Alors Y1 := f (X1 , X2 ) et Y2 = g(X3 , X4 ) (avec f, g
boréliennes) sont indépendantes car σ(Y1 ) ⊂ σ(X1 , X2 ) et σ(Y2 ) ⊂ σ(X3 , X4 ).

Avant d’aller plus loin, rappelons quelques résultats sur les mesures produits (on se reportera avec
profit au cours d’intégration). Soient (E1 , B1 , ν1 ) et (E2 , B2 , ν2 ) deux espaces mesurés et ν1 , ν2 deux
mesures σ-finies. Alors
B1 ⊗ B2 := σ(A1 × A2 , A1 ∈ B1 , A2 ∈ B2 )

107
est une tribu sur E1 × E2 appelée tribu produit de B1 et de B2 et il existe une unique mesure, notée
ν1 ⊗ ν2 définie sur B1 ⊗ B2 telle que

ν1 ⊗ ν2 (A1 × A2 ) = ν1 (A1 )ν2 (A2 ), A1 ∈ B1 , A2 ∈ B2 .

Pour toute fonction borélienne positive ou bornée f , nous avons (théorème de Fubini)
Z Z µZ ¶
f d(ν1 ⊗ ν2 ) = f (x1 , x2 )dν1 (x1 ) dν2 (x2 ),
Z µZ ¶
= f (x1 , x2 )dν2 (x2 ) dν1 (x1 )

Ces résultats s’étendent directement pour le produit de n espaces. Il résulte alors de ces rappels et du
théorème de classe monotone que

Théorème A.5. Soient (X1 , · · · , Xn ) des v.a. à valeurs dans (Ei , Ei ), i ∈ {1, · · · , n}. Il y a équivalence
entre
1. les v.a X1 , · · · , Xn sont indépendantes,
2. Pour tout Ak ∈ Ek ,
n
Y
P[X1 ∈ A1 , · · · , Xn ∈ An ] = P[Xk ∈ Ak ]
1

3. Pour tout Ak ∈ Ck , avec Ck π-système tel que σ(Ck ) = Ek ,


n
Y
P[X1 ∈ A1 , · · · , Xn ∈ An ] = P[Xk ∈ Ak ]
1

4. La loi du vecteur aléatoire (X1 , . . . , Xn ), notée P(X1 ,··· ,Xn ) est égale au produit des lois des v.a
Xk ,
P(X1 ,··· ,Xn ) = PX1 ⊗ · · · ⊗ PXn .

5. Pour toutes fonctions fk boréliennes positives (respectivement bornées, respectivement fk ∈


L1 (Ek , Ek , Pk )),
n
Y
E [f1 (X1 ) · · · fn (Xn )] = E [fk (Xk ]
1

Exemple A.4
Soient X, Y deux v.a.r. Alors, vu que σ([a, b[, a < b ∈ R) = B(R), il résulte du théorème précédent que X et
Y sont indépendantes si et seulement si

P(a ≤ X < b, c ≤ Y < d) = P(a ≤ X < b)P(c ≤ Y < d),

pour tout a, b, c, d. Dans ce cas, si E [|] X| < ∞, E [|] Y | < ∞, on a E [XY ] = E [X] E [Y ], résultat que l’on
utilise sans cesse en probabilité.

108
A.1.3 Espaces Lp (Ω, F, P) et Lp (Ω, F, P)
Soit (Ω, F, P) un espace de probabilité. Pour p > 0, on dit que X admet un moment d’ordre p
Z
E [|X|p ] = |X(ω)|p P (dω) < ∞.

Nous notons Lp (Ω, F, P) l’ensemble des variables aléatoires définies sur (Ω, F, P) admettant un moment
d’ordre p. Nous notons, pour X ∈ Lp , kXkp = E [|X|p ]1/p . Il est facile de voir que la fonction k • kp :
(Ω, F, P) 7→ R est positive. Cette fonction vérifie aussi l’inégalité triangulaire, appelée dans ce contexte,
inégalité de Minkovski
kX + Y kp ≤ kXkp + kY kp .
L’inégalité de Minkovski montre que, pour tout X, Y ∈ Lp (Ω, F, P) et tout α, β ∈ R, nous avons

kαX + βY kp ≤ |α|kXkp + |β|kY kp

et donc que Lp (Ω, F, P) est un espace vectoriel sur R. On omettra la dépendance en (Ω, F, P) lorsqu’il
n’y a pas d’ambiguı̈té sur l’espace de probabilité sous-jacent. La fonction x 7→ kxkp est positive et
vérifie l’inégalité triangulaire. Ce n’est toutefois pas une norme, car la relation kXkp = 0 entraı̂ne
seulement que X = 0 P-p.s (P(ω, X(ω) = 0) = 1). On dit que k • kp est une semi-norme. Comme nous
le verrons ci-dessous, il est possible de “quotienter” l’espace par la relation d’équivalence

X ≡ Y ⇐⇒ P[{ω ∈ Ω, X(ω) = Y (ω)}] = 1

On note Lp (Ω, F, P) l’espace quotient de L(Ω, F, P) par la relation d’équivalence ≡. Les éléments
de Lp (Ω, F, P) sont des classes d’équivalence. Si X et Y sont deux éléments de la même classe
d’équivalence, alors kXkp = kY kp . Lorsque l’on choisit un élément d’une classe d’équivalence on dit
que l’on choisit une version de X : X désigne selon les cas sa classe ou une version de la classe. Les
(semi)-normes k • kp sont monotones dans le sens suivant

Proposition A.8. Soit 1 ≤ p ≤ r < ∞ et Y ∈ Lr . Alors, Y ∈ Lp et kY kp ≤ kY kr .

Cette dernière inégalité découle directement de l’inégalité de Jensen appliquée avec c(x) = xr/p .
L’inégalité suivante est souvent utile

Proposition A.9. Soient p, q ≥ 1 tels que p−1 + q −1 = 1. Nous avons (inégalité de Hölder)

kXY k1 ≤ kXkp kY kq .

La proposition suivante (en particulier lorsque p = 2) joue un rôle clef.

Proposition A.10. Soit p ∈ [1, ∞). Soit (Xn ) une suite de Cauchy dans Lp (Ω, F, P), i.e.,

lim sup kXr − Xs kp = 0.


k→∞ r,s≥k

Il existe une variable aléatoire X ∈ Lp telle que Xr → X dans Lp , i.e. kXr − Xkp → 0. De plus, on
peut extraire de Xn une sous-suite Yk = Xnk qui converge vers X P-p.s.

109
Démonstration. C’est un résultat classique d’analyse ; nous en donnons toutefois une démonstration
de nature ”probabiliste” afin d’illustrer les résultats et les techniques introduites précédemment. Soit
kn ↑ ∞ une suite telle que
∀(r, s) ≥ kn , kXr − Xs k ≤ 2−n
Nous avons, par monotonicité des semi-normes k • kp , nous avons pour p ≥ 1,
£ ¤
E |Xkn+1 − Xkn | ≤ kXkn+1 − Xkn kp ≤ 2−n ,

ce qui implique, en appliquant le théorème de Fubini, que


hX i
E |Xkn+1 − Xkn | < ∞.

Ceci implique que la série de terme général Un := (Xkn+1 − Xkn ) converge absolument P-p.s., et donc
que X
Un = lim Xkn
n
n≥1

existe P-p.s. Définissons, pour tout ω ∈ Ω

X(ω) := lim sup Xkn (ω)

X est une v.a. (en tant que limite supérieure d’une suite de v.a.s) et limn Xkn = X, P-p.s. Soit ² > 0
et soit m tel que 2−m ≤ ². Pour tout r ≥ km , et tout n ≥ m, nous avons

kXr − Xkn kp ≤ ²

et l’application du lemme de Fatou montre que


µZ ¶1/p
p
kXr − Xkp ≤ lim inf |Xr (ω) − Xkm (ω)| P(dω) ≤ lim inf kXr − Xkn kp ≤ ².
m n

et donc limr→∞ kXr − Xkp = 0. L’inégalité de Minkovski montre que

kXkp ≤ kXr − Xkp + kXkp

et donc que X ∈ Lp . ¥

Le résultat précédent permet de montrer que l’espace quotient Lp (Ω, F, P) est complet.

A.1.4 Variables aléatoires Gaussiennes


Définition A.12 (v.a. gaussienne standardisée). On dit qu’une variable X est Gaussienne standar-
disée (ou standard) si la loi de X admet la densité (par rapport à la mesure de Lebesgue)

1 x2
f (x) = √ exp(− ). (A.1)
2π 2

110
Définition A.13. On dit qu’une variable aléatoire X est gaussienne de moyenne m et de variance
σ 2 , s’il existe une variable gaussienne standard Z telle que X = m + σZ.
Lorsqueσ > 0, X admet une densité par rapport à la mesure de Lebesgue sur R, densité donnée
par
1 (x − m)2
fm,σ2 (x) = √ exp(− ). (A.2)
2πσ 2σ 2
On note cette densité N (m, σ 2 ). Par abus de langage, nous identifierons les variables gaussiennes de
variance nulle aux mesures de Dirac au point m. Un calcul élémentaire montre que, pour tout λ ∈ R,
Z ∞
1 x2 λ2
√ exp(− ) exp(λx)dx = exp( ).
−∞ 2π 2 2
Par prolongement analytique, la fonction caractéristique d’une variable gaussienne standard est donc
donnée par
ΦX (λ) = exp(−λ2 /2).
Notons que si X est une variable aléatoire de fonction caractéristique ΦX (λ), la fonction caractéristique
de la variable aléatoire Y = a + bX est donnée par

ΦY (λ) = exp(iλa) exp(−b2 λ2 /2)

Par conséquent, la fonction caractéristique de la loi normale de moyenne m et de variance σ 2 est


donnée par
ΦX (λ) = exp(iλm − λ2 σ 2 /2) (A.3)
On en déduit la proposition suivante
Proposition A.11. Soient Xi , i ∈ {1, . . . , d}, d v.a.r gaussiennes indépendantes de moyenne µi et de
variance σi2 et soient ai ∈ R, i ∈ {1, · · · , d}. La v.a.r Y = a1 X1 + · · · + ad Xd est une v.a.r gaussienne
P P
de moyenne di=1 ai mi et de variance di=1 a2i σi2 .
Démonstration. en utilisant la proposition A.5, la fonction caractéristique de Y est donnée par
d
Y
φY (t) = φXk (ak t), (A.4)
k=1
" d d
#
X X
= exp it ak mk − a2k σk2 t2 /2 , (A.5)
k=1 k=1

et on conclut en utilisant la proposition A.4. ¥

Définition A.14 (vecteur gaussien). Un vecteur aléatoire X = [X1 , · · · , Xd ]T est dit gaussien, si
pour tout vecteur a ∈ Rd , aT X := a1 X1 + · · · + ad Xd est une v.a.r. gaussienne
Cette définition implique en particulier que chaque composante Xk est une v.a.r gaussienne. A
l’inverse, le fait que toutes les variables Xk soient gaussiennes ne suffit pas pour assurer que le vecteur
X est gaussien. Par construction, la famille de lois gaussiennes est stable par transformation linéaire.
Plus précisément

111
Lemme A.4. Soit X un vecteur gaussien à valeurs dans Rd de moyenne m et de matrice de covariance
K. Pour tout b ∈ Rr , et toute matrice M de dimension (r × d), le vecteur aléatoire Y = b + M X est
un vecteur gaussien à valeurs dans Rr , de moyenne b + M m et de covariance M KM T .
En effet, pour tout vecteur a ∈ Rr , aT Y = aT b + (aT M )X est une v.a. gaussienne. On a E [Y ] =
m + M E [X] et K(Y ) = M KM T . Le théorème de caractérisation suivant joue un rôle central
Théorème A.6. Soit X un vecteur aléatoire de moyenne m et de matrice de covariance K. Le vecteur
X est gaussien si et seulement si sa fonction caractéristique est donnée par
1
φX (λ) = exp[iλT m − λT Kλ]
2
Ce théorème montre que toute loi gaussienne est déterminée par la donnée de sa moyenne et de sa
matrice de covariance. Lorsque la matrice de covariance K est inversible, la loi d’un vecteur aléatoire
gaussien de moyenne m et de covariance K a une densité par rapport à la mesure de Lebesgue sur Rd
et cette densité est donnée par
µ ¶
1 1 T −1
p(x; m, K) = √ d p exp − (x − m) K (x − m)
2π det(K) 2

La loi d’un vecteur gaussien étant entièrement spécifiée par la donnée de sa moyenne et de sa matrice
de covariance, les notions d’indépendance et de décorrélation sont confondues (propriété qui n’est pas
vérifiée de façon générale).
Théorème A.7. Soit Y = [Y1 , · · · , YnT ]T un vecteur gaussien ((d1 + · · · + dn ) × 1). Les vecteurs Yi
(di × 1, i ∈ {1, · · · , n}) sont indépendants si et seulement si, pour toute suite de vecteurs ai (di × 1,
i ∈ {1, · · · , n}) cov[aTi Yi , aTj Yj ] = 0, i 6= j ∈ {1, · · · , n}.

A.1.5 Modes de convergence et Théorèmes limites


Les théorèmes limites sont au coeur même de la théorie des probabilités. Nous ne donnons ici que
quelques définitions et énoncés essentiels, en nous limitant aux notions que nous utiliserons dans la
suite. Le lecteur se reportera à Resnick ou Williams pour une introduction. Introduisons tout d’abord
les différents ”modes” de convergence. Soit (Xn , n ∈ N) une famille de v.a. définies sur un espace de
³P ´1/2
d
probabilité (Ω, F, P) et à valeurs dans (Rd , B(Rd )). On note |x| = x
k=1 k
2 la norme euclidienne.
Soit finalement X une v.a. définie sur (Ω, F, P) et à valeurs dans (Rd , B(Rd )).
Définition A.15 (Convergence p.s.). On dit que Xn converge presque-sûrement vers X (on note :
Xn →P−p.s. X) si et seulement si
n o
P ω : lim Xn (ω) = X(ω) = 1.
n→∞

De façon équivalente, Xn →P−p.s. X si et seulement si , pour tout δ > 0,


 
[ 
lim P {|Xk − X| ≥ δ = 0.
n→∞  
k≥n

112
Définition A.16 (Convergence dans Lr ). On dit que Xn converge dans Lr vers X (on note : Xn →Lr
X) si et seulement si
lim E [|Xn − X|r ] = 0.
n→∞

Définition A.17 (Convergence en probabilité). Soit {Xn } une suite de variables aléatoires et X une
autre variable aléatoire, toutes définies sur le même espace de probabilité {Ω, F, P }, à valeurs dans
Rk . On dit que Xn converge en P-probabilité vers X et l’on note Xn →P X, si et seulement si, pour
tout δ > 0, limn→∞ P [kXn − Xk > δ] = 0 où k · k désigne la norme euclidienne dans Rk .

Définition A.18 (Convergence en loi). On dit que Xn converge en loi (ou en distribution) vers X et
l’on note Xn →d X, si et seulement si l’une des trois conditions équivalentes est satisfaite :
1. pour toute fonction f continue bornée Rd → R,

lim E [f (Xn )] = E [f (X)] .


n→∞

2. pour tout u := (u1 , · · · , ud ),


£ ¤ £ ¤
lim E exp(iuT Xn ) = E exp(iuT X) ,
n→∞

3. Pour tout pavé A = [a1 , b1 ] × · · · × [ad , bd ] tel que P(X ∈ ∂A) = 0 (où ∂A désigne la frontière de
A),
lim P(Xn ∈ A) = P(X ∈ A).
n→∞

Le théorème suivant permet de hiérarchiser les différents modes de convergence.

Théorème A.8. 1. Si Xn →P−p.s. X, alors Xn →P X.


2. Si Xn →Lr X, alors Xn →P X.
3. Si Xn →P X, alors Xn →d X.
4. Si Xn →P X, alors on peut extraire une sous-suite (Xnk , k ∈ N), telle que Xnk →P−p.s. X.

Théorème de Helley et preuve du Théorème d’Herglotz


Théorème A.9. Soit µn une suite de probabilité sur (R, B(R), telle que, pour tout ² > 0, il existe
un ensemble compact K² , tel que µn (K² ) ≥ (1 − ²). Alors, pour toute sous-suite {µnk }, il existe une
sous-suite {µnk(j) } extraite de {µnk } et une probabilité µ telle que µnk(j) →d µ faiblement.

La suite γ étant de type positif, gN (t) ≥ 0. Notons µN la mesure (positive) de densité gN par
rapport à la mesure de Lebesgue sur T. On a
Z π µ ¶
−ipt |p|
µ̂N (p) = gN (t)e dt = 1 − γ(−p).
−π N

pour |p| ≤ N . En particulier on a µN (T) = γ(0). De toute sous-suite {νk = µNk } de la suite {µN }, on
peut extraire une sous-suite {νk } qui converge étroitement vers une mesure positive µ (dépendant a

113
priori du choix de la sous suite) de masse totale c(0) (théorème de Prohorov). On a, pour tout p pour
tout p ∈ Z
µ̂(p) = lim µ̂k (p) = γ(−p)
k

La limite ν̂(p) ne dépend pas du choix de la sous-suite, et donc de toute sous-suite de la suite {µN }, on
peut extraire une sous-suite qui converge
P vers la même mesure limite µ. On en déduit que la suite µN
converge étroitement vers µ. Lorsque k |γ(k)| < ∞, alors gN (t) converge vers f (t) par application
du théorème de convergence dominé. Les théorèmes suivants sont à la base des statistiques.

Théorème A.10 (Loi forte des grands nombres). Soient (Xn , n ∈ N) une suite de v.a. indépendantes
et identiquement distribuées (i.i.d) telles que E [|] X1 | < ∞. Alors,
n
1X
Xi →P−p.s. µ =: E [X1 ] .
n
i=1
Pn
Ce théorème montre que la moyenne empirique n−1 i=1 Xi d’une suite de v.a i.i.d intégrables
converge p.s. vers la moyenne de ces variables.

Théorème A.11 (Théorème


£ ¤de la limite centrale). Soient (Xn , n ∈ N) une suite de v.a. i.i.d. telles
que E [Xi ] = µ et E (Xi − µ)2 = σ 2 < ∞. Alors,
n
1 X
√ (Xi − µ) →d N (0, σ 2 ).
n
i=1
P
Ce théorème permet d’évaluer la ”vitesse” à laquelle la moyenne empirique n−1 n1 Xi converge
vers la moyenne E [X1 ] =: µ. Ceci permet en particulier de déterminer, en statistique, des intervalles
de confiance.

A.1.6 Espérance conditionnelle


Nous allons voir que, dans le cadre des variables aléatoires de carré intégrable, l’espérance condi-
tionnelle par rapport à une sous-tribu B est la projection orthogonale sur l’ensemble des variables
aléatoires de carré intégrable qui sont B-mesurables. Ainsi E [X|Y ] peut être vue comme la fonction
de Y qui fournit la meilleure prédiction quadratique de X. En général cette fonction n’est pas linéaire
de Y sauf dans le modèle gaussien. Nous allons tout d’abord donner une définition élémentaire de
l’espérance conditionnelle à partir d’événements simples, puis nous étendrons cette définition aux
variables aléatoires de carré intégrable. Enfin nous donnerons une définition plus générale pour les
variables aléatoires posotives ou intégrables.

Construction élémentaire
Soit (Ω, F, P) un espace de probabilité. Soit B ∈ F un événement tel que P(B) > 0 et A ∈ F un
autre événement. On appelle probabilité conditionnelle de A sachant B la quantité :

P(A ∩ B)
P(A|B) =
P(B)

114
En notant IA la variable aléatoire qui vaut 1 si ω ∈ A et 0 sinon (indicatrice de A), on peut alors
écrire que : Z
1
P(A|B) = IA dP
P(B) B
que l’on note E [IA |B]. En généralisant cette expression à toute variable aléatoire X intégrable, on
définit l’espérance conditionnelle de X sachant B par la quantité :
Z
1
E [X|B] = XdP
P(B) B
L’espérance conditionnelle E [X|B] représente l’espérance de la variable aléatoire X sachant que
l’événement B s’est réalisé.
Exemple A.5
Soit X une variable aléatoire à valeurs dans l’ensemble des entiers naturels N. La loi de X est spécifiée
P par
la donnée des probabilités pk = P(X = k), pour k ∈ N. La moyenne
P de X est donnée par E [X] = k∈N kp k.
Considérons l’événement B = {X ≥ k0 }. Nous avons P(B) = k≥k0 pk que nous supposerons non nul par
hypothèse. L’espérance conditionnelle de X sachant B est donnée par :
1 X
E [X|B] = P kpk
k≥k0 pk k≥k0

Considérons maintenant la tribu B = {∅, Ω, B, B c } (c’est-à-dire la plus petite tribu contenant B).
On appelle l’espérance conditionnelle de X sachant la tribu B la variable aléatoire, notée E [X|B] et
définie par :
E [X|B] = E [X|B] IB + E [X|B c ] IB c
Cette variable aléatoire prend, suivant le résultat de l’expérience, soit la valeur E [X|B] soit la valeur
E [X|B c ]. De façon plus générale, si {Bk , k ≥ 0} désigne une famille d’événements formant une partition
de Ω et telle que P(Bk ) > 0 et si B est la plus petite tribu engendrée par ces événements, on définit
l’espérance conditionnelle de X sachant B par la variable aléatoire :
X
E [X|B] = E [X|Bk ] IBk (A.6)
k≥0

On
R remarque que
R la variable aléatoire E [X|B] est B-mesurable et que, pour tout B ∈ B,
B E [X|B] dP = B XdP . On a donc la caractérisation suivante :

Proposition A.12. L’espérance conditionnelle de la variable aléatoire X sachant la tribu B est


l’unique variable aléatoire E [X|B] qui soit B-mesurable et telle que, pour tout B ∈ B, on ait :
Z Z
E [X|B] dP = XdP (A.7)
B B

D’après l’équation (A.7), on remarque que, pour tout B ∈ B, on a :


Z
(E [X|B] − X)IB dP = 0

P
et donc que toute variable aléatoire B-mesurable de la forme Y = k≥0 yk IBk (où yk est une suite de
réels), E [(E [X|B] − X)Y )] = 0.

115
Espérance conditionnelle pour les variables aléatoires de carré intégrable
Le théorème A.12, qui suit, généralise la notion précédente d’espérance conditionnelle aux variables
aléatoires de carré intégrable. Ce théorème est la conséquence directe de la structure Hilbertienne de
l’ensemble L2 (Ω, B, P) des variables aléatoires de carré intégrable et du théorème 4.2 de projection.

Théorème A.12. Soit {Ω, F, P} un espace de probabilité et B ⊂ F une sous-tribu de F. On note


L2 (Ω, F, P) (resp. L2 (Ω, F, P)) l’espace des variables aléatoires F-mesurables (resp. B-mesurables)
de carré intégrable. Soit X une variable aléatoire de L2 (Ω, F, P). Alors il existe une unique va-
riable aléatoire appartenant à L2 (Ω, B, P), notée E [X|B] et qui vérifie simultanément, pour tout
Y ∈ L2 (Ω, B, P), les deux relations suivantes :

kX − E [X|B] k2 ≤ kX − Y k2 (A.8)
(X − E [X|B] , Y ) = 0 (A.9)

Remarquons, que, si B est une sous-tribu de F, l’espace L2 (Ω, B, P) est un sous-espace linéaire de
L2 (Ω, F, P), fermé par application de la proposition A.10. Nous pouvons donc appliquer le théorème de
projection. Le théorème A.12 donne un sens à l’espérance conditionnelle pour des variables aléatoires
de carré intégrable. Pour étendre cette définition aux variables aléatoires positives et/ou intégrables,
nous avons besoin du lemme élémentaire d’unicité suivant :

Lemme A.5. Soient X et Y deux variables aléatoires B-mesurables toutes deux positives ou toutes
deux intégrables vérifiant, pour tout B ∈ B :
Z Z
XdP ≥ Y dP (resp. =)
B B

Alors, X ≥ Y (resp. =) P-p.s.

Théorème A.13. Soit X une variable aléatoire positive (resp. intégrable). Il existe une variable
aléatoire Y positive (resp. intégrable) B-mesurable, telle que, pour tout B ∈ B, on ait :
Z Z
XdP = Y dP
B B

Cette variable est unique à une équivalence près.

Démonstration. L’unicité découle du lemme A.5. Montrons l’existence. On suppose tout d’abord que
X ≥ 0. Pour n ∈ N, définissons Xn = X ∧ n := min(X, n). Xn ∈ L2 (Ω, F, P), et il existe donc une v.a.
Yn ≥ 0, B-mesurable, unique à une équivalence près, telle que, pour tout B ∈ B, on ait :
Z Z
Xn dP = Yn dP
B B

Par application de A.5, Yn est P-p.s. une suite positive et croissante. En effet, pour tout B ∈ B, on a :
Z Z Z Z
Yn+1 dP = Xn+1 dP ≥ Xn dP = Yn dP
B B B B

116
Définissons Y = lim ↑ Yn . Y est B-mesurable, et par application du théorème de Beppo-Levi, pour
tout B ∈ B, on a : Z Z Z Z
Y dP = lim ↑ Yn dP = lim ↑ Xn dP = XdP
B B B B
Notons que, si X est intégrable, alors Y l’est aussi (prendre B = Ω). Pour étendre le résultat au cas
intégrable, nous allons prouver que, pour X, Y deux v.a. positives intégrables, et pour a, b ∈ R, nous
avons (linéarité de l’espérance conditionnelle) :

E [aX + bY |F] = aE [X|F] + bE [Y |F]

Il suffit en effet de remarquer que, pour tout B ∈ B, on a :


Z Z Z
R
B E [aX + bY |F] dP = (aX + bY )dP = a XdP + b Y dP
BZ Z B Z
=a E [X|B] dP + b E [Y |B] dP = (aE [X|B] + bE [Y |B])dP
B B B

et on conclut en utilisant A.5. Pour X ∈ L1 (Ω, F, P), on pose X = X + − X − , où X + = max(X, 0)


et X − = max(−X, 0) (on rappelle que, par définition, si X ∈ L1 (Ω, F, P), on a E [|X|] < +∞ et donc
on a aussi E [X + ] < +∞ et E [X − ] < +∞) et nous concluons en utilisant l’existence de l’espérance
conditionnelle pour les variables aléatoires positives et la linéarité de l’espérance conditionnelle. ¥

Proposition A.13. On note L1 (Ω, F, P) l’ensemble des variables aléatoires intégrables définies sur
l’espace de probabilité {Ω, F, P}. On note B une sous-tribu de F.
1. Pour tout couple de variables aléatoires X, Y ≥ 0 (resp. ∈ L1 (Ω, F, P)) et pour tout couple de
constantes a, b ≥ 0 (resp. réelles), on a E [aX + bY |B] = aE [X|B] + bE [Y |B].
2. Pour tout couple de variables aléatoires X, Y ≥ 0 (ou ∈ L1 (Ω, F, P)), l’inégalité X ≤ Y P-p.s.
implique E [X|B] ≤ E [Y |B] P-p.s.
3. Pour tout couple de variables aléatoires X, Y ≥ 0 (ou ∈ L1 (Ω, F, P)) où Y est B-mesurable, on
a E [(X − E [X|B])Y ] = 0.
4. Pour toute variable aléatoire X ∈ L1 (Ω, F, P) et toute variable aléatoire Y bornée et B-mesurable,
on a E [(X − E [X|B])Y ] = 0.

La proposition, qui suit, regroupe des propriétés essentielles de l’espérance conditionnelle.

Proposition A.14. On note L1 (Ω, F, P) l’ensemble des variables aléatoires intégrables définies sur
{Ω, F, P}.
1. Soit G la tribu grossière : G = {Ω, ∅}. Alors, pour tout X ≥ 0 (ou X ∈ L1 (Ω, F, P)), on a
E [X|G] = E [X].
2. Soit A ⊂ B deux sous-tribus de F. Alors, pour toute variable aléatoire X ≥ 0 (ou X ∈
L1 (Ω, F, P)), on a :
E [E [X|B] |A] = E [X|A]
3. Soit X ≥ 0 (ou X ∈ L1 (Ω, F, P)) une variable aléatoire indépendante de B alors on a E [X|B] =
E [X].

117
4. Soit X ≥ 0 (ou X ∈ L1 (Ω, F, P)) et Y ≥ 0 (ou Y ∈ L1 (Ω, F, P)) une variable aléatoire B-
mesurable, alors on a E [XY |B] = Y E [X|B].
Démonstration. Les fonctions mesurables par rapport à la tribu grossière sont les fonctions constantes.
Or, pour tout B ∈ G (B = ∅ ou B = Ω), on a :
Z Z
E [X] dP = XdP
B B

et donc la fonction constante E [X] vérifie (A.7), ce qui prouve le point (1). Prouvons maintenant (2).
Soit Y une variable aléatoire A-mesurable bornée. Notons que A ⊂ B implique que Y est aussi B-
mesurable. Par conséquent, par définition de l’espérance conditionnelle appliquée à la variable aléatoire
Z = E [X|B], on a successivement :

E [E [Z|A] Y ] = E [ZY ] = E [XY ] = E [E [X|A] Y ]

et donc, pour toute variable aléatoire Y qui est A-mesurable bornée, on a E [E [Z|A] Y ] = E [E [X|A] Y ].
Ce qui entraı̂ne que les deux variables aléatoires A-mesurables E [Z|A] et E [X|A] coı̈ncident, ce qui
prouve (2). Soit maintenant X une variable aléatoire indépendante de B. Alors, par définition de
l’indépendance, pour toute variable aléatoire Y qui est B-mesurable bornée, on a E [XY ] = E [X] E [Y ].
On en déduit que :
E [E [X|B] Y ] = E [XY ] = E [X] E [Y ] = E [E [X] Y ]
ce qui prouve (3). Considérons finalement (4). On a, pour toute variable aléatoire Z bornée B-
mesurable :
E [E [XY |B] Z] = E [Y XZ] = E [(E [Y |B] X)Z]
la dernière égalité est justifiée puisque XZ est B-mesurable. Comme la variable aléatoire E [Y |B] X
est elle-même B-mesurable, elle s’identifie à E [XY |B]. Ce qui prouve (4). ¥

Proposition A.15. Les propriétés suivantes sont l’extension à l’espérance conditionnelle de propriétés
fondamentales de l’espérance.
1. (Convergence monotone conditionnelle) Soit (Xn )n≥0 une suite de variables aléatoires telles que
0 ≤ Xn ↑ X. Alors E [Xn |B] ↑ E [X|B].
2. (Lemme de Fatou conditionnel) Soit (Xn )n≥0 une suite de variables aléatoires positives. Alors
E [lim inf Xn |B] ≤ lim inf E [Xn |B].
3. (Convergence dominée conditionnelle) Soit (Xn )n≥0 une suite de variables aléatoires telle que
|Xn | ≤ V P-p.s., avec E [V ] < ∞ et Xn → X P-p.s. Alors, E [Xn |B] → E [X|B] P-p.s.
4. (Inégalité de Jensen conditionnelle) Soit c : R → R convexe telle que E [|c(X)|] < ∞. Alors,
E [c(X)|B] ≤ c(E [X|B]).
5. (Contraction des normes) Pour p ≥ 1, kE [X|B] kp ≤ kXkp , où kY kp := (E [|Y |p ])1/p .
Définition A.19. Soit deux variables aléatoires définies sur le même espace de probabilité {Ω, F, P}.
On appelle espérance conditionnelle de X par rapport à Y :

E [X|Y ] = E [X|σ(Y )]

où σ(Y ) désigne la tribu engendré par Y (la plus petite tribu rendant Y mesurable).

118
A.2 Estimation statistique
Lors d’une expérience aléatoire, l’observation est modélisée comme un point d’un espace mesurable
{H, H} dont la loi de probabilité nous est inconnue. Le but de l’estimation ponctuelle est de fournir, à
partir d’une suite d’observations d’une expérience aléatoire, la valeur d’un paramètre relié à la loi de
probabilité inconnue. Dans la suite, le plus souvent, ce paramètre est un scalaire ou un vecteur de di-
mension fini. Un estimateur est alors défini comme une fonction mesurable, arbitraire, de l’observation
à valeurs dans l’espace du paramètre. D’où le problème de définir, au moyen de critères raisonnables, ce
que l’on entend par “un estimateur est bon” et comment, à partir d’un critère, construire, si possible, le
meilleur d’entre eux. Dans ce paragraphe nous donnons les définitions du biais et de la dispersion qua-
dratique ainsi que des propriétés asymptotiques. Toutes ces notions sont à la base de la comparaison
des estimateurs entre eux.

A.2.1 Biais, dispersion d’un estimateur


Définition A.20 (Modèle statistique). Un modèle statistique est un triplet {H, H, P} où {H, H} est
un espace mesurable et P est une famille de mesures de probabilité définies sur {H, H}.

Dans la suite, le plus souvent, les observations sont réelles : on aura alors, dans le cas des
échantillons de taille n finie, H = Rn et, dans le cas de l’étude des propriétés asymptotiques, H = RN .
En estimation statistique, il est d’usage de distinguer deux approches : l’approche liée aux modèles
paramétriques et celle liée aux modèles non-paramétriques. Dans le premier cas, la famille P possède
une structure dépendant d’un paramètre d’intérêt de dimension finie : si on connaı̂t alors la vraie
valeur du paramètre, on dispose très exactement de la loi de probabilité de l’observation. Dans le
second cas, on fait très peu d’hypothèses sur la famille P et la connaissance du paramètre d’intérêt
ne permet plus de reconstruire la loi de probabilité de l’observation. Dans ce dernier cas, il est même
possible que le paramètre d’intérêt ne soit plus de dimension finie.
Exemple A.6 : MA(1) gaussien
On observe la suite (X1 , . . . , Xn ) d’un processus MA(1) défini par Xt = Zt + θ1 Zt−1 où Zt est un bruit
gaussien, centré, blanc (fort) de variance σ 2 . Le modèle est paramétrique. La loi de l’observation ne dépend,
en effet, que de θ = (θ1 , σ 2 ) ∈ Θ = R × R+ . Sa densité a pour expression :
½ ¾
1 1
pX (x1 , . . . , xn ; θ) = p exp − 2 (x1 , . . . , xn )C −1 (θ1 )(x1 , . . . , xn )T
(2π)n/2 σ n det(C(θ1 )) 2σ

où  
1 + θ12 θ1 0 ··· 0
 θ1 1 + θ12 θ1 ··· 0 
 
 
C(θ1 ) =  ... 
 
 0 1 + θ12 θ1 
0 ··· 0 θ1 1 + θ12
Si on omet l’hypothèse gaussienne, on ne peut plus, connaissant uniquement θ, écrire la loi de l’observation.
Dans ce cas, le modèle est dit semi-paramétrique. Si, à présent, on omet aussi l’hypothèse que le processus est
un processus MA(1) et que l’on suppose uniquement que l’observation provient d’un processus stationnaire
au second ordre, il n’y a plus, à proprement parler, de paramètres d’intérêt de dimension finie. On dit alors
que le modèle est non-paramétrique.

119
Définition A.21 (Estimateur). Soit le modèle statistique {H, H, P}. On suppose que P ∈ P dépend
d’un paramètre θ élément d’un espace mesurable {Θ, B(Θ)}. On appelle estimateur de θ ∈ Θ toute
fonction mesurable de {H, H} dans {Θ, B(Θ)}.
Définition A.22 (Biais d’un estimateur). Soit {Rn , Bn , P} un modèle statistique, soit θ ∈ Θ ⊂ Rk
un paramètre à estimer et soit θ̂ : {Rn , Bn } 7→ {Θ, B(Θ)} un estimateur de θ. On appelle biais de θ̂ le
vecteur de Rk défini par : h i
b(θ, θ̂) = Eθ θ̂(X1 , . . . , Xn ) − θ (A.10)

Un estimateur est dit sans biais si b(θ, θ̂) = 0 pour tout θ ∈ Θ.


Définition A.23 (Dispersion et risque quadratique). Soit {Rn , Bn , P} un modèle statistique, soit
θ ∈ Θ ⊂ Rk un paramètre à estimer et soit θ̂ : {Rn , B n } 7→ {Θ, B(Θ)} un estimateur de θ. On appelle
matrice de dispersion de l’estimateur θ̂ la matrice, de dimension k × k, définie par :
h i
D(θ, θ̂) = Eθ (θ̂(X1 , . . . , Xn ) − θ)(θ̂(X1 , . . . , Xn ) − θ)T (A.11)

On dit que θ̂(1) (X1 , . . . , Xn ) est meilleur que θ̂(2) (X1 , . . . , Xn ), si, pour tout θ ∈ Θ, on a :

D(θ, θ̂(1) ) ≤ D(θ, θ̂(2) ) (A.12)

On appelle risque quadratique de θ̂ :


h i
R(θ, θ̂) = Eθ (θ̂(X1 , . . . , Xn ) − θ)T (θ̂(X1 , . . . , Xn ) − θ) = Trace(D(θ, θ̂))

La notation Eθ indique que l’espérance doit être calculée avec la loi de l’observation lorsque la
valeur du paramètre inconnu est précisément θ :
Z
Eθ = θ̂(X1 , . . . , Xn )Pθ (dx)
Rn

Il s’en suit qu’en règle générale, le biais et la dispersion quadratique dépendent du paramètre inconnu
θ. Il est important de noter que la relation (A.12) ne permet pas d’ordonner totalement les estimateurs,
dans le sens où deux estimateurs ne sont pas nécessairement comparables. Il est donc vain de vouloir
trouver un estimateur qui soit meilleur que tous les autres pour toute valeur de θ. Ajoutons par
ailleurs que, dans les situations rencontrées en pratique, le calcul explicite du biais et de la dispersion
est souvent impossible. On peut alors, pour juger des performances, soit calculer des bornes, la plus
utilisée étant la borne inférieure de Cramer-Rao, soit déterminer les performances lorsque la taille de
l’échantillon tend vers l’infini.
Théorème A.14 (Borne de Cramer-Rao). Soit une modèle statistique {H, H, P} dominé par la mesure
µ et soit Θ une partie ouverte de Rk . On note p(x; θ) la densité de Pθ ∈ P par rapport à µ. On suppose :
– que θ, p(x; θ) est, µ-presque partout, continûment dérivable,
– et que la matrice d’information de Fisher, de dimension k × k, :
Z
∂ log p(x; θ) ∂ log p(x; θ) T
F (θ) = p(x; θ)µ(dx)
H ∂θ ∂θ
est définie positive pour toute valeur du paramètre θ et continue par rapport à θ.

120
Soit θ̂(X1 , . . . , Xn ) un estimateur de θ. On note :
h i
b(θ, θ̂) = [b1 (θ, θ̂) . . . bk (θ, θ̂)]T = Eθ θ̂(X1 , . . . , Xn ) − θ

le biais de cet estimateur. Alors le risque quadratique vérifie :

R(θ, θ̂) ≥ (Ik + ∂θ b(θ, θ̂))F −1 (θ)(Ik + ∂θ b(θ, θ̂))T + b(θ, θ̂)b(θ, θ̂)T (A.13)

∂θ b(θ, θ̂) désigne la matrice de dimension k × k dont l’élément général est ∂bm (θ, θ̂)/∂θj . On montre
que : Z
F (θ) = − ∂θ22 log p(x; θ)p(x; θ)µ(dx) (A.14)
H

où ∂θ22 log p(x; θ) désigne la matrice Hessien d’élément général ∂ 2 log p(x; θ))/∂θj ∂θm .

Dans la classe des estimateurs sans biais, la borne de Cramer-Rao a pour expression :

R(θ, θ̂) ≥ F −1 (θ)

A.2.2 Comportement asymptotique d’un estimateur


Voyons à présent quelques résultats concernant les propriétés asymptotiques.

Définition A.24 (Consistance). Soit un modèle statistique dépendant du paramètre θ ∈ Θ ⊂ Rk et


soit θ̂n (X1 , · · · , Xn ) une suite d’estimateurs de θ. On dit que la suite θ̂n (X1 , · · · , Xn ) est consistante
si, pour tout θ ∈ Θ, la suite de vecteurs aléatoires θ̂n (X1 , · · · , Xn ) converge en Pθ -probabilité vers θ.

Définition A.25 (Normalité asymptotique). Soit un modèle statistique dépendant du paramètre θ ∈


Θ ⊂ Rk et soit θ̂n (X1 , · · · , Xn ) une suite d’estimateurs de θ. On dit que la suite θ̂n (X1 , · · · , Xn ) est
asymptotiquement normale si, il existe une constante α > 0 et une Γ(θ) définie positive telle que, pour
tout θ ∈ Θ :
nα (θ̂n (X1 , · · · , Xn ) − θ) →d N (0, Γ(θ)) (A.15)
où N (0, Γ) désigne la loi gaussienne centrée, de matrice de covariance Γ.

Dans le cas des suites i.i.d., la consistance et la normalité asymptotique sont, le plus souvent, la
conséquence directe, d’une part, de la loi des grands nombres et du théorème de la limite centrale et,
d’autre part, de théorèmes de continuité.

Théorème A.15 (Loi faible des grands nombres). Soit {Xn }n≥1 une suite de vecteurs aléatoires
de dimension k, indépendants et identiquement distribués, de moyenne E [X1 ] et de variances finies.
Alors :
n
1X
Xk →P E [X1 ]
n
k=1

121
Théorème A.16 (Théorème de la limite centrale). Soit {Xn }n≥1 une suite de vecteurs aléatoires de
dimension k, indépendants et identiquement distribués, de moyenne E [X1 ] et de matrice de covariance
cov(X1 ) supposée définie positive. Alors :
à n !
1/2 1X
n Xk − E [X1 ] →d N (0, cov(X1 ))
n
k=1

Théorème A.17. Soit {Xn }n≥0 une suite de vecteurs aléatoires à valeurs dans Rk . Supposons que
Xn →P X, et soit X un sous-ensemble borelien de Rk tel que P[X ∈ X ] = 1. Si g : Rk → Rm est
continue sur X alors g(Xn ) →P g(X),

Théorème A.18. Soit {Xn } une suite de vecteurs aléatoires de dimension k telle que :

nα (Xn − µ) →d N (0, Γ)

où α est une constante positive et Γ une matrice de covariance définie positive. Soit g = (g1 , · · · , gm ) :
Rk → Rm une fonction différentiable au point µ, de matrice différentielle D, de dimension m × k, au
point µ : · ¸
∂g` (µ)
D=
∂xj
telle que la matrice Φ = DΓ, de dimension m × m, soit définie positive. Alors :

nα (g(Xn ) − g(µ)) →d N (0, Φ)

Définition A.26 (Quantité pivotale). Pour des observations X1 , . . . , Xn issues d’un modèle pa-
ramétrique de paramètre θ, une quantité Tn fonction de X1 , . . . , Xn et de θ est dite pivotale si sa
distribution ne dépend pas du paramètre θ. Dans les cas où cette propriété n’est pas vérifiée à n fini
mais ou néanmoins Tn converge en distribution vers une loi ne dépendant pas de θ, la quantité1 Tn
est dite asymptotiquement pivotale.

Un exemple simple de cette situation est le cas d’un paramètre de centrage où les observations sont
supposées iid de loi f (x − µ) pour une loi f (x) connue, µ étant le paramètre.
P Dans ce cas, on vérifie
directement que pour l’estimateur de la moyenne empirique µ̂n = n−1 nt=1 Xt , la quantité µ̂n − µ est
pivotale. A n fini, cette propriété peut néanmoins être difficile à exploiter dans la mesure où la loi de
µ̂n − µ n’a pas forcément une expression simple (sa fonction caractéristique par contre vaut Φf ( nλ )n

où Φf (λ) est la fonction caractéristique associée à f ). On note cependant que n(µ̂n − µ) est une
quantité asymptotiquement
£ ¤ pivotale dans la mesure où le théorème de la limite centrale A.16 indique
que dès que E (Xi − µ)2 = σ 2 < ∞,

n(µ̂n − µ) →d N (0, σ 2 ) (A.16)

En pratique, même dans le modèle de centrage, il est fréquent que la variance σ 2 soit également
un paramètre inconnu à estimer. Il est néanmoins possible d’obtenir une quantité asymptotiquement
pivotale en remplaçant σ 2 par une estimation consistante :

122
Propriété A.1. Si µn est une séquence asymptotiquement normale telle que

n(µ̂n − µ) →d N (0, σ 2 )

et σn est un estimateur consistant de σ, on a


√ −1
nσn (µ̂n − µ) →d N (0, 1)
√ −1
ce qui implique que nσn (µ̂n − µ) est une quantité asymptotiquement pivotale.

Cette propriété montre que dès qu’un estimateur est asymptotiquement normal, il est général au
moins possible de trouver des quantités asymptotiquement pivotales. Cette propriété est capitale pour
la construction d’intervalles de confiance qui mesurent la fiabilité du résultat d’estimation ainsi que
pour le test, c’est à dire la validation d’hypothèses concernant certains paramètres du modèle.

Définition A.27 (Intervalle de confiance asymptotique). Un intervalle de confiance asymptotique de


niveau α pour le paramètre scalaire inconnu θ est une suite d’intervalles, de la forme Jn = [T1,n , T2,n ]
où T1,n = T1 (X1 , X2 , · · · , Xn ) et T2,n = T2 (X1 , X2 , · · · , Xn ) sont des variables aléatoires, telle que :

lim P(θ ∈ Jn ) = α (A.17)


n→∞

Dans le cas du paramètre de centrage en supposant que la variance σ est connue, nous avons,
d’après (A.16)
µ√ ¶ Z c µ 2¶
n 1 x
lim P(µ ∈ [T1,n , T2,n ]) = lim P (µ̂n − µ) ∈ [−c, c] = 2 √ exp − dx
n→∞ n→∞ σ 0 2π 2
√ √
où nous avons posé T1,n = µ̂n − cσ/ n et T2,n = µ̂n + cσ/ n. Et donc, si nous choisissons c de telle
sorte que l’intégrale soit égale à α, nous obtenons un intervalle Jn = [T1,n , T2,n ] qui vérifie l’expression
(A.17). Ainsi, par exemple, pour α = 0.95 on c = 1.96 et :
µ ¶
σ σ
lim P µ̂n − 1.96 √ ≤ µ ≤ µ̂n + 1.96 √ = 95% (A.18)
n→∞ n n

Dans le cas où σ est inconnu, il est possible de le remplacer par un estimateur consistant σn en vertu
de la propriété A.1.

Définition A.28 (Test asymptotique). Un test asymptotique pour l’hypothèse θ = θ0 est une fonction
Tn des observations X1 , . . . , Xn et de θ0 à valeur dans {0, 1} (1 pour l’acceptation de l’hypothèse, 0
pour son rejet) telle que
lim Pθ (Tn = 1) = 0 quand θ 6= θ0
n
et
lim Pθ0 (Tn = 1) = α
n

où 1 − α est dite probabilité d’erreur de première espèce (ou de rejet à tort de l’hypothèse θ = θ0 ).

123
L’existence de quantités pivotales est également un point clé pour le test puisque pour l’exemple
du paramètre de centrage, l’expression (A.18), donnant l’intervalle de confiance asymptotique avec un
niveau de confiance de 95% pour µ, peut être encore écrite sous la forme
µ ¶
σ σ
lim P µ − 1.96 √ ≤ µ̂n ≤ µ + 1.96 √ = 95%
n→∞ n n

Ainsi la fonction Tn permettant de tester que µ = µ0 dans ce modèle est donnée par I[ µ0 −1.96 √σn , µ0 +
1.96 √σn ](µ̂n ) où I désigne la fonction indicatrice. Par construction, limn Pµ0 (Tn = 1) = 95%. De plus
dès que µ̂n est un estimateur consistant du paramètre inconnu µ et dans la mesure où les bornes

de l’intervalle [µ0 − 1.96 √σn , µ0 + 1.96 √σn ] se rapprochent (à la vitesse 1/ n), il est immédiat que
limn Pµ (Tn = 1) = 0 lorsque µ 6= µ0 . Comme dans le cas de l’intervalle de confiance, la propriété A.1
permet également de traiter le cas où la variance limite σ 2 est inconnue (du moment que l’on dispose
d’un estimateur consistant de cette dernière).

124
Annexe B

Rappels sur la transformée de Fourier

Dans toute la suite, I désigne l’intervalle I = [−π, π] et B(I) la tribu de Borel de I construite sur
les ouverts de I.

Propriété B.1 (Transformée de Fourier discrète d’une suite sommable). Soit R(n) une suite com-
plexes de module sommable. Alors :
Z ∞
inλ 1 X
R(n) = e f (λ)dλ où f (λ) = R(n)e−inλ
I 2π n=−∞
R P
D’après l’absolue sommabilité de R(n), f (λ) existe. Du fait que I n |R(n)|dλ < +∞, l’applica-
tion directe du théorème de Fubini donne :
Z Z X∞ X∞ Z
inλ inλ 1 −ikλ 1
e f (λ)dλ = e R(k)e dλ = R(k) ei(n−k)λ dλ = R(n)
I I 2π 2π I
k=−∞ k=−∞

Propriété B.2 (Coefficients de Fourier


R d’une mesure finie). Soit ν une mesure non-négative, définie
sur {I, B(I)}, finie (i.e. telle que I ν(dλ) < +∞) et soit n ∈ Z. On appelle n-ième coefficient de
Fourier de ν : Z
ν̂(n) = eiλn ν(dλ)
I
Du fait que la mesure est finie |ν̂(n)| est fini.
1. L’application ν → ν̂ est injective.
2. La suite {ν̂} est de type non-négatif.
3. Soit {νn }n≥0 et ν des mesures finies. La suite de mesures {νn } converge étroitement vers la
mesure ν (quand n tend vers l’infini), si et seulement si, pour tout k ∈ Z, ν̂n (k) converge vers
ν̂(k) (quand n tend vers l’infini).

1. Cb (I) désigne l’ensemble des fonctions complexes, continues et bornées, définies sur I = [−π, π],
muni de la topologie associée à la norme uniforme Rkf k∞ = supλ∈[−π,π] R |f (λ)|. Précisons que
l’égalité ν1 = ν2 doit être comprise dans le sens où I f (λ)ν1 (dλ) = I f (λ)ν2 (dλ) pour toute
fonction f ∈ Cb (I). Le point 1 est alors une conséquence directe du fait que les combinaisons

125
linéaires d’exponentielles complexes, de la forme einλ , sont denses dans R Cb (I). L’application
qui, à tout f ∈ Cb (I) fait correspondre le nombre complexe cν (f ) = f (λ)ν(dλ) ∈ C est une
forme linéaire continue sur Cb (I), qui associe aux exponentielles complexes de la forme einλ les
coefficients de Fourier cν (ein• ) = ν̂(n). Par conséquent, si pour deux mesures ν et ν, les formes
linéaires associées, cν et cν , coı̈ncident pour les exponentielles complexes (i.e. ν̂(n) = ν̂(n)), alors
elles coı̈ncident pour toute fonction de Cb (I). Ce qui démontre le point 1.
2. Soit (z1 , z2 , · · · , zn ) des nombres complexes. On a :

X d Z Xd Z ¯¯Xd
¯2
¯
¯ ¯
zr zs∗ ν̂(r − s) = zs zr∗ ei(r−s)λ ν(dλ) = ¯ zr e−irλ ¯ ν(dλ) ≥ 0
r,s=1 I
r,s=1 I¯r=1
¯

3. Par définition, la suite de mesure νn converge étroitement vers ν si pour toute fonction f ∈ Cb (I),
limn cνn (f ) = cν (f ). En particulier, si on prend f = e−ik• (qui est continue et bornée), nous
avons cνn (eik• ) = ν̂n (k) → ν̂(k). Réciproquement, soit {νn } une suite de mesures finies sur I
telles que, pour tout k ∈ Z, limn ν̂n (k) = ν(k). Cette propriété implique en particulier que la
suite ν̂n (0) = νn (I) est convergente, et est donc bornée, supn≥0 ν̂n (0) < ∞. Remarquons aussi
que |ν̂n (k)| ≤ νn (0). Pour f ∈ L2 (I, dλ) (où dλ désigne la mesure de Lebesgue), définissons :
Z
fˆ(k) = f (t)e−ikt dt
I
P
Considérons la classe F de fonctions f vérifiant k∈Z |fˆ(k)| < ∞. La classe F est dense dans
Cb (I). Notons que, pour toute fonction f ∈ F, nous avons :
1 Xˆ
f (λ) = f (k)e−ikλ

k∈Z

Par conséquent, en appliquant le théorème de Fubini, on a :


Z Z X
1 1 Xˆ
cνn (f ) = f (λ)νn (dλ) = fˆ(k)e−ikλ νn (dλ), = f (k)ν̂n (k)
I 2π I 2π
k∈Z k∈Z

Comme supk supn |ν̂n (k)| < ∞, le théorème de convergence dominée et le théorème de Fubini
impliquent que :
1 Xˆ 1 Xˆ
lim cνn (f ) = f (k) lim ν̂n (k) = f (k)ν̂(k) = cν (f )
n 2π n→+∞ 2π
k∈Z k∈Z

Soit maintenant f une fonction continue. Pour tout ² > 0, il existe f² ∈ F tel que kf − f² k∞ ≤ ²
et nous avons :
|νn (f ) − ν(f )| ≤ |νn (f² ) − ν(f² )| + |ν(f² ) − ν(f )|
≤ |νn (f² ) − ν(f² )| + kf − f² k∞ (|ν̂n (0)| + |ν̂(0)|)
et donc puisque f² ∈ F la limite du premier terme est 0 et on a :
lim sup |νn (f ) − ν(f )| ≤ 2²|ν̂(0)|
n

Comme ² est arbitraire, nous avons donc limn νn (f ) = ν(f ), ce qui conclut la preuve.

126
Annexe C

Compléments sur les espaces de Hilbert

Théorème C.1. Si E est un sous-ensemble d’un espace de Hilbert H, alors E ⊥ est un sous-espace
fermé.

Démonstration. Soit (xn )n≥0 une suite convergente d’éléments de E ⊥ . Notons x la limite de cette suite.
Par continuité du produit scalaire nous avons, pour tout y ∈ E,

(x, y) = lim (xn , y) = 0


n→∞

et donc x ∈ E ⊥ . ¥

Définition C.1 (Famille orthonormale). Soit E = {ej ; j ∈ T } un sous ensemble de H. On dit que E
est une famille orthonormale ssi (ei , ej ) = δ(i − j).
Exemple C.1

Propriété C.1 (Inégalité de Bessel). Si x est un vecteur d’un espace de Hilbert H et si E =


{e1 , · · · , ek } est une famille orthonormale finie, alors :
k
X
|(x, ei )|2 ≤ kxk2
i=

Démonstration. Notons E = span(E) le sous-espace P engendre par les vecteurs {e1 , P · · · , ek }. Nous
avons k(x|E)k ≤ kxk. On vérifie aisément que (x|E) = ki=1 (x, ei )ei et que k(x|E)k2 = ki=1 |(x, ei )|2 .
Remarquons en effet, pour tout j ∈ {1, . . . , k},
k
X
(x − (x, ei )ei , ej ) = (x, ej ) − (x, ej ) = 0
i=1

Définition C.2 (Famille orthonormale complète). Soit E = {ej ; j ∈ T } une famille orthonormale de
H. On dit que E est une famille orthonormale complète ssi esp(E) = H.

127
Lemme C.1. (i). Soit (Mn ) une suite croissante
T de sous-espaces vectoriels (s.e.v.) fermés d’un
espace de Hilbert H et notons M−∞ = n Mn . Alors, pour tout h ∈ H, nous avons

(h|M−∞ ) = lim (h|Mn )


n→−∞
S
(ii). Soit M∞ = n∈Z Mn . Alors, pour tout h ∈ H,

(h|M∞ ) = lim (h|Mn ).


n→∞

(iii). Soit {ek , k ∈ N} une famille orthonormale de h, ej ⊥ ek , for j 6= k, kej k = 1. Soit En =


S
span{el , 0 ≤ l ≤ n} et E∞ = n≥0 En . Alors

X
(h|E∞ ) = a k ek .
k=0

Démonstration. (a) Comme Mn est un s.e.v. fermé de H et donc M−∞ est un s.e.v. fermé de H.
Le théorème de projection 4.2 prouve que (h|M−∞ ) existe. Pour m < n, définissons Mn ª Mm
le complément orthogonal de Mm dans Mn , c’est à dire l’ensemble des vecteurs x ∈ Mn tel que
x ⊥ Mm . Mn ª Mm est un s.e.v fermé de H. Notons que

(h|Mn ª Mm ) = (h|Mn ) − (h|Mm ).

On a, pour tout m ≥ 0,

X
k(h|Mn ª Mn−1 )k2 = k(h|M0 ª M−m )k2 ≤ khk2 < ∞
n=−m

et donc la suite {(h|Mn ), n = 0, −1, −2, . . .} est une suite de Cauchy. Comme H est complet, (h|Mn )
converge dans H. Notons z := limm→−∞ (h|Mn ). Il reste à prouver que z = (h|M−∞ ). En appliquant
le théorème de projection 4.2, nous devons donc démontrer que (i) z ∈ M−∞ et (ii) h − z ⊥ M−∞ .
Comme (h|Mn ) ∈ Mp pour tout n ≤ p, nous avons donc limn→−∞ (h|Mn ) ∈ Mp pour tout p et donc
z ∈ M−∞ , ce qui établit (i). Pour prouver (ii), prenons p ∈ M−∞ . Nous avons p ∈ Mn pour tout
n ∈ Z, et donc, pour tout n ∈ Z, (h − (h|Mn ), p) = 0 et (ii) découle de la continuité du produit
scalaire. La preuve du point [(b)] est similaire et est laissée au lecteur à titre d’exercice Nous prouvons
finalement le point [(c)]. En appliquant [(b)], nous avons

(h|E∞ ) = lim (h|En ).


n→∞

On vérifie aisément que


n
X
(h|En ) = (h, ek )ek .
k=1
Notons en effet que (h|En ) ∈ En et, pour tout k ∈ {1, · · · , n},

(h − (h|En ), ek ) = (h, ek ) − (h, ek ) = 0.

On conclut la preuve en combinant les deux résultats précédents. ¥

128
Dans les espaces de Hilbert le fait qu’il existe une famille orthonormale complète dénombrable joue
un rôle important. Ce qui conduit à la définition suivante.

Définition C.3 (Espace de Hilbert séparable). On dit qu’un espace de Hilbert est séparable ssi il
existe une famille orthonormale complète dénombrable.

La plupart des espaces de Hilbert que nous rencontrerons seront séparables. En particulier le sous-
espace fermé engendré à partir d’une famille dénombrable d’un espace de Hilbert, que celui-ci soit
séparable ou non séparable, est séparable.

Théorème C.2. Soit H un espace de Hilbert séparable et soit {ei ; i ∈ N} une famille orthonormale
complète dénombrable. Alors :
P
1. ∀² > 0, il existe un entier k et une suite c0 , · · · , ck t.q. kx − ki=0 ci ei k < ².
P
2. x = +∞ i=0 (ei , xi )ei (série de Fourier),
P
3. kxk2 = +∞ 2
i=0 |(ei , xi )| (égalité de Parseval),
P+∞
4. (x, y) = i=0 (xi , ei )(ei , y),
5. x = 0 ssi (ei , x) = 0 pour tout i.

129
Annexe D

Compléments sur les matrices

Toutes les matrices et tous les vecteurs (colonne) considérés sont de dimensions finies à éléments
complexes. On suppose connue la définition du déterminant.

Notations
L’exposant T désigne la transposition, l’exposant H désigne la transposition-conjugaison. I désigne
une matrice identité de dimension adéquate. La matrice diag(a1 , . . . , aN ) désigne la matrice carrée
diagonale de dimension N , dont les éléments diagonaux sont a1 , . . . , aN . Une matrice carrée U est dite
unitaire si U U H = U H U = I. Une matrice carrée P est un projecteur si P 2 = P = P H . Par exemple, si
v désigne un vecteur, la matrice vv H /v H v est un projecteur. La trace d’une matrice est la somme de ses
éléments diagonaux. La trace vérifie Trace(A+B) = Trace(A)+Trace(B) et Trace(AB) = Trace(BA).

Matrice-bloc, déterminant et trace


Pour des matrices carrées ayant des dimensions appropriées, on a les formules suivantes :
◦ (AB)H = B H AH
◦ (AH )−1 = (A−1 )H
◦ det(A) = det(AT )
◦ det(AB) = det(A)det(B)
◦ det(I − AB) = det(IM − BA)
· ¸
A B
◦ det = det(A)det(D − CA−1 B)
C D
· ¸−1 · −1 ¸
A B A + A−1 B∆−1 CA−1 −A−1 B∆−1
◦ =
C D −∆−1 CA−1 ∆−1
où ∆ = D − CA−1 B
Lemme d’inversion matricielle : si A et B sont deux matrices carrées inversibles, alors pour toutes
matrices G et H de dimensions appropriées :
¡ ¢−1
(A + GBH)−1 = A−1 − A−1 G HA−1 G + B −1 HA−1

130
Valeurs propres
Pour une matrice carrée A de dimension N × N , les vecteurs propres représentent les directions
de l’espace CN qui sont invariantes. Ce sont par conséquent les vecteurs w définis par l’équation
Aw = λw. La trace est égale à la somme des valeurs propres et le déterminant à leur produit. Cela
s’écrit :
N
X N
Y
Trace(A) = λi et det(A) = λi
i=1 i=1

Image de A
Soit A une matrice de dimension M × N . On appelle image de A le sous-espace de CM noté I(A),
qui est engendré par les vecteurs-colonnes de A. On appelle noyau de A le sous-espace de CN noté
N (A), qui est solution de Ax = 0. On appelle rang-colonne de A la dimension de son espace image
rang(A) = dim I(A). C’est aussi le nombre de vecteurs-colonnes de A qui sont indépendants. On
montre que :
dim N (A) + dim I(A) = N
Si A est de rang-colonne plein, cad rang(A) = N , alors soit AH A est inversible. On définit de la même
manière un rang-ligne. Le rang de A est le minimum de son rang-colonne et de son rang-ligne. Dans
tous les cas le rang d’une matrice est inférieur à min(M, N ).

Valeurs singulières
Soit A une matrice de dimension M ×N et de rang r. Alors il existe deux matrices carrées unitaires
l’une notée U de taille M × M et l’autre notée V de taille N × N , telles que :
µ ¶
Σr 0
A=U VH
0 0
où Σr = diag(σ1 , . . . , σr ) avec σ1 ≥ · · · ≥ σr > 0. Les valeurs σi sont dites valeurs singulières de A.
– Les vecteurs colonnes de U de dimension M sont les vecteurs propres de AAH . Les r premiers
vecteurs colonnes de U forment une base orthonormée de l’image de A.
– Les vecteurs colonnes de V de dimension N sont les vecteurs propres de AH A. Les (N − r)
derniers vecteurs colonnes de V forment une base orthonormée du noyau de A.
On appelle pseudo-inverse de A la matrice de dimension N × M :
µ −1 ¶
+ Σr 0
A =V UH
0 0
Dans CM , la matrice carrée AA+ est le projecteur sur I(A). Dans CN , la matrice carrée (I − A+ A)
est le projecteur sur N (A). Si A est de rang plein, alors :
– pour M = N , A+ = A−1 ,
– pour M > N , A+ = (AH A)−1 AH
– et pour M < N , A+ = AH (AAH )−1
Le rapport entre la plus grande et la plus petite valeur singulière d’une matrice s’appelle son nombre
de conditionnement. Il mesure la difficulté numérique à calculer sa pseudo-inverse.

131
Matrice carrée positive
Une matrice carrée R est dite hermitienne si elle vérifie R = RH . Une matrice carrée hermitienne
R est dite non-négative, respectivement positive si pour tout vecteur a, on a aH Ra ≥ 0 (resp. > 0).
Pour les matrices non négatives, la décomposition en valeurs propres et la décomposition en valeurs
singulières coı̈ncident. Si R est positive, alors R−1 existe et est positive. Si R est non négative, toutes
ses valeurs propres sont réelles, non négatives et leur ordre de multiplicité est égal à la dimension
du sous-espace propre associé. Si R est une matrice non négative et si ses valeurs propres λi sont
distinctes, alors les vecteurs propres wi associés sont deux à deux orthogonaux et on a :
N
X
R= λi wi wiH
i=1

où tous les λi sont non négatifs. On en déduit que :


N
X
Rn = λni wi wiH
i=1

Il est facile d’étendre cette écriture à une fonction polynomiale quelconque. En particulier on en déduit
que R vérifie son équation caractéristique (det(A − λI) = 0). Par extension, pour toute fonction f
développable en série entière, on peut définir la fonction de matrice :
N
X
f (R) = f (λi )wi wiH
i=1

132

Vous aimerez peut-être aussi