0% ont trouvé ce document utile (0 vote)
291 vues46 pages

Modélisation des Séries Temporelles en Statistique

Ce document décrit diverses méthodes de modélisation de séries temporelles, notamment les lissages exponentiels, les modèles autorégressifs (AR), les processus moyenne mobile (MA) et les processus ARIMA/SARIMA.

Transféré par

Karim Omonga
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
291 vues46 pages

Modélisation des Séries Temporelles en Statistique

Ce document décrit diverses méthodes de modélisation de séries temporelles, notamment les lissages exponentiels, les modèles autorégressifs (AR), les processus moyenne mobile (MA) et les processus ARIMA/SARIMA.

Transféré par

Karim Omonga
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Modélisation des séries temporelles

Master Statistique et Économétrie


Notes de cours

V. Monbet

Master 1 - 2017
Contents

1 Introduction 4
1.1 Objectifs (et moyens) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Qu’est-ce qu’une série temporelle? . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2 Lissages exponentiels 7
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Idées générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Formules récursives de mise à jour . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.4 Choix de la constante de lissage . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Lissage exponentiel double . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Calcul des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Formules récursives de mises à jour . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Méthode de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Ajout d’une composante saisonnière. Décomposition additive. . . . . . . . 12

3 Modélisation de la composante déterministe 13


3.1 Analyse de la tendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.1 Moyenne mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
3.1.2 Différenciation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.1.3 Modèle additif avec tendance paramétrique . . . . . . . . . . . . . . . . . 16
3.1.4 Comparaison des différentes méthodes . . . . . . . . . . . . . . . . . . . . 18
3.1.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2 Analyse des composantes saisonnières . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.1 Calcul des moyennes saisonnières . . . . . . . . . . . . . . . . . . . . . . . 19
3.2.2 Vérification du modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
3.2.3 Différenciation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2.4 Comparaison des différentes méthodes . . . . . . . . . . . . . . . . . . . . 23
3.3 Indices de dépendance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.1 Fonction d’auto-covariance . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
3.3.2 Fonction d’auto-correlation . . . . . . . . . . . . . . . . . . . . . . . . . . 24
3.3.3 Quelques commentaires sur l’autocorrélation . . . . . . . . . . . . . . . . . 24

2
4 Premiers pas vers la modélisation de la composante aléatoire 26
4.1 Généralités sur les processus stationnaires . . . . . . . . . . . . . . . . . . . . . . 26
4.2 Quelque exemples classiques de processus. . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1 Bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.2 Processus gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.3 Processus moyenne mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.4 Processus autorégressif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

5 Auto-corrélation partielle 29
5.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Coefficient de corrélation partielle entre deux variables . . . . . . . . . . . . . . . 30
5.3 Autocorrélation partielle d’un processus stationnaire . . . . . . . . . . . . . . . . 30
5.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3.2 Algorithme de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . 31

6 Modèles Auto-régressifs 32
6.1 Modèles autorégressifs d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2 Modèles auto-régressifs d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3 Inférence statistique pour les modèles auto-régressifs . . . . . . . . . . . . . . . . 35
6.3.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.3.2 Estimateurs de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.3.3 Maximum de vraisemblance conditionnel . . . . . . . . . . . . . . . . . . . 37
6.4 Prédiction dans les modèles autorégressifs . . . . . . . . . . . . . . . . . . . . . . 37
6.5 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6 Validation de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

7 Les processus moyenne mobile 41


7.1 Les processus moyenne mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.2 Inférence pour les processus MA . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
7.3 Prédiction des processus MA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

8 Les processus ARIMA 44


8.1 Les processus ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.1.1 Définition et propriétés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
8.1.2 Inférence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
8.1.3 Prédiction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.1.4 Validation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.2 Les processus ARIMA et SARIMA . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.3 Modèles avec co-variables : ARMAX . . . . . . . . . . . . . . . . . . . . . . . . . 47

3
Chapter 1

Introduction

Ce cours est une initiation aux méthodes probabilistes de prévision de phénomènes qui évoluent
dans le temps et de modélisation de séries temporelles.

1.1 Objectifs (et moyens)


Les principaux objectifs de la modélisation des séries temporelles sont les suivants.
• Decrire. Par exemple,
– en économétrie, détecter puis analyser les périodes de crises et croissances ;
– en reconnaissance vocale, reconnaitre les mots dans des signaux ;
– dans le séquençage du génome, détecter les parties de l’ADN qui contiennent de
l’information.
• Comparer deux séries temporelles. Par exemple, l’évolution démographique de deux ré-
gions ou deux séquences d’ADN.
• Prédire l’évolution future de la série temporelle à partir des valeurs qui ont été observées.
Par exemple, pour des raisons socio-économiques on veut prévoir le temps qu’il va faire,
l’évolution des ventes d’un produit, la consommation d’électricité, etc.)
Comment prévoir : en s’appuyant sur le passé. Pour prédire les ventes de l’année j + 1,
on s’appuie sur l’évolution des ventes durant les années j, j − 1, · · · mais on tient compte
aussi d’évènement (conjoncture, économique, crise, ...).
Peut-on prévoir parfaitement bien?

Quelles méthodes pour modéliser et/ou prévoir?

1.2 Qu’est-ce qu’une série temporelle?


Définition - Une série temporelle (ou chronologique) est une suite d’observations x1 , x2 , · · · , xn
indexée par le temps. On supposera qu’il s’agit d’une réalisation d’un processus X, c’est à dire
d’une suite {Xi } de variables aléatoires.
Une série temporelle est généralement constituée de plusieurs éléments.

• Tendance : représente l’évolution à long terme de la série (échelle interanuelle). Exemples


: croissance économique, évolution climatologique à long terme (cyclique ou non)

4
• Saisonnalité : évolution se répétant régulièrement tous les ans ou tous les mois ou toutes
les semaines. Exemples :

– En météorologie, températures plus faibles en hiver qu’en été.


– En économie, saisonnalité induite par les périodes de vacances, les périodes de fêtes,
le climat...
– Chiffre d’affaire d’un magasin.

• Composante stationnaire (ou résiduelle) : ce qui reste lorsque l’on a enlevé les autres
composantes. Décrit l’évolution à court terme de la série (échelle journalière).

Notion de série temporelle stationnaire définie plus précisément dans la suite. Cette hypothèse
jouera un rôle fondamental dans la suite, et remplacera l’hypothèse usuelle des v.a i.i.d. (ici, il
peut exister une dépendance entre deux valeurs successives prises par la série observée).
Le modèle le plus courant consiste à supposer que la série initiale s’écrit sous la forme
(modèle additif)
Xt = Tt + St + Yt pour tout t ∈ {1, · · · , n}

avec Xt la tendance, St la composante saisonnière (fonction périodique de période un an) et Yt


la composante stationnaire.

Exemples de séries temporelles

• Economie

1. évolution du cours du Dow Jones entre 1928 et 2004, données mensuelles

2. production de poissons, en milliers de francs, en Finistère nord (Brest, Morlaix, Paim-


pol) entre 1971 et 1979, données mensuelles

5
• Environement - évolution de l’intensité du vent, en m/s, au large de la Bretagne entre
1979 et 2001, données journalières.

• Santé - Exemple 4 : Evolution des cas de grippe en France, par semaine, de 1984 (semaine
44) à 2002 (semaine 50), soit 945 valeurs.

6
Chapter 2

Lissages exponentiels

2.1 Introduction
Ce cours sur le lissage exponentiel est emprunté à M. Cl. Viano
[Link]

Dans l’industrie, il est courant que l’on doive effectuer des prévisions de vente de production
ou de stock pour une centaine de produits. Ces prévisions sont effectuées à partir de données
par exemple mensuelles et l’horizon de prévision est court, un an maximum. Un certain nombre
de techniques "autoprojectives" sont regroupées sous la rubrique du lissage exponentiel. Ces
approches construisent des prévisions assez précises. Elles sont peu coûteuses et les calculs peu-
vent être rendus très rapides par l’utilisation de formules récursives de mise à jour. Elles ont
beaucoup de succès dans les milieux dans lesquels un grand nombre de chroniques unidimension-
nelles doivent être analysées séparément dans un but de prévision. Les succès sont importants
malgré l’absence de bases théoriques solides comparables à celles des méthodes ARMA, ARIMA
et SARIMA. Nous présentons les bases empiriques des techniques et précisons les conditions
d’utilisation optimales. Les procédures automatiques présentent quelques dangers. On risque
des mauvaises prévisions si la technique utilisée n’est pas adaptée à la chronique analysée. Le
lissage exponentiel est brièvement présenté dans Gourieroux-Monfort ([3]). Une présentation
détaillée figure dans Mélard ([4]) page 139-170. Un article de Gardner ([2]) fait un point sur la
question.

2.1.1 Idées générales


On dispose d’une série chronologique x = (x1 , ..., xn ) de longueur n enregistrée aux dates 1, ..., n.
On se situe à la date n et on souhaite prévoir la valeur xn+h non encore observée à l’horizon
h. On note cette prévision : x̂n,h . L’entier n est parfois appelé base de la prévision. La plus
ancienne des techniques est celle du lissage exponentiel simple. Dans toutes ces techniques il
s’agit d’ajuster à la chronique, localement, une fonction simple : une constante dans le lissage
exponentiel simple, une droite dans le lissage exponentiel double, des fonctions polynomiales ou
périodiques dans les lissages plus généraux.

2.2 Lissage exponentiel simple


Dans cette partie la prévision très simple, trop simple, ne dépend pas de l’horizon h de prévision.
Nous conservons l’indice pour être cohérent avec la suite.

7
2.2.1 Définition
La prévision x̂n,h est construite : en prenant en compte toute l’histoire de la chronique, de
sorte que, plus on s’éloigne de la base n de la prévision, moins l’influence des observations
correspondantes est importante. Cette décroissance de l’influence est de type exponentiel. De
là vient le nom de la technique. On se donne α, appelé constante de lissage, avec 0 < α < 1, et
on définit (la prévision x̂n,h ne dépend pas de h) :

n−1
X
x̂n,h = (1 − α) αj xn−j . (2.1)
j=0

Remarquons que plus α est voisin de 1, plus l’influence des observations éloignées dans le temps
de la base n est grande.

2.2.2 Formules récursives de mise à jour


La définition (2.1) vérfie les formules de récurrences suivantes

x̂n,h = (1 − α)xn + αx̂n−1,h (2.2)


x̂n,h = x̂n−1,h + (1 − α)(xn − x̂n−1,h ) (2.3)

Par conséquent, la connaissance de la prévision à l’horizon h sur la base n − 1, soit x̂n−1,h , et


l’observation xn suffisent pour calculer immédiatement la prévision suivante x̂n,h .
Cependant, l’utilisation des formules récursives nécessite d’initialiser la récurrence en prenant
par exemple x̂1,h = x1 , on remarque que pour n assez grand la valeur initiale a peu d’influence.
Remarquons aussi que la formule (2.2) permet d’interpréter x̂n,h comme le barycentre de xn et
de x̂n−1,h affectés respectivement des masses 1 − α et α. L’influence de la dernière observation
est d’autant plus grande que α est proche de 0.

2.2.3 Interprétation géométrique


Asymptotiquement x̂n,h est la meilleure approximation au sens des moindres carrés (pour des
pondérations exponentielles) de x par le vecteur constant αδ où δ = (1, · · · , 1) ∈ Rn . En effet
la valeur de a qui minimise
n−1
X
αj (xn−j − a)2 . (2.4)
j=0

est fournie par


n−1
1−α X j
â(n) = α xn−j .
1 − αn
j=0

Si l’on transforme légèrement le modèle en considérant que

x = (x1 , · · · , xn ) = (· · · , 0, · · · , 0, x1 , · · · , xn )

c’est à dire que les coordonnées du nouveau vecteur sont nulles pour tous les indices négatifs ou
nul. On cherche donc la valeur de a qui minimise
+∞
X
αj (xn−j − a)2
j=0

8
la solution est fournie par
n−1
X
x̂n,h = (1 − α) αj xn−j .
j=0
Il est facile de montrer que les deux estimateurs sont asymptotiquement équivalents, on a

lim â(n) = lim x̂n,h .


n→∞ n→∞
Dans la minimisation de (2.4) là aussi, l’influence des observations décroît exponentiellement
lorsqu’on s’éloigne de la base. On peut dire que l’ajustement par la constante a est local et se
fait au voisinage de n. La taille réelle de la plage des observations influentes dépend de α. Plus
α est grand plus la taille est grande.

2.2.4 Choix de la constante de lissage


La méthode n’est pas bonne en présence de tendance, de composante saisonnière ou de fluctua-
tions de hautes fréquences. En pratique le lissage exponentiel simple est assez peu utilisé.
Des valeurs de α comprises entre 0.7 et 0.99 produisent des prévisions qui tiennent compte du
passé lointain. Elles sont rigides et peu sensibles aux variations conjoncturelles. Il n’en n’est
plus de même si α est compris entre 0.01 et 0.3, la prévision est souple c’est à dire influencée
par les observations récentes.
On peut aussi déterminer un α adapté à la prévision d’une série donnée. Pour un horizon h on
cherche la valeur de α qui minimise
n−h
X t−1
X
(xt+h − (1 − α) αj xt−j )2 ,
t=1 j=0

c’est à dire la valeur qui en moyenne réalise la meilleure prévision à l’horizon h sur les bases
1, 2, · · · , n − h en utilisant le critère des moindres carrés. On choisit une grille de valeurs de
α pour lesquelles on calcule le critère et on retient la valeur qui le minimise. Cette technique
de choix de constante peut être reprise dans les méthodes qui vont suivre. Les calculs sont
souvent plus longs car ce n’est, en fait, plus une constante de lissage que nous sommes amenés
à déterminer mais souvent deux ou trois.

2.3 Lissage exponentiel double


2.3.1 Définition
On ajuste au voisinage de n une droite d’équation yt = a1 + a2 (t − n). Le prédicteur sera :
x̂n,h = â1 + â2 h. (2.5)
Les coefficients â1 , â2 sont solution de
n−1
X
min αj (xn−j − (a1 − a2 j))2 . (2.6)
a1 ∈R,a2 ∈R
j=0

En remplaçant, comme dans le lissage simple, la sommation finie par une somme de 0 à +∞, le
problème précédent devient
+∞
X
min αj (xn−j − (a1 − a2 j))2 .
a1 ∈R,a2 ∈R
j=0

9
Figure 2.1: Lissage et prévision par la méthode de lissage exponentiel simple d’un bruit blanc
[gauche] et d’une tendance linéaire X(t) = 0.5t + t , t ∼ N (0, 1)[droite](α = .1, .5, .9)

2.3.2 Calcul des coefficients


On annule les dérivées partielles par rapport à a1 et a2 du critère (6) et on vérfie à l’aide des
dérivées secondes que l’on a bien un [Link] notant C la fonction à minimiser
n−1
∂C X
= −2 αj (xn−j − (a1 − a2 j))
∂a1
j=0
n−1
∂C X
=2 jαj (xn−j − (a1 − a2 j)),
∂a2
j=0
P∞ 1 P∞ α P∞ α(1+α)
Puisque 0 αj = 1−α , 0 jαj = (1−α)2
et 0 j 2 αj = (1−α)3
, en annulant les dérivées, on
obtient
n−1
X α
(1 − α) αj xn−j − a1 + a2 =0
(1 − α)
j=0
n−1
X α(1 + α)
(1 − α)2 jαj xn−j − a1 α + a2 =0
(1 − α)
j=0

Introduisons deux lissages exponentiels simples successifs, celui des x produit L1 , celui de
L1 produit L2 :
n−1
X
L1 (n) = (1 − α) αj xn−j
j=0
n−1
X
L1 (n) = (1 − α) αj L1 (n − j)
j=0

On a donc
n−1
X
L2 (n) − (1 − α)L1 (n) = (1 − α)2 jαj xn−j
j=1

10
Figure 2.2: Lissage et prévision par la méthode de lissage exponentiel double d’un bruit blanc
[gauche] et d’une tendance linéaire X(t) = 0.5t + t , t ∼ N (0, 1)[droite](α = .1, .5, .9)

et L1 et L2 sont liés à a1 et a2 par les relations


α
L1 (n) − a1 + a2 =0
1−α
α(1 + α)
L2 (n) − (1 − α)L1 (n) − a1 α + a2 = 0.
1−α
Les solutions recherchées vérifient donc,
â1 (n) = 2L1 (n) − L2 (n)
1−α
â2 (n) = (L1 (n) − L2 (n)) .
α
Soit encore
α
L1 (n) = â1 (n) − â2 (n)
1−α

L2 (n) = â1 (n) − â2 (n).
1−α

2.3.3 Formules récursives de mises à jour


On peut en déduire des formules récursives de mise à jour

â1 (n) = â1 (n − 1) + â2 (n − 1) + (1 − α2 )(xn − x̂n−1,1 (2.7)


2
â2 (n) = â2 (n − 1) + (1 − α) (xn − x̂n−1,1 . (2.8)
On peut prendre comme valeurs initiales â1 (0) = x1 et â2 (0) = x2 − x1 .

2.4 Méthode de Holt-Winters


2.4.1 Introduction
Cette approche a pour but d’améliorer et de généraliser le lissage exponentiel simple. Nous
étudions plusieurs cas particuliers de cette méthode :

11
• ajustement d’une droite affine (sans saisonnalité)
• ajustement d’une droite affine + une composante saisonnière
• ajustement d’une constante + une composante saisonnière
le dernier cas étant déduit du second. On ajuste au voisinage de l’instant n une droite
xt = a1 + (t − n)a2
La variante proposée par Holt-Winters porte sur les formules de mise à jour dans l’estimation
de a1 et a2 par les formules (2.7) et (2.8). La formule (2.9) s’interprète comme le barycentre de
l’observation xn et de la prévision à l’horizon 1 à la date n − 1. La formule (2.10) s’interprète
comme le barycentre de la pente estimée à l’instant n − 1 et la différence â1 (n) − â1 (n − 1) entre
les ordonnées à l’origine aux dates n et n − 1.
Soit 0 < β < 1 et 0 < γ < 1 deux constantes fixées et les formules de mise à jour
â1 (n) = βxn + (1 − β)(â1 (n − 1) + â2 (n − 1)) (2.9)
â2 (n) = γ(â1 (n) − â1 (n − 1)) + (1 − γ)â2 (n − 1). (2.10)
La prévision prend la forme
x̂n,h = â1 (n) + hâ2 (n).
Cette méthode est plus souple que le lissage exponentiel amélioré, dans la mesure où elle fait
intervenir deux constantes β et γ au lieu d’une α. Les équations (2.7) et (2.8), qui sont un cas
particulier des formules (2.9) et (2.10) avec β = 1 − α2 et γ = 1−α 1+α . On remarque que si β et γ
sont petits, le lissage est fort puisqu’alors α est grand et que l’on tient compte du passé lointain.

2.4.2 Ajout d’une composante saisonnière. Décomposition additive.


On ajuste au voisinage de n, la chronique
xt = a1 + (t − n)a2 + st
où st est une composante périodique de période T . Les formules récursives de mise à jour sont
: soit 0 < β < 1,
â1 (n) = β(xn − ŝn−T ) + (1 − β)(â1 (n − 1) + â2 (n − 1))
â2 (n) = γ(â1 (n) − â1 (n − 1)) + (1 − γ)â2 (n − 1)
ŝn = δ(xn − â1 (n)) + (1 − δ)ŝn−T .
La prévision prend la forme
x̂n,h = â1 (n) + (t − n)â2 (n) + ŝn+h−T , 1 ≤ h ≤ T
x̂n,h = â1 (n) + (t − n)â2 (n) + ŝn+h−2T , T + 1 ≤ h ≤ 2T.
et ainsi de suite pour h > 2T . Dans cette procédure la difficulté de choisir les constantes de
lissage est encore plus grande que pour les autres situations.
Les valeurs initiales suivantes permettent (mais on pourrait en proposer d’autres) de com-
mencer le calcul récursif des prévisions à partir de l’instant T + 2 :
â1 (T + 1) = xT +1
xT +1 − x1
â2 (T + 1) =
T
ŝj = xj − (x1 + (T − 1)â2 (T + 1))) pour j ∈ {1, · · · , T }.

12
Chapter 3

Modélisation de la composante
déterministe

Le modèle le plus usuel consiste à supposer que la série initiale s’écrit sous la forme (modèle
additif)
Xt = Tt + St + Yt pour tout t ∈ {1, · · · , n}
avec Xt la tendance, St la composante saisonnière (fonction périodique de période un an) et Yt
la composante stationnaire.

Quand le modèle s’écrit comme une somme de plusieurs composantes comme ci-dessus on parle
de modèle additif.
Certaines séries temporelles se comportent selon un modèle multiplicatif. On a alors
Xt = Tt St Yt pour tout t ∈ {1, · · · , n}
On remarque qu’on se ramène naturellement à un modèle additif par passage au log :
log(Xt ) = log(Tt ) + log(St ) + log(Yt ) pour tout t ∈ {1, · · · , n}

13
3.1 Analyse de la tendance

exemple : poissons

3.1.1 Moyenne mobile

Si {xi }i∈{1,··· ,n} est une série temporelle, alors la moyenne mobile d’ordre p associée est la série
temporelle définie pour t ∈ {p + 1, · · · , n − p} par

p
X
x̂t = xi
i=t−p

avec 2p + 1 la largeur de la fenêtre.

Exemple : Poissons

14
3.1.2 Différenciation

On peut éliminer la tendance par différenciation.

Définition - Notons ∇ l’opérateur de différenciation, c’est à dire l’opérateur défini par

∇xt = xt − xt−1

pour tout t ≥ 2.

Définition - On définit l’opérateur de différenciation d’ordre k par la formule de récurrence

∇(k) xt = ∇(∇(k−1) xt )

Propriétés -

1. Soient ut et vt deux séries temporelles, ∇(ut + vt ) = ∇ut + ∇vt .

2. Soit xt une série temporelle et λ ∈ R, ∇(λxt ) = λ∇xt .

3. Soit yt = a0 + a1 t + · · · + ak tk , alors ∇(k) yt = k!ak et ∇(k+1) yt = 0.

La 3ème propriété implique que si Xt = Tt + zt avec Tt une tendance polynomiale, alors on peut
supprimer la tendance en appliquant successivement plusieurs fois l’opérateur ∇.

15
3.1.3 Modèle additif avec tendance paramétrique
Définition On dit qu’une série temporelle suit un modèle de tendance additif lorsqu’elle peut
se décomposer sous la forme
Xt = Tt + Zt
avec Zt une série temporelle sans tendance.

On dit qu’une série temporelle a une tendance linéaire lorsque

Tt = a × t + b

On dit qu’une série temporelle a une tendance polynomiale lorsque

Tt = a0 + a1 t + a2 t2 + ...

Ajustement du modèle
On suppose que les observations {x1 , · · · , xn } suivent un modèle additif avec une tendance
paramétrique représentée par une fonction f de paramètres θ, c’est à dire vérifie

xt = f (t; θ) + zt

avec zt une série temporelle sans tendance.

On cherche alors à estimer les paramètres inconnus θ. On utilise généralement la méthode des
moindres carrés.

Vérification du modèle et autres modèles paramètriques


Afin de vérifier l’adéquation du modèle aux observations, on calcule les estimations θ̂ puis on
trace le graphique
t 7−→ xt − f (t; θ̂)
Si le modèle est valable, il ne reste plus de tendance sur cette nouvelle série temporelle. Sinon
on cherche un modèle plus adapté.

16
Série résiduelle après avoir retiré la tendance estimée (polynôme d’ordre 2)

Il reste une tendance visible. Sur la série initiale, il semble que les fluctuations saisonnières sont
proportionnelles à la tendance. Dans ce cas, un modèle additif n’est pas adapté. On peut alors
tester un modèle multiplicatif.

Définition - On dit qu’une série temporelle suit un modèle de tendance multiplicatif lorsqu’elle
peut se décomposer sous la forme

Xt = Tt Zt

avec Zt une série temporelle sans tendance.

En pratique, on se ramène à un modèle additif par passage au logarithme, puisqu’on a alors

log(Xt ) = log(Tt ) + log(Zt )

Retour sur l’exemple de la production de poisson en finistère nord entre 1971 et 1979.

Logarithme de la série initiale et tendance linéaire ajustée

17
Série résiduelle après avoir retirée la tendance estimée

3.1.4 Comparaison des différentes méthodes


Les principaux avantages des méthodes paramètriques sur les deux autres méthodes sont

• qu’elles fournissent un modèle facilement interprétable et qui permet, par exemple, de


comparer plusieurs séries temporelles entre elles.

• qu’elles peuvent être utilisées en prévision, ce qui n’est pas le cas des autres méthodes.

L’avantage principal des deux premières méthodes (moyenne mobile et différenciation) est qu’elles
s’ajustent à de nombreuses séries temporelles sans modifications, alors que pour les modèles
paramètriques il peut être difficile de choisir le bon modèle.

18
3.1.5 Conclusion
Pour modéliser la tendance dans une série temporelle, les différentes étapes sont :
1. Tracer la série temporelle
2. Utiliser ce graphique pour identifier le modèle en répondant aux quetions suivantes :
3. Modèle additif ou multiplicatif? Pour cela, on regarde si les composantes saisonnières et
stationnaires sont proportionnelles à la tendance ou non. Lorsque le modèle est additif,
on travaille sur la série log(xt ) afin de se ramener à un modèle additif.
4. Méthode paramétrique ou non-paramétrique? Pour cela, on regarde si il existe un modèle
simple permettant de décrire la tendance observée (modèle linéaire, polynomiale, exponen-
tiel...). Si on ne trouve pas de tel modèle, on peut utiliser une méthode non paramètrique
(MM ou différentiation).
5. Vérifier le modèle en traçant la série "résiduelle", c’est à dire la série dans laquelle on a
enlevé la tendance en utilisant la méthode choisie.

3.2 Analyse des composantes saisonnières


Dans ce paragraphe, Xt désigne une série temporelle sans tendance. En pratique, lorsqu’il existe
une tendance sur la série initiale Xt , on commence par l’enlever en utilisant l’une des méthodes
décrites dans la section précédente.

On supposera dans la suite de cette section, sauf mention contraire, que la série Xt suit un
modèle de saisonnalité additif, c’est à dire que
Xt = St + Zt
avec St une fonction périodique de période τ , avec τ le nombre de données par année, c’est à
dire vérifiant St = St+τ et Zt une série temporelle stationnaire.

De nombreuses séries temporelles observées dans la nature suivent un modèle multiplicatif, c’est
à dire vérifient
Xt = St Zt
Dans ce cas, les fluctuations de la série autour de la composante saisonnière sont proportionnelles
à celle-ci. On se ramène alors à un modèle additif par passage au logarithme.

Dans le cadre des modèles additifs, plusieurs méthodes peuvent être utilisées pour estimer la
fonction t 7−→ St . C’est l’objet des paragraphes ci-dessous.

3.2.1 Calcul des moyennes saisonnières


On renumérote la série Xt sous la forme Xjk , j = 1, · · · , Tan , k = 1, · · · , Nan avec Tan la longueur
de l’année et Nan le nombre d’années de mesure. Le modèle se réécrit alors sous la forme :
Xjk = Sk + Zjk

Un estimateur naturel de Sk est donné par T1 N


P an
j=1 Zjk , c’est à dire par la moyenne des obser-
vations disponibles à la date k pour chaque année. On appelle généralement Sk les "moyennes
saisonnières".

19
3.2.2 Vérification du modèle

Afin de vérifier l’adéquation du modèle, on trace la série résiduelle Zt . Si le modèle convient,


il ne reste plus de saisonnalité apparente sur cette série résiduelle, généralement appelée "série
corrigée des variations saisonnières".

Retour sur l’exemple de la production de poissons.


Première étape : traitement de la tendance (cf section 2). On suppose que la série suit un
modèle multiplicatif, i.e Xt = Tt Zt . On suppose en outre que log(Tt ) = αt + βt . On note a et b
les estimateurs des moindres carrés de α et β.
Deuxième étape : traitement de la saisonnalité. On suppose que la série log(Zt ) suit un modèle
de saisonnalité additif, c’est à dire que log(Zt ) = St +Yt . On estime St en calculant les moyennes
saisonnières associés à la série log(Zt ). On a Tan = 12, données mensuelles.

Retour sur l’exemple des données de vent.


On suppose qu’il n’y a pas de tendance dans cette série temporelle. On a N = 22 × 365 (22 ans
de données) et Tan = 365 (données journalières). La séquence Sk représente alors la moyenne
associée au jour k de l’année calculée sur les 22 ans de données.

20
Sur cet exemple, la fonction obtenue n’est pas un bon estimateur de la fonction Sk : les fluctu-
ations rapides observées sont dues au fait qu’on a seulement 22 données pour estimer la valeur
de ŝk pour un k donné. Dans ce cas, on peut lisser la série obtenue en utilisant les moyennes
mobiles introduite précédemment. Remarque : ici on cherche à estimer une fonction périodique
supposée être périodique à partir d’une observation "bruitée" xt .

Modèle paramètrique
Lorsque l’on veut décrire la composante saisonnière grâce à un modèle paramétrique simple, on
utilise généralement un polynôme trigonomètrique. On suppose alors que :

Xt = µ + αc cos(ωt) + αs sin(ωt) + Zt

Pour estimer αc et αs , on peut utiliser la méthode des moindres carrés.

Proposition - Les estimateurs des moindres carré de sont solutions du système linéaire :
PT PT  
P T cos(ωt) sin(ωt) µ T PT x(t)

t=1 t=1 X
T T T

2
P P
cos(ωt) (cos(ωt)) cos(ωt) sin(ωt) α = x(t) cos(ωt)

c 
Pt=1 PT t=1 t=1 Pt=1

T PT 2 T
αs

t=1 x(t) sin(ωt)
t=1
t=1 sin(ωt) t=1 sin(ωt) cos(ωt) t=1 (sin(ωt))

Preuve : en exercice. Il suffit d’écrire le coût aux moindres carrés et de dériver.

Remarque : la solution analytique de ce système est relativement complexe (résolution numérique


sous Matlab). Par contre, lorsque T est grand, une solution approchée est donnée par

T
1X
µ̂ = x(t)
T
t=1

T
2X
α̂c = x(t) cos(ωt)
T
t=1

21
et
T
2X
α̂s = x(t) sin(ωt)
T
t=1
On reconnait les coefficients de Fourrier....
Ces estimateurs sont asymptotiquement sans biais et convergents.

La résolution du système précédent pour les données de vent donne µ̂ = 29.3, αc = 21, 8 et
αs = −7.7.

Comparaison des différentes méthodes (p=2 mois)


Etude de la série résiduelle (modèle paramètrique) Il reste une forte saisonnalité. En fait, ici un
modèle le modèle additif n’est pas adapté (cf TP?).

3.2.3 Différenciation
Définition - On appelle différence d’ordre τ de la série Xt les quantités
(τ )
∇t = Xt+τ − Xt

22
définies pour π ∈ N. Attention : ne pas confondre cet opérateur avec l’opérateur défini à la
section 2 (modélisation de la tendance).

Si on suppose que la série {Xt } suit un modèle de saisonnalité additif, c’est à dire que

Xt = St + Zt

avec St une fonction périodique de période τ , avec τ le nombre de données par année, c’est à
dire vérifiant St+τ = St et Zt une série temporelle stationnaire (cf paragraphe 3). Alors il est
facile de vérifier que ∇τ xt = xt − xt−τ = zt − zt−τ est une série stationnaire (cf chapitre 3).

Retour sur l’exemple 2 (poissons).

3.2.4 Comparaison des différentes méthodes


Avantages des méthodes décrites au 2.a et 2.b sur la méthode du 2.c :

• Fournit un modèle facilement interprétable et qui permet, par exemple, de comparer


plusieurs séries temporelles entre elles.

• Peut-être utilisé en prévision.

Les méthodes 2.a et 2.c s’ajustent à de nombreuses séries temporelles sans modification.

23
Chapter 4

Premiers pas vers la modélisation de la


composante aléatoire

4.1 Généralités sur les processus stationnaires


4.1.1 Définitions
Définition 1 On appelle processus à temps discret une suite {X1 , · · · , XT } de variables aléa-
toires.

Remarque - Dans la suite, sauf mention contraire, on supposera que Xt est à valeurs réelles.
Définition 2 - Soit X = {Xt }t∈Z un processus tel que E[Xt2 ] < ∞ pour t ∈ Z On dira que ce
processus est (faiblement) stationnaire (ou stationnaire d’ordre 2) si les 2 conditions suivantes
sont vérifiées pour tout t:
• E(Xt ) = m pour tout t ∈ {1, · · · , T }
• E(Xt Xt+h ) = γ(h) est indépendant de t

On appelera alors fonction d’autocovariance de Xt la fonction C définie par


C(k) = E(Xt Xt+k ) − E(Xt )E(Xt+k )
et fonction d’autocorrélation la fonction ρ définie par
E(Xt Xt+k ) − E(Xt )E(Xt+k )
ρ(k) = q
E(Xt2 )E(Xt+k
2 )

Remarques :
1. On a C(t) = C(−t) (fonction paire) donc il suffit de connaitre la fonction d’autocovariance
sur [0, T ]. De même pour ρ.
2. Pour tout k, |C(k)| ≤ C(0).
3. La fonction d’autocovariance est définie positive.

Par la suite le terme stationnaire fera référence à la stationnarité faible.

24
4.1.2 Quelques commentaires sur l’autocorrélation
En général, on utilise l’autocorrélation pour caractériser les dépendances linéaires dans des séries
résiduelles (ie des séries temporelles corrigées de la tendance et la saison). En effet, la tendance
et la saison sont des composantes déterministes et ça a peu de sens d’estimer des propriétés
statistiques de quantités déterministes. De plus, si la série étudiée a ses caractéristiques qui
évoluent dans le temps, il peut être difficile d’estimer ses propriétés statistiques car on dispose
en général d’une seule réalisation du processus ce qui n’est pas suffisant pour faire de l’estimation.
Cependant, il est très utile de comprendre quelle sera l’allure de l’auto-correlation empirique
d’une série brute comportant une tendance et/ou une saison.

Proposition 1 On considère une tendance linéaire pure

xi = ai + b, i = 1, · · · , n,

pour h fixé, ρ̂(h) tend vers 1 quand n tend vers l’infini.

Preuve à faire en exercice : donner l’expression de la moyenne puis montrer que ρ̂(k) ne dépend
ni de a ni de b. Enfin utiliser les résulats connus sur les sommes de puissances d’entiers successifs.

N (N + 1) N (N + 1)(2N + 1)
1 + 2 + ··· + N = et 1 + 22 + · · · + N 2 = .
2 6
On admettra que le résultat est le même pour une tendance polynomiale.

Proposition 2 On considère une série périodique pure de période T :


 
2πi
xi = a cos , i = 1, · · · , n,
T

2πh

pour h fixé, ρ̂(h) tend vers cos T quand n tend vers l’infini.

On admettra ce résultat.
En résumé, pour une longue série présentant une tendance polynomiale, l’autocorrélation
empirique reste proche de un. Si une longue série comporte une saisonnalité, cette saisonnalité se
voit sur la fonction d’autocorrélation empirique. Ainsi si une autocorrélation empirique présente
ces caractéristiques, c’est qu’on n’a pas bien retiré la tendance et/ou correctement désaisonnalisé
la série.

4.2 Quelque exemples classiques de processus.


4.2.1 Bruit blanc
Définition 3 On dira que le processus t est un "bruit blanc" s’il forme une suite de variables
indépendantes et identiquement distribuées. Il sera dit centré si E[t ] = 0 et réduit si V ar[t ] = 1.

Proposition 3 - Soit Xt un bruit blanc vérifiant E[Xt ] = m et V ar[Xt ] = σ 2 . Alors Xt est un


processus stationnaire.

25
On laisse la preuve en exercice.

La première condition signifie tout simplement que l’espérance du processus est indépendante du
temps. La seconde condition implique bien entendu l’indépendance de la fonction d’autocovariance
par rapport au temps (stationnarité). Mais elle implique en outre que les termes d’autocovariance
(pour h ≥ 0) sont tous nuls. Seule la variance est non nulle. Autrement dit, cela signifie que
les bruits blancs sont des processus stationnaires particuliers sans "mémoire". Le niveau de la
série considéré aujourd’hui n’a aucune incidence sur son niveau de demain, tout comme le niveau
d’hier n’a aucune incidence sur le niveau d’aujourd’hui.

4.2.2 Processus gaussien


En statistique les vecteurs et les processus gaussien jouent un rôle particulier car ils sont faciles
à manipuler. En particulier, ils sont complètement caractérisés par leur structure d’ordre deux.
On peut donc facilement estimer et modéliser leurs propriétés statistiques.

Définition 4 Le processus (Xn )n∈Z est un processus gaussien si toutes ses lois marginales sont
gaussiennes. Ca’est à dire si quelque soient k et j1 , · · · , jk , le vecteur (Xj1 , · · · , Xjk ) est un
vecteur gaussien.

Il est clair qu’un porcessus gaussien stationnaire est strictement stationnaire.

Exercice - Soit (Xn )n∈Z un suite de variables aléatoires gaussiennes indépendantes, centrées
et toutes de variance 1. Parmi les processus suivants, lesquels sont gaussiens? Lesquels sont
stationnaires? Donner alors l’expressionde leur fonction de covariance.
1. Yn = Xn Xn+1
2. Yn = Xn Xn+1 · · · Xn+k
3. Yn = Xn2 Xn+1
2

2
4. Yn = Xn2 + Xn+1
5. Yn = n + Xn
6. Yn = X1 cos(nπ/2)

4.2.3 Processus moyenne mobile


Définition 5 On dira que le processus {Zt } suit un modele "moyenne mobile d’ordre q" (MA(q))
s’il existe un bruit blanc centré {t } et des constantes βk , k = 0, · · · , q tels que
q
X
Zt = βk t−k
k=0

Proposition 4 Soit {Xt } un processus suivant un modèle moyenne mobile, avec {t } un bruit
blanc centré vérifiant E[t ] = σ 2 < ∞, alors le processus {Xt } est stationnaire. Sa fonction
d’autocovariance est donnée par
q−|k|
X
C(h) = βk2 σ 2 si |h| ∈ 0, · · · , q et 0 sinon
k=0

26
Preuve : Un tel processus est stationnaire : écrire la moyenne et la covariance.

Théorème : Décomposition de Wold - Tout processus stationnaire d’ordre deux (Xt ; t ∈ Z)


peut être représenté sous la forme :

X
Xt = βk k + κt
k=1

où les paramètres βk satisfont β0 = 1, βk ∈ R pour k > 0, ∞ 2


P
k=1 βk < ∞ et où t est un bruit
[Link] dit que la somme des chocs passés correspond à la composante linéaire stochastique
de Xt . Le terme κt désigne la composante linéaire déterministe telle que Cov(κt , t−k ) = 0 pour
tout k ∈ Z.

Ainsi, d’après le théorème de Wold, si l’on omet la composante déterministe κt , tout processus
stationnaire peut s’écrire comme une somme pondérée infinie de chocs passés, ces chocs étant
représentés par un bruit blanc de variance finie. L’implication forte de ce théorème est que, si l’on
connaît les pondérations βk , k ∈ N, et si l’on connaît la variance du bruit blanc, on est mesure
de proposer une représentation de n’importe quel processus stationnaire. Cette représentation
est aussi qualifiée de représentation moyenne mobile infinie. Reste à comprendre ce que peut
être cette composante linéaire déterministe κt . La condition Cov(κt , t−k ) = 0 implique que ce
terme est, par définition (déterministe), indépendant des chocs. Alors le cas le plus simple est
celui d’un processus stationnaire (Xt ; t ∈ Z) d’espérance non nulle, tel que E(Xt ) = m. Puisque
le bruit blanc est par définition un processus centré, une somme pondérée de ces chocs est elle-
même centrée. Par conséquent, la représentation de Wold du processus (Xt ; t ∈ Z) suppose que
l’on ajoute à cette somme pondérée des chocs passés, une composante déterministe qui n’est
autre que l’espérance du processus.

4.2.4 Processus autorégressif


Définition - On dira que le processus Xt suit un modele autorégressif d’ordre p (AR(p)) s’il
existe un bruit blanc centré réduit {t }, tel que t soit indépendant de X0 , · · · , Xt−1 et des
constantes α1 , · · · , αp et σ tels que pour t ∈ {1, · · · , T } on ait

Xt − µ = α1 (Xt−1 − µ) + α2 (Xt−2 − µ) + · · · + αp (Xt−p − µ) + σt

27
Chapter 5

Auto-corrélation partielle

L’auto corrélation partielle est une notion importante pour les séries temporelles, mais elle est
un peu délicate et nécessite des "rappels" de la géométrie dans un espace de variables aléatoires.

5.1 Rappels
Les variables aléatoires réelles de carré intégrable définies sur un même espace probabilité
(Ω, A, P ) forment un espace vectoriel qu’on peut munir du produit scalaire hX, Y i = E[XY ].
On note cet espace L2 = L2 (Ω, A, P ).

• Orthogonalité. Deux variables X et Y de L2 ont orthogonales lorsqie E[XY ] = 0.

• Distance. On définit la distance entre deux variables comme


p
d(X, Y ) = E[(X − Y )2 ]

• Espace engendré. On considère N variables aléatoire X1 , · · · , XN . Le sous espace engen-


dré par ces variables, qui sera noté vec(X1 , · · · , XN ) est le sous ensemble de toutes les
conbinaisons linéaires de ces variables.

Projection Le projeté d’une variable aléatoire Y sur le sous espace vec(X1 , · · · , XN ) sera
noté
Pvec(X1 ,··· ,XN ) (Y ).
C’est la variable aléatoire de cet espace qui est la plus proche de Y au sens de la distance L2
vue plus haut. C’est donc la combinaison linéaire Pvec(X1 ,··· ,XN ) (Y ) = γ1 X1 + · · · + γN XN telle
que

E (Y − γ1 X1 − · · · − γN XN )2 ≤ E (Y − λ1 X1 − · · · − λN XN )2 ∀λ1 , · · · , λN .
   

On peut linterpéter comme la meilleure explication linéaire de la variable Y en terme de


X1 , · · · , XN .

Pour calculer le projeté, on utilise la propriété suivante

Proposition 5 Le projeté Pvec(X1 ,··· ,XN ) (Y ) = γ1 X1 + · · · + γN XN est caractérisé par le fait


que Y − Pvec(X1 ,··· ,XN ) (Y ) est orthogonal aux variables X1 , · · · , XN .

28
Ceci implique que

∀k = 1, · · · , N, E [(Y − γ1 X1 − · · · − γN XN )Xk ] = 0

Soit encore
γ1 E(X1 Xk ) + · · · + γN E(XN Xk) = E(Y Xk )

Ce qui s’écrit aussi sous la forme d’un système d’équations

E(X12 )
    
··· E(X1 XN ) γ1 E(Y X1 )
 ... ...  ...  =  ... 
E(X1 XN ) · · · E(Xn )2 γN E(Y XN )

Si la matrice est inversible, on obtient facilement les γ.

D’après la definition il est facile de comprendre que si Y est elle même une combinaison
linéaire des variables X1 , · · · , Xn alors Y est son propre projeté. Par ailleurs si Y est orthogonale
à toutes les variables Xj alors le projeté est nul. Et les variables Xj ne permettent pas d’expliquer
Y.

5.2 Coefficient de corrélation partielle entre deux variables


On se donne N ≥ 3 variables aléatoires X1 , · · · , XN et on va définir un coefficient de corrélation
entre X1 et XN qui fasse abstraction de l’influence de X2 , · · · , XN −1 .

Cette notion est un réponse à la question suivante : il arrive que 2 phénomènes soient
fortement corrélés, mais que cette corrélation soit due à l’influence d’un facteur extérieur et non
pas à un fort lien entre les deux phénomènes. Exemple : .

Définition 6 Le coefficient de corrélation partielle en X1 et XN abstraction faite de l’influence


de X2 , · · · , XN −1 est le coefficient de corrélation entre les deux variables auxquelles on a re-
tranché leurs meilleures explications en terme de X2 , · · · , XN −1 , soit

rX2 ,··· ,XN −1 (X1 , XN ) = ρ X1 − PX2 ,··· ,XN −1 (X1 ), XN − PX2 ,··· ,XN −1 (XN )

Exercice - Considérons trois variables indépendantes X, Z1 , Z2 centrées et de variance 1. On


construit les variables
X1 = X + Z1 et X2 = X + Z2 .

Calculer la corrélation entre X1 et X2 puis l’auto corrélation partielle r[X] (X1 , X2 ) entre X1 et
X2 . Commentez.

5.3 Autocorrélation partielle d’un processus stationnaire


On considère maintenant un processus stationnaire centré (· · · , X−1 , X0 , X1 , · · · ).

5.3.1 Définition
On définit l’auto-corrélation partielle r(h) pour h 6= 0 de la façon suivante.

29
Définition 7
r(1) = ρ(1)
r(h) = rX2 ,··· ,Xh (X1 , Xh+1 ) ∀h ≥ 2
r(h) = r(−h), ∀h 6= 0
Exemple de l’AR(1) - Soit X un processus centré tel que Xt = 0.9Xt−1 + t avec  un bruit blanc
gaussaien centré et réduit et t indépendant de Xs pour tout s < t.
On calcule tout d’abord la fonction d’auto-corrélation.
corr(X1 , X2 ) = corr(0.9X1 + 2 , X1 ) = 0.9
Intéressons nous maintenant aux projections sur le passé et/ou le futur.
P[X2 ,··· ,Xk −1] (Xk ) = 0.9X(k−1) et P[X2 ,··· ,Xk −1] (X1 ) = 0.9X1 .
Il est facile de vérifier que P[X2 ,··· ,Xk −1] (Xk ) = P[X2 ,··· ,Xk −1] (0.9X(k−1) + k ). Or k est, par
définition, indépendant du passé. On a donc bien P[X2 ,··· ,Xk−1 ] (Xk ) = 0.9X(k−1) .
Considérons maintenant, P[X2 ,··· ,Xk −1] (X1 ). Dans le cas où k = 3, on écrit P[X2 ] (X1 ) = γX2
avec γ tel que
E((X1 − γX2 )2 )
soit minimum. On peut calculer la dérivée de E((X1 − γX2 )2 ) par rapport à γ : ρ(1) − γρ(0).
Et en posant que cette dérivée est nulle, on obtient γ = .9.

corr(Xk − 0.9Xk−1 , X1 − 0.9X2 ) = corr(k , X1 − 0.9X2 ) = 0


car k est indépendant de x1 et de X2
De façon générale, pour un processus stationnaire, l’auto-corrélation partielle s’écrit
h−1
X h−1
X
r(h) = corr(Xn − γj Xn+j , Xn+h − γh−j Xn+j )
j=1 j=1
avec     
C(0) ··· C(h − 2) γ1 C(1)
 ... ...  ...  =  ... 
C(h − 2) · · · C(0) γh−1 C(h − 1)

5.3.2 Algorithme de Durbin-Watson


Cet algorithme itératif permet de calculer rapidement les fonctions d’auto-corrélation partielle.
Proposition 6 - Si le processus (Xn )n∈Z est stationnaire, pour tout h ≥ 2, r(h) est le coefficient
de Xn dans l’expression du projeté de Xn+h sur l’espace engendré par (Xn , · · · , Xn+h−1 ).
Partant de ce résultat, l’algorithme se construit de la façon suivante.
h−1
(h)
X
P[Xn ,··· ,Xn+h−1 ] = γh−j Xj
j=0

(h)
et d’après la proposition, r(h) = γh . Par ailleurs, par définition du projeté,

(h)
  −1  
γ1 C(0) · · · C(h − 1) C(1)
 ...  =  ... ...   ... 
 
(h) C(h − 1) · · · C(0) C(h)
γh

30
Chapter 6

Modèles Auto-régressifs

6.1 Modèles autorégressifs d’ordre 1


Quitte à considérer le processus Xt − µ, on peut supposer que E[Xt ] = 0. On suppose donc que
Xt est centré.

Notons
Xt = α1 Xt−1 + t
avec t un bruit blanc centré de variance σ 2 . On vérifie aisément que

Xt = t + α1 t−1 + · · · + α1k t−k + Xt−k−1

Ainsi, si |α1 | < 1 et Xt stationnaire alors ||Xt ||2 = E(Xt2 ) est constant et
2
k
j
X
α1 t−j = α12k+2 ||Xt−k−1 ||2 → 0 quand k → ∞

Xt −

j=0

Comme ∞ j
P
j=0 |α1 |t−j est convergent en moyenne quadratique, Xt admet une représentation en
moyenne mobile

X
Xt = αj t−j
j=0

On en déduit que E[Xt ] = 0 pour tout t et


  
n n
α1j t+k−j   α1j t−j 
X X
Cov(Xt+k Xt ) = lim E 
n→∞
j=0 j=0

α12j
X
= σ 2 α|k|
j=0

α|k|
= σ2
1 − α12

Si |α1 | > 1 la série ∞ j 2


P
j=0 |α1 |t−j n’est pas convergent dans L . Et il ne peut exister de solution
stationnaire (processus explosif).
PN −1 1−q n+1 1
Rappel: somme d’une suite géomètrique sn = k=0 qk = 1−q → 1−q si |q| < 1.

31
Théorème 1 Le modèle défini par l’équation Xt = αXt−1 +σt possède une solution stationnaire
si et seulement si |α| < 1. Dans ce cas, la solution stationnaire vérifie E[Xt ] = αx0 et E[Xt2 ] =
σ2 σ2 |k| avec |k| > 0.
1−α2
et sa fonction d’auto-covariance est donnée par C(k) = 1−α 2α

On remarque que αk = ek log(α) . La décroissance de la fonction d’auto-covariance d’un processus


auto-régressif d’ordre 1 est donc exponentielle.

Preuve du théorème
Stationnarité : il suffit de remarquer que pour tout t ∈ Z,
Xt = t + αt−1 + α2 t−2 + · · ·
ainsi si la série ∞ k
P
k=1 α est convergence on a un rocessus stationnaire dont le moment d’ordre
2 est fini.
Considérons Xt soit stationnaire et tel que E[Xt ] = 0 et E[Xt2 ] = E[Xt20 ]. On a alors
E[Xt2 ] = α2 E[Xt2 ] + σ 2
donc
σ2
E[Xt2 ] = .
1 − α2
On a de plus
C(k) = E[Xt Xt−k ] = αE[Xt−1 Xt−k ] = α2 E[Xt−2 Xt−k ].
σ2
On montre ainsi, par itération, que C(k) = 1−α2
αk .

6.2 Modèles auto-régressifs d’ordre p


Théorème 2 - Le modèle défini par l’équation
Xt = α1 Xt−1 + · · · + αp Xt−p + σ 2 t
X0 = 0
pour t ≥ p possède une solution stationnaire si et seulement si les racines (complexes) de son
polynôme caractéristique
1 − (α1 x + · · · + αp xp )
sont de module strictement supérieur à 1.

Remarque : modèle d’ordre p = 1 : on retrouve la condition du théorème précédent.


On montre facilement que le processus est stationnaire en écrivant sa moyenne et sa covariance.

Exercice - Donner les conditions de stationnarité d’un processus AR(2).

Proposition - Soit Xt un processus Ppstationnaire suivant un modèle AR(p) de paramètres


2 2 2
α1 , · · · , αp , σ . On a alors E[Xt ] = k=1 αk C(−k) + σ et la fonction d’autocovariance C(k)
vérifie les relations ci-dessous (équations de Yule Walker) :
    
C(1) C(0) C(−1) C(−2) · · · 1 α1
 C(2)   C(1) C(0) C(−1) · · · 0   α2 
 C(3)  =  C(2) C(1)
    
   C(0) · · · 0 
  α3 
 
.. .. .. .. ..
. . . . 0 .

32
Démonstration
L’équation définissant le processus AR est
p
X
Xt = ϕi Xt−i + εt
i=1

En multipliant les deux membres par Xt−j et en prenant l’espérance, on obtient


" p #
X
E[Xt Xt−j ] = E ϕi Xt−i Xt−j + E[εt Xt−j ]
i=1

Or, il se trouve que E[Xt Xt−j ] = C(j) par définition de la fonction d’autocovariance. Les termes
du bruit blanc sont indépendants les uns des autres et, de plus, Xt−j est indépendant de εt où
j est plus grand que zéro. Pour j > 0, E[εt Xt−j ] = 0. Pour j = 0,

p p
" !#
X X
E[εt Xt ] = E εt ϕi Xt−i + εt = ϕi E[εt Xt−i ] + E[ε2t ] = 0 + σε2
i=1 i=1

Maintenant, on a pour j ≥ 0,
p
" #
X
C(j) = E ϕi Xt−i Xt−j + σε2 δj
i=1

Par ailleurs,
" p # p p
X X X
E ϕi Xt−i Xt−j = ϕi E[Xt Xt−j+i ] = ϕi C(j − i)
i=1 i=1 i=1

qui donne les équations de Yule-Walker:


p
X
C(m) = ϕi γj−i + σ2 δj
i=1

pour j ≥ 0. Pour j < 0,


p
X
C(j) = C(−j) = ϕi C(|j| − i) + σ 2 δj
i=1

Remarque : Ces formules peuvent être utilisées pour calculer récursivement la fonction d’autocovariance.

Exercice : On considère le modele AR(2) défini par

Xt = 0.9Xt−1 − 0.3Xt−2 + 0.1t

a. Vérifier que ce processus admet une solution stationnaire


b. Calculer les valeurs de E[Xt ], C(1), · · · , C(5) du modèle précédent.

33
6.3 Inférence statistique pour les modèles auto-régressifs
6.3.1 Estimation des paramètres
On dispose d’une observation {x0 , · · · , xT } de longueur T + 1 d’un processus stationnaire Xt
supposé suivre un modèle AR(p), c’est à dire vérifiant

Xt = α0 + α1 Xt−1 + · · · + αp Xt−p + σt

avec t ∈ Z et X0 = x0 et α1 , · · · , αp , σ des paramètres inconnus. On cherche alors à estimer ces


paramètres à l’aide des observations disponibles.

Pour cela différentes méthodes sont possibles

• Moindres carrés (non étudié)

• Maximum de vraisemblance (non étudié). L’estimation d’un modèle AR(P) par la méth-
ode du maximum de vraisemblance est délicate car la fonction de vraisemblance est très
complexe et n’a pas de dérivée analytique. Cette difficulté provient de l’interdépendance
des valeurs, ainsi que du fait que les observations antérieures ne sont pas toutes disponibles
pour les p premières valeurs.

• Méthode des moments : utilisation des équations de Yule-Walker.

6.3.2 Estimateurs de Yule-Walker


La méthode consiste à reprendre les équations de Yule-Walker en inversant les relations : on
exprime les coefficients en fonction des autocovariances. On applique alors le raisonnement de la
méthode des moments : on trouve les paramètres estimés d’après les auto-covariances estimées.

On a vu précedemment que µ = E[X1 ], C(0) = α1 C(1) + · · · + αp C(p) + σ 2 et

C(k) = α1 C(k − 1) + · · · + αp C(k − p)

En prenant l’équation sous sa forme matricielle


    
C(0) C(−1) C(−2) C(−3) . . . 1 α1
C(1)  C(0) C(−1) C(−2) . . . 0 α2 
 
  
C(2)  C(1) C(0) C(−1) . . . 0
=  α3 
 

C(3)  C(2) C(1) C(0) . . . 0  .
 .. 

  
.. .. .. .. ..
. . . . . 0 σε2
que l’on écrira aussi
Rp α = C
 
α̂1
 .. 
avec Rp la matrice et C = (C(i))i=0,··· ,p le second membre. Le vecteur des paramètres θ̂ =  . 
σ̂ε2
peut alors être obtenu.

Remarque - Les estimateurs de Yule-Walker sont tels que la moyenne et les p + 1 premières
valeurs de la fonction d’auto-covariance du modèle estimé coïncident avec celles estimées sur les
données.

34
Cas particuliers :
Modèles d’ordre p = 1. On obtient
 
Ĉ(1) 1
R̂1 =
Ĉ(0) 0

alors α1 = Ĉ(1)/Ĉ(0) et σ̂ 2 = Ĉ(0) − Ĉ(1)2 /Ĉ(0)


Modèles d’ordre p = 2. On obtient
 
Ĉ(1) Ĉ(2) 1
R̂2 =  Ĉ(0) Ĉ(1) 0 
Ĉ(1) Ĉ(0) 0

alors
 
0 Ĉ(0) Ĉ(1)
1
R̂2−1 =  0 −Ĉ(1) Ĉ(0) 
Ĉ(0)2 − Ĉ(1)2 2 2 2
Ĉ(0) − Ĉ(1) Ĉ(1)(Ĉ(2) − Ĉ(0)) Ĉ(1) − Ĉ(0)Ĉ(2)

donc α1 = (Ĉ(0)Ĉ(1) + Ĉ(1)Ĉ(2))/(Ĉ(0)2 − Ĉ(1)2 ), etc.

Les estimateurs de Yule-Walker sont évidemment consistants dès que les Ĉ(k) sont des esti-
mateurs consistants des covariances C(k). Le résultat suivant donne plus de précisions sur le
comportement asymptotique de ces estimateurs. Il reste vrai même dans le cas où on aurait
résolu le système des équations de Yule-Walker avec une valeur de p qui ne serait pas la bonne.

Proposition 7 Soit (Xt ) un processus AR(p) stationnaire, soit q ≥ p et notons α ∈ Rq le


vecteur α = (α1 , . . . , αp , 0, . . . 0). Notons α̂(n) la solution de l’équation de Yule-Walker empirique
(n) (n)
dans Rq soit Rm α̂(n) = CX,m . Alors
√ L
n(α̂(n) − α) → N (0, σ 2 Rq−1 )
n→∞

(6.7)

Remarque - La matrice de covariance dépend de σ 2 de façon linéaire (est égale à σ 2 multiplié


par la matrice de covariance pour un bruit de variance 1). Donc la matrice de covariance
−1 ne dépend pas de σ 2 .
asymptotique σ 2 Rm

La proposition précise la variance asymptotique des estimateurs de Yule-Walker. Ces estimateurs


ont la même variance asymptotique que ceux du maximum de vraisemblance. Mais, évidemment,
ils ne sont utiles que lorsque on sait déjà que l’on a affaire avec un processus AR (et donc que
la partie M A est nulle).

Dans le cadre d’un processus AR, la proposition fournit une approche à l’étude de la meilleure
(n) (n) √ (n)
valeur de p. En effet, si m > p et α̂(n) = (α̂1 , . . . , α̂m ), (6.7) affirme que n α̂m → N (0, λ)
pour n → ∞, où λ est égal a σ 2 multiplié par l’élément diagonal d’indice m, m de la matrice
Rm−1 . Or il est remarquable que cette quantité vaut toujours 1.

35
Remarque - ces formules peuvent être utilisées pour construire des intervalles de confiance
asymptotiques
√ en remplaçant σ et Rp par leurs √
estimations. Plus précisemment, pour T grand,
on a T (α̂ − α) ∼ N (0, Σ), donc en particulier T (α̂i − αi ) ∼ N (0, Σii ) avec Σii le ième terme
diagonal de la matrice Σ = σ 2 Rp−1 , puis
p √ p
P (−q1−α Σii ≤ T (α̂i − αi ) ≤ q1−α Σii ) = 1 − α

avec q1−α le quantile d’ordre 1 − α de la loi de Gauss centrée et réduite.

Exercice P P 2
On
P considère unePsérie temporelle {x t
P } de longueur T =P200 telle que x t = 13.1, xt = 164.2,
xt xt+1 = 6.1, xt xt+2 = −9.98 , xt xt+3 = 13.4, xt xt+4 = 11.8.
1. On suppose que cette série temporelle suit un modèle d’ordre 1
a. Ecrire les équations de Yule-Walker
b. En déduire une estimation des paramètres du modèle
c. Donner un intervalle de confiance pour le paramètre α1
2. On suppose que cette série temporelle suit un modèle d’ordre 2.
a. Ecrire les équations de Yule-Walker
b. En déduire une estimation des paramètres du modèle
c. Donner un intervalle de confiance pour le paramètre alpha1 puis pour α2 .

6.3.3 Maximum de vraisemblance conditionnel


Une manière de simplifier la complexité de la fonction de vraisemblance est de conditionner cette
fonction aux p premières observations. La fonction de log-vraisemblance devient:

−(T − p) −(T − p)
log L(x1 , · · · , xT ) = log(2π) − log(σ 2 )
2 2
T
X 1
− (xt − µ − α1 xt−1 − · · · − αp xt−p
2σ 2
t=p+1

La maximisation de cette fonction par rapport aux paramètres α correspond à la minimisation


des erreurs du modèle. L’estimateur du maximum de vraisemblance conditionnel correspond
ainsi à celui des moindres carrés. L’estimateur obtenu sera équivalent à l’estimateur incondition-
nel dans de grands échantillons et tous deux ont la même distribution asymptotique (Hamilton
1994, p. 126). Il peut être biaisé.

6.4 Prédiction dans les modèles autorégressifs


Dans ce paragraphe, on suppose que {Xt } est un processus stationnaire qui suit un modèle
AR(p), c’est à dire vérifie

Xt − µ = α1 (Xt−1 − µ) + · · · + αp (Xt−p − µ) + σt

avec t un bruit blanc centré réduit.

Objectif: on cherche à prédire la valeur prise par le processus aux instants t + 1, t + 2, · · · à


partir de la connaissance des valeurs prises par ce processus jusqu’à l’instant t, c’est à dire de
x0 , · · · , xt .

36
Le modèle se réécrit sous la forme
Xt = α1 (Xt−1 − µ) + · · · + αp (Xt−p − µ) + µ + σt
En général, on utilise les quantités suivantes:
X̂t+1|t = α1 (Xt − µ) + · · · + αp (Xt−p+1 − µ) + µ
pour prédire Xt+1 à partir de X1 , · · · , Xt .
X̂t+2|t = α1 (X̂t+1|t − µ) + · · · + αp (Xt−p+2 − µ) + µ
Et de façon générale
X̂t+k|t = α1 (X̂t+k−1|t − µ) + · · · + αp (Xt+k−p|t − µ) + µ

Remarque - Dans le cas des modèles d’ordre 1, on a X̂t+1|t − µ = α1 (Xt − µ), X̂t+2|t − µ =
α1 (X̂t+1| − µ) = α12 (Xt − µ), · · · . On vérifie aisément par récurrence que X̂t+t|t − µ = α1k (Xt − µ)
, donc en particulier que X̂t+k|t → µ quand k tend vers l’infini.

Proposition 8 (admise) - Si {Xt } est un processus stationnaire qui suit un modèle AR(p),
alors la meilleure prédiction, au sens des moindres carrés, de Xt+1 connaissant xt , ..., xt−p+1 est
donnée par x̂t défini par
x̂t+1|t = α1 xt + · · · + αp xt−p+1 + µ

Qualité de la prédiction
Prédiction à un pas de temps On a par définition X̂t+1|t − Xt+1 = σt+1 . t+1 représente
donc l’erreur de prédiction à un pas de temps. En particulier, l’estimation est non-biaisée et
la variance de l’erreur d’estimation est σ 2 . En général, afin de construire des intervalles de
prédiction, on est amené à supposer que  suit une loi de Gauss centrée et réduite. On en déduit
alors que X̂t+1|t − Xt+1 suit aussi une loi de loi de Gauss centrée et de variance σ 2 . L’intervalle
[X̂t+1|t − σΦ−1 (1 − .95/2), X̂t+1|t + σΦ−1 (1 − .95/2)] est appelé intervalle de prédiction à 95%.
En pratique, σ et X̂t+1|t sont inconnues et on les estime.

Prédiction à deux pas de temps On a par définition


X̂t+2|t − Xt+2 = σt+2 + α1 σt+1
En particulier, l’estimation est non-biaisé et la variance de l’erreur d’estimation est (1 + α12 )σ 2
On peut aussi construire des IP.

Remarque - La généralisation au cas général est complexe, sauf dans le cas des modèles d’ordre
p = 1. On a alors (donner formule avec k=1, k=2, puis k=3).
X̂t+k|t − Xt+k = σt+k + α1 σt+k−1 + · · · + α1k−1 σt+1
EnP particulier, on a l’estimation est non-biaisée et la variance de l’erreur d’estimation est
σ 2 k−1 2j
j=0 α .
On peut aussi construire des IP dans le cas gaussien :
q q
[X̂t+k|t − σΦ−1 (1 − .95/2) 1 + α12 + · · · + αk−1
2 , X̂
t+1|t + σΦ −1
(1 − .95/2) 1 + α12 + · · · + αk−1
2 ]

est l’intervalle de prédiction de niveau 0.95 pour Xt+h oosqu’on a observé X jusqu’au temps t.
On vérifie aisément que la qualité de la prédiction se dégrade lorsque k augmente.

37
6.5 Sélection de modèle
Jusqu’à présent, nous avons supposé que l’ordre du modèle AR est connu. Cependant, en
pratique, cette quantité est généralement inconnue, et on cherche alors à estimer sa valeur à
partir des observations, ce qu’on appelle généralement le problème de la sélection de modèle.

Une première méthode consiste à réaliser des tests statistiques. En pratique on considère pour
p variant de 1 à P les tests successifs permettant de comparer le modèle d’ordre p au modèle
d’ordre p + 1.
H0 : X suit un modèle AR(p) contre H1 : non H0
Par le théorème de normalité asymptotique des équations de Yule-Walker (voir section 3.1.1),
on a directement , pour un processus AR(p), un théorème central limite pour les pacf empiriques
r̂(h), h > p: √
T r̂(h) → N (0, 1) quand T → ∞
Ainsi sous H0 , la probabilité que r̂(h) < 1/T Φ−1 (1 − α/2) est égale à α.
p

Une autre idée consiste à utiliser le modèle qui minimise l’erreur de prédiction à un pas de temps,
c’est à dire la valeur de X̂t+1|t − xt+1 . Cependant, en pratique, plus on augmente la valeur de
p , plus l’erreur de prédiction diminue. On peut alors utiliser le critère Bayesian Information
Criterion (BIC). On choisit alors le modèle qui minimise la quantité

BIC(p) = −2 log(L) + Npar (p) log(T )

On obtient alors généralement un modèle pour lequel on a un bon compromis entre le nom-
bre de paramètre et l’erreur de prediction. En pratique, on obtient généralement des modèles
parsimonieux qui s’ajuste bien aux données.

6.6 Validation de modèle


Lorsque l’on veut vérifier l’adéquation d’un modèle auto-régressif à des données observées, on
utilise généralement le test de Portmenteau. Supposons tout d’abord que l’on veuille tester :
H0: est un bruit blanc
H1 : n’est pas un bruit blanc
(Attention : portemanteau signifie fourre-tout en anglais). Ce test évalue la corrélation existant
entre les résidus.
Soit ε = (ε1 , . . . , εn ) une famille de variables aléatoires de loi à densité. On souhaite encore
1 Pn−h
n−h i=1 εi εi+h
tester H0 : ε est un bruit blanc fort. On note ρ̂ε (h) = 1 Pn Il s’agit d’un estimateur
n i=1 ε2i
de la corrélation. En effet, de même que n1 ni=1 ε2i est un estimateur de la variance var (εt ) =
P
1 Pn−h
E ε2t , de même n−h
 
i=1 εi εi+h est un estimateur de cov (εt , εt+h ) = E [εt εt+h ] . Notons que
sous H0 cette covariance est nulle si h 6= 0.
Sous H0 , pour n grand et k < n/4, (ρ̂ε (h), h = 1, . . . , k) est approximativement un bruit
Xk
blanc gaussien de variance 1/n. Il s’ensuit que QBP = n ρ̂2ε (h) suit approximativement
h=1
une loi du χ2 à k degrés de liberté. Une trop grande valeur de QBP indiquerait une certaine
corrélation entre les εi . On en déduit un test au niveau α de H0 de zone de rejet QBP > χ21−α (k),
avec χ2a (h) le quantile d’ordre a de la loi du χ2 à k degrés de liberté. En fait, on peut améliorer

38
k
X ρ̂2ε (h)
sensiblement ce test en considérant plutôt la statistique QLB = n(n + 2) , qui, sous
n−h
h=1
H0 , suit également, pour n grand, une loi du χ2 à k degrés de liberté.
Ce test, sous sa première forme, est aussi appelé test de Box-Pierce ; sous sa seconde, il est
connu sous le nom de test de Ljung-Box.

39
Chapter 7

Les processus moyenne mobile

7.1 Les processus moyenne mobile


Définition 8 Etant donné un polynôme B(z) = 1 + b1 z + · · · + bq z q de degré exactement q
(bq 6= 0) et dont toutes les racines sont de module strictement supérieur à 1, et étant donné
un bruit blanc centré (t )t∈Z , on appelle processus moyenne mobile d’ordre q (on note M A(q),
Moving Average) de polynôme caractéristique B et d’innovation n , le processus défini par

Xt = t + b1 t−1 + · · · + bq t−q , ∀n

Quelque soit la position des racines du polynôme B et processus M A(q) est stationnaire, centré
et on a
E(Xt t+h ) = 0 ∀h > 0
L’hypothèse sur les racines du polynôme permet de montrer que le processus M A(q) admet une
représentation en processus AR(∞)

t = Xt + β1 Xt−1 + · · · , ∀t

où les βj sont les coefficients du développement en série de B(z)−1 autour de zéro.


Pour un processus moyenne mobile M A(q),

C(h) = 0, ∀h > q

Ainsi l’auto-corrélation d’un processus M A a le même comportement que l’auto-corrélation par-


tielle pour un AR. L’auto-corrélation partielle d’un processus MA est compliquée. On retiendra
que l’auto corrélation partielle d’un processus MA décroit avec une vitesse exponentielle.

7.2 Inférence pour les processus MA


Comme pour les processus AR, on peut construire un algorithme itératif pour estimer les co-
efficients d’un processus MA basé sur la covariance empirique. Cependant les estimateurs du
maximum de vraisemblance ont de meilleurs propriétés statistiques. Ils sont utilisés par défaut
dans R et SAS.
Exemple : Le modèle de moyenne mobile d’ordre 1
Le vecteur des paramètres à estimer est (µ, λ, σ 2 ).
Approche conditionnelle
On en développe quelques étapes génériques des approches conditionnelles. On suppose que

40
0 = 0. La distribution conditionnelle de y1 |0 = µ + 1 ∼ N (µ, σ 2 ). Plus généralement, si t−1
est connu, yt |t−1 simN (µ − λt−1 , σ 2 ).
On réitère le calcul de t = 1 à T et par application successives de la formule de Bayes
T
Y
2
L(y1 , · · · , yT |0 , µ, λ, σ ) = f (yt |t−1 ; µ, λ, σ 2 )
t=1

on obtient pour la log-vraisemblance, conditionnellement à 0 = 0


T
2 T 2 1 X 2
log(L(y1 , · · · , yT |0 , µ, λ, σ )) = − (log(2π) + log(σ ) − 2 t
2 2σ
t=1

L’expression peut paraître simple, elle est cependant non linéaire en le paramètre λ ; en effet

t = (yt − µ) + λ(yt−1 − µ) + λ2 (yt−2 − µ) + · · · + λt 0 .

Approche exacte
On utilise la structure multivariée gaussienne du processus. Un processus MA(1) gaussien pos-
sède pour matrice de variance-covariance

1 + λ2
 
−λ 0 ··· 0
 −λ
2
1 + λ2 −λ · · · 0 
σ   = σ2Γ

.. ..
 . . 
0 ··· 1+λ 2

La log-vraisemblance s’écrit donc


T 1
− (log(2π) + log(σ 2 + log(det(Γ)) − 2 (y − µ)T Γ−1 (y − µ)
2 2σ
En fait c’est maintenant que le travail commence. On sait qu’une matrice symétrique se factorise
Γ = U DU T avec U une matrice triangulaire inférieure et D une matrice diagonale de terme
générique
1 + λ2 + · · · + λ2i
dii = σ 2
1 + λ2 + · · · + λ2(i−1)
En posant
1 + λ2 + · · · + λ2(t−2)
ȳt = yt − µ − λ yt−1
1 + λ2 + · · · + λ2(t−1)
On obtient
T T
2 T T X 1 X ȳt2
log(L(y1 , · · · , yT |0 , µ, λ, σ )) = − log(2π) − log(dtt ) −
2 2
t=1
2 d2tt t=1

La non linéarité des paramètres est évidente.

7.3 Prédiction des processus MA


Pour ces processus, il est plus facile de projeter non pas sur l’espace engendré par X1 , · · · , Xt
mais sur X−∞ , · · · , Xt . C’est là que la représentation AR(∞) des processus MA est utile. En
effet cette représentation implique que les espaces X−∞ , · · · , Xt et −∞ , · · · , t sont égaux.

41
Proposition 9 Pour tout t, le prédicteur à horizon 1 est

X̂n+1 = P[X−∞ ,··· ,Xt ] (Xt+1 ) = P[−∞ ,··· ,t ] Xt+1 = b1 t + · · · + bq t−q

L’erreur de prévision à horizon 1 est

Xt+1 − X̂t+1 = Xt+1 − (b1 t + · · · + bq t−q ) = t+1

On voit facilement à partir de la représentation

Xt+h = t+h + b1 t+h−1 + · · · + bq t+h−q

que le prédicteur est nul dés que l’horizon h dépasse q. L’erreur de prédiction est alors

Xt+h − X̂t+h = Xn+h

et la variance est C(0).

42
Chapter 8

Les processus ARIMA

8.1 Les processus ARMA


Les modèles ARMA permettent de représenter un grand nombre de processus aléatoires sta-
tionnaires. Ce chapitre détaille les principales méthodes de prédiction et d’identification de ces
processus. Il est supposé à ce niveau que l’on a isolé, dans la série chronologique d’origine, sa
partie aléatoire, en lui retirant tendances et facteurs saisonniers

8.1.1 Définition et propriétés


Définition 9 Le processus Xt , où t ∈ Z, est un ARMA(p,q) de moyenne nulle si :
(Xt ) est stationnaire,

Xt0 φ1 Xt00 1 · · ·0 φp Xt0 p = t + θ1 t0 1 + · · · + θq t0 q ,

où t est un bruit blanc centré et de variance σ 2 .

Une représentation équivalente et plus concise est la suivante :

Φ(B)Xt = Θ(B)t ,

où Φ et Θ sont des polyn’omes de degrés respectifs p et q :

Φ(z) = 1 − φ1 z − · · · − φp z p

Θ(z) = 1 + θ1 z + · · · + θp z p
et B est l’opérateur "retard" défini par

B k Xt = Xt−k

Les processus AR et MA sont des ARMA particuliers.

Proposition 10 (fonction de covariance) Pour tout processus aléatoire stationnaire dont la


fonction de corrélation ’(.) tend vers 0 à l’infini, et pour tout entier k > 0, il est possible de
trouver un processus ARMA dont la fonction de corrélation est égale à celle du processus aléatoire
jusqu’à l’ordre k.

Cette propriété est l’une des raisons de l’intér’et pratique des modèles ARMA; une autre raison
est leur facilité de synthèse.

43
Proposition 11 (mémoire courte) Pour un processus ARMA, la fonction de corrélation est
bornée géométriquement :

|ρ(k)|0 Crk , k = 1, 2, cdots, C > 0, 0 < r < 1

on dit qu’un processus ARMA est à mémoire courte (décroissance "rapide" de ρ).

Définition 10 Un processus ARMA défini par Φ(B)Xt = Θ(B)Zt est dit causal s’il admet une
unique solution stationnaire de la forme d’un MA(∞) :

inf
Xty
ψj Zt−j .
j=0

Proposition 12 Soit {Xt } un processus ARMA(p,q) tel que les polynômes Φ et Θ n’ont pas de
racines communes. Alors {Xt } est causal si et seulement si Φ(z) 6= 0 pour tout z ∈ z tel que
|z| ≤ 1. Les coefficients ψj sont déterminés par

Θ(z)
ψ(z) = , pour tout z tel que |z| ≤ 1
Φ(z)

Si le processus ARMA est causal, on peut exprimer sa fonction d’auto-covariance :



X
C(h) = σ 2 ψk ψk+h
k=1

Parler de la densité spectrale?

8.1.2 Inférence
Il y a présomption de processus ARMA si les conditions suivantes sont satisfaites :

• le processus est stationnaire à l’analyse visuelle : pas de tendance, pas de saisonnalité,


variance constante.

• la fonction de corrélation empirique est : à décroissance pas trop lente et sans pics péri-
odiques.

Il existe deux méthodes pour l’estimation des paramètres φ, θ et σ 2 :

• une méthode des moments basée sur la fonction de covariance empirique, dite robuste, qui
fait une estimation directe des paramètres.

• une méthode d’estimation paramétrique basée sur le maximum de vraisemblance gaussien,


applicable de façon optimale au cas des processus gaussiens.

La deuxième méthode donne généralement des résultats plus précis que la première, au moins
dans le cas des processus gaussiens, mais sa mise en oeuvre passe par la minimisation d’une
fonction de plusieurs variables qui n’admet pas de forme explicite. Il n’existe pas de résultats
généraux sur la forme de cette fonction : convexité, existence de minima locaux, vitesse de
variation . . . Il est donc préférable de disposer de valeurs approchées des paramètres pour
l’initialisation ; on utilise par exemple la méthode des moments.

44
Proposition 13 La vraisemblance L d’un processus ARMA gaussien, de moyenne nulle, de
paramètres (φ, θ, σ 2 ), est donnée par la formule suivante :

1 X (Xj − X̂j )2
L(φ, θ, σ 2 ) = (2πσ 2 )−T /2 (r0 · · · rT −1 )−1/2 exp(−
2σ 2 rj−1
j

où X̂j+1 = X̂j+1 (φ, θ, σ 2 ) est la prédiction de Xj+1 sachant X1 , · · · , Xj , dans le modèle ARMA,
et les rj sont les variances des erreurs de prédiction, divisées par la variance de  :

1
rj = rj (φ, θ, σ 2 ) = E((Xj − X̂j )2 ).
σ2

On observe que pour calculer la vraisemblance on a besoin de la prévision à un pas de temps.


Cette prévision se fait par un algorithme récursif.

8.1.3 Prédiction
Le meilleur estimateur de Xt+1 au sens de l’erreur en moyenne quadratique est l’espérance
conditionnelle de Xt+1 sachant Xt , · · · , X1 c’est à dire que c’est X̂t+1 , la projection de Xn+1 sur
le sous espace vectoriel engendré par Xt , · · · , X1 . Autrement dit,

X̂n+1 = φn1 Xn + · · · + φnn X1

On obtient les φnj par l’algorithme de Durbin-Levinson.

8.1.4 Validation
On valide le modèle comme pour les processus AR : analyse des résidus (test bruit banc),
validation croisée, etc.

8.2 Les processus ARIMA et SARIMA


les modèles ARIMA sont bien adapté au cas des séries temporelles présentant une décroissance
très lente de la fonction d’auto-covariance (présence d’une tendance). En pratique, on modélise
le processus des accroissements Xt − Xt−d par une processus ARMA : ARIMA(p,d,q). Le plus
souvent i = 1, ce qui permet d’éliminer une tendance linéaire. Le I de ARIMA signifie "intégré".
En utilisant l’opérateur de retard, on écrit

Φ(B)(1 − B)d Xt = Θ(B)t .

La marche aléatoire est un processus ARIMA(0,1,0) : Xt = Xt−1 + t .


Le modèle SARIMA permet de prendre en plus en compte la saisonnalité. Elle est éliminée
par différenciation :
Φ(B)(1 − B)d (1 − Ls )D Xt = Θ(B)t ,
avec s longuet de la saison (par exemple, s=12 si on a des données mensuelles avec une période
d’un an).
Sous R : arima(x,orderc(p,d,q))=. Voir les exemples dans l’aide en ligne : MA(1)+tendance+
saison.
Sous SAS : PROC ARIMA.

45
8.3 Modèles avec co-variables : ARMAX
Φ(B)Xt = Θ(B)t + D(B)Zt
soit encore
p
X q
X b
X
Xt = φi Xt−i + θi t−i + zt−d
i=1 i=1 i=1

46

Vous aimerez peut-être aussi