0% ont trouvé ce document utile (0 vote)
55 vues67 pages

Serold

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
55 vues67 pages

Serold

Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Séries temporelles : régression, modélisation ARIMA(p,d,q),

modélisation espace-état et splines

2 novembre 2005

Enseignant : Florin Avram


Objectif : L’interpolation : prévision ”ponctuelle, déterministe”, et la régression : démarche
”statistique” plus complexe, qui va au dela de l’interpolation en analysant les résidus et en produi-
sant des intervales des confiance, sont parmi les méthodes les plus importantes dans les mathématiques
et statistiques appliquées. On les utilise par exemple pour la prédiction des phénomènes spatio-
temporaux en géostatistique, économétrie, météorologie, sciences environmentales, ..., etc.
Le premier dilemme dans les series temporelles et la statistique spatiale est le choix entre
modèles stochastiques et déterministes (qui peuvent être vues en effet comme cas particuliers
simples des premiers). Le deuxième dilemme est le choix entre modélisation globale (régression,
modélisation ARMA)et modélisation locale, par exemple par splines (qui change en effet de modèle
quand cela semble opportune).
Nous allons aborder ces thèmes dans le contexte des séries temporelles uni-dimensionelles,
en comencant par l’approche d’interpolation déterministe la plus simple : inspection graphique,
lissage par filtres, identification parametrique de la tendance et prediction des moindre carrés. En
suite, nous examinons l’approche iterative statistique qui consiste à raffiner des modèles ARIMA
ou des modèles d’espace-état, choisies conformement aux tests pour les résidus. Eventuellement, la
démarche stochastique pourra aussi être mise en oeuvre en partant d’une l’interpolation déterministe
plus sophistiqué, par splines.

Compétences acquises : Les etudiants apprendront à utiliser des diverses méthodes de


filtrage et prévision des series temporelles, notamment par la modélisation ARMA, et à tester les
residus pour évaluer la fiabilité des modèles choisies.
Volume horaire :
– 12 heures de cours : 1 heure et demi Jeudi 8 à 13 :40, S06, pour 8 semaines, et qui se
transformerons en suite en TD pour la neuvième et dixième semaines.
– 18 heures de TD : 1 heure et demi Vendredi 08 :00, S23, pour 10 semaines (et completèes
par trois heures pour les deux dernières semaines, ayant place dans la salle. de cours, Jeudi).
Matériels :
1. Notes de cours/TD, qui utilisent parties des notes de M. Lavielle (Université Paris-Sud)
et A. Korabinski (Heriot-Watt) sur les séries temporelles (toutes les coquilles sont de ma
responsabilité).
2. Notes WEB : A. Charpentier, M. Kratz, J-M. Dufour (en Français) et RH. Smith, R. Weber(**
En Anglais), etc
– http ://[Link]/pageperso/lfa/charpent/[Link]#TS
– http ://[Link]/ kratz/[Link]
– http ://[Link]/ rrw1/timeseries/[Link]
3. A. C. Harvey, Time Series Models.
4. J. Durbin and S.J. Koopman, Time series analysis by state space methods.
5. C. Gourieroux et A. Monfort, Cours de series temporelles.

1
Table des matières
1 Introduction 3

2 Premier abord aux séries temporelles/chroniques 4


2.1 Les composantes d’une chronique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.2 Quelques types de décomposition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.1 le modèle additif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2.2.2 le modèle multiplicatif(*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.3 les modèles mixtes(*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

3 Filtres/moyennes mobiles 7
3.1 Fonctions génératrices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
3.2 Filtres de lissage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3.3 Filtres qui enlèvent les composantes saisonières . . . . . . . . . . . . . . . . . . . . . 11
3.4 Exercices : TD 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

4 Modélisation stochastique des séries temporelles 14


4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
4.2 Processus stochastiques stationnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
4.3 Exemples des processus stationnaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.1 Le bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
4.3.2 Les processus linéaires et les moyennes mobiles MA(q) . . . . . . . . . . . . . 17
4.3.3 Les modèles autorégressifs AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.3.4 Les modèles ARMA(p,q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.3.5 Les modèles ARIMA(p,d,q) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
4.4 (*)L’inversion des series des puissances et des filtres ϕ(B) . . . . . . . . . . . . . . . 21
4.4.1 Causalité des modèles AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
4.4.2 Inversibilité des processus MA(q) . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.4.3 Causalité et inversibilité des modèles ARMA(p,q) . . . . . . . . . . . . . . . . 23
4.5 Exercices : TD 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
4.6 TP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.7 (*) La positivité : caractérization des suites de covariance . . . . . . . . . . . . . . . 28

5 La prévision linéaire 29
5.1 La prévision des processus stationnaires AR(p) . . . . . . . . . . . . . . . . . . . . . 30
5.2 Bruit d’innovation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3 Prévision linéaire des modèles autorégressifs ARIMA(p,d,0) . . . . . . . . . . . . . . 32
5.4 Prévision linéaire des modèles ARIMA(p,d,q) . . . . . . . . . . . . . . . . . . . . . . 33
5.5 La détermination de l’ordre d’un modèle autorégressif . . . . . . . . . . . . . . . . . 34
5.6 Exercices : TD 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

6 L’estimation des modèles ARIMA(p,d,q) 36


6.1 Équations Yule-Walker pour les covariances/corrélations des modèles autorégressifs
AR(p) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
6.2 Équations de Yule-Walker pour les covariances/corrélations des processus ARMA(p,q) 38
6.3 Intervales de confiance pour la prédiction . . . . . . . . . . . . . . . . . . . . . . . . 38
6.4 Le lissage exponentiel (*) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.1 Le lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.4.2 Le lissage exponentiel de Holt . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.5 Le lissage exponentiel de Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.5.1 modèle de Winters additif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.5.2 modèle de Winters multiplicatif . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.6 TP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

2
6.7 Modèles d’espace-ètat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.8 Contrôle continu en séries temporelles . . . . . . . . . . . . . . . . . . . . . . . . . . 44

7 Examens d’entraı̂nement 46
7.1 Examen d’entraı̂nement 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
7.2 Examen d’entraı̂nement 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7.3 Examen d’entraı̂nement 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

8 Sommaire des définitions et résultats dans les séries temporelles 53


8.1 Filtres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
8.2 Causalité et inversibilité des modèles ARMA(p,q) . . . . . . . . . . . . . . . . . . . . 54
8.3 Équations Yule Walker . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
8.4 Prévision linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55

9 Appendice : Rappels des statistique et probabilités multivariées 55


9.1 Analyse statistique univariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
9.2 Rudiments de statistique bivariée . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

10 La régression lineaire 56
10.1 Méthode des moindres carrés et méthode des 2 points . . . . . . . . . . . . . . . . . 56
10.2 le coefficient de corrélation linéaire ne suffit pas pour mesurer la qualité de l’ajustement 58
10.3 Les tendances polynomiales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10.3.1 la courbe des moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
10.3.2 le choix du degré du polynome . . . . . . . . . . . . . . . . . . . . . . . . . . 60
10.4 La méthode du changement de variable . . . . . . . . . . . . . . . . . . . . . . . . . 62
10.5 Courbes de tendance qui ne se reduisent pas à une régression lineaire . . . . . . . . 62
10.6 La fonction d’autocorrélation empirique . . . . . . . . . . . . . . . . . . . . . . . . . 63
10.7 (*) Autocorrélation d’une chronique possédant une composante périodique . . . . . . 64
10.8 (*) Autocorrélation d’une chronique présentant une tendance . . . . . . . . . . . . . 65
10.9 (*) Autocorrélation d’une série de fluctuations irrégulières . . . . . . . . . . . . . . . 66

1 Introduction
Définition 1.1 Une série chronologique (ou temporelle) est une succession d’observations au cours
du temps : {Ut : t = 1, 2, ..., n, ...} = (U1 , U2 , ..., Un , ...)

Par rapport aux autres types de données statistiques, la particularité des séries chronologiques tient
à la présence d’une relation d’antériorité qui ordonne l’ensemble des informations. Les dates d’ob-
servations sont souvent équidistantes les unes des autres : on a des séries mensuelles, trimestrielles,
etc, dans quel cas on peut les indexer par t ∈ N. Exemples : a) Nombre des moutons par année
en Angleterre, entre 1867 et 2003. b) Nombre de voyageurs par mois (SNCF) entre 1990 et 2003. c)
Nombre de voitures vendues par un garage, par trimèstre entre 1995 et 1999. d) Taux de mortalité,
per age, entre 55 et 104 (c’est le premier exemple d’utilisation de splines, par Whittaker (1923)).
Les séries temporelles sont le plus simple exemple d’une thématique plus large : l’estimation
et prévision des processus stochastique, i.e. des familles des variables aléatoires U (x). Pour les
séries temporelles/chrologiques, on s’intéresse en x ∈ N, Z ouR + , pendant que dans la statistique
spatiale, (par exemple en géostatistique) on s’intéresse dans le cas x ∈ Z d ou x ∈ Rd .
On se propose d’éstimer la valeur de la variable U (x) en un point x quelconque connaissant
les valeurs U (xi ) aux points de mesure donnés xi , pour i = 1, ...N . Le but principal est le choix
d’un modèle (”estimation”) raisonable, qui permettra à partir des valeurs connues la prédiction
des valeurs inobservables (comme les valeurs futures des séries temporelles, ou moins accesibles
physiquement, couteuses, etc). On veut à la fois : a) enlever du bruit d’observation eventuel et b)
”extrapoler” du connu au inconnu.
Domaines d’application :

3
– Prospection et exploitation pétrolières et minières
– Traitement du signal
– Imagerie medicale
– Océanographie, météorologie, hydrogeologie, environnement, ...
– Séries temporelles, appliquées en économie, finances, météo, médecine, ...

2 Premier abord aux séries temporelles/chroniques


Une règle générale en statistique descriptive consiste à commencer par regarder ses données,
avant d’effectuer le moindre calcul. Ainsi, la figure 1 montre différentes séries chronologiques, qui
méritent quelques commentaires.
– La consommation des ménages en Allemagne et le Produit Intérieur Brut en France semblent
avoir augmenté régulièrement.
– Le taux de chomage en Allemagne semble avoir globalement augmenté depuis 1960, mais
avec une alternance de baisses et de hausses soudaines. Le taux de chomage des Etats-Unis
ne semble pas évoluer globalement, mais présente également cette alternance de baisses et
de hausses.
– Les ventes de champagnes, tout comme la production industrielle semblent exhiber un ca-
ractère périodique (ventes importantes de champagne en fin d’année, baisse de la production
industrielle en été, . . . ).
– D’autre part, les variations de ces 2 séries (indice de production industrielle et ventes de
champagne) ont une amplitude qui semble augmenter au cours du temps.
– Toutes ces séries ont un aspect irrégulier. Ces fluctuations irrégulières ont parfois une am-
plitude anormalement élevée (PIB et production industrielle en France au second trimestre
1968, consommation en Allemagne en 1991).
Cette liste de remarques n’est bien sûre pas exhaustive. Elles traduisent simplement quelques
comportements que l’on retrouve sur la plupart des séries chronologiques. Puisque notre ambition
est de décrire et d’analyser ce genre de chroniques, il nous faut donc proposer des modèles qui
intègrent les différentes caractéristiques que nous venons de relever.

2.1 Les composantes d’une chronique


Dans un premier temps, l’examen graphique de la série étudiée (y i , 1 ≤ i ≤ n) permet de
dégager, lorsqu’on envisage une période de temps suffisamment longue, un certain nombre de com-
posantes fondamentales de l’évolution de la grandeur étudiée.

4
Production Industrielle en France PIB de la France (en milliards de Francs 80)
160 4000

3500
140

3000
120
2500
100
2000

80
1500

60 1000
1965 1970 1975 1980 1960 1970 1980 1990

Consommation des ménages en Allemagne Ventes de champagne en France


2000 15

1500
10

1000

5
500

0 0
1960 1970 1980 1990 62 63 64 65 66 67 68 69 70

Taux de chomage en Allemagne Taux de chomage aux Etats−Unis


10 12

8 10

6 8

4 6

2 4

0 2
1960 1970 1980 1990 1960 1970 1980 1990

Fig. 1 – Quelques exemples de séries chronologiques

Il faut alors analyser ces composantes, en les dissociant les unes des autres, c’est-à-dire en
considérant une série comme résultant de la combinaison de différentes composantes, tel que chacune
d’elles ait une évolution simple.
1. La tendance (fi , 1 ≤ i ≤ n) représente l’évolution à long terme de la grandeur étudiée, et
traduit l’aspect général de la série. C’est une fonction monotone, souvent polynomiale.
2. Les variations saisonnières (s i , 1 ≤ i ≤ n) sont liées au rythme imposé par les saisons
météorologiques (production agricole, consommation de gaz, . . . ), ou encore par des acti-

5
vités économiques et sociales (fêtes, vacances, solde, etc).
Mathématiquement, ce sont des fonctions périodiques, c’est-à-dire qu’il existe un entier p,
appelé période, tel que si = si+p pour tout i ≥ 1. Au premier abord, cette composante est
entièrement déterminée par ses p premières valeurs s 1 , s2 , . . . , sp . Mais on rencontre souvent
aussi des phenomènes pour les quelles la pèriode peut elle meme varier. On parle alors de
3. Cycles (ci , 1 ≤ i ≤ n), qui regroupent des variations à période moins precise autour de la
tendance, par exemple les phases économiques d’expansion et de recession. Ces phases durent
généralement plusieurs années, mais n’ont pas de durée fixe. Sans informations spécifiques, il
est généralement très difficile de dissocier la tendance du cycle. Dans le cadre de ce cours, la
composante appelée tendance regroupera pour la plupart du temps aussi les cycles.
4. Les fluctuations irrégulières/résidues/bruit (e i , 1 ≤ i ≤ n) sont des variations de faible in-
tensité et de courte durée, et de nature aléatoire (ce qui signifie ici, dans un cadre purement
descriptif, qu’elles ne sont pas complètement expliquables). En effet, elles ne sont pas clai-
rement apercevables dans les graphiques, à cause de leur faible intensité par rapport aux
autres composantes. Elles aparaissent clairement seulement après ”l’enlèvement du signal” ;
la question qui se posera alors sera : est-ce qu’ils contiennent encore du signal, ou est-ce que
c’est vraiment du ”bruit” ?
5. Les variations accidentelles/observations abérrantes sont des valeurs isolées anormalement
élevées ou faibles de courte durée. Ces variations brusques de la série sont généralement
explicables (Mai 68, réunification de l’Allemagne, tempête, . . . ). La plupart du temps, ces
accidents sont intégrés dans la série des bruits (les fluctuations irrégulières).
6. Points de changement Ce sont des points où la série change complètement d’allure, par
exemple de tendance. Ils sont normalement explicables, et imposent une analyse séparée de
la série, par morceaux.
En résumé, nous considérerons une série chronologique comme isue de la composition de 3
composantes :
(fi , 1 ≤ i ≤ n) la tendance (intégrant éventuellement un cycle),
(sj , 1 ≤ j ≤ p) les coefficients saisonniers,
(ei , 1 ≤ i ≤ n) les fluctuations irrégulières (intégrant éventuellement des accidents).
Exemple : Trouvez l’élément suivant de la série y t ci-dessous, une équation de recurrence
pour
yt = {1, 3, 7, 13, 21, 31, ...}
Obtenez une formule analytique pour y t , en utilisant :
a) la théorie des équations de récurrence à coefficients constants. R : n 2 + n + 1
b) la mèthode des fonctions génératrices, decomposition en fractions partielles et l’expansion
en serie des puissances :
∞ n
1 X
n+k−1 z
= C k−1 , |z| ≤ a
(a − z)k an+1
n=0
1+z 2 2 2 1
R : a(z) = (1−z)3 = (1−z)3 − (1−z)2 + (1−z)

2.2 Quelques types de décomposition


Après avoir détecté graphiquement quelles sont les composantes présentes, il faut proposer un
modèle :

2.2.1 le modèle additif

yi = f i + s i + e i , 1 ≤ i ≤ n. (1)

6
Pour bien séparer la tendance de la composante saisonnière, et pour des raisons d’unicité dans
la décomposition proposée, on impose que la somme des facteurs saisonniers soit nulle :
p
X
sj = 0.
j=1

Exemple : Imaginons que nous étudions la série des températures moyennes relevées chaque
mois en un même site, depuis janvier 1990, et que la tendance (plutot faible) a une allure lineaire.
Le modèle additif est :
11
X 11
X
yi = a + bi + s k 1 i∼
=k(mod12) − ( sk )1i∼
=0(mod12) + ei
k=1 k=1

Les coefficients a, Pb, s1 , ..., s11 et les résidus peuvent etre determinés en minimisant la somme
des carrés des résidus 2
i ei , i.e. par régression.
Que peut-on dire des composantes présentes dans cet exemple ?
– la série (fi ) représente la tendance générale (réchauffement ? cycle ?).
– Les données étant mensuelles, la période est de un an, et donc p = 12.
– Des valeurs s1 = −10 et s6 = +8 signifient que le mois de janvier est plus froid de 10 ◦ par
rapport à l’ensemble de l’année, alors que juin est plus chaud de 8 ◦ .
– Une fluctuation irrégulière e14 = −2 signifie qu’il a fait 2◦ de moins que prévu pour un
mois de février, en 1991 (c’est-à-dire ce que nous laissaient prévoir la tendance et l’effet
saisonnier pour février 1991).

2.2.2 le modèle multiplicatif(*)

yi = fi (1 + si )(1 + ei ), 1 ≤ i ≤ n. (2)
Pp
Là encore, on impose que la somme des facteurs saisonniers soit nulle : j=1 sj = 0.
Dans ce modèle, on considère maintenant que les amplitudes des fluctuations dépendent du
niveau. Considérons le nombre d’entrées quotidiennes dans un cinéma. Des valeurs s 4 = −0.5 et
s6 = +0.8 signifient ici que la fréquentation de cette salle diminue de 50% le jeudi et augmente
de 80% le samedi (par rapport à l’ensemble de la semaine). Une valeur e 9 = +0.2 signifie que le
nombre d’entrée du deuxième mardi a été de 20% supérieur au chiffre attendu pour ce jour là.
Remarque : Le modèle multiplicatif est généralement utilisé pour des données de type économique.

2.2.3 les modèles mixtes(*)


Il s’agit là des modèles où addition et multiplication sont utilisées. On peut supposer, par
exemple, que la composante saisonnière agit de façon multiplicative, alors que les fluctuations
irrégulières sont additives :
yi = fi (1 + si ) + ei , 1 ≤ i ≤ n. (3)
(toutes les autres combinaisons sont également possibles . . . ).

La modélisation stochastique des séries temporelles commence en observant leur graphique


et en cherchant une décomposition additive ou multiplicative. Nous étudierons en suite le modèle
additif (le modèle multiplicatif revient à un modèle additif pour le log des données).
Une fois un modèle est obtenue, il peut être utilisé pour la prédiction des valeurs futurs.

3 Filtres/moyennes mobiles
Souvent il semble une bonne idée de baser les prédictions sur l’information locale fournie par
les voisins, ce qui suggère de construire des ”moyennes mobiles”.

7
Définition 3.1 La série Yt s’apelle une moyenne mobile de Xt ou filtre si
k2
X
Yt = θi Xt−i (4)
i=−k1

où k1 , k2 ≥ 0. L’ordre du filtre est k = k1 + k2 + 1.


Le cas des θi à somme égale à 1 s’appelle lissage, celui avec des θ i égaux s’appelle moyenne
arithmétique, et le cas d’une moyenne arithmétique avec k 1 = k2 = q sera apellé moyenne
arithmétique symmetrique ou centré.

Exemples : filtres arithmétiques, causaux, ...


Il est convenable d’introduire un opérateur de rétard B (ou encore de ”rétro-décalage”)
défini sur l’ensemble des suites par
k2
X
i
BXt = Xt−1 donc B Xt = Xt−i , et finalement θi Xt−i = θ(B)Xt
i=−k1

P k2
où θ(B) dénote le polynôme i=−k1 θi B i . La notation des polynômes de retard ramène (4) à la
forme :
Yt = θ(B)Xt
P k2
et les équations de recurrence i=−k1 θi Xt−i = 0 à la forme :

θ(B)Xt = 0

Exemples et applications dans la théorie des recurrences à coefficients constants ...


θ(B) est Pappelé opérateur de differences (sur l’espace des series). La série de Laurent
associé θ(z) = ki=−k
2
θ z i sera appelée le symbole de l’operateur.
1 i

Définition 3.2 Le symbole d’un filtre θ(B) est la fonction θ(z) : C− > C.

Nous travaillerons surtout avec des filtres causaux


k
X
θ(B) = θi B i
i=0

où k pt etre aussi ∞. Dans ce cas, les coefficients du filtre seront denotés surtout par ψ i , et le
symbôle par ψ(z).

3.1 Fonctions génératrices


Un fait très important est que la fonction génératrice

X
y(z) = Yt z t
t=0

d’une série définie par un filtre causal Y t = ψ(B)Xt est essentiellement le produit de x(z) =
P ∞ t la fonction génératrice de X et du symbole ψ(z). Plus precisement, denotons par
t=0 Xt z , P t
ψ≤m (z) =: m ψ
i=0 i z i la troncation de n’importe quelle série des puissances au premiers termes.

Théorème 3.1 Pour chaque filtre causal d’ordre fini, on a :


k−1
X
y(z) − y≤k−1 (z) = ψ(z)x(z) − (Xi z i ) ψ≤k−1−i (z)
i=0

où k est l’ordre du filtre.

8
Démonstration : Nous allons vérifier ”formellement” 1 le cas particulier k = 2 des filtres
quadratiques ψ0 + ψ1 B + ψ2 B 2 , quand ce théorème devient :

y(z) − Y0 − Y1 z = ψ(z)x(z) − X0 (ψ0 + ψ1 z) − (X1 z) ψ0

Rémarques : 1) Ce théorème est un exemple de la fameuse méthode des fonctions génératrices


de Laplace, qui transforme les récurrences en des équations algebriques pour les fonctions génératrices !
2) Pour les séries Yt , Xt doublement infinies, i.e. avec t ∈ Z, le résultat est plus simple

y(z) = ψ(z)x(z) (5)

car on peut remplacer 0, 1 par un point arbitraire de départ −k − 1, −k et ensuite on fait k tendre
vers ∞.
3) Pour les séries Yt , Xt doublement infinies, on peut inverser formellement cette rélation,
obtenant Xt à partir de Yt :
y(z)
x(z) =
ψ(z)
Mais, le travail avec les séries Yt , Xt doublement infinies contient des ”pièges” qu’on discutera plus
tard. De l’autre coté, travailler avec des séries indicées par t ∈ N nous force à definir l’egalité d’une
serie comme egalité des composantes, à partir d’un certain point, i.e.

A = B ⇐⇒ ∃K ∈ N tel que An = Bn , ∀n ≥ K

C’est facile de vérifier que les opérations de filtrage commutent :


Théorème 3.2 Soit θ1 (B), ψ2 (B) deux filtres et posons ψ(B) = ψ1 (B)ψ2 (B). Alors :

ψ1 (B)ψ2 (B)Xt = ψ2 (B)ψ1 (B)Xt = ψ(B)Xt

Rémarque : L’approche de décomposition additive demande de rompre une serie donnée


Yt = mt + t dans un ”signal” mt et du bruit t . Il est naturel d’essaier de depister le signal par
un filtre de lissage causal l(B), donc m t = l(B)Yt , tq ce filtre ”detruit le bruit mais laisse passer le
signal”. Il en suit que le bruit aussi est donné par un filtre causal

t = Yt − mt = (I − l(B))Yt := π(B)Yt

où π(B) ”detruit le signal mais laisse passer le bruit”.


On peut voir donc l’analyse des séries temporellescomme la recherche pour un filtre qui trans-
formera notre serie en bruit. Pour cela, il va être important de definir des tests pour decider quand
une serie est un bruit. Nous allons examiner plus tard des statistiques comme les correlations,
correlations partielles, le periodogramme, etc., issues de la modelisation probabiliste des séries
temporelles.
Pour l’instant, les prochains paragraphs nous donnent quelques outils pour juger le compor-
tement des filtres appliqués au séries détérministes.

3.2 Filtres de lissage


P
Un filtre de lissage (à i θi = 1)
k
X
Yt = θi Xt−i := X̂t
i=1
1
en ignorant la convergence des séries ; cet aspect n’est pas foncier, car on peut justifier algébriquement même des
manipulations avec séries à rayon de convergence 0.

9
peut être utilisé pour la prédiction de X t . Rémarquez que le fait que la prédiction est ”non-biaisée
pour les séries stationnaires”, i.e. :
k
X k
X
EX̂t = E θi Xt−i = ( θi )EX1
i=1 i=1
Pk
est assuré par la condition i=1 θi = 1.
Cette condition assure aussi qu’une série egale à 1 sera ”prédite” exactement, i.e. θ(B)1 = 1,
et en fait chaque série constante X t = k sera prédite exactement :
θ(B)k = k · (θ(B)1) = k · 1 = k
La vérification est très facile pour ça, remarquons que
Il est possible en fait, en choisissant les coefficients θ i d’un filtre, d’assurer qu’il laisse inva-
riantes toutes les séries polynomiales p t d’un degré donné.
Exercice 3.1 a) Montrez qu’une moyenne arithmétique symmetrique d’ordre 2q + 1 = 3, donné
par
1
θ(B) = (1 + B + B −1 )
3
conserve (laisse invariantes) les tendances lineaires p t = a + bt. b) Généraliser pour q quelconque.
Nous verrons maintenant un résultat désirable de l’application des filtres de lissage : la reduc-
tion de la variance des observations.
Exercice 3.2 Montrez qu’une moyenne arithmétique symmetrique d’ordre 2q + 1 diminue la va-
riance σ 2 d’un bruit blanc (=série i.i.d. de moyenne 0) par 2q + 1.
En conclusion, si la série observée est de la forme
Xt = p t +  t
où pt = a + bt est une tendance linéaire, que l’opération de prendre une moyenne arithmétique
symmetrique d’order q n’affecte pas la tendance, i.e. θ(B) p t = pt , mais a un effet de diminution
du bruit stochastique t , ramenant à :
t+q + ... + t + ... + t−q
X̂t = θ(B)(pt + t ) = pt + (θ(B)t ) = pt + := pt + 0t
2q + 1
 +...+ +...+
avec un nouveau bruit e0t = t+q 2q+1 t t−q
de variance inferieure à celle de e t .
Donc, si on constate une tendance lineaire dans le comportement d’une chronique dans
un voisinage, on peut estimer la tendance dans ce voisinage en prenant des moyennes mobiles
arithmétiques symmetriques, car ça va réduire (atténuer) le bruit et mettre en évidence la tendance
linéaire. L’effet du lissage augmente en augmentant q.
Exercice 3.3 Montrez que la droite obtenue en lissant 2q + 2 observations avec des moyennes
mobiles arithmétiques symmetriques d’ordre 2q + 1 est :
P2q+1
Xi X2q+2 − X1
y − i=1 = (x − (q + 1))
2q + 1 2q + 1
Le théorème suivant nous donne un critère pour identifier le degré maximal des polynomes
laissés invariants par un filtre θ(B) ; autrement dit, de déterminer le degré maximal des polynomes
inclus dans l’espace invariant des séries Z t satisfaisant θ(B)Zt = Zt :
Théorème 3.3 L’espace invariant d’un filtre contient les polynômes de degré ≤ p ssi 1 est une
racine d’ordre au moins p + 1 de l’équation θ(z) = 1, i.e. θ(1) = 1, θ 0 (1) = 0, θ 00 (1) = 0, θ (p) (1) = 0.
Exercice 3.4 Demontrez le théorème pour p = 0, 1
Outre l’exploration de l’espace invariant d’un filtre, une autre question importante est celle
de l’exploration du noyau, i.e. l’espace des séries Z t satisfaisant θ(B)Zt = 0. Cette question a une
portée pratique pour l’enlèvement de composantes saisonières (et leur détérmination).

10
3.3 Filtres qui enlèvent les composantes saisonières
Définition 3.3 a) Une série st sera appelée périodique de période p ssi

st+p = st ⇐⇒ (1 − B p )st = 0, ∀t (6)

b) Une série st sera appelée saisonnière de période p ssi

p
X p−1
X
st+i = 0 ⇐⇒ ( B i )st = 0, ∀t (7)
i=1 i=0

Exercice 3.5 Montrez qu’un filtre θ(z) qui est divisible par 1 + z + ... + z p−1 , i.e. de la forme
θ(z) = (1 + z + ... + z p−1 )θ1 (z), ”enlève” les composantes saisonnières de période p, i.e. :

θ(B)s(t) = 0 ∀t

pour chaque série st satisfaisant (7).

En effet, la réciproque est aussi vraie (admis) :

Théorème 3.4 Un filtre θ(B) annule (ou enlève) les composantes saisonnières d’ordre p ssi son
symbole θ(z) est divisible par 1 + z + ... + z p−1 (donc si θ(z) = 0, pour toutes les racine d’ordre p
de l’unité, sauf z = 1.

Exemples : Pour enlever les composantes saisonnières d’ordre 4, on peut utiliser donc la
moyenne mobile arithmétique d’ordre 4, pour une périodicité mensuelle on peut utiliser la moyenne
mobile arithmétique d’ordre 12, etc... En général, en utilisant un filtre arithmétique d’ordre p on
peut enlever la partie saisonnière de cet ordre, pour mieux decéler ensuite la tendance.
Alternativement, après le choix d’une forme appropriée pour la tendance et une pèriode spe-
cifique, selon le graphe, on peut déterminer au même temps les coefficients de la tendance et de la
partie périodique par une régression lineaire.

Exercice 3.6 Montrez que le filtre 91 (−B 2 + 4B + 3 + 4B −1 − B −2 ) laisse invariants les polynômes
de troisième degré, et enlève les composantes saisonnières d’ordre 3.

3.4 Exercices : TD 1
1. Trouvez l’élément suivant des séries y t ci-dessous, ainsi que des équations de recurrences
qu’elles satisfont et leurs solutions analytiques :

2, 6, 12, 20, 30, 42, ... (8)


4, 10, 20, 36, 62, 104, ... (9)
3, 2, 1, 6, 3, 2, 1, ... (10)
0, −1, −2, 3, 0, −1, −2, ... (11)

Indication. a), b) Calculez les séries differenciées : z t = ∆yt = yt − yt−1 . La deuxième série
admet deux continuations naturelles (au moins).
2. Une série vérifie la recurrence y t −2yt−1 +yt−2 = (−1)t−1 , t ≥ 2, y0 = 1, y1 = 3 Obtenez une
formule analytique pour yt , en utilisant : la mèthode des fonctions génératrices, decomposition
en fractions partielles et l’expansion en serie des puissances :
∞ n
1 X
n+k−1 z
= C k−1 , |z| ≤ a
(a − z)k an+1
n=0

1+2z 3 1/4 1/4


R : a(z) = (1+z)(1−z)2 = 2(1−z)2 − (1−z) − (1+z) , a(n) = (5 − (−1)n + 6n)/4

11
3. (a) Montrez que le filtre P (B) = 31 (2+B +B 2 −B 3 ) ”enlève” les composantes saisonnières de
période 3, i.e. qu’il transforme chaque fonction de période 3 dans une fonction constante.
(b) Trouvez l’ordre de la tendance polynômiale maximale conservée (laissée invariante) par
ce filtre.
Sol : Ordre 1.
4. Trouver un filtre 1 + αB + βB 2 + γB 3 qui laisse passer un tendance affine sans distortion et
elimine les periodicités d’ordre 2. Indication : Trouver un système des 2 + 1 = 3 équations et
rèsoudre.
5. Trouvez un filtre f (B) qui conserve les polynômes de degré ≤ 1, et qui enlève les composantes
saisonnières d’ordre 4, et déduisez que pour une série ayant une composante périodique d’ordre
4 et une tendance lineaire mt , la tendance est donné par mt = f (B)Yt .
2 +B 3 5−3B
Sol : 1+B+B 4 2
6. a) Montrez q’une série saisonnière est périodique, et que chaque série périodique p t est la
somme d’une série saisonnière et d’une série constante.
b) Trouvez une base de l’espace vectorielle des séries périodiques d’ordre p.
c) Trouvez une base de l’espace vectorielle des séries saisonnières d’ordre p, et ensuite une
base des séries périodiques qui la contient.
7. On considère la série suivante :
ti 1 2 3 4 5 6 7 8 9 10
yi 58 40 31 15 18 15 9 9 10 8
a) Représenter graphiquement cette série.
1
b) On se propose d’ajuster une tendance f de la forme f (t) = . Justifier ce choix.
a + bt
c) Déterminer les coefficients a et b, en utilisant un changement de variable approprié :
- par la méthode des 2 points (en choisissant judicieusement les 2 points)
- par la régression lineaire.
d) représenter les 2 tendances ainsi obtenues sur le graphique précédent et comparer les
résultats. Est-ce que les residus ont une allure irregulière ?
8. Pour chacune des quatre séries suivantes,
25 15

20
10

15

5
10

5 0
5 10 15 20 5 10 15 20
(a) (b)

2.5 20

2
15

1.5
10
1

5
0.5

0 0
5 10 15 20 5 10 15 20
(c) (d)

a) écrire le modèle qui vous semble convenir, en précisant le type du modèle (par ”défaut
additif”), la tendance et la période
b) Exprimez le modèle choisi sous la forme d’une équation vectorielle lineaire dans les pa-
ramètres inconnues, et donnez la formule de la régréssion qui permet à déterminer ces
paramètres.

12
9. On considère la série suivante
ti 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
yi 7.5 4.4 3.3 7.6 3.9 2.4 6.9 4.5 2.7 8.2 4.1 3.0 7.5 3.5 2.8
a) Représenter graphiquement cette série.
b) Quel modèle proposériez-vous pour cette série (justifier) ?
c) Calculer les facteurs saisonniers (s j , 1 ≤ j ≤ p) ainsi que leur moyenne p−1 pj=1 sj , en
P
supposant une tendance constante m t = a.
d) En notant (ei , 1 ≤ i ≤ n) la série des fluctuations irrégulières, calculer e 1 , e2 et e3 .
e) Proposer une mèthode pour l’estimation des paramètres, en supposant cette fois une ten-
dance lineaire mt = at + b. Implementez le calcul en utilisant un logiciel. Proposez un teste
pour choisir entre les deux modèles.
10. On considère un modèle simple où la tendance est une constante (f (t) = a).
a) On considère tout d’abord le modèle sans composante saisonnière. Comment choisir a si le
modèle est additif ? que peut-on alors dire sur les fluctuations irrégulières ? que se passe-t-il
si le modèle est multiplicatif ?
b) On considère maintenant qu’une composante saisonnière (s j , 1 ≤ j ≤ p) est présente.
On suppose que le nombre d’observations n est un nombre entier L de périodes : n = Lp.
Comment choisir a et (sj ) si le modèle est additif ? que peut-on alors dire sur les fluctuations
irrégulières ? que se passe-t-il si le modèle est multiplicatif ?
c)* Reprendre la question b) lorsque le nombre d’observations n’est pas un nombre entier de
périodes : n = Lp + m.
11. On considère une série (yi , 1 ≤ i ≤ n) périodique, de période p. On suppose que le nombre
d’observations n est un multiple de p : n = Lp. Montrer alors que les corrélations suivantes
sont :
L−1 L−2 L−j
ρ(p) = ; ρ(2p) = ; . . . ; ρ(jp) = ...
L L L

13
4 Modélisation stochastique des séries temporelles
4.1 Introduction
Rappelons le modèle additif sans saisonnalité, qui cherche une décomposition de la forme :

Yt = m t +  t où :

– mt représente la ”tendance” (intuitivement un ”mouvement lisse à long terme”), qui sera


la composante la plus importante dans la prévision.
– t = Yt − mt sont les ”résidus” qui restent après qu’on enlève la partie structurée m t . Elles
représentent des ”irrégularités/fluctuations imprévisibles”, qui au debut semblent inutili-
sables (à ignorer) pour la prévision (c’est correct du point de vue de la prévision ponctuelle,
mais elles nous servirons quand-même dans la calcul des intervals de confiance).
On s’arrangera toujours tel que les résidus ont la moyenne 0, mais ça n’est pas suffisant
pour qu’ils soient un bruit totalement sans structure=”bruit blanc” (et s’il y a encore une partie
structuré, elle devrait etre inclue en m t ).
Le ”bruit blanc” est notre premier exemple d’un processus stochastique : une formalisation du
concept de séries temporelles, ayant des propriétés bien definies (voir prochaine chapitre). Inspirés
par les propriétés de ce processus, on proposera des tests statistiques correspondant à ce modèle,
qui nous permetrons de decider si t ont les propriétés de manque de structure desirées.
Pour tendance, plusieurs modèles se sont averés utiles :
1. regression sur des predicteurs exogènes (”covariates”), implementé en logiciels comme R par
”formules” :
(1) (2)
mt ∼ Xt + Xt + ...
2. modèles de superposition des chocs exterieurs/moyennes mobiles/FIR inobservables  t :
q
X
mt = θi t−i
i=1

3. modèles autoregressifs :
Yt = f (Yt−1 , Yt−2 , ...) + t
Dans le manque des predicteurs exogènes, il est assez naturel d’adopter une modélisation au-
toregressive pour la tendance. Sous certaines conditions de regularité, ça ramenera à des prévisions
autoregressives un pas en avant :

Ŷt = f (Yt−1 , Yt−2 , ...)2


Le modèle le plus simple est le processus AR(1) :

Yt = φYt−1 + b + t

Ce modèle est recomandable si on envisage une prévision

Ŷt = ϕYt−1 + b ⇐⇒ (Ŷt − a) = ϕ(Yt−1 − a)

où b = a(1 − ϕ).


On verifie que si la moyenne de Yt est 0 on a a = b = 0 ; pour simplifier, on supposera
normalement qu’on a deja enlevé la moyenne de Y t .
2
La modélisation autoregressive permetra aussi des predictions k pas en avant :

Ŷt+k = fk (Yt , Yt−1 , Yt−2 , ...), k = 1, 2, ...

Les valeurs (positives) de k correspondent au futur et doivent être extrapolées/pré[Link] fonction de prévision f k
represente une projection de Yt+k sur l’espace engendré par Yt , Yt−1 , Yt−2 , .... Plusieurs : choix sont possibles par
exemple extrapolation à partir d’un ajustement/interpolation polynomiale ou par splines.

14
Pour utiliser ce modèle, on estimer le paramètre φ par une régression lineaire des points

(Yt−1 , Yt−1 ), t = 2, ..., T

Le fait d’avoir enlevé la moyenne ramène à une droite passant par l’origine y = φx.
En suite, on utilise la valeur trouvé pour resoudre l’équation. On trouve
t−1
X
Yt = ϕi t−i + ϕt Y0
i=0

et examiner solution stationnaire unique ssi : | φ |< 1.


Indication : vous pouvez le faire en calculant la solution (i) par des substitutions répetées ou
(ii) en utilisant des operateurs, en posant Y t = (1 − φB)−1 t , et en developpant la fraction comme
une série de puissances en B. En suite, calculez les covariances, pour montrer la stationnarité.
b) Montrez que l’équation : (20) a une solution stationnaire unique, qui depend seulement du
bruit futur ssi : | φ |> 1.
En conclusion
1. pour | φ |< 1, l’équation : (20) a une solution stationnaire unique causale, qui depend seule-
ment du bruit passé.
2. pour | φ |> 1, l’équation : (20) a une solution stationnaire unique, qui depend seulement du
bruit futur.
Pour tester la validité des modèles, proposés, il faut d’abord préciser rigourousement les pro-
priétés desirées des résidus ou des chocs en tant que processus stochastiques ; en plus, les modèles
seront utiles seulement si on peut vérifier leur ”stationarité”, i.e une certaine uniformité de struc-
ture par rapport au temps. Ça nous ramene a considerer les processus stochastiques stationnaires,
les distributions jointes de quelles ne varient pas avec le temps.

4.2 Processus stochastiques stationnaires


Définition 4.1 Soit X un processus aléatoire indexé par T = N ou Z. On dit que X est station-
naire (strict) si pour toute famille finie d’instants t 1 . . . tr ∈ T et tout entier s, les lois jointes de
(Xt1 . . . Xtr ) et de (Xt1 +s . . . Xtr +s ) sont les mêmes.

Définition 4.2 Soit X un processus aléatoire indexé par T = N ou Z. On dit que X est station-
naire à l’ordre 2 si la moyenne m(t) et la covariance Γ(s, t) sont invariantes par translation dans
le temps, i.e. si la moyenne est constante :

EXt = mt = m, ∀t

et si la covariance/corrélation dépend seulement de l’écart de temps k = t − s, i.e. il existe une


fonction d’une variable γ(k), paire, telle que :

Cov (Xt , Xs ) = C(t, s) = γ(t − s) = γ(k), ∀k = −2, −1, 0, 1, 2, 3, ..

Comme la plupart de series n’est observable qu’une seule fois, l’utilite du concept de dis-
tributions et covariances théoriques n’est pas evidente pour les applications. Par contre, on peut
toujours calculer des distributions et covariances empiriques, et sous l’hypothese de stationnairité,
les moyennes empiriques convergent vers les théoriques.

Théorème 4.1 Pour un processus stationnaire, les covariances empiriques


n−k
X
γn (k) = (n − k)−1 (Xt − mn )(Xt+k − mn )
t=1

estimées à partir de n observations convergent vers les covariances théoriques quand n → ∞.

15
D’ici l’importance du concept de stationarité, qui justifie l’estimation des modèles statistiques
observables une seule fois (le cas souvent dans les séries temprelles et la géostatistique !) : ceci est
faisable ssi on a la chance d’avoir à faire avec un processus stationnaire.
Remarques :
1. La plupart des séries ne sont pas stationnaires, mais on peut essayer quand-même de se
ramener à ce cas par des transformations (logarithmes, Box-Cox, etc).
2. Pour un processus du second ordre, la stationnarité stricte implique la stationnarité au sens
large (à l’ordre 2). La réciproque est fausse. Une suite Y de v.a. indépendantes de même
moyenne et même variance est toujours stationnaire à l’ordre 2 ; mais si les Y n n’ont pas tous
la même loi, Y n’est pas stationnaire au sens strict.

3. (*) La stationnarité à l’ordre 2 est bien plus facile à étudier et vérifier que la stationnarité
stricte. Son importance pratique tient surtout aux problèmes de prédiction ou de régression.
En effet, on se limite souvent à des critères de moindres carrés pour avoir des estimateurs
calculables. Cela signifie alors utiliser des prédicteurs linéaires optimaux dont le calcul ne
fait pas intervenir dans sa totalité la structure probabiliste du processus X observé, mais
seulement la géométrie (angles et longueurs) de la suite (X k ) considérée comme suite de
vecteurs dans l’espace de Hilbert L 2 (Ω, P ). Or, cette géométrie ne dépend que des moments
d’ordre 2 de X ; la notion naturelle de stationnarité est donc l’invariance de ces moments
d’ordre 2 par translation dans le temps.

4.3 Exemples des processus stationnaires


L’idealisation probabiliste de la proprieté que les résidus sont ”completement irreguliers”, ne
retennant aucune structure, est le ”bruit blanc” stationnaire.
Un deuxieme exemple P important des processus stationnaires ”non-blancs” sont les ”processus
linéaires” MA(∞) Yt = ∞ i=0 ψi t−i avec t bruit blanc et leur cas particulier avec un nombre
fini des coefficients ψi nonnuls, les ”moyennes mobiles” MA(q).
Le troisième exemple etudié seront les ”processus autorégresifs” AR(∞)  t = ∞
P
i=0 πi Yt−i
avec t bruit blanc et leur cas particulier avec un nombre fini des coefficients π i nonnuls, les processus
AR(p).

4.3.1 Le bruit blanc


L’exemple le plus simple de modèle stochastique est le bruit blanc discret, la structure ”revée”
des residus qui restent apres qu’on enlève la tendance/moyenne d’un processus.

Définition 4.3 Un processus t , t ∈ T , où T est un ensemble denombrable quelconque, est appelé
bruit blanc stationnaire si les variables  t sont i.i.d. (indépendents et identiquement distribués)
à espérance Et = 0. Il sera appelé bruit blanc Gaussien si la distribution de chaque v.a.  t est
Gaussiennes.

Un bruit blanc a la covariance

γ(s, t) = E[s t ] = 0, ∀s 6= t et donc le coefficient de corrélation (12)

γ(s, t)
ρ(s, t) = = δ(s − t) (13)
σs σt

où δ(s − t) est le symbôle du Kronecker).


Comme les tests d’indépendance et Gaussianité demandent beaucoup de données, qui ne sont
pas toujours disponibles, il faut faire parfois avec un ”ideale probabiliste moins structuré” : le ”bruit
blanc de second ordre” defini par les deux dernières formules équivalentes (12), (13).

16
Définition 4.4 Un processus t , t ∈ N ou t ∈ Z est appelé bruit blanc de second ordre s’il a la
moyenne 0, la variance constante E 2t = σ 2 et une covariance γ(s, t) = E[s t ] = 0, ∀s 6= t (et donc
les coefficients de corrélation ρ(s, t) = δ(s − t)).

Notes :
1. Le bruit blanc Gaussien est une structure probabiliste très naturelle, car la distribution Gaus-
sienne posède plusieurs proprietés importantes, comme celle d’être invariante par rapport aux
rotations, ce qui est evidemment une réquise pour un bruit aleatoire.
2. Le bruit blanc stationnaire est une idealisation du processus des residus de la regression
lineaire, qu’on aimerait ”independents”. Mais, comme l’independence est un concept proba-
biliste, et les residus sont le résultat determinist d’une regression apliqué a une serie observée
une seule fois, il est dificile de la verifier rigoureusemment. Parmi les tests possibles, men-
tionnont celui de ”turning points”, qui demande de verifier que la frequence de ces points est
environ 4/6, et le teste qui verifie si la somme des correlations empiriques est proche de 0. Si
ces deux testes sont positives, on sait au moins ”qu’on ne peut pas repousser l’hypothèse de
l’independence”. Il y aussi des tests distributionels des résidus comme Fisher, Student, qui
testent la Gaussianité.
3. Quand les tests des données rejettent l’hypothèse du bruit blanc, i.e. quand on a du bruit
correlé, la regression classique doit etre remplace par une analyse plus fine, appellee krigeage
en geostatistique.

4.3.2 Les processus linéaires et les moyennes mobiles MA(q)


Définition 4.5 Un processus Yt sera appelé linéaire en t s’il peut être répresenté dans la forme :


X X
Yt = ψi t−i avec ψi2 < ∞ (14)
i=−∞

où t est un bruit blanc.

Evidemment, du point de vue pratique (pour la prédiction), on ne s’intéresse que dans le cas
–qui sera appelé causal– quand la représentation n’utilise pas ”le bruit du futur” :

Définition 4.6 Un processus linéaire Y t s’appelle causal s’il peut être représenté dans la forme :


X
Yt = ψi t−i (15)
i=0

ψi2 < ∞
P
où t est un bruit blanc et

Définition 4.7 On appelle processus MA(q) un processus lineaire Z t , t ∈ Z vérifiant une rélation :
q
X
Zt = θi t−i , ∀t ∈ Z (16)
i=0

où t est un bruit blanc de variance σ 2 et θ0 = 1.

La notation des polynômes de retard ramène (16) à la forme :

Zt = θ(B)t

17
Théorème 4.2 Un processus linéaire

X
Yt = ψi t−i
i=−∞

ψi2 < ∞ est : a) bien defini dans L2 (i.e. Var Yt P


P
où < ∞),
b) à variance constante stationnaire Var Y t = σ2 ∞ 2
i=−∞ ψi
c) à autocovariance donnée par :

X
γ(t, t + k) = σ2 ψi ψi+k < ∞ (17)
i=−∞

d) stationnaire à ordre deux.


Démonstration : a) En considerant Var(Y t ), on voit que la condition est nécessaire et suffisante
pour convergence. b),c),d) En suite, on voit qu’elle suffit pour la stationnarité, car elle assure que
Cov(Yt , Yt+k ) est bien définie par l’inégalité de Cauchy-Schwartz (qui est equivalente à | ρ k |≤ 1)
et ne depend pas de t.
Exercice 4.1 1. Calculer la fonction d’autocovariance γ(k) d’un processus MA(1).
2. Calculer la fonction de covariance γ(k) d’un processus MA(q)
Le fait que les fonctions de covariance et corrélation γ(k), respectivement ρ(k) d’un processus
MA(q) s’annulent pour k > q permet de reconnaitre des series qui peuvent être modelisées comme
MA(q). Plus précisement, pour accepter l’hypothèse qu’une serie est MA(q) pour un q donné, on
verifie que toutes les corrélations pour k > q satisfont
|ρn (k)| ≤ zα σq
où
1 + 2(ρ̂(1)2 + ρ̂(2)2 + ... + ρ̂(q)2 )
σq2 =
n
(formule de Bartlett) et zα , la ”fractile” d’ordre α de la distribution Gaussienne, depend du niveau
de confiance α desiré (par exemple, z .95 = 2). Donc, si toutes les corrélations pour k > q sont à
l’interieur de cette bande de confiance, on accepte l’hypothèse que la serie est MA(q).

4.3.3 Les modèles autorégressifs AR(p)


La prédiction d’une série est particulièrement simple quand elle peut être ”bien approximée”
par un modèle autorégressif paramétrique :
Yt = f (Yt−1 , Yt−2 , ...) + t (18)
Dans ce cas il s’avère typiquement que la formule de prévision ponctuelle pour Y t un pas en
avant est simplement :

Ŷt = f (Yt−1 , Yt−2 , ...)


Nous allons considérer ici surtout des modèles autorégressifs linéaires (où f est une fonction
lineaire) AR(p) :
Définition 4.8 Un processus stationnaire Y t , t ∈ Z sera appellé processus autorégressif li-
neaire d’ordre p : AR(p) s’il existe un bruit blanc  t et des réels ϕi , i = 1, ..., p tels qu’une
relation de récurrence :
p
X
Yt = ϕi Yt−i + t , ∀t ∈ Z (19)
i=1

est vérifiée.

18
La notation des polynômes de retard ramène (19) à la forme :
p
X
ϕ(B)Yt = t où ϕ(B) = 1 − ϕi B i
i=1

Définition 4.9 Le polynôme


p
X
ϕ(B) = 1 − ϕi B i
i=1

sera appellé polynôme charactèristique, ou symbôle du modèle (19).

Rq : Les processus autorégressifs sont définis par une équation, qui à priori, peut ne pas avoir
des solutions ; comme ”solution” de l’équation (19) nous aimerions avoir une répresentation du
processus Yt par rapport au processus t .
Nous verrons maintenant que le processus de Markov AR(1) Y t = φYt−1 +t a une représentation
causale ssi |ϕ| 6= 1 et cette représentation est causale ssi |ϕ| < 1.

Exercice 4.2 processus AR(1). a) Montrez que l’équation :

Yt = φYt−1 + t (20)

a une solution stationnaire unique, qui depend seulement du bruit présent et passé, étant donc
causale, ssi : | φ |< 1.
Indication : vous pouvez le faire en calculant la solution (i) par des substitutions répetées ou
(ii) en utilisant des operateurs, en posant Y t = (1 − φB)−1 t , et en developpant la fraction comme
une série de puissances en B. En suite, calculez les covariances, pour montrer la stationnarité.
b) Montrez que l’équation : (20) a une solution stationnaire unique, qui depend seulement du
bruit futur ssi : | φ |> 1.

En conclusion
1. pour | φ |< 1, l’équation : (20) a une solution stationnaire unique causale, qui depend seule-
ment du bruit passé. On vérifie alors que  t est un bruit d’innovation.
2. pour | φ |> 1, l’équation : (20) a une solution stationnaire unique, qui depend seulement du
bruit futur. On vérifie alors que t n’est pas un bruit d’innovation.
3. pour le cas | φ |= 1, l’équation : (20) (appellée marche aléatoire) n’a pas de solution sta-
tionnaire. Par contre, les increments Y t − Yt−1 = t sont stationnaires ; cette situation plus
compliquée sera analysé dans le chapitre sur les processus ARIMA(p,d,q).

19
Exercice 4.3 Montrez que si un processus AR(2) Y t = φ1 Yt−1 + φ2 Yt−2 + t a une représentation
stationnaire causale

X
Yt = ψi t−i
i=0

alors les coefficients ψi satisfont la recursion Yule-Walker

ψt = φ1 ψt−1 + φ2 ψt−2 , t≥2


ψ(0) = 1, ψ(1) = φ1

Exercice 4.4 Montrez que la formule des coefficients ψ j de la répresentation M A(∞) d’un pro-
cessus AR(2) Yt = φ1 Yt−1 + φ2 Yt−2 + t , en fonction des racines de ”l’équation charactéristique”
de la récurrence Yule-Walker

0 = λ2 − φ1 λ − φ2 = λ2 ϕ(λ−1 )

est :
λk+1 −λk+1
(
1 2
λ1 −λ2 if λ1 6= λ2
ψ(k) =
(k + 1)λk if λ1 = λ2 = λ
Montrez que si l’équation charactéristique a ses racines λ 1 , λ2 dedans le cercle unitaire |λ| < 1
(et donc le ”symbôle” 1 − φ1 z − φ2 z 2 a ses racines z1 , z2 dehors le cercle unitaire |z| < 1), alors la
condition X
ψi2 ≤ ∞,
i

qui assure la convergence des répresentations M A(∞), est satisfaite.


Donnez les coefficients ψj dans les cas particuliers :
2
3
a) Yt − 21 Yt−1 − 16 Yt−2 = t b) (1 − B + B4 )Yt = t

Indication : La solution générale de la récurrence d’ordre 2 ψ(k) = ϕ 1 ψ(k − 1) + ϕ2 ψ(k − 2),


pour valeurs initiales arbitraires ψ(0) = x 0 , ψ(1) = x1 est :
1. avec des racines distinctes λ1 , λ2 :

λk1 − λk2 (λk λ2 − λk2 λ1 )


ψ(k) = x1 − 1 x0
λ1 − λ 2 λ1 − λ 2

2. avec des racines confondues λ1 = λ2 = λ :

ψ(k) = x0 λk + (x1 − λx0 )kλk−1

En conclusion, les processus AR(1) et AR(2) ont une répresentation M A(∞) ssi l’équation
0 = ϕ(z) a ses racines z1 , z2 dehors le cercle unitaire |z| ≤ 1. Il s’avère que cette situation est
typique pour tous les modèles AR(p).

4.3.4 Les modèles ARMA(p,q)


Définition 4.10 On appelle processus ARMA(p,q) un processus stationnaire Y t , t ∈ Z vérifiant
une relation de récurrence :
p
X q
X
Yt = ϕi Yt−i + θi t−i , ∀t ∈ Z (21)
i=1 i=0

où les ϕi , θi sont des réels et t est un bruit blanc de variance σ 2 .

20
La notation des polynômes de retard ramène (21) à la forme :
ϕ(B)Yt = θ(B)t
Nous verrons dessous que les processus ARMA(p,q) avec des polynômes charactéristiques
ϕ(B), θ(B) à racines dehors le circle unitaire ont deux autres représentations équivalentes :
1. MA(∞), de Yt en termes de t (appelée aussi répresentation lineaire causale), et
2. AR(∞), de t en termes de Yt (appelée aussi répresentation inverse).
Ces répresentations peuvent etre obtenues par des inversions formelles de l’équation (21), suivies
par un dévelopment de la fraction correspondante dans une série des puissances :
∞ ∞ ∞ ∞
θ(B) X X ϕ(B) X X
Yt = t = ( ψi B i )t = ψi t−i , t = Yt = ( πi B i )Yt = πi Yt−i
ϕ(B) θ(B)
i=0 i=0 i=0 i=0

On peut aussi formuler ces répresentations en utilisant les P


fonctions génératrices des séries
intervenantes. Comme vue an (5), la répresentation lineaire Y t = ∞ i=0 ψi t−i est equivalente à :

Y (z) = ψ(z)(z)
P∞ P∞
où Y (z) = i=−∞ Yt z t , (z) = i=−∞ t z t sont les fonctions génératrices doublement infinies, et
ψ(z) est le symbôle ou fonction de transfert.
L’hypothèse ARMA(p,q) est alors equivalente à la rationalité de la fonction de transfert :
θ(z)
ψ(z) =
ϕ(z)
et la modélisation ARMA pt etre vue aussi comme une approximation Padé.
Le besoin de travailler avec des représentations causales et inversibles (voir dessous) nous
forcent a accepter seulement des fonctions de transfert ψ(z) qui n’ont ni des racines ni des poles
dans l’interieur du cercle unitaire |z| < 1.
Par exemple, rappelons qu’un processus AR(1) a aussi une représentation causale MA(∞)
ssi |ϕ| < 1 (obtenue : a) en résolvant la récurrence ou b) par l’inversion formelle du polynôme
ϕ(B) = 1 − ϕ B). Donc, on a une représentation causale M A(∞) (en termes du bruit passé) du
processus AR(1) ssi le polynôme charactéristique ϕ(z) = 1 − ϕz a sa racine à l’extérieur du
cercle unitaire |z| ≤ 1.
Exemple 4.1 ARMA(1,1) Trouver la représentation AR(∞) (i.e.  t = ∞
P
i=0 πi Yt−i ) du processus
ARMA(1)
Yt = t + θt−1 + φYt−1

4.3.5 Les modèles ARIMA(p,d,q)


Définition 4.11 On appelle processus ARIMA(p,d,q) un processus X t pour le quel le processus
différencié d’ordre d, Yt = (1 − B)d Xt , t ∈ Z vérifie une relation de récurrence ARMA(p,q) :
p
X q
X
Yt = ϕi Yt−i + θi t−i , ∀t ∈ Z (22)
i=1 i=0

où les ϕi , θi sont des réels et t est un bruit blanc de variance σ 2 .


La notation des polynômes de retard ramène (22) à la forme :

ϕ(B)Yt = ϕ(B)(1 − B)d Xt = θ(B)t

Soit Xt un processus ARIMA(p,d,q)


φ(B)(1 − B)d Xt = θ(B)t
où t est “bruit blanc” (i.e. un processus stationnaire à correlation 0) et φ(B), θ(B) sont des
polynômes dans l’opèrateur de retard B à ordres p, q et avec coefficient libre 1.

21
4.4 (*)L’inversion des series des puissances et des filtres ϕ(B)
Le résultat suivant est utile pour l’inversion des modèles AR(p), et aussi des ARMA(p,q), qui
sont des processsus Yt satisfaisant des équations de la forme : ϕ(B)Y t = θ(B)t .

Théorème 4.3 a) Pour un polynôme ϕ(z) = pi=1 (1−z/λi ) qui a toutes ses racines λi à l’extérieur
Q
1
du cercle unitaire |z| ≤ 1, ϕ(z) a un développement en série de Taylor


1 X
= ψn z n
ϕ(z) n=0

qui est convergente à l’intérieur du cercle unitaire |z| = 1. Dans le cas le plus simple des racines
λi distinctes, on a
p
X Ki
ψn = (23)
λn+1
i=1 i

1
où Ki = − ϕ0 (λ i)
. (Dans le cas des racines confondues, on a des formules similaires qui utilisent
dérivées de degré supérieur).
b) Pour un polynôme ϕ(z) = pi=1 (1 − z/λi ) qui a toutes ses racines λi à l’intérieur du cercle
Q
1
unitaire |z| ≤ 1, ϕ(z) a un développement en série de Laurent

−∞
1 X
= ψn z n
ϕ(z)
n=−1

qui est convergente sur le cercle unitaire |z| = 1. Dans le cas le plus simple des racines λ i distinctes,
on a
p
X
ψn = − Ki λn+1
i (24)
i=1

1
où Ki = − ϕ0 (λ i)
c) Dans le cas mixte avec racines à l’intérieur et aussi à l’extérieur du cercle
unitaire on a un mélange des formules ci-dessus.

Ce resultat justifie des manipulations formelles analogues qu’on fait avec des fonctions dans
l’operateur B 3 .
3
On peut approcher de manière rigoureuse les manipulations formelles comme l’inversion du polynôme ϕ(B) par
plusieurs démarches :
1. Les fonctions P génératrices. Cette approche associe à chaque suite ψn avec n ∈ N, −n ∈ N ou n ∈ Z la
fonction ψ̃(z) = n ψn z n . Dans le premier cas appellé série de puissances/Taylor, la série est convergente dans
l’intérieur d’un certain ”cercle de convergence”, dans le deuxième cas, la série est convergente dans l’exterieur
d’un certain ”cercle de divergence” et dans le troisième cas, appellé série de Laurent, la série est convergente,
mais a des expressions differentes dans l’intérieur des ”anneaux de convergence” qui evitent les singularités.
Le role joué par la convergence dans les calculs n’est pas crucial ; on peut utiliser parfois même des séries
divergentes partout, en les définissant commes objets isomorphes à un certain anneau algebrique.
2. Les matrices Toeplitz. On s’aperçoit que les operateurs sur les suites correspondant à des polynômes en
B sont representé par des matrices Toeplitz ; on peut démontrer que il y a un isomorphisme entre l’anneau
des matrices Toeplitz est celui des fonctions génératrices. Cet isomorphisme explique l’équivalence des deux
approches. Formellement, la conclusion est que l’operateur B doit-être traité commme le scalaire z = 1 (qui est
1
sa valeur propre), et donc ”l’expansion correcte” pour les inversions ϕ(z) en série des puissances dépendront
du positionnement du point z = 1 par rapport aux racines.

22
4.4.1 Causalité des modèles AR(p)
Rappelons qu’il y a un problème (non-causalité) avec le modèle AR(1) quand la racine λ = ϕ −1
de son polynôme ϕ(z) = 1 − ϕ z est à l’intérieur du cercle unitaire. Ce problème est lié à l’existence
1
des plusieurs développement possibles pour la fonction ϕ(z) −1 = 1−zϕ :

1 X
= ϕn z n si |λ| > 1, à l’intérieur du cercle |z| ≤ λ, mais
1 − zϕ
n=0

−1
1 X
=− ϕn z n si |λ| < 1, à l’extérieur du cercle unitaire, |z| ≥ λ
1 − zϕ n=−∞

On a la même situation de pour tous les modèles AR(p)

Théorème 4.4 a) Un P processus AR(p) est causal, i.e. il peut être représenté sous la forme :
Yt = ∞ 2 < ∞ ssi toutes les racines de son polynôme chractèristique ϕ(z) sont à
P
ψ 
i=0 i t−i où ψ i
l’extérieur du cercle unitaire. Les coefficients ψ i sont dans ce cas les coefficients de la série Taylor
1
de π(z) = ϕ(z)

4.4.2 Inversibilité des processus MA(q)


Définition 4.12 Une représentation causale

X
Yt = ψi t−i
i=0

d’un processus stationaire Yt s’appelle inversible si on peut aussi représenter le bruit par une
représentation causale :


X
t = πi Yt−i (25)
i=0

πi2 < ∞
P
où

Exemple 4.2 Le processus MA(1) Yt = t + θt−1 est inversible ssi θ < 1. En effet, comme dans
la resolution de la recursion AR(1), on voit que :

t = Yt − θYt−1 + ...(−θ)t−1 Y1 + (−θ)t 0


Pour θ < 1, ça converge vers ∞ i
P
i=0 πi Yt−i , où πi = (−θ) .

Théorème 4.5 Un processus MA(q) avec les racines du polynôme chractèristique θ(z) àPl’extérieur
du Pcercle unitaire est inversible, i.e. le bruit peut être représenté sous la forme :  t = ∞i=0 πi Yt−i
1 4
où |πi | < ∞. Les coefficients πi sont dans ce cas les coefficients de la série Taylor de π(z) = θ(z)

Remarque 4.1 Donc, t apartient à l’éspace linéaire engendré par le passé du signal observé

t ∈ sp{Yt−i , i = 0, 1, ...}

et les espaces engendrés par {Yt−i , i = 0, 1, ...} et {t−i , i = 0, 1, ...} coincident.


4
La démonstration est basée sur un theorème concernant le developpement en série des puissances des inverses des
polynomes complexes –voir la prochaine section– et finalement sur le fait que l’ensemble des filtres est isomorphe à
l’ensemble des fonctions complexes ψ(z), l’isomorphism étant ”la transformée z” des suites. Cet isomorhisme explique
quelques manipulations formelles avec les filtres (mais pas celles liés à l’inversion).

23
4.4.3 Causalité et inversibilité des modèles ARMA(p,q)
Les problèmes de non-causabilité et non-inversibilité des modèles ARMA(p,q) disparaissent
quand toutes les racines de ϕ(z) et θ(z) sont à l’extérieur du cercle unitaire :

Théorème 4.6 a) Un processus ARMA(p,q) avec toutes les racines du polynôme chractèristique
P∞ à l’extérieur
ϕ(z) P du cercle unitaire est causal, i.e. il peut être représenté sous la forme : Y t =
i=0 ψi t−i où |ψi | < ∞ et donc Yt apartient au éspace lineaire engendré par le passé du bruit

Yt ∈ sp{t−i , i = 0, 1, ...}
θ(z)
Les coefficients ψi sont dans ce cas les coefficients de la série Taylor de ψ(z) = ϕ(z)
b) Un processus ARMA(p,q) avec les racines du polynôme chractèristique θ(z) àPl’extérieur
du Pcercle unitaire est inversible, i.e. le bruit peut être représenté sous la forme :  t = ∞
i=0 πi Yt−i
où |πi | < ∞ et donc t apartient au éspace lineaire engendré par le passé du signal observé

t ∈ sp{Yt−i , i = 0, 1, ...}
ϕ(z)
Les coefficients πi sont dans ce cas les coefficients de la série Taylor de π(z) = θ(z)

Corollaire 4.1 Pour un processus ARMA(p,q) avec toutes les racines des polynômes chractèristiques
ϕ(z), θ(z) à l’extérieur du cercle unitaire, les éspaces lineaires engendrés par le bruit et le passé du
signal coincident :
sp{Yt−i , i = 0, 1, ...} = sp{t−i , i = 0, 1, ...}
et
EYt t+k = 0, ∀k ≥ 1

Rémarque : Ce corollaire permetra un développement immediate d’une approche de prévision


(=régréssion) par projection dans l’éspace de Hilbert engendré par le passé.
En conclusion, comme du point de vue pratique les développements Laurent sont inacceptables
pour la prévision (parce-qu’elles impliquent les valeurs futures, imprévisibles du bruit), nous allons
considere désormais surtout les modèles ARMA(p,q) avec toutes les racines de ϕ(z) et θ(z) à
l’extérieur du cercle unitaire, qui sont causales et inversibles, et on s’appuyera sur le corollaire
ci-dessus.

Exercice 4.5 Soit Yt un processus ARMA(1,1) vérifiant l’équation Y t − 0.5Yt−1 = t + 0.4t−1 avec
t un bruit blanc.
1. Précisez si le processus est stationnaire, causal et inversible, et calculez sa fonction d’autoco-
variance.
2. Trouvez les coefficients ψj de sa répresentation comme processus M A(∞) et les coefficients π j
de sa répresentation comme processus AR(∞) et precisez si ces répresentations sont conver-
gentes.
Mêmes questions pour le processus ARM A(2, 1) défini par :

Yt − 0.7Yt−1 + 0.1Yt−2 = t + 2t−1

Rémarque : Dans le cas le plus simple avec les racines λ i de l’équation ϕ(z) = 0 dis-
tinctes, on obtient facilement des formules generalesP pour les coefficients ψ n en començant par un
développement en fractions simples π(z) = ϕ(z) θ(z) = 1
i Ki 1−z/λi où λi sont les racines du θ(z) et
donc Ki = − ϕθ(λ i)
Pp Ki
0 (λ ) . On arrive à : ψn = i=1 λn+1 . Des formules pareilles existent pour π n , et dans
i
i
le cas des racines non-distinctes.
Dans le cas des racines non-distinctes et complexes, il est preferable d’aborder le developpe-
θ(z)
ment Taylor ϕ(z) = ψ(z) directement, en obtenant des équations de recurrence pour ψ k , à partir des
coefficients du developpement ϕ(z) ψ(z) = θ(z). Cette mèthode, est en effet applicable toujours :

24
Exercice 4.6 ARMA(2,1)
1. Trouver par la mèthode directe la représentation M A(∞) d’un processus ARMA(1,1) causale

Yt = ϕYt−1 + t + θt−1

2. Trouver la représentation AR(∞) d’un processus invertible ARMA(1,1).

Cet exercice peut être generalisé :

Théorème 4.7 (*) a) Pour un procesus ARMA(p,q) ϕ(B)Y T = θ(B)t avec toutes les racines du
à l’extérieur du cercle unitaire, les coefficients ψ i = σ −2 EYt t−i de
polynôme chractèristique ϕ(z) P
la répresentation causale Yt = ψi t−i satisfont la recurrence
min[k,p]
X
ψ0 = 1, ψ k = θk + ϕ(i)ψ(k − i), 1 ≤ k ≤ q
i=1
min[k,p]
X
ψk = ϕ(i)ψ(k − i), k > q
i=1

Rappel : La dernière équation est appellée recursion de Yule-Walker.


Notes : a) Rémarquez que pour le processus ARMA(p,q), la recurence pour k > q est exac-
tement comme pour le processus AR(p) ; mais, les premières équations obtenues en comparant les
coefficients des puissances en ψ(B) ϕ(B) = θ(B) pour k ≤ q changent par l’ajout de θ k de coté
droite.
b) Pour un procesus ARMA(p,q) ϕ(B)Y T = θ(B)t avec toutes les racines du polynôme
chractèristique
P θ(z) à l’extérieur du cercle unitaire, les coefficients π i de la répresentation inverse
t = πi Yt−i satisfont la recurrence

min[k,q]
X
π0 = 1, πk = −ϕk + θ(i)π(k − i), 1 ≤ k ≤ p
i=1
min[k,q]
X
πk = θ(i)π(k − i), k > p
i=1

Exemple 4.3 Ainsi, ψ1 = ϕ1 + θ1 , ψ2 = ϕ2 + ϕ21 + θ1 ϕ1 + θ2 , ψ3 = ϕ3 + 2ϕ1 ϕ2 + ϕ31 + (ϕ2 + ϕ21 )θ1 +


ϕ1 θ2 + θ3 , ...

Note : Les répresentations inverse/causale permettent d’appliquer aux processus ARMA(p,q)


les mèthodes adaptés aux modèles AR(∞)/MA(∞).

4.5 Exercices : TD 2
1. Calculer la fonction d’autocovariance du processus à valeurs en R 2 :
 
a0 εn + a1 εn−1
Yn =
b1 εn−1 + b2 εn−2

où n est un bruit blanc standard.


2. Restrictions sur les valeurs des coefficients d’autocorrélation pour les processus M A.
Trouvez, pour le processus M A(1), les valeurs maximales et minimales de la corrélation ρ 1 et
les valeurs de θ pour les quelles ces valeurs sont atteintes.

3. a) Déterminez la corrélogramme des processus suivants :

25
(i) le processus M A(2) Yt = Zt + θ1 Zt−1 + θ2 Zt−2
(ii) le processus M A(3) Yt = Zt + θ1 Zt−1 + θ2 Zt−2 + θ3 Zt−3
b) Calculez et tracez la correlogramme pour les cas :
(i) M A(2) : θ1 = −5/6, θ2 = 1/6
(ii) M A(2) : θ1 = 0.8, θ2 = 0.5
(iii) M A(3) : θ1 = 0.8, θ2 = −0.4, θ3 = −0.3
4. Investiguez si les deux processus MA(2) sont inversibles, en examinant la recurrence obtenue
par la mèthode des coefficients indeterminés.
5. Soit Yt un processus ARMA(1,1) vérifiant l’équation Y t − 0.5Yt−1 = t + 0.4t−1 avec t un
bruit blanc.
(a) Précisez si le processus est stationnaire, causal et inversible.
(b) Trouvez les coefficients ψj de sa répresentation comme processus M A(∞) et les coeffi-
cients πj de sa répresentation comme processus AR(∞) et precisez si ces répresentations
sont convergentes.
6. Mêmes questions pour les processus ARM A(2, 1) et ARM A(2, 2) définies par :
B2
a) Yt − 21 Yt−1 − 3
16 Yt−2 = t + 1.25t−1 b) (1 − B + 4 )Yt = (1 + B + B 2 )t
7. Soit le processus :

(1 − .8B + .16B 2 )Yt = (1 + θ B)t


(a) Est-ce que ce processus est stationnaire causal ? Si oui, obtenez la ”represéntation ψ”
du Yt par rapport au bruit t .
(b) Sous quelles conditions est ce processus inversible ? Obtenez la ”represéntation π” du
bruit t en termes de la série. De quel problème on s’aperçoit si le processus n’est pas
inversible ?
8. a) Trouvez les inégalités (il y en a trois) qui définissent la région (trianguaire) du plan (θ 1 , θ2 )
pour laquelle un processus M A(2) est inversible. Tracez la région sur un graphe. Indiquez le
domaine des racines réelles et celui des racines complexes. Indication : Les conditions pour
avoir racines de module plus grand que 1 sont differentes pour le cas des racines complexes et
celui des racines réeles, et pour un polynôme θ(z) = 1 + θ 1 z + θ2 z 2 , la condition pour racines
réeles de module plus grand que 1 sont plus compliquées que les conditions (equivalentes) que
le polynôme ”reciproque” θ̃(z) = z 2 θ(1/z) = z 2 + θ1 z + θ2 ait des racines réeles zi de module
plus petit que 1. Pour ce dernier polynôme, les conditions sont :
(a) racines complexes : |zi |2 = |z1 z2 | = | ac | = |θ2 | < 1.
(b) racines réeles : θ̃(1) = 1 + θ1 + θ2 > 0, θ̃(−1) = 1 − θ1 + θ2 > 0
b) (*) Pour le processus M A(2), trouvez un domaine S contenant toutes les valeurs possibles
des coefficients d’autocorrélation ρ 1 , ρ2 tel que le processus soit inversible, et les valeurs de
θ1 , θ2 pour les quelles les valeurs sur la frontière de S sont atteintes.
9. (*)Trouver le domaine de causalité dans le plan (ϕ 1 , ϕ2 ) d’un processus AR(2).
10. Obtenez, en partant directement du systême de Yule-Walker, les premières cinq corrélations
pour un processus AR(2) avec : a) φ1 = 0.6, φ2 = −0.2 b) φ1 = −0.6, φ2 = 0.2 Calculez aussi
la variance γ(0). Tracez les corrélations.
11. a) Vérifiez si le processus AR(2) Y t = −0.3Yt−1 +0.10Yt−2 +t est stationnaire causal. Calculez
son corrélogramme, en partant directement du systême de Yule-Walker, et tracez le.
b) Même questions pour le procesus AR(2) Y t = −Yt−1 − 0.34Yt−2 + t .
12. Calculez la fonction d’autocovariance et la fonction d’autocorrélation des processus dans les
exercices antérieurs.

26
13. Une question d’unicité - est-ce que deux processus distincts peuvent avoir la même FAC
(fonction d’autocovariance) ?
Soient {ut , t ∈ Z} et {vt , t ∈ Z} deux bruit blancs de variances respectives σ 2 et θ 2 σ 2 , o
0 < |θ| < 1. On considère alors les processus aléatoires {X t , t ∈ Z} et {Yt , t ∈ Z} tels que :

Xt = ut + θut−1
1
Yt = vt + vt−1
θ

Montrer que {Xt , t ∈ Z} et {Yt , t ∈ Z} ont la même fonction d’autocovariance.


14. (*) Une question d’inversibilité - est ce qu’un processus à réprésentation MA noninversible
peut aussi avoir une autre réprésentation inversible ? Soit {U t , t ∈ Z} le processus aléatoire
défini par l’équation
1
Ut = t + t−1 où |θ| < 1
θ
et t est bruit blanc.
(a) Montrer que cette réprésentation du processus U t n’est pas inversible.
(b) On pose maintenant wt = +∞ j
P
j=0 θ Ut−j . Montrer que {wt , t ∈ Z} est un bruit blanc dont
on précisera la variance en fonction de σ 2 et θ
(c) Montrer que Ut = wt + θwt−1 et que cette réprésentation de {U t , t ∈ Z} est inversible.
Solutions :
4) La region de inversibilité dans le domaine (θ 1 , θ2 ) :

θ2 > −θ1 − 1
θ2 > θ 1 − 1
θ2 < 1

est le triangle situé dessus les deux lignes θ 2 + θ1 = −1, θ2 = θ1 − 1 et dessous la ligne θ2 < 1.
θ12
Les racines sont réelles/complexes dessous/dessus la parabole θ 2 = 4 .
b) Pour passer de (θ1 , θ2 ) à (ρ1 , ρ2 ) on utilise

θ1 (1 + θ2 ) θ2
ρ1 = ρ2 =
1 + θ12 + θ22 1 + θ12 + θ22

Transformant les équations antérieures, on trouve :


2θ1 1 ρ1 ρ21 ρ21
θ2 = 1 implique ρ1 = 2+θ12
, ρ2 = ,θ
2+θ12 1
= 2ρ2 , ρ2 (2 + 4ρ22
) = 2ρ2 + 4ρ2 = 1 et donc
ρ21 = 4ρ2 (1 − 2ρ2 ). Finalement, on trouve
p
dessousρ1 = 2 ρ2 (1 − 2ρ2 )
ρ2 + 1/2 ≥ ρ1
ρ2 + 1/2 ≥ −ρ1

où les dernières deux inegalités viennent de l’inegalité entre les moyennes arithméthique et
géometrique de (1 + θ2 ), θ1 .
5) Le domaine de causalité d’un processus AR(2)

Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + t

( beaucoup plus compliquée que pour le AR(1)), obtenu comme le domaine d’inversibilité du
processus M A(2), est le triangle situé en dessous de ϕ 2 + ϕ1 < 1, ϕ2 − ϕ1 < 1 et dessus
ϕ2 = −1.

27
4.6 TP
1. Effectuez une analyse Box-Jenkins d’un jeu de données : par exemple ”WWWusage” en R
(qui représente le nombre d’utilisateurs connéctés à un serveur Internet chaque minute),
en utilisant les commandes ”acf(x)”, ”pacf(x)” (ou ”[Link](x)”, si disponible) ”arima()”,
”pnorm()” et ”[Link](x$res)” . L’analyse devrait aboutir dans un modèle avec résidus tel
qu’au plus 1 sur 20 des coefficients acf et pacf sortent de l’intervalle de confiance autour de 0,
,et avec p-valeurs des coefficients inférieures à .05 (rappel : p-val ≈ P{|t v al| ≥ 2}, ot̀-val sont
les valeurs ”standardisées”, i.e. divisées par l’érreur standard (s.e.).
2. Répétez, avec un jeu de données de votre choix (à trouver à partir de la liste ”data(package=NULL)”
o‘u ”data(package=”ts”)”.
3. Ecrivez des programmes qui simulent (sans utiliser la commande [Link]) des processus :
a) MA(2) avec θ0 = 1, les autres coefficients à choisir, et à bruit petit, b) AR(2) à bruit petit,
c) ARMA(2,2) (en passant la sortie du premier program au deuxième), et d) ARIMA(2,1,2)
(en appliquant cumsum à la sortie du program anterieur).
Enoncez les théorèmes satisfaits par l’acf et le pacf des premiers deux cas, et vérifiez ensuite
que vos programmes produisent des résultats adéquats.
Pour le troisième et quatrième cas, estimez le modèle par la commande arima, avec les ordres
simulés, et aussi avec des ordres plus grands. Est-ce que la commande retrouve les coefficients
que vous aviez choisi quand le bruit est trés petit (en supposanr que l’analyse est bonne, et
donc que l’acf et pacf des résidus indiquent un bruit blanc) ?
4. Interpretation de l’acf
(a) Soit x un vecteur de nombres consecutifs. Simulez une série a) linéaire y = ax
b) quadratique y = ax2 + bx
c) périodique y = sin(ax)
d) ”presque périodique” y = sin(ax) + sin(bx)
en donnant deux exemples de a, b pour chaque problème (donc 12 exemples). Obtenez
l’acf de toutes les séries et indiquez vos observations sur la dépendence de a, b.
(b) Pour les séries avec acf non zero, indiquez quels filtres/transformations pourront nous
amener aux résidus bruit blanc.
(c) Démontrez sur trois des exercices antérieurs l’effet sur l’acf de l’ajout du bruit blanc
d’écart type σ = R/4, σ = R et σ = 3R, où R = max y i − min yi est ”l’écart du signal
détérministe”.
Inclure au moins un exemple qui a besoin du filtrage, et étudier encore une fois l’effet
du même filtrage.

4.7 (*) La positivité : caractérization des suites de covariance


Les suites de nombres qui peuvent être covariances sont uniquement caracterisées par leur
transformée Fourier.
Théorème 4.8 (*Bochner) Une suite paire γ k ∈ L2 peut représenter les covariances d’une série
stationnaire ssi la transformé Fourier –apellée aussi densité spectrale

X
f (w) = γ0 + 2 γk cos(wk)
1

est nonnegative pour chaque w.


Il y a une caracterisation équivalente en termes des matrices de covariance. Soit X un processus
p-dimensionnel, stationnaire à l’ordre 2, supposé centré. On note γ la fonction d’autocovariance de
X

28
t
– γ(k) = E(Xn Xn−k ) est une matrice carrée d’ordre p.
– γ(k) = γ(−k)t . En particulier, la matrice de variance-covariance du processus X est une
matrice hermitienne (symétrique dans le cas réel) puisque γ(0) = γ t (0).
– Dans le cas p = 1, |γ(k)| ≤ γ(0).
– (γ(k))k∈Z est une famille de type positif, c’est-à-dire que pour tout A 1 . . . Ak de Cp et tout
n1 . . . n k
X k
k X
Ati γ(ni − nj )Aj ≥ 0.
i=1 j=1
Pk
Preuve Soit W = i=1 Ati Xni . On a alors

k
X k
X
V ar(W ) = E[ Ati Xni Atj Xnj ]
i=1 j=1
k X
X k
= E[ Ati Xni Xnt j Aj ]
i=1 j=1
k X
X k
= Ati γ(ni − nj )Aj ≥ 0.
i=1 j=1

– Dans le cas univarié, la matrice d’autocovariance est une matrice de Toeplitz

γ(0) γ(1) γ(2) . . . γ(n − 1)


 
 γ(−1) γ(0) γ(1) . . . γ(n − 2) 
 
 γ(−2) γ(−1) γ(0) . . . γ(n − 3) 
 
Cn =   . . . . . . . 


 . . . . . . . 

 . . . . . . . 
γ(−n + 1) γ(−n + 2) γ(−n + 3) . . . γ(0)

Cette matrice carrée d’ordre n est positive, en effet


n X
X n
t
a C na = ai γ(i − j)aj ≥ 0.
i=1 j=1

Au lieu de considérer la fonction d’autocovariance, on peut choisir d’utiliser la fonction d’auto-


corrélation

γi,j (k)
ρ(k) = (ρi,j (k)) = ( p )
γi,i (0)γj,j (0)
Cela revient à considérer non pas le processus X mais un processus Y = (Y n ) dont la coor-
(i) (i) p
donnée i définie par Yn = Xn / γi,i (0) est de variance 1.

5 La prévision linéaire
On se propose de donner au temps t une prévision X̂t (k) de la valeur Xt+k d’un processus.
Donc
1. t est le temps de prévision
2. k > 0 est l’écart de prévision
3. t + k est le temps a predire.
4. X̂t (k) est la prévision

29
5. et (k) = Xt+k − X̂t (k) seront les erreurs de prévision.
Comme les processus ARIMA(p,d,q) satisfont des contraintes lineaire, il est naturel de chercher
une prévision linéaire Xt (k) par une combinaison linéaire de valeurs passées ou du bruit blanc,
à variance minimale, c’est à dire,

X
X̂t (k) = πt,k (i)Xt−i ou
i=0
X∞
X̂t (k) = at,k (i)t−i , k = 1, 2...
i=0

Théorème 5.1 La prévision linéaire à variance minimale des processus ARMA(p,q) avec du bruit
blanc Gaussien coincide avec l’espérance conditionelle

X̂t (k) = E[Xt+k |F t ]

où Ft = {Xt , Xt−1 , ..., X0 , X−1 , ...}.

Donc, nous allons pouvoir profiter du fait que l’operateur d’éspérance conditionnelle X̂t (k) = X̂(t+
k|t) = E[Xt+k |Ft ] (toutes ces notations sont rencontrées dans la literature) est lineaire.
Toutes les trois réprésentations AR(∞), M A(∞) et ARM A(p, q) nous aideront dans la prévision,
notamment la première.

5.1 La prévision des processus stationnaires AR(p)


Nous considerons maintenant plus en detail la prévision des processus stationnaires dans la
forme AR(p), en permettant p = ∞, et en utilisant la notation ϕ i au lieu de πi , même quand
p = ∞. La mèthode sera ”d’appliquer l’operateur chapeau” dans l’équation lineaire définissant le
modèle.

5.2 Bruit d’innovation


Définition 5.1 Si un processus Yt défini par une autorégression (18) Yt = f (Yt−1 , Yt−2 , ...) + t est tel que la différence
t = Yt − f (Yt−1 , Yt−2 , ...) = Yt − Ŷt est independente du passé Ft−1 = (Yt−1 , Yt−2 , ...), il sera appellée bruit d’innovation
(par rapport au passé).
Dans ce cas,

E[t |[Yt−1 , Yt−2 , ...] = 0 (26)

et et est noncorrelé avec Yt−1 , Yt−2 , ....

Rq : On montre facilement que pour un bruit d’innovation, les innovations t satisfont aussi Et = 0 et Et t−k = 0,
pour k =
6 0. Donc, les innovations constituent un bruit blanc de deuxième ordre.
Le bruit blanc d’une équation autorégressive causale a la proprieté très convenable de coincider avec l’erreur de prédiction
par rapport au passé Yt − Ŷt = Yt − E[Yt /Yt−1 , Yt−2 , ...] :
Nous verrons plus tard que le bruit d’un modèle (19) est d’innovation ssi le modèle est causal, et ssi le polynôme
charactèristique a seulement des racines plus grandes en valeur absolue que 1. Dans ce cas, on a :
p
X
Ŷt|t−1 = E[Yt |{Yt−1 , Yt−2 , ...} = f (Yt−1 , Yt−2 , ...) = ϕi Yt−i
i=1

et donc la prédiction devient très aisée, car on applique simplement la relation d’autorégréssion, en oubliant le bruit.

Théorème 5.2 Pour un modèle AR(p)

ϕ(B)Xt = t

tel que le symbole ϕ(z) ne s’annule pas dans le cercle unitaire, le bruit  t est un bruit d’innovation,
i.e. E[t+k |Ft ] = 0 si k > 0, et les previsions satisfont la récurrence Yule-Walker :
p
X
X̂t (k) := E[Xt+k /{Xt , Xt−1 , ...}] = ϕi X̂t (k − i)
i=1

30
En particulier,
p
X p
X
X̂t := E[Xt+1 /{Xt , Xt−1 , ...}] = ϕi X̂t (1 − i) = ϕi Xt−i
i=1 i=1

Démonstration immédiate, par la causalité et donc l’independence de  t+k de Ft .

Exemple 5.1 La prévision linéaire X t (k) pour un processus AR(1) à moyenne 0 satisfait la rec-
cursion Yule Walker
Xt (k) = ϕXt (k − 1)
et donc est simplement
Xt (k) = Xt ϕk
Pour un processus AR(1) à moyenne connue µ elle est

Xt (k) − µ = (Xt − µ)ϕk

Théorème 5.3 Soit


ϕ(B)Xt = (1 − λ1 B)(1 − λ2 B)Xt = t
un processus AR(2) (avec λ1 , λ2 étant les inverses des racines de ϕ(z) = 0). Montrez que les
prévisions Box-Jenkins Xt (k) au temps t satisfont la reccursion :

ϕ(B)Xt (k) = Xt (k) − ϕ1 Xt (k − 1) − ϕ2 Xt (k − 2) = Xt (k) − (λ1 + λ2 )Xt (k − 1) + λ1 λ2 Xt (k − 2) = 0(27)

et donc les prévisions sont de la forme :

Xt (k) = A1 (t)λk1 + A2 (t)λk2 (28)

En termes des deux dernières valeurs observées X t et Xt−1 , quand λ1 6= λ2 , les prévisions sont
données par :

λk+1
1 − λk+1
2 (λk+1 λ2 − λk+1
2 λ1 )
Xt (k) = Xt − 1 Xt−1 (29)
λ1 − λ 2 λ1 − λ 2

Démonstration : Les prévisions X̂t (k) satisfont l’équation Yule Walker

X̂t (k) = ϕ1 X̂t (k − 1) + ϕ2 X̂t (k − 2)

avec valeurs initiales X̂t (0) = Xt , X̂t (−1) = Xt−1 .


La solution générale de la récurrence d’ordre 2 ψ(k) = ϕ 1 ψ(k − 1) + ϕ2 ψ(k − 2), pour valeurs
initiales arbitraires ψ(0) = x0 , ψ(1) = x1 est :
1. avec des racines distinctes λ1 , λ2 :

λk1 − λk2 (λk λ2 − λk2 λ1 )


ψ(k) = x1 − 1 x0
λ1 − λ 2 λ1 − λ 2

2. avec des racines confondues λ1 = λ2 = λ :

ψ(k) = x0 λk + (x1 − λx0 )kλk−1

ce qui rend le résultat.


Notea : a) Dans le cas causal, λi < 1, et donc la prévision eventuelle

lim Xt (k) = 0
k→∞

est toujours 0.

31
b) Il est facile d’étendre cette approche pour tous les processus autorégressifs ARIMA(p,d,0) à
ordres p, d finis, et d’obtenir des formules explicites de prévision en termes de racines de l’équation
ϕ(z) = 1.
En conclusion, la réprésentation autoregressive AR(∞)  t = Xt + ∞
P
i=1 πi Xt−i nous fourni
directement une formule explicite :

X
X̂(t|t − 1) = πi Xt−i = (1 − π(B))Xt
i=1

(le problème de prévision 1 pas en avant se reduit formellement à travers la decomposition X t =


X̂(t|t−1)+t = (1−π(B))Xt + π(B)Xt au calcul des deux filtres 1−π(B) et π(B)) et des formules
pareilles pour des écarts plus grands que 1.

Exemple 5.2 La prévision des processus stationnaires ARMA(p,1)


Nous considerons maintenant plus en detail la prévision des processus stationnaires dans la
forme AR(p), en permettant p = ∞, et en utilisant la notation ϕ i au lieu de πi , même quand
p = ∞. La mèthode sera ”d’appliquer l’operateur chapeau” dans l’équation lineaire définissant le
modèle.

Théorème 5.4 Pour un modèle AR(p)

ϕ(B)Xt = t

tel que le symbole ϕ(z) ne s’annule pas dans le cercle unitaire, le bruit  t est un bruit d’innovation,
i.e. E[t+k |Ft ] = 0 si k > 0, et les previsions satisfont la récurrence Yule-Walker :
p
X
X̂t (k) := E[Xt+k /{Xt , Xt−1 , ...}] = ϕi X̂t (k − i)
i=1

En particulier,
p
X p
X
X̂t := E[Xt+1 /{Xt , Xt−1 , ...}] = ϕi X̂t (1 − i) = ϕi Xt−i
i=1 i=1

Démonstration immédiate, par la causalité et donc l’independence de  t+k de Ft .

5.3 Prévision linéaire des modèles autorégressifs ARIMA(p,d,0)


Exemple 5.3 La prévision linéaire X t (k) pour le processus ARIMA(0,1,0) à moyenne µ satisfait
la reccursion Yule Walker
Xt (k) = Xt (k − 1)
et est donc constante
Xt (k) = Xt
(c’est un cas particulier de la formule dans l’exercice sur la prévision AR(1)).

Exemple 5.4 Déduisez la formule de prévision Box-Jenkins pour un processus ARIM A(1, 1, 0)
Calculez la limite limk→∞ Xt (k) pour un processus ARIM A(1, 1, 0)

En conclusion, nous voyons que le ”type” de la fonction de prévision X t (k) dans le cas des
bruits independents (sans partie MA) est determiné complètement par la fonction ϕ(z), et on vera
que ça reste vrai pour les processus ARIMA(p,d,q), pour k > q.

Proposition 1 La fonction de prévision ”eventuelle” de Box-Jenkins pour les processus ARIMA(p,d,q)


est un élément de l’espace lineaire des solutions de la reccursion ϕ(B)X t (k), pour k > q.

32
Par exemple, pour les processus ARIMA(0,d,q) la fonction de prévision ”eventuelle” est un
polynome d’ordre d − 1.
Exemple 5.5 On considère un processus {X t } pour lequel la série différencié deux fois est un
bruit blanc, c’est à dire {Xt } est un processus ARIMA(0,2,0). Montrez que la fonction de prévision
Box-Jenkins est donnée par
Xt (k) = Xt + k(Xt − Xt−1 ) , k ≥ 0.
donc les prévisions se trouvent sur la droite qui passe par les deux dernières points.

Définition 5.2 Les derniéres p + d valeurs Xt (q), Xt (q − 1), ..., Xt (q − d − p + 1) qui précédent
Xt (q) (donc avant le point où la reccursion de Yule Waker devient valable) s’apellent les valeurs
pivots.
Il suit clairement que :
Proposition 2 La prévision ”eventuelle” de Box-Jenkins pour les processus ARIMA(p,d,q) est la
fonction dans l’espace lineaire des solutions de la reccursion ϕ(B)X t (k) qui passe par les valeurs
pivots.
Corollaire 5.1 La prévision linéaire X t (k) pour le processus ARIMA(0,d,0) est donnée par le
polynôme d’ordre d − 1 qui passe par les d dernières points.

5.4 Prévision linéaire des modèles ARIMA(p,d,q)


Pour la prévision linéaire Xt (k) des processus ARIMA(p,d,q), on aura toujours besoin d’une
estimation de t−1 , t−2 , ..., ou au moins de −1 , −2 , ..., i.e. du ”bruit inobservable passé” du modèle.
On peut aussi recourir à la répresentation AR(∞), dans quel cas on aura besoin de X −1 , X−2 , ..., qui
sont aussi inobservables. Dans tout cas, le resultat final demandra une approximation des valeurs
precedant le debut d’observations 0 ; l’approximation la plus simple dans l’absence des moyennes
est k = Yk = 0 pour k < 0.
Exemple 5.6 Pour le processus MA(1), on verifie facilement que X t (k) = 0 pour k = 2, 3, ...,
(pour une généralisation, voir le théorème 6.3). Pour k = 1, la définition :
Xt+1 = t+1 + θt
donne :
Xt (1) = θt
Pour se debarasser de t , on peut utiliser la répresentation :

X ∞
X
i i
t = (−1) θ Xt−i = Xt + (−1)i θ i Xt−i
i=0 i=i
P∞
Donc, Xt+1 = t+1 + i=1 (−1)i−1 θ i X t+1−i et

X
Xt (1) = X̂t = (−1)i θ i+1 Xt−i
i=0
Xt (k) = 0, k = 2, 3, ...
Il est naturel de supposer que l’information est finie, i.e. F t = {Xt , Xt−1 , ..., X1 }. La formule
dans ce cas, obtenue par reccursion, est :
t−1
X
X̂t = E[Xt+1 |Ft ] = (−1)i θ i+1 Xt−i − (−θ)t+1 0
i=0
Pt i θ i+1 X
Comme 0 n’est pas connue, en pratique on utilise : X̂t (1) = i=0 (−1) t−i . Si θ < 1 et t est
large, la différence sera negligeable.

33
Donc, cet example montre deja qu’une éstimation du ”bruit inobservable”  t , ..., 1 , 0 , ... est
incontournable pour les modèles ARMA avec q ≥ 1.

Théorème 5.5 Dans le cas d’un modèle ARIMA(p,d,q), la meilleure prévision lineaire au temps
t est :
p
X q
X
X̂t (k) = E[Xt+k |Ft ] = ϕ̃i X̂t (k − i) + θi ˆt+k−i
i=1 i=k

où les ϕ̃i sont les coefficients du polynôme ϕ(B)(1 − B) d (dans le cas d’un modèle ARMA(p,q)
ϕ̃i = ϕi ).
Pour k > q, cette formule est exactement la reccurence homogène Yule-Walker ϕ(B) X̂t (k) =,
et donc la prévision sera donnée par la solution de cette équation qui passe par les p + d points
pivots.
Les inconnues ˆt−i , i ≥ 0 peuvent être enlevés en utilisant la répresentation inverse ”π” du
bruit en fonction de la série, ou en utilisant ˆt = Yt − Ŷt−1 (1) (les dernières se calculent recursive-
ment). Une estimation arbitraire de  0 , −1 , ... sera necessaire.

Exercice 5.1 On considère le processus ARMA(1,1) à moyenne 0 (1 − ϕB)Y t = (1 + θB)t où


−1 < ϕ < 1
et −1 < θ < 1.
1. Montrez que la fonction de prévision Box-Jenkins est donnée par Y t (k) = Yt (1)ϕk−1 , k ≥ 1,
et que

Yt (1) = ϕYt + θt


= (ϕ + θ)Yt − θYt−1 (1)
= (ϕ + θ){Yt − θYt−1 + θ 2 Yt−2 + . . .}

Est ce que ces résultats restent vrais si ϕ = 1, donce pour ARIMA(0,1,1) ?


2. On utilise ce modèle pour ajuster une série et on obtient comme estimations des paramètres
ϕ = 0.8, θ = 0.3 et µ =?. Les dix dernières valeurs disponibles sont :
t: 51 52 53 54 55 56 57 58 59 60
yt : 2.98 4.10 6.10 9.36 8.57 8.82 7.31 7.19 2.36 0.40
Donnez les prévisions des trois valeurs suivantes de la série. Quelle parmi les trois formules
pour Yt (1) ci-dessu parait la plus convenable a appliquer ?

Exercice 5.2 Le processus ARIMA(0,1,1) (appelé aussi IMA(1,1)) est défini par :

(1 − B)Yt = (1 + θB)t
Si θ < 1, les coefficients de la répresentation du bruit sont :

πi = (1 + θ)(−θ)i−1 , i ≥ 1,

(à vérifier).
1. Montrez qu’on peut le répresenter :
t−1
X
Yt = t + (1 + θ) t−k + θ0
k=1

2. Montrez que Y t = (1 + θ)Yt − θY t−1 .

34
Note : La dernière formule est appellée lissage exponentiel, au moins quand θ ∈ (−1, 0) et donc
α = 1 + θ ∈ (0, 1). La formule donne une moyenne ponderée : Y t = αYt + (1 − α)Y t−1
α s’appelle constante de lissage.
Rémarques : 1) Plus α est petit, plus la nouvelle série est lisse et les valeurs passées ont
un plus grand poids dans la prévision. Quand α est proche de 1 les valeurs les plus récentes ont le
poids le plus important.
2) On peux voir la prévision Box-Jenkins comme une généralisation du lissage exponentiel, en
utilisant des paramètres estimés à partir des données (au-lieu de ad-hoc).

5.5 La détermination de l’ordre d’un modèle autorégressif


Supposons d’abord que p est fini et considerons le problème de determiner la projection X̂t (1) = li=1 πt,l (i)Xt+1−i dans
P

l’espace Ft,k = {Xt , Xt−1 , ..., Xt−l+1 }, où l ≥ p. Soit π (t,l) = (πt,l (i), i = 1, ..., l) le vecteur des coefficients de la régréssion.
Par le théorème 5.4, il est necessaire que π (t,l) = (ϕ1 , ..., ϕp , 0, ..., 0).
Note : Comme nous sommes ici dans le cadre d’une régréssion classique avec du bruit indépendent, il est necessaire que
les coefficients π (t,l) satisfont
0 1 0 1
γ(0) γ(1) ... γ(l − 1) γ(1)
B γ(1) γ(0) ... γ(l − 2)CC π (t,l) = Bγ(2)C
B C
B
@ ... ... ... ... A @ ... A
γ(l − 1) γ(l − 2) ... γ(0) γ(l)

ou encore (en divisant par γ(0),


0 1 0 1
1 ρ(1) ... ρ(p − 1) ρ(1)
B ρ(1) 1 ... ρ(p − 2)C (t,l) Bρ(2) C
C B
B
@ ... π =@ C
... ... ... A ... A
ρ(p − 1) ρ(p − 2) ... 1 ρ(l)

Pour l = p, on retrouve ainsi le système Yule-Walker, et pour l > p il n’est pas difficile de voir que les vecteurs des coefficients
ϕi étendu par zeros satisfont aussi des systèmes Yule-Walker.

Considerons maintenant le problème de determiner si p < ∞ ; outrement dit, est-ce que les systèmes Yule-Walker ont
toujours comme dernière composante un 0, à partir d’un point p ?

(n)
Définition 5.3 La suite ϕn des dernières composantes des systèmes Yule-Walker d’ordre n est appellée la suite des corrélations
partielles.

Par le théorème 5.4

Théorème 5.6 Une serie stationnaire est AR(p) avec p < ∞ ssi toutes les corrélations partielles sont 0 à partir du point
p + 1.

Le vrai ordre p du modèle est inconnu (et potentiellement infini). Pour le déterminer, on peut commencer en supposant
p ≥ 1; on calcule ϕ̂1 en supposant p = 1 :
(1)
ϕ̂1 = ρ1

Si ce coefficient est ”statistiquement” 0, ça sugere qu’on a à faire peut-etre avec du bruit blanc. On continue de toute façon en
investiguant p ≥ 2; On calcule ϕ̂1 , ϕ̂2 en supposant p = 2 ; on trouve alors :
˛ ˛
˛ 1 ρ(1)˛˛
˛
˛ρ(1) ρ(2)˛ ρ − ρ21
(2)
ϕ̂2 = ˛˛ ˛ = 2 (30)
˛ 1 ρ(1)˛˛ 1 − ρ21
˛ρ(1) 1 ˛

(2)
Si le deuxième coefficient ϕ̂2 est ”statistiquement”
˛
0, on soupçonne
˛
qu’on a à faire avec un modèle AR(1). On passe à
˛ 1 ρ(1) ρ(1)
˛ ˛
˛
˛ρ(1) 1 ρ(2)˛˛
˛ ˛
˛
˛ρ(2) ρ(1) ρ(3)˛
˛ ˛
(3)
investiguer p ≥ 3, en calculant le coefficient ϕ̂3 = ˛˛ ˛ qui est l’estimation de ϕ3 obtenue du système d’ordre
˛ 1 ρ(1) ρ(2)˛˛
˛ρ(1) 1 ρ(1)˛˛
˛ ˛
˛
˛ρ(2) ρ(1) 1 ˛
˛ ˛

3, puis à p ≥ 4, ...
Donc pratiquement, on calcule un après l’autre quelques corrélations partielles, en esayant de voir s’il sont ”statistique-
ment” 0. Si oui, à partir d’un point p + 1, on conclut qu’on à faire avec un modèle AR(p). Si non (et si les corrélations ne
deviennent 0 non plus), on passe à chercher un modèle mixte ARM A(p, q).

35
5.6 Exercices : TD 3

1. Soit le processus :

(1 − .8B + .16B 2 )Yt = (1 + θ B)Zt


(a) Est-ce que ce processus est stationnaire causal ? Si oui, obtenez la ”represéntation ψ” du Y t par rapport au bruit
Zt et trouvez la fonction d’autocorrélation de Yt .
(b) Sous quelles conditions est ce processus inversible ? Obtenez la ”represéntation π” du bruit Z t en termes de la
série. De quel problème on s’aperçoit si le processus n’est pas inversible ?
(c) Donnez la prévision k pas en avant Ŷt (k), en utilisant les valeurs Yt , Yt−1 , Zt .
2. Trouvez les coefficients d’autocorrélation et tracez la corrélogramme pour le processus ARMA(1,2) Y t = 0.6Yt−1 + t −
0.3t−1 − 0.1t−2
3. Prévision du modèle ARIMA(2,1,0)

(1 − φ1 B)(1 − φ2 B)(1 − B)Xt = t with − 1 < φ1 < φ2 < 1.


(a) Verifiez que :
(i) Xt (k) = (1 + φ1 + φ2 )Xt (k − 1) − (φ1 + φ2 + φ1 φ2 )Xt (k − 2) + φ1 φ2 Xt (k − 3), k ≥ 1
(ii) Xt (k) = At + Bt φk1 + (Xt − At − Bt )φk2 , k = 0, 1, 2, . . . pour certaines At et Bt qui dépendent seulement
du t.
(b) Trouvez les poids des valeurs pivots Xt , Xt−1 , Xt−2 dans la prévision Box-Jenkins de Xt
(c) Trouvez la limite limk→∞ Xt (k)
4. Prévisions sous le modèle ARIMA(1,1,1)
Considerons le processus ARIMA(1,1,1) (1 − ϕB)(1 − B)Yt = (1 + θB)t , avec −1 < ϕ < 1 et −1 < θ < 1.
(a) Montrez que Yt (1) = (1 + ϕ)Yt − ϕYt−1 + θt et
Yt (k) = (1 + ϕ)Yt (k − 1) − ϕYt (k − 2) , k ≥ 2.
(b) Montrez que Yt (k) = At + Bt ϕk pour k ≥ 0, et trouvez des expressions pour At et Bt en terms de Yt , Yt−1 , t , ϕ
et θ, en utilisant Yt (0)[= Yt ] et Yt (1) du (a) ci-dessus. Montrez que :

(1 − ϕk ) (1 − ϕk )
Yt (k) = Yt + ϕ (Yt − Yt−1 ) + θ t , k ≥ 0.
1−ϕ 1−ϕ

Trouvez la limite limk→∞ Yt (k)


(c) Montrez que Yt (1) = −θYt−1 (1) + (1 + ϕ + θ)Yt − ϕYt−1 et
Yt (k) = Yt−1 (k + 1) + ψk t .
(d) Montrez que Yt (k) peut s’exprimer en fonction seulement des valeurs passées de la série. [Indication : utilisez les
π pour vous debarasser de t ]
(e) En utilisant le modèle (1 − 0.6B)(1 − B)Yt = (1 + 0.3B)t obtenez les prévisions des trois termes suivants de la
série :

t: 1 2 3 4 5 6 7 8 9 10
yt : 14.8 12.4 9.4 7.7 7.3 9.0 10.5 11.2 10.4 11.6

t: 11 12 13 14 15 16 17 18 19 20
yt : 12.1 11.6 9.9 8.1 6.6 5.4 4.2 5.3 6.8 9.2
5. Considérons le processus ARIMA(1,1,2) :

(1 − αB)(1 − B)Yt = (1 + θ1 B + θ2 B 2 )t


où −1 < α < 1. Soit Yt (k) la prévison de Yt+k au temps t.
(a) Montrez que Yt (1) = (1 + α)Yt − αYt−1 + θ1 t + θ2 t−1 et trouvez les expressions correspondantes pour Yt (2) et
Yt (k) pour k ≥ 3
(b) Montrez que la fonction de prévision peut s’exprimer sous la forme Yt (k) = at + bt αk , k ≥ 1, et donnez la formule
de at , bt comme fonctions de Yt , Yt−1 , t , t−1 .
(c) Montrez que Yt (k) peut s’exprimer en fonction seulement des valeurs passées de la série.
(d) Un statisticien a utilisé le modèle ARIMA (1,1,2) décrit ci-dessus pour une série (dénomée prix) qui exprime le
prix d’une action à la bourse pour 100 jours consécutifs. En sachant que Y 98 (1) = 686, 996 et Y99 (1) = 659, 416 et
σ = 2, calculer les prévisions Y101|100 , Y102|100 de Y101 et Y102 et donner les 95% intervalles de confiance associés
avec ces prévisions.
6. Projet : Il serait interessant de déterminer analytiquement ”la tendance asymptotique”, i.e. le polynôme d’ordre d − 1
vers le quel les prévisions converge asymptotiquement pour les processus ARIMA(p,d,q).
Considerons par exemple ARIMA(p,2,0) ; ce modèle inclue une tendance lineaire, pour la quelle le premier candidat est
la droite par les deux dernières points pivots (comme dans le cas p = 0, quand les pivots coincident avec les valeurs
Xt , Xt−1 ). En général, les prévisions doivent encore converger asymptotiquement vers une droite. Pour p = 0, on
commence deja exactement sur la ”droite de tendance” (due à l’absence d’autres racines dans la partie autorégressive) ;
mais, pour p ≥ 1, nous serons obligé de tenir compte d’autres valeurs pivots et donc de X t−2 , Xt−3 , .... A priori donc,
les p points qui precedent les 2 dernières point auront aussi une influence sur la ”droite de tendance”.

36
6 L’estimation des modèles ARIMA(p,d,q)
Les deux mèthodes principales pour l’estimation des paramètres sont la mèthode des moments et la maximisation de la
vraissemblance. La première mèthode s’appui sur les formules théoriques des moments, en l’occurrence les corrélations.

6.1 Équations Yule-Walker pour les covariances/corrélations des modèles au-


torégressifs AR(p)
Pour les modèles AR(p) causales, la régréssion classique nous donne les coefficients, et aussi des tests (Fisher, etc) pour
decider si on a enlever toute la structure des residus.
La corrélogramme des processus autorégressifs AR(p) n’est pas aussi facile à calculer que celle des processus MA(q).
Pour cela, c’est interessant de comparer deux solutions :
1. Solution indirecte, en représentant d’abord le processus AR(p) comme un processus M A(∞) en inversant le filtre ϕ(B) ;
en suite on utilise la formule (17) de la corrélogramme pour les processus M A(∞).
2. Solution directe, en utilisant les équations de Yule-Walker.

Exemple 6.1 AR(1) : Calcul de la corrélogramme par :


1. Les équations Yule-Walker.
2. La représentation MA(∞).
Tracez la corrélogramme {ρk } pour
(a) ϕ = 0.5, (b) ϕ = 0, and (c) ϕ = −0.5.

Les covariances et les corrélations d’un processus AR(p) sont liées aux coefficients ϕ = (ϕ 1 , ..., ϕp ) par les équations de
Yule-Walker. Ces équations s’obtiennent des ”équations normales” en régression, ou, directement :
1. Pour les covariances, en multipliant la formule autoregressive de Y t+k par Yt et en prenant l’ésperance, on obtient :

p
X
γk = ϕi γk−i pour k ≥ 1 (31)
i=1
p
X p
X
γ0 = ϕi γi + EYt t = ϕ i γi + σ 2 pour k = 0
i=1 i=1

2. Pour trouver les corrélations, on remarque d’abord, en divisant par γ 0 , qu’elles satisfont aussi la réccurence (31) :

p
X
ρk = ϕi ρk−i pour k ≥ 1 (32)
i=1

Alors, il suffit de déterminer les premières p corrélations, ce qu’on fait en appliquant la réccurence (32) pour k = 1, ..., p,
en tenant compte aussi de la symmetrie de γk . En géneral, pour le processus AR(p) on arrive ainsi au système Yule-
Walker pour les premières p corrélations ρ = (ρ(1), ..., ρ(p)) :

Rϕ=ρ (33)

où R est la matrice Toeplitz symmetrique :


0 1
1 ρ(1) ... ρ(p − 1)
B ρ(1) 1 ... ρ(p − 2)C
B C
@ ... ... ... ... A
ρ(p − 1) ρ(p − 2) ... 1

Les équations (33) permettent de calculer les coefficients ϕ à partir des corrélations et viceversa (on calcule d’abord les
premières p corrélations ; en suite, on trouve aussi les autres corrélations en utilisant la reccurence).
Note : En prenant γ0 comme facteur commun dans la deuxième equation en (31), on trouve

σ2
γ0 = P ,
1− i ϕ i ρi

i.e. γ0 en fonction des corrélations ρi . Ça permet en suite d’obtenir les covariances, en partant des corrélations.

Exemple 6.2 AR(2) :


Vérifiez si les procesus AR(2) :
a) Yt = −0.5Yt−1 + 0.14Yt−2 + t et
b) Yt = −0.6Yt−2 + t sont stationnaires causals. Montrez, en partant directement du systême de Yule-Walker que leur
corrélogrammes sont :
17
a) ρk = 129 (0.2)k + 112
129
(−0.7)k , k = 0, 1, 2, . . . . et
1 k k/2
b) ρk = 2 i (0.6) {1 + (−1)k } = (0.6)k/2 cos(kπ/2), k = 0, 1, 2, . . .

Exemple 6.3 Tracez les corrélogrammmes pour les processus AR(2) avec :
(i) ϕ1 = 0.2, ϕ2 = 0.35 et (ii) ϕ1 = −0.8, ϕ2 = −0.16

37
Théorème 6.1 (*) Formule générale des corrélations pour AR(2) : Pour le processus AR(2)

Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + t

le systême de Yule-Walker (33) donne :


ϕ1 ϕ21
ρ1 = , ρ2 = ϕ 2 +
1 − ϕ2 1 − ϕ2
1
(ce qui implique la réstriction ρ21 < 2(1+ρ2 )
).

1. Si les racines λ1 , λ2 de 0 = λ2 − φ1 λ − φ2 = λ2 ϕ(λ−1 ) (qui sont dédans le cercle unitaire, par la causalité) sont
distinctes, on obtient
ρ1 − λ 2 k λ−1 ρ1
ρk = λ1 + λk
λ1 − λ 2 λ1 − λ 2 2
Finalement, en utilisant ϕ1 = λ1 + λ2 ,ϕ2 = −λ1 λ2 , on arrive à

(1 − λ22 )λk+1
1 − (1 − λ21 )λk+1
2
ρk = , k ≥ 0.
(λ1 − λ2 )(1 + λ1 λ2 )

termes de racines seulement.


2. Dans le cas de racines confondues λi = λ, on obtient :

1 − λ2
 „ « ff
ρk = 1+ k λk , k ≥ 0.
1 + λ2

6.2 Équations de Yule-Walker pour les covariances/corrélations des processus


ARMA(p,q)
Pp
On obtient les mêmes équations de Yule-Walker γk = i=1 ϕi γk−i pour k ≥ N = q + 1. Par contre, les prèmieres
(Y,)
équations pour k < N deviennent plus compliquées. Soit γk = E[Yt t−k ] les corrélations de la série avec le bruit, données
par ψk σ 2 si k ≥ 0 et par 0 outrement (par la causalité). On obtient :

p p
(Y,)
X X X X
γk = ϕi γk−i + θj γk−j = ϕi γk−i + σ 2 θj ψk−j (34)
i=1 0≤j≤q i=1 k≤j≤q

Pour appliquer la recursion, il faut obtenir les coefficients ψj , j = 1, ...p et aussi les p valeures initiales γq , ..., γq−p+1 ,
qu’on trouvera en utilisant les équations (34) et la symmetrie de γk .
P Rappel : Pour un procesus ARMA(p,q) causal, les coefficients ψi = σ −2 EYt t−i de la répresentation causale Yt =
ψi t−i satisfont la recurrence

min[k,p]
X
ψ0 = 1, ψ k = θk + ϕ(i)ψ(k − i), 1 ≤ k ≤ q
i=1
min[k,p]
X
ψk = ϕ(i)ψ(k − i), k > q
i=1

Exemple 6.4 ARMA(1,1)


θσ 2 σ 2 (1+θ 2 +2θϕ)
1. Montrez que ρ1 = ϕ + γ0
, γ0 = 1−ϕ2
, et {ρk } est :

(ϕ + θ)(1 + ϕθ) k−1


ρk = ϕ , k ≥ 1.
1 + 2ϕθ + θ 2

2. Tracez la corrélogramme pour le cas : ϕ = ±0.7, θ = ±0.5.

En général, nous trouvons :

Théorème 6.2 (*) Les premières p + 1 covariances s’obtiennent du sytême à p + 1 équations et p + 1 inconnues :

1 1
0 1 0 1
B−ϕ1 C Bθ 1 C
Γ B−ϕ2 C = σ 2 Ψ Bθ2 C (35)
B C B C
@ .. A @ .. A
−ϕp θq

ou Γ est la matrice des covariances


0 1
γ(0) γ(1) ... γ(p)
Bγ(1) γ(0) ... γ(p − 1)C
Γ=@
B C
... ... ... ... A
γ(p) γ(p − 1) ... γ(0)

38
Ψ est la matrice des dimensions (p + 1) × (q + 1) :
0 1
ψ(0) ψ(1) ... ψ(q)
B 0 ψ(0) ... ψ(p − 1)C
Ψ=@
B C
... ... ... ... A
0 0 ... ψ(0)

et ψi = σ −2 EYt t−i , i = 0, ..., q sont calculés par la recurrence

min[k,p]
X
ψ0 = 1, ψ k = θk + ϕ(i)ψ(k − i), 1 ≤ k ≤ q
i=1

6.3 Intervales de confiance pour la prédiction


Théorème 6.3 (*) Soit et (k) = Xt+k −Xt (k) l’erreur de prévision de la prédiction lineaire optimale Xt (k) = ∞
P
i=0 at,k (i)t−i
2
d’un processus stationnaire causal Xt , et soit V (k) = E[Xt+k − Xt (k)] sa variance. Alors, les coefficients de prévision ont
donnés par
at,k (i) = ψk+i , i = 0, 1, ..
et donc

X
Xt (k) = ψk+i t−i , l’erreur est
i=0

k−1
X
et (k) = ψi t+k−i
i=0

et la variance de ce prédicteur est :


k−1
X
V (k) = σ 2 ψi2
i=0

Démonstration : Utilisant le développement linéaire en bruit de Xt , i.e. Xt = ψ(B)t avec ψ(B) = 1 + ψ1 B + ψ2 B 2 + ...
et ψi sont les coefficients de la répresentation causale. On trouve que les coefficients a k (i) qui minimisent la variance de l’erreur :
V (k) = E[Xt+k − Xt (k)]2 sont at,k (i) = ψk+i et l’erreur de prévision peut s’exprimer comme Rt (k) = k−1
P
i=0 ψi t+k−i .
Notes :
1. Ce résultat fournit des intervales de confiance pour la prévision.
2. Pour k=1, et (1) = t (1) et V (1) = σ 2
3. Ce résultat sugère que pour un processus non stationnaire, la variance de l’erreur de prévision converge vers infini :

lim V (k) = ∞
k→∞

Pour les modèles ARM A(p, q), au lieu d’utiliser les réprésentations M A(∞), AR(∞), il est plus simple d’utiliser direc-
tement la définition du modèle. On vera ça dans le cadre plus général des processus non stationnaires ARIMA(p,d,q).

6.4 Le lissage exponentiel (*)


Les méthodes de lissage exponentiel sont des méthodes de prévision très simples à mettre en
oeuvre. On considère qu’une série (y i ) est observée entre des instants t 1 et tn . On cherche alors à
prédire yn+1 .
Les trois variantes proposées ici sont adaptées à trois situations différentes :
– le lissage exponentiel simple : pas de tendance, pas de saisonnalité,
– le lissage exponentiel de Holt : tendance, pas de saisonnalité,
– le lissage exponentiel de Winters : tendance et saisonnalité.
Pour simplifier les notations, on considèrera ici que t i = i pour tout i ≥ 1.

6.4.1 Le lissage exponentiel simple


Cette méthode ne doit être employée qu’en présence d’une série de fluctuations irrégulières,
c’est-à-dire une série qui ne présente ni tendance ni composante saisonnière.
Pour prédire yn+1 , l’idée est particulièrement simple : on combine la dernière observation y n
avec la dernière prévision effectuée. Notons ŷ n+1 la prévision de yn+1 . On pose alors :

ŷn+1 = αyn + (1 − α)ŷn ,

où α, appelé la constante de lissage, est le plus souvent compris entre 0 et 1.


Remarques :

39
1. Notons ei = yi − ŷi l’erreur de prévision au temps ti . On peut alors exprimer ŷi comme suit :

ŷi+1 = α(yi − ŷi ) + ŷi


= ŷi + α ei .

La nouvelle prévision apparaı̂t donc comme l’ancienne prévision corrigée. L’ampleur de la


correction est proportionnelle à la dernière erreur de prévision. C’est ce qu’on appelle la
présentation de mise à jour par l’erreur du lissage exponentiel simple.
2. Il est possible d’exprimer la nouvelle prévision ŷ n+1 en fonction des données passées. En effet,
on peut successivement remplacer ŷ n , ŷn−1 , . . . par leur expression :

ŷn+1 = αyn + (1 − α)(αyn−1 + (1 − α)ŷn−1 )


= αyn + α(1 − α)yn−1 + (1 − α)2 (αyn−2 + (1 − α)ŷn−2 )
n−1
X
= α(1 − α)j yn−j + (1 − α)n ŷ1 .
j=0

On peut donc interpréter le lissage exponentiel simple comme une moyenne mobile. Si ŷ 1 = y1 ,
les coefficients de cette moyenne mobile sont [α, (1−α)α, (1−α) 2 α, . . . (1−α)n−2 α, (1−α)n−1 ].
On vérifie bien que la somme de ces coefficients vaut 1. Cela explique le terme de lissage.
D’autre part, ces coefficients décroissent de façon exponentielle.
Cette méthode nécessite bien sûr d’initialiser la série des prévisions en choisissant une prévision
initiale ŷ1 . On peut par exemple :
– choisir ŷ1 = y1 ,
– choisir ŷ1 = y.
Quand au choix de α, remarquons les deux cas particuliers suivants :
– si α = 0, alors ŷn+1 = ŷn : toutes les prévisions sont identiques,
– si α = 1, alors ŷn+1 = yn : la prévision est égale à la dernière valeur observée.
La Figure 2 nous montre les séries de prévisions obtenues pour une même série de longueur
n = 39, avec la constante de lissage égale à 0.2 et à 0.7, ainsi qu’avec différentes initialisations
(ŷ1 = y1 , ŷ1 = y et ŷ1 = 2y − y1 ).
14

12

10

6
0 5 10 15 20 25 30 35 40
(a)

14

12

10

6
0 5 10 15 20 25 30 35 40
(b)
Le choix de l’initialisation importe peu, puisque cette initialisation est rapidement “oubliée”. Cet
oubli est d’autant plus rapide que la constante est proche de 1. Par contre, le choix de α est
clairement important. Les séries de prévisions obtenues avec α = 0.2 et α = 0.7 sont très différentes.

40
Fig. 2 – Lissage exponentiel simple. Différentes prévisions obtenues avec différentes constantes de
lissage et différentes initialisations, (a) α = 0.2, (b) α = 0.7. La prévision ŷ 40 est indiquée par une
croix.

En particulier, la figure montre bien que la valeur de ŷ 40 dépend du choix de α (ŷ40 = 11.58 si
α = 0.2 et ŷ40 = 12.95 si α = 0.7).
Une façon de choisir le coefficient de lissage consiste à déterminer la valeur de α qui minimise
les écarts entre la série observée et la série des prédictions. On peut en fait ne considérer que les
écarts obtenus sur la deuxième moitié de la série, afin de ne pas tenir compte de l’initialisation. On
cherche alors α qui minimise
Xn
S(α) = (yi − ŷi )2 .
i=[n/2]+1

Dans l’exemple proposé Figure 2, S(α) est minimum pour α = 0.61, et ce, quelque soit l’initialisation
choisie pour ŷ1 . Donc, puisque la série des prévisions s’ajuste le mieux à la série des observations
pour cette valeur de la constante de lissage, on peut espérer que la prévision ŷ 40 obtenue avec
α = 0.61 soit meilleure que celle obtenue avec une autre valeur de α.
La Figure 3 nous présente les prévisions obtenue avec α = 0, α = 1 et α = 0.61.
14

12

10

6
0 5 10 15 20 25 30 35 40
(a)
14

12

10

6
0 5 10 15 20 25 30 35 40
(b)
14

12

10

6
0 5 10 15 20 25 30 35 40
(c)

Fig. 3 – La série des prévisions obtenues avec (a) α = 0, (b) α = 1, (c) α = 0.61. La prévision ŷ 40
est indiquée par une croix.

Pour ces trois constantes de lissage, on obtient les résultats suivants :

α S(α) ŷ40
0 44.30 10.01
1 30.04 13.57
0.61 28.13 12.78

41
6.4.2 Le lissage exponentiel de Holt
La méthode de lissage exponentiel de Holt, encore appelée méthode de Holt-Winters avec
tendance, mais sans saisonnier, utilise une fonction de prévision localement linéaire :
ŷn+h = an + h bn
pour prédire yn+h à partir des observations y1 ,. . . ,yn .
Le niveau an et la pente bn sont mis à jour au moyen des formules suivantes :
an = αyn + (1 − α)ŷn
bn = γ(an − an−1 ) + (1 − γ)bn−1 .
La droite de tendance locale au temps t n−1 d’équation f (t) = an−1 + bn−1 (t − tn−1 ) passe par les
points (tn−1 , an−1 ) et (tn , an−1 + bn−1 ).
Pour obtenir an , la première des deux relations réalise une moyenne pondérée entre l’observa-
tion yn et la prévision an−1 + bn−1 donnée par la droite.
Pour trouver la pente bn , on effectue une moyenne pondérée entre la pente entre les points
(tn−1 , an−1 ) et (tn , an ), et la dernière prévision de la pente b n−1 .
Un choix raisonnable des prévisions initiales consiste à poser, par exemple,
a1 = y 1 , b1 = 0.
On peut, comme pour le lissage exponentiel simple, mettre en évidence la présentation de
mise à jour par l’erreur. En effet, on montre facilement que, pour tout i ≥ 2,
ai = ai−1 + bi−1 + αei
bi = bi−1 + αγei

6.5 Le lissage exponentiel de Winters


La méthode de lissage exponentiel de Winters, encore appelée méthode de Holt-Winters avec
saisonnalité, généralise la méthode de Holt, en introduisant une composante saisonnière (s i ), de
période p. Cette composante intervient de façon additive ou de façon multiplicative.

6.5.1 modèle de Winters additif


La composante est introduite de façon additive comme suit :
ŷn+h = an + hbn + sn+h−p
où les trois composantes sont réactualisées de la façon suivante :
an = α(yn − sn−p ) + (1 − α)(ŷn − sn−p )
bn = γ(an − an−1 ) + (1 − γ)bn−1
sn = δ(yn − an ) + (1 − δ)sn−p
On voit donc que les deux premières formules de mise à jour de la méthode de Holt ont été
reprises, mais celle relative au niveau est appliquée sur la donnée corrigée des variations saisonnières
yn − sn−p , avec l’estimation la plus récente du coefficient saisonnier correspondant.
La composante saisonnière sn est une combinaison de la variation saisonnière y n − an et de
l’ancienne prévision du coefficient saisonnier s n−p .
On peut choisir les initialisations suivantes :
p
1X
a1 = a 2 = . . . = a p = yi
p
i=1
T1 = 0
si = yi − ai 1 ≤ i ≤ p.

42
Une présentation de mise à jour par l’erreur peut être aisément établie :

ai = ai−1 + bi−1 + αei


bi = bi−1 + αγei
si = si−p + δ(1 − α)ei

6.5.2 modèle de Winters multiplicatif


La composante est introduite de façon multiplicative comme suit :

ŷn+h = (an + hbn )(1 + sn+h−p )

où les trois composantes sont réactualisées de la façon suivante :


yn
an = α + (1 − α)(an−1 + bn−1 )
1 + sn−p
bn = γ(an − an−1 ) + (1 − γ)bn−1
 
yn
sn = δ − 1 + (1 − δ)sn−p
an

6.6 TP
1. On considère les quatre couples de variables suivants,
X1 Y1 X2 Y2 X3 Y3 X4 Y4
10.00 8.04 10.00 9.14 10.00 7.46 8.00 6.58
8.00 6.95 8.00 8.14 8.00 6.77 8.00 5.76
13.00 7.58 13.00 8.74 13.00 12.74 8.00 7.71
9.00 8.81 9.00 8.77 9.00 7.11 8.00 8.84
11.00 8.33 11.00 9.26 11.00 7.81 8.00 8.47
14.00 9.96 14.00 8.10 14.00 8.84 8.00 7.04
6.00 7.24 6.00 6.13 6.00 6.08 8.00 5.25
4.00 4.26 4.00 3.10 4.00 5.39 19.00 12.50
12.00 10.84 12.00 9.13 12.00 8.15 8.00 5.56
7.00 4.82 7.00 7.26 7.00 6.42 8.00 7.91
5.00 5.68 5.00 4.74 5.00 5.73 8.00 6.89
a) Pour chacun de ces quatre couples, calculer les moyennes et variances de X et Y , ainsi
que la covariance et le coefficient de corrélation entre X et Y .
b) En déduire les équations des quatre droites de régression de Y en X.
c) Représenter graphiquement ces quatres nuages de points et les droites de régression.
d) Commenter.
2. On considère la série des ventes trimestrielles de parapluies suivante :
Trimestre I II III IV
1995 30 15 5 30
1996 36 18 9 36
1997 45 15 10 60
1998 48 16 8 72
1999 54 18 9 45
Calculer la moyenne mobile d’ordre 4 et la représenter graphiquement avec la série des ventes.
Commenter ce graphique.
3. En utilisant la méthode du lissage exponentiel simple, déterminer les prévisions (ŷ i , 1 ≤ i ≤
10) obtenues pour la série (yi ) suivante, avec une constante de lissage α = 0 , 0.1 , 0.2 , . . . , 1

43
i 1 2 3 4 5 6 7 8 9 10
yi 4 2 3 5 1 4 2 3 8 7
Calculer S(α) pour chacune de ces valeurs de α. Quelle prévision proposeriez vous pour y 11 ?

2. Reprendre l’exercice 1. avec la série (y i ) suivante :


i 1 2 3 4 5 6 7 8 9 10
yi 3 3 2 2 3 1 0 0 1 1
4. En utilisant la méthode de Holt (avec tendance, sans composante saisonnière), déterminer
les prévisions (ŷi , 1 ≤ i ≤ 10) obtenues pour la série (y i ) suivante, avec α = 0 , 0.5, 1 et
γ = 0 , 0.5, 1.
i 1 2 3 4 5 6 7 8 9 10
yi 4 3 6 5 7 8 10 9 7 6
Calculer S(α, γ) pour chacune de ces valeurs de (α, γ). Quelle prévision proposeriez vous pour
y11 ?
5. On considère les ventes trimestrielles de parapluies d’un magasin (en milliers), entre 1998 et
2000 .
i 1 2 3 4 5 6 7 8 9 10 11 12
yi 30 17 9 36 44 28 21 50 61 33 30 82
a) En utilisant la méthode de Winters (avec tendance et composante saisonnière), dans le cas
additif et multiplicatif, déterminer les prévisions (ŷ i , 1 ≤ i ≤ 12) obtenues avec différentes
valeurs (α, γ, δ), choisies dans {0, 0.5, 1} par exemple.
b) Calculer S(α, γ, δ) pour chacune de ces valeurs de (α, γ, δ) et chacun des modèles.
c) Les valeurs “optimales” des coefficients sont (0.2, 0.8, 0.4) pour un modèle additif et
(0.1, 0.9, 0.4) pour un modèle multiplicatif. Quel modèle vous semble le mieux convenir ?
d) Quelles prévisions proposeriez vous pour les ventes de 2001 ?
6. Appliquer la méthode de Winters pour prédire le nombre de tests VIH de novembre 1999
à octobre 2000 (les valeurs “optimales” des coefficients sont (0.1, 0., 0.3) pour un modèle
additif comme pour un modèle multiplicatif).

6.7 Modèles d’espace-ètat


La modélisation stochastique distingue en général entre trois types des processus :
1. observations Yt
2. variables ”latentes” inobservables directement X t , soumis parfois aux diverses contraintes, et
qui doivent être estimées.
3. des bruits inobservables t
Un exemple de modélisation très générale est fournie par les modèles espace-ètat :

Xt+1 = At Xt + bt + X (t) équation d’évolution (36)


Yt = Ct Xt + dt + Y (t) équation d’observation (37)

Exemple 6.5 Le modèle additif cherche une décomposition de la forme :

Yt = m t +  t où :

Donc, ce modèle contient seulement l’équation d’observation. m t peut-être traité aussi comme
une variable latente, et avec l’ajout des informations sur son évolution, une deuxième équation
d’évolution pourrait-être ajoutée.

Une telle décomposition devient utile ssi on peut assurer que les résidus aient une structure
statistique simple comme ”bruit blanc Gaussien” ou ”bruit blanc de second ordre”, moyennes
mobiles, etc.

44
6.8 Contrôle continu en séries temporelles
Pq i
1. Déterminer une moyenne mobile causale θ(B) = i=0 θi B d’ordre q minimal, qui laisse
passer une tendance quadratique sans distortion et qui enlève les composantes saisonnières
d’ordre 3.

2. Soit Xt = ki=0 θi t−i un processus moyenne mobile, utilisé pour lisser un bruit blanc  t =
P
BB(0, σ 2 = 1).
a) Quelle est la variance de Xt ?
b) Trouvez le filtre (i.e. les coefficients (θ 0 , ...., θk )) qui ramènent à un processus Xt à variance
minimale, parmi toutes les moyennes mobiles d’ordre k qui laissent passer une tendance
constante sans distortion.

3. On considère le processus aléatoire suivant :

Xt − .2 Xt−1 − .35 Xt−2 = 45 + t


ou t est BB(0, σ 2 = 1).
(a) Calculer l’éspérance de Xt , m = EXt , en supposant que le processus est stationnaire.
(b) Quelle est l’équation de récurrence satisfaite par le processus Y t = Xt − m ?
(c) Donner les équations de Yule-Walker pour les autocorrélations du processus Y t , calculer
les 3 premières autocorrélations, ainsi que la variance.
(d) Est-ce que le processus Yt est stationnaire causal ? Si oui,Pdonnez une formule générale
pour les coefficients ψk de sa réprésentation causale Yt = k ψk t−k .

45
Solutions :
2
1. En demandant que θ(B) = 1+B+B 3 (a0 + a1 B + a2 B 2 ) satisfait θ(1) = 1, θ 0 (1) = 0, θ 00 (1) = 0,
on trouve : θ(B) = 1/9(8 − 7B + 2B 2 )(1 + B + B 2 ) = 8/9 + B/9 + B 2 /3 − 5B 2 /9 + 2B 4 /9.
P 2 P
2. a) Var Xt = i θi . b) Elle est minimisé sous la contrainte i θi = 1 par la moyenne
arithmétique à coefficients égaux.
3. (a) Ce processus AR(2) pas centré peut s’écrire (1−.2B −.35B 2 )Xt = (1−.7B)(1+.5B)Xt =
45 40
45 + t En prenant ésperance on trouve E(X t ) = 1−.2−.35 = .45 = 100.
(b) Soit Yt = Xt − EXt . Alors Yt est un processus AR(2) centré satisfaisant (1 − .2B −
.35B 2 )Yt = (1 − .7B)(1 + .5B)Xt = t
d) La fonction d’autocovariance de Y t (qui est la même que celle de Xt ) est obtenue de
l’équation : E(Yt Yt−h ) = 0.2E(Yt−1 Yt−h ) + 0.35E(Yt−2 Yt−h ) + E(t Yt−h ), ce qui donne
l’équation Yule Walker
ρk = ϕ1 ρk−1 + ϕ2 ρk−2
Pour k = 1, 2 on a le sytème de Yule Walker :

ρ1 = 0.2 + 0.35ρ1
ρ2 = 0.2ρ1 + 0.35

2
La première équation donne ρ1 = 6.5 = .31, et la seconde donne ρ2 = 0.2ρ1 + .35 = .41.
Finalement, γ0 = 1−P1 ϕi ρi = 2.52.
d) Le processus est stationnaire causal car les racines du polynôme sont á l’extérieur du disque
unité. Les coefficents ψ(k) satisfont aussi l’équation Yule Walker

ψk = ϕ1 ψk−1 + ϕ2 ψk−2

avec valeurs initiales ψ0 = 1, ψ1 = ϕ1 .


La solution générale de cette récurrence d’ordre 2, pour valeurs initiales arbitraires x 0 , x1 et
avec des racines distinctes λ1 , λ2 , est :

λk1 − λk2 (λk λ2 − λk2 λ1 )


ψ(k) = x1 − 1 x0
λ1 − λ 2 λ1 − λ 2
et donc ici on obtient cette formule, avec x 0 = 1, x1 = ϕ1 .

7 Examens d’entraı̂nement
7.1 Examen d’entraı̂nement 1
1. Soit Yt un processus ARMA(1,1) vérifiant l’équation Y t = −0.5Yt−1 + t − 0.8t−1 , avec t un
bruit blanc.
(a) Précisez si le processus est stationnaire, causal et inversible, et calculez sa fonction
d’autocovariance.
(b) Trouvez les coefficients ψj de sa répresentation comme processus M A(∞) et les coeffi-
cients πj de sa répresentation comme processus AR(∞) et precisez si ces répresentations
sont convergentes.
2. Considérons le processus : ARIMA(1,1,2) :

(1 − αB)(1 − B)Yt = (1 + θ1 B + θ2 B 2 )Zt


où −1 < α < 1. Soit Yt (k) la prévison de Yt+k au temps t.

46
(a) Montrez que Yt (1) = (1 + α)Yt − αYt−1 + θ1 Zt + θ2 Zt−1 et trouvez une expression
correspondante pour Yt (2). Donnez une formule de recurrence pour Y t (k) pour k ≥ 3.
(b) Montrez que la fonction de prévision Y t (k) peut s’exprimer sous la forme Yt (k) = at +
bt αk , et donnez les formules de at , bt comme fonctions de Yt , Yt−1 , Zt , Zt−1 .

3. On considère le processus aléatoire AR(2) suivant :

Xt = 10 + (−.3) Xt−1 + .01 Xt−2 + t


ou t est BB(0, σ 2 = 1).
(a) Calculer l’éspérance de Xt , en supposant que le processus est stationnaire.
(b) Est-ce que le processus est stationnaire causal ?
(c) Donner les équations de Yule-Walker du processus, calculer la variance, ainsi que les 3
premières valeurs des autocorrélations.
(d) Pour un modèle non-stationnaire, comment on pourrait détecter la manque de station-
nairité à partir des expressions numériques fournies par les équations de Yule-Walker
pour les autocorrélations ?
(e) Calculer les 3 premières autocorrélations partielles.
4. Processus ARM A(2, 1) Soit le processus :

(1 − B + .25B 2 )Yt = (1 + θ B)Zt


(a) Est-ce que ce processus est stationnaire causal ? Si oui, trouvez la fonction d’auto-
corrélation de Yt .
(b) Est-ce que ce processus est inversible ? Calculez les premiers cinq coefficients de la ”re-
presentation π” du bruit Zt en termes de la série. De quel problème on s’aperçoit si le
processus Yt n’est pas inversible ?
(c) Donnez, si possible, une mèthode de prévision pour un processus (i) causal et noninver-
sible (ii) noncausal et inversible.
(d) Donnez la prévision un pas en avant Ŷt (1) en fonction des valeurs passées Y t , Yt−1 , ....
5. Considérons le processus : ARIMA(1,1,2) :

(1 − αB)(1 − B)Yt = (1 + θ1 B + θ2 B 2 )Zt


où −1 < α < 1. Soit Yt (k) la prévison de Yt+k au temps t.
(a) Montrez que Yt (1) = (1 + α)Yt − αYt−1 + θ1 Zt + θ2 Zt−1 et trouvez une expression
correspondante pour Yt (2). Donnez une formule de recurrence pour Y t (k) pour k ≥ 3.
(b) Montrez que la fonction de prévision Y t (k) peut s’exprimer sous la forme Yt (k) = at +
bt αk , et donnez les formules de at , bt comme fonctions de Yt , Yt−1 , Zt , Zt−1 .

6. On considère la série suivante :


ti 1 2 3 4 5 6 7 8 9 10
yi 8 4 13 15 18 15 19 19 20 28
a) Représenter graphiquement cette série.
b) On se propose d’ajuster une droite de régression

f (t) = a t + b

de moindre carrées. Déterminer les coefficients a et b.


c) Quel est le point le plus ”eloigné” de f (t) ?.

47
c) Calculez une droite de régression f (t) en imposant b ≥ 6.
7. On considère une série (yi , 1 ≤ i ≤ n) périodique, de période p. On suppose que le nombre
d’observations n est un multiple de p : n = Lp. Calculez les corrélations empiriques :

ρ(p), ; ρ(2p), ; . . . ; ρ(jp) . . .

en utilisant la definition des corrélations empiriques :


1 Pn−k Pn−k
n−k i=1 (yi − y)(yi+k − y) (yi − y)(yi+k − y)
ρ(k) = 1 Pn 2
= i=1Pn 2
n i=1 (yi − y) i=1 (yi − y)

où y = ( ni=1 yi ) /n est la moyenne de l’ensemble de la série (y i , 1 ≤ i ≤ n).


P

Commentez sur le résultat.


8. Quelle est la limite lim k→∞ Xt (k) de la prévision linéaire d’un processus ARMA (p,q) ?
Solutions :
1. (c) Le processus peut s’écrire Y t = (1 + τ1 B + τ2 B 2 )Zt = (1 + .4B)2 Zt . Il est inversible car
la racine −5/2 est á l’extérieur du disque unité. Par identification des coefficients on trouve
que π1 = θ1 , π2 = θ2 − θ12 , π3 = θ13 − 2θ2 θ1 , π4 = −θ14 + 3θ2 θ12 − θ22 , ... et alors
X
Ŷt (1) = Yt + πi Yt−i
i=1

avec π1 = .8, ....


Examen : 10 Janvier 2005, UPPA, Dépt. de Mathématiques
Module : Séries temporelles : TMUZ44U
Durée : deux heures

Pq i
1. Déterminer une moyenne mobile causale θ(B) = i=0 θi B d’ordre q minimal, qui laisse
passer une tendance quadratique sans distortion et qui enlève les composantes saisonnières
d’ordre 4.

2. Soit Xt = 3i=0 θi t−i un processus moyenne mobile, utilisé pour lisser un bruit blanc  t =
P
BB(0, σ 2 = 1).
a) Quelle est la variance de Xt ?
b) Trouvez le filtre (i.e. les coefficients (θ 0 , θ1 , θ2 , θ3 )) qui ramènent à un processus Xt à va-
riance minimale, parmi toutes les moyennes mobiles d’ordre 3 qui laissent passer une tendance
affine Xt = a + bt sans distortion.
3. Stationarité des processus Soit

Xt+1 = φXt + t+1 , t = 0, 1, 2, ...,

où t est bruit blanc Gaussien de distribution N (0, σ 2 ), un processus AR(1) défini seulement
à partir du temps t = 0. Supposons aussi que X 0 est Gaussien de distribution N (0, σ 02 ).
Déterminez la valeur de σ02 qui assure que le processus Xt est stationnaire.

4. Considérez le modèle ARIMA(1,1,0)

(1 − λB)(1 − B)Xt = t

où |λ| < 1 et t est bruit blanc Gaussien de distribution N (0, 1).
(a) Donnez une formule de récurrence et Pensuite une formule générale pour les coefficients
ψk de sa réprésentation causale Xt = k ψk t−k .
(b) Est-ce que ce processus est stationnaire causal ?
(c) Donner une formule de récurrence
Pet ensuite une formule générale pour les autocorrélations
ρk du processus Xt . Est-ce que k ρk < ∞ ?
(d) Donnez une formule de récurrence et ensuite une formule générale pour la prévision
Box-Jenkins Xt (k) = E[X(t + k)|Xt ] de X(t + k), k = 0, 1, 2, ...
(e) Trouvez la limite limk→∞ Xt (k).
Solutions :
2 2
1. En demandant que θ(B) = 1+B+B 3
+B
(a0 + a1 B + a2 B 2 ) satisfait θ(1) = 1, θ 0 (1) = 0, θ 00 (1) =
15−16B+5B 2 1+B+B 2 +B 3
0, on trouve : θ(B) = 4 4 = 15 1 4 2 4 3 11 4
16 − 16 B + 16 B 16 B − 16 B + 16 B .
5 5
P 2 P P
2. a) Var Xt = i θi . b) Elle est minimisé sous les contraintes i θi = 1, i iθi = 0 par
(7/10, 4/10, 1/10, −2/10).
σ2
3. σ02 = 1−ϕ2
4. (a) Les coefficents ψ(k) satisfont l’équation Yule Walker

ψk = ϕ1 ψk−1 + ϕ2 ψk−2

avec valeurs initiales ψ0 = 1, ψ1 = ϕ1 .


La solution générale de cette récurrence d’ordre 2, pour valeurs initiales arbitraires x 0 , x1 et
avec des racines distinctes λ1 , λ2 , est :

λk1 − λk2 (λk λ2 − λk2 λ1 )


ψ(k) = x1 − 1 x0
λ1 − λ 2 λ1 − λ 2

(et avec des racines non-distinctes λ 1 = λ2 = λ nous avons ψ(k) = kλk−1 x1 + (1 − kλk x0 ).
k+1
Ici, avec λ2 = 1, on obtient par cette formule, (avec x 0 = 1, x1 = ϕ1 ) ψ(k) = λ λ−1−1 (et avec
des racines non-distinctes nous avons ψ(k) = (k + 1)λ k ).
b) Le processus n’est pas stationnaire causal car la racines 1 du polynôme charactèristique
n’est pas á l’extérieur du disque unité.
(c) Pour un processus AR stationnaire X t , la fonction d’autocorrelation satisfait l’équation
Yule Walker
ρk = ϕ1 ρk−1 + ϕ2 ρk−2

Pour k = 1 ça donne :

ϕ1 1+λ
ρ1 = = =1
1 − ϕ2 1+λ
et ensuite ρk = 1. Le seul processus stationnaire Gaussien satisfaisant cette recurrence est
Xt = Xt−1 = ..., quand σ = 0. Pour σ 6= 0, il n’existe pas de processus stationnaire satisfaisant
notre recurrence.
d) Avec la même recurrence, on arrive à :

λk+1 − 1 λk+1 − λ
Xt (k) = Xt + Xt−1
λ−1 λ−1

7.2 Examen d’entraı̂nement 2


1. Soit le processus :

(1 − B + .25B 2 )Yt = (1 + θ B)Zt


(a) Est-ce que ce processus est stationnaire causal ? Si oui, trouvez la fonction d’auto-
corrélation de Yt .
(b) Est-ce que ce processus est inversible ? Calculez les premiers cinq coefficients de la ”re-
presentation π” du bruit Zt en termes de la série. De quel problème on s’aperçoit si le
processus Yt n’est pas inversible ?
(c) Donnez, si possible, une mèthode de prévision pour un processus (i) causal et noninver-
sible (ii) noncausal et inversible.
(d) Donnez la prévision un pas en avant Ŷt (1) en fonction des valeurs passées Y t , Yt−1 , ....
2. Soit Yt un processus ARMA(2,1) vérifiant l’équation Y t = 0.7Yt−1 − 0.1Yt−2 + t − 2t−1 , avec
t un bruit blanc.
(a) Précisez si le processus est stationnaire, causal et inversible, et calculez sa fonction
d’autocovariance.
(b) Trouvez les coefficients ψj de sa répresentation comme processus M A(∞) et les coeffi-
cients πj de sa répresentation comme processus AR(∞) et precisez si ces répresentations
sont convergentes.
3. Prévision du modèle ARIMA(1,2,0) (1 − ϕB)(1 − B) 2 Xt = t .
(a) Trouvez la forme de la prévision Box-Jenkins X t (k) de Xt et les poids des points pivotales
Xt , Xt−1 , Xt−2 .
(b) Trouvez la limite limk→∞ Xt (k).
(c) Calculez les coefficients ψk de l’expansion causale de ce processus.
4. Calculer la fonction d’autocovariance Γk = EYn+k Ynt du processus à valeurs en R2 :
 
a0 εn + a1 εn−1
Yn =
b1 εn−1 + b2 εn−2
où n est un bruit blanc standard.
5. Stationarité des processus
Invéstiguer si les processus suivants sont stationnaires de second ordre, en calculant leurs
charactéristiques statistiques de premier et second ordre (moyennes, variances, covariances).
On convient de noter par {t } le bruit blanc.
(a) Yt = t + θ1 t−1 (MA(1))
(b) Yt = Yt−1 + µ + t (marche aléatoire avec tendance)
(c) Yt = ϕYt−1 + µ + t (ϕ 6= 1) (AR(1) avec tendance)
6. Processus AR(2) On considère le processus aléatoire AR(2) suivant :

Xt = 10 + (−.3) Xt−1 + .01 Xt−2 + t


ou t est BB(0, σ 2 = 1).
(a) Calculer l’éspérance de Xt , en supposant que le processus est stationnaire.
(b) Est-ce que le processus est stationnaire causal ?
(c) Donner la recursion de Yule-Walker pour les prévisions X̂(t + k|t) du processus, et
résolvez la en termes des valeurs pivotales X t , Xt−1 .
Mêmes questions pour
(1 − B + .25B 2 )Xt = t
7. Processus ARM A(2, 1)
Soit le processus :

(1 − .6B + .08B 2 )Yt = (1 + θ B)t


(a) Est-ce que ce processus est stationnaire causal ? Si oui, obtenez la ”represéntation ψ”
du Yt par rapport au bruit Zt .
(b) Sous quelles conditions est ce processus inversible ? Obtenez la ”represéntation π” du
bruit Zt en termes de la série. De quel problème on s’aperçoit si le processus n’est pas
inversible ?
(c) Donnez la prévision k pas en avant Ŷt (k), en utilisant les valeurs Yt , Yt−1 , t .
8. Montrez que pour ARIMA(1,2,0),

ψk = {ϕk+2 + (1 − 2ϕ) + k(1 − ϕ)}(1 − ϕ)−2 , k ≥ 0


7.3 Examen d’entraı̂nement 3
2. On considère le processus aléatoire suivant :

Xt = 20 − .4 Xt−1 + .12 Xt−2 + t


ou t est BB(0, σ 2 = 1).
(a) Calculer l’éspérance de Xt , en supposant que le processus est stationnaire.
(b) Est-ce que le processus est stationnaire causal ?
(c) Donner les équations de Yule-Walker du processus, calculer la variance, ainsi que les 3
premières valeurs des autocorrélations.
(d) Pour un modèle non-stationnaire, comment on pourrait détecter la manque de station-
nairité à partir des expressions numériques fournies par les équations de Yule-Walker
pour les autocorrélations ?
(e) Calculer les 3 premières autocorrélations partielles.
3. Soit le processus :

(1 − .8B + .16B 2 )Yt = (1 + θ B)t


(a) Est-ce que ce processus est inversible ? Calculez la formule générale des coefficients π(k)
de la ”representation π” du bruit t en termes de la série. Quels sont les premiers quatre
coefficients De quel problème on s’aperçoit si le processus n’est pas inversible ?
(b) Donnez la prévision un pas en avant Ŷt (1) qui utilise les trois valeures Y t , Yt−1 , Yt−2 , Yt−3 .
(c) Est-ce que ce processus est stationnaire causal ? Si oui, trouvez la fonction d’auto-
corrélation de Yt .
4. Considérons le processus :

(1 − B)Yt = (1 + β1 B + β2 B 2 )t
Soit Yt (k) la prévison de Yt+k au temps t.
(a) Trouvez des expressions pour Yt (1), Yt (2), comme fonctions de Yt , Yt−1 , t , t−1 . Donnez
une formule de recurrence pour Yt (k) pour k ≥ 3, et écrivez ensuite Yt (k) comme une
fonction de Yt , Yt−1 , t , t−1 .
(b) Trouvez des expressions pour Yt (1), Yt (2), comme fonctions de Yt , Yt−1 , Yt−2 , ... en utili-
sant la réprésentation π du bruit.

5. (a) Donnez les formules des coefficients de corrélation ρ 1 , ρ2 pour le processus M A(1).
(b) Trouvez les valeurs maximales et minimales de ρ 1 et les valeurs de θ pour les quelles ces
valeurs sont atteintes.
Solutions :
1. (c) Le processus peut s’écrire Y t = (1 + τ1 B + τ2 B 2 )t = (1 + .4B)2 t . Il est inversible car la
racine −5/2 est á l’extérieur du disque unité. Par identification des coefficients on trouve que
π1 = θ1 , π2 = θ2 − θ12 , π3 = θ13 − 2θ2 θ1 , π4 = −θ14 + 3θ2 θ12 − θ22 , ... et alors
X
Ŷt (1) = Yt + πi Yt−i
i=1

avec π1 = .8, ....


3. (a) Ce processus AR(2) pas centré peut s’écrire (1−.2B −.35B 2 )Xt = (1−.7B)(1+.5B)Xt =
40 40
40 + t En prenant ésperance on trouve E(X t ) = 1−.2−.35 = .45 .
(b) Le processus est stationnaire causal car les racines du polynôme sont á l’extérieur du
disque unité.
(c) Soit Yt = Xt − EXt . Alors Yt est un processus AR(2) centré satisfaisant (1 − .2B −
.35B 2 )Yt = (1 − .7B)(1 + .5B)Xt = t
La fonction d’autocovariance de Yt (qui est la même que celle de Xt ) est obtenue de l’équation :
E(Yt Yt−h ) = 0.2E(Yt−1 Yt−h ) + 0.35E(Yt−2 Yt−h ) + E(t Yt−h ), ce qui donne le sytème de Yule
Walker :

ρ1 = 0.2 + 0.35ρ1
ρ2 = 0.2ρ1 + 0.35
2
La première équation donne ρ1 = 6.5 = .31, et la seconde donne ρ2 = 0.2ρ1 + .35 = .41.
Finallement, γ0 = 1−P1 ϕi ρi = 2.52.
(d) Les autocorrélations partielles ρ̂ i , i = 1, 2, 3 se calculent à l’aide des déterminants des
matrices d’autocorrélations et sont .31, .35, ≈ 0. La troisième autocorrélation est en effet une
erreur d’arrondissmenet, car le modèle AR(p) a les autocorrèlations partielles sont nulles au
delà du rang p.
Soit Xt = X0 + 1 + 2 + · · · + n une marche aléatoire “infinitesimale” sur R, i.e. une marche
avec (n ) une suite de variables aléatoires réelles indépendantes de même loi P [ n = D] = p et
P [n = −D] = q = 1 − p, ou p, q = 21 ± 2σµ2 D, D 2 = σ 2 h, et h → 0, n → ∞ et n h = t.
Montrez que alors l’ésperance et la variance de X t approchent l’ésperance et la variance d’un
mouvement Brownien X̃t de tendance µ et variabilité σ, ( X̃t = X0 + σWt + µt, où Wt est le
mouvement Brownien standard.)
Pour tout x, l, u de la forme kD, k ∈ Z, nous considerons le processus X̃t conditionné sur
X̃0 = x pour x ∈ [l, u], jusq’au temps d’arrêt τ quand le processus sort de l’intervalle [l, u].
1. Obtenez l’équation de récurrence et les conditions frontière satisfaites par p x = Px {X̃τ = K},
tx = Ex τ , et fx = Ex X̃τ et dx = Ex e−rτ . Indication : Approximez par la marche aléatoire
“infinitesimale” Xt , conditionez sur le premier pas 1 et utilisez les relations :
Ex [g(Xτ ) | 1 = ±1] = px±1 , Ex [ 0τ −1 c(Xi ) | 1 = ±1] = c(x) + tx±1 , ...
P

2. Résolvez les équations de récurrence qui en résultent pour p x , tx , fx et dx dans le cas p = q =


1/2.
3. (a) Obtenez l’équation différentielle et les conditions frontière satisfaites par le coût total
esperé Z τ
fσ (x) = Ex c(X̃t )dt
0

(où X̃t est un mouvement Brownien de tendance µ et variabilité σ). Indication : Prenez
la limite d’une équation de récurrence semblable a celle obtenue dans le problème 1 (a)i.
(b) Résolvez l’équation dans le cas l = 0, u = ı, µ < 0, pour la fonction de coût unitaire
c(x) = 1. Est-ce que le résultat depend de σ ? Donnez une interpretation geometrique
du cas σ = 0.
(c) Résolvez l’équation dans le cas l = 0, u = ı, µ < 0, pour la fonction de coût unitaire
c(x) = x. Donnez une interprétation geometrique du cas σ = 0. Quelle est la limite
limx→ı ffσ0 (x)
(x)
?

8 Sommaire des définitions et résultats dans les séries temporelles


8.1 Filtres
Définition 8.1 a) Une série st sera appelée saisonnière de période p ssi
p
X p−1
X
st+i = 0 ⇐⇒ ( B i )st = 0, ∀t (38)
i=1 i=0

b) Une série st sera appelée périodique de période p ssi

st+p = st ⇐⇒ (1 − B p )st = 0, ∀t (39)

Théorème 8.1 Un filtre ψ(B) annule (ou ”enlève”) les composantes saisonnières d’ordre p ssi
ψ(z) est divisible par 1 + z + ... + z p−1 (donc si ψ(z) = 0, pour toutes les racine d’ordre p de l’unité,
sauf z = 1.

Théorème 8.2 L’espace invariant d’un filtre contient les polynômes de degré ≤ p ssi 1 est une
racine d’ordre au moins p+1 de l’équation ψ(z) = 1, i.e. ψ(1) = 1, ψ 0 (1) = 0, ψ 00 (1) = 0, ψ (p) (1) = 0.

8.2 Causalité et inversibilité des modèles ARMA(p,q)


Théorème 8.3 P a) Un processus PARMA(p) est causal(inversible), i.e. il peut être représenté sous
∞ 2
la forme : YP t = i=0 ψi t−iPoù ψi < ∞
(t = ∞ π Y
i=0 i t−i où π 2 < ∞) ssi toutes les racines de son polynôme chractèristique ϕ(z)
i
(θ(z)) sont à l’extérieur du cercle unitaire. Les coefficients ψ i (π(i)) sont dans ce cas les coefficients
θ(z)
de la série Taylor de ψ(z) = ϕ(z) (π(z) = ϕ(z)
θ(z) )

Théorème 8.4 (*) a) Pour un procesus ARMA(p,q) ϕ(B)Y T = θ(B)t avec toutes les racines du
à l’extérieur du cercle unitaire, les coefficients ψ i = σ −2 EYt t−i de
polynôme chractèristique ϕ(z) P
la répresentation causale Yt = ψi t−i satisfont la recurrence

min[k,p]
X
ψ0 = 1, ψ k = θk + ϕ(i)ψ(k − i), 1 ≤ k ≤ q
i=1
min[k,p]
X
ψk = ϕ(i)ψ(k − i), k > q
i=1

Note : Cette dernière équation est appellée recursion de Yule-Walker.


b) Pour un procesus ARMA(p,q) ϕ(B)Y T = θ(B)t avec toutes les racines du polynôme
chractèristique
P θ(z) à l’extérieur du cercle unitaire, les coefficients π i de la répresentation inverse
t = πi Yt−i satisfont la recurrence
min[k,q]
X
π0 = 1, πk = −ϕk + θ(i)π(k − i), 1 ≤ k ≤ p
i=1
min[k,q]
X
πk = θ(i)π(k − i), k > p
i=1

Exemple 8.1 Ainsi, ψ1 = ϕ1 + θ1 , ψ2 = ϕ2 + ϕ21 + θ1 ϕ1 + θ2 , ψ3 = ϕ3 + 2ϕ1 ϕ2 + ϕ31 + (ϕ2 + ϕ21 )θ1 +


ϕ1 θ2 + θ3 , ...

8.3 Équations Yule Walker


1. Les premières p corrélations ρ = (ρ(1), ..., ρ(p)) peuvent être obtenues du sytême reduit à p
équations et p inconnues :

Rϕ=ρ (40)
ou R est la matrice Toeplitz symmetrique :
 
1 ρ(1) ... ρ(p − 1)
 ρ(1) 1 ... ρ(p − 2)
R=  ...

... ... ... 
ρ(p − 1) ρ(p − 2) ... 1
Pp
2. En suite, pour k > p on utilise la reccurence : ρ k = i=1 ϕi ρk−i
σ2
3. La variance est γ0 = 1−
P
ϕ i ρi (et en suite, on obtient les covariances par γ k = ρk γ0 , k > 1).
i

4. Exemple : AR(2) Pour le processus AR(2)

Yt = ϕ1 Yt−1 + ϕ2 Yt−2 + t

avec racines λ1 , λ2 de 0 = λ2 − φ1 λ − φ2 = λ2 ϕ(λ−1 ) dédans le cercle unitaire (pour assurer


la causalité), on obtient, en résolvant (40) :

ϕ1 λ1 + λ 2 ϕ21
ρ1 = = , ρ2 = ϕ2 + , ...
1 − ϕ2 1 + λ 1 λ2 1 − ϕ2

(a) Si les racines λ1 , λ2 sont distinctes, on obtient

λk1 − λk2 λk−1 − λ2k−1


ρk = ρ 1 − λ 1 λ2 1
λ1 − λ 2 λ1 − λ 2

Finalement, en utilisant ϕ1 = λ1 + λ2 ,ϕ2 = −λ1 λ2 , on arrive à

(1 − λ22 )λk+1 − (1 − λ21 )λk+1 λk+1 − λk+1 λk−1 − λk−1


ρk = 1 2
= 1 2
−λ21 λ22 1 2
, k≥0
(λ1 − λ2 )(1 + λ1 λ2 ) (λ1 − λ2 )(1 + λ1 λ2 ) (λ1 − λ2 )(1 + λ1 λ2 )

en termes de racines seulement.


(b) Dans le cas de racines confondues λ i = λ, on obtient :

1 − λ2
   
ρk = 1 + k λk , k ≥ 0.
1 + λ2

8.4 Prévision linéaire

p
X q
X
Ŷt (k) = E[Yt+k |Ft ] = ϕ̃i Ŷt (k − i) + θi ˆt+k−i
i=1 i=k

Dans le cas d’un modèle ARIMA(p,d,q), les ϕ̃ i sont les coefficients du polynôme ϕ(B)(1 − B) d ,
et dans le cas d’un modèle ARMA(p,q) ϕ̃ i = ϕi . Les ˆt peuvent être enlevés en utilisant la
répresentation ”π” du bruit en fonction de la série.

9 Appendice : Rappels des statistique et probabilités multivariées


9.1 Analyse statistique univariée
Définition 9.1 Variable aléatoire : Une variable X est dite aléatoire si elle peut prendre un
ensemble de plusieures valeurs possibles :
- discret : X = x1 , x2 , ..., xn
- ou continu : X appartient à un intervalle (a, b)

Chaque X est caractérisée par une distribution de probabilité, specifié par une probabilité
cumulée ou ”cdf” F (x) = P{X ≤ x}, et aussi par :
– la ”masse de probabilité” : P{X = x i } = pi dans le cas discret, ou
– la densité de probabilité ou ”pdf” f (x) = dFdx(x) dans le cas continu.
La loi de probabilité peut être représentée par ses moments, en particulier :
- la moyenne ou espérance mathématique :
Z
mX = EX = xdF (x)

- la variance ou espérance des carrés des écarts à la moyenne :


Z
2
σX = Var X = E(X − mX )2 = (x − mX )2 dF (x)

ou σX est l’écart type ou paramètre de dispersion, exprimé dans les mêmes unités que X. Les
intervalles de la forme [mX − zα σX , mX + zα σX ], appellés intervalles de confiance remplaçent
la ”prévision ponctuelle” de X, qui est m X . Ici, zα sont choisies en fonction du ”niveau de confiance”
demandé α et de la distribution du ”residu normalisé” X−m σX
X
(par exemple, pour une confiance de
95% et residus Gaussiens, zα = 2).

9.2 Rudiments de statistique bivariée


La codispersion de deux variables aléatoires X et Y est caractérisée par leur ”covariance”, i.e.
par l’espérance du produit des écarts à leur moyennes respectives m X et mY :

σXY = Cov (X, Y ) = E(X − mX )(Y − mY )


En normalisant cette quantité on obtient le coefficient de corrélation : le rapport - sans dimension
- de la covariance aux produit des deux écarts-types :
σXY
ρXY =
σX σY

Exercice 9.1 Montrez que le coefficient de corrélation est nécessairement compris entre -1 et +1.

Le coefficient de corrélation indique le degré de dépendance linéaire entre deux variables : - s’il est
proche de ±1, il indique l’existence d’une relation linéaire entre variables ;
- s’il est proche de 0, il indique que les deux variables ne sont pas linéairement dépendantes
(l’indépendance complète entre les variables correspond à une hypothèse plus forte, soit en terme
de probabilités : fXY (x, y) = fX (x)fY (y), ce qui implique que la covariance et le coefficient de
corrélation correspondants sont nuls - la réciproque n’étant pas nécessairement vraie).
Les géostaticiens utilisent également la sémivariance

Var (X − Y )
γXY =
2

d’habitude pour des variables avec la même variance.

Exercice 9.2 Montrez que si Var (X, X) = Var (Y, Y ) = σ 2 , la covariance et sémivariance satis-
font :
γXY = σ 2 − Cov (X, Y ) = σ 2 (1 − ρXY )

Dés lors, ces coefficients sont parfaitement équivalents. Cependant, la sémivariance a une
intérpretation intuitive de ”mesure de dissimilitude” qui la rend preferée en géostatique.

10 La régression lineaire
10.1 Méthode des moindres carrés et méthode des 2 points
On cherche ici à modéliser la tendance par une droite d’équation m(t) = a t + b. Comment
déterminer alors θ = (a, b) ?
La droite des moindres carrés est celle qui ajuste le mieux les observations,
Pn au sens
des moindres carrés. Elle est obtenue en calculant θ = (a, b) qui minimise (y
i=1 i − m(ti ))2 .
Le calcul des coefficients a, b se fait par la méthode classique déterministe d’approximation par
projection/régression, que nous rappelons maintenant.
Soit Y un vecteur qu’on veut approximer par un ensemble X i , i = 1, .., I des vecteurs
”régresseurs” (plus accessibles, plus connus que Y ...). Alors, l’approximation de Y par une combi-
naison lineaire des Xi , i = 1, ..., I qui est la plus proche de Y au sense des moindres carrées
est :
XI
Ŷ = ai Xi
i=1

où le vecteur colonne a = (ai , i = 1, ..., I) vérifie le système d’équations ”normales” :

C X,X a = C X,Y (41)

et où C X,X est la matrice Gramm de produits scalaires des regreseurs et C X,Y = (Cov (Xi , Y ), i =
1, ..., I). Pour le cas des deux régreseurs : X et 1, ça ramène aux formules de la régression univariè :

Cov (Y, X)
a= , b = Ȳ − a X̄
Var (X)

Exercice 10.1 Dans le cas des regresseurs X 1 = i, X2 = 1, on trouve à partir des équations
Cov (Y,i)
P
i (i−I/2)Yi
normales (41) que a = = (I 3 +2I)/12 , b = Ȳ − a ī = Ȳ − a I2 .
Var (i)

Mèthode Alternative : La méthode des 2 points consiste à faire passer une tendance
droite par deux points ((tI , yI ),(tII , yII )) choisis arbitrairement. On peut par exemple choisir de
constituer 2 paquets d’observations, puis calculer les points moyens, ou encore les points médians
de ces deux sous séries, puis faire passer la droite par ces 2 points. On pourrait aussi utiliser les
quantiles d’ordre 1/3 et 2/3.
Exemple : Soit la chronique suivante,
20

18

16

14

ti 1 2 3 4 5 12

10
yi 1.1 0.3 2.6 3.3 2.4
8

2
ti 6 7 8 9 10
0
1 2 3 4 5 6 7 8 9 10
yi 5.2 5.7 5.0 5.8 19.0

On choisit de modéliser la tendance de cette chronique par une droite. Plutôt que de calculer
immédiatement la droite des moindres-carrés, il faut prendre le temps de regarder un peu cette
chronique et remarquer que l’observation y 10 semble être un point aberrant. On peut donc utiliser
la méthode des 2 points, et faire passer la droite par les points médians de coordonnées (3, 2.4) et
(8, 5.7). Les résultats obtenus avec ces deux méthodes sont présentés Figure 4 :
20 20

15 15

10 10

5 5

0 0
2 4 6 8 10 2 4 6 8 10
(a) (b)

10 10

5 5

0 0

−5 −5
2 4 6 8 10 2 4 6 8 10
(c) (d)

Fig. 4 – Ajustements linéaires obtenu par : (a) la méthode des moindres carrés, (b) la méthode des
2 points (indiqués par des cercles) , (c) et (d) résidus associés.

La première droite (a) est meilleure au sens des moindres carrés : c’est elle qui passe le plus
près de l’ensemble des points. Néanmoins, elle modélise mal la tendance de cette chronique. La
seconde droite (b) au contraire passe par deux points représentatifs du nuage, sans tenir compte de
la dernière observation. Cette droite fournit alors un très bon ajustement du reste de la chronique.
L’examen des résidus conduit à la même conclusion : les résidus obtenus avec la doite des moindres
carrés (c) ne fluctuent pas irrégulièrement autour de 0 (ils ont tendance à décroı̂tre jusqu’à t 9 ).
Les résidus obtenus avec la seconde droite (d) fluctuent irrégulièrement autour de 0 et avec une
plus faible amplitude jusqu’à l’instant t 9 . La grande amplitude du dernier résidus e 10 nous laisse
supposer qu’il s’agit là d’un “accident” dont il vaut mieux ne pas tenir compte.

10.2 le coefficient de corrélation linéaire ne suffit pas pour mesurer la qualité


de l’ajustement
4
! Attention : le coefficient de corrélation linéaire ne mesure pas la qualité de l’ajustement offert
par un modèle linéaire. Il indique simplement si, en moyenne, les points de la série sont éloignés ou
non de la droite des moindres carrés.
Considérons les deux séries y et z à titre d’exemple :
ti 1 2 3 4 5 6 7 8 9 10
yi 19.4 17.6 24.6 30.4 35.0 38.4 40.6 41.6 41.4 40.0
zi 1.0 3.3 13.4 8.3 11.9 11.4 8.8 10.2 16.2 10.3
Le coefficient de corrélation linéaire entre t et la série y vaut 0.91 alors que celui entre t et
z ne vaut que 0.65. Doit-on en conclure qu’un ajustement linéaire convient mieux à la première
chronique qu’à la seconde ? NON, surement pas avant d’avoir regardé ces deux chroniques :
60 20

15
40
10
20
5

0 0
2 4 6 8 10 2 4 6 8 10
(a) (b)
60 20

15
40
10
20
5

0 0
2 4 6 8 10 2 4 6 8 10
(c) (d)
5 10

0 5

−5 0

−10 −5
2 4 6 8 10 2 4 6 8 10
(e) (f)

Fig. 5 – (a) et (b) les deux séries y et z, (c) et (d) les ajustements linéaires obtenu par la méthode
des moindres carrés, (e) et (f) résidus associés.

Il est clair, au vu de ces graphiques, qu’une tendance linéaire ne convient pas du tout à la première
chronique, malgré un coefficient de corrélation linéaire de 0.91 ! Au contraire, la tendance de la
seconde chronique semble linéaire. La valeur plus faible du coefficient de corrélation linéaire pro-
vient simplement du fait que les résidus ont une amplitude assez importante. La tendance linéaire
n’explique donc que 42% (0.652 ) de la variance de cette chronique.

10.3 Les tendances polynomiales


On considère maintenant que la tendance f est un polynome de degré d

f (t) = a0 + a1 t + a2 t2 + . . . + ad td

Ici, θ = (a0 , a1 , . . . , ad ).
Bien sûr, le cas d = 0 correspond à une tendance constante, et le cas d = 1 à une ten-
dance linéaire. Si la tendance semble posséder des minima et/ou des maxima (points où la dérivée
s’annulle), un degré supérieur doit être choisi.

10.3.1 la courbe des moindres carrés


Ici, les coefficients de la courbe des moindres carrés peuvent être calculés explicitement. En
effet, posons

t21 . . . td1
       
1 t1 y1 f (t1 ) a0
1 t2 t22 . . . td2   y2   f (t2 )  a1 
T = . . Y =.  F = .  θ=.
       
.. .. .. 
 .. .. . . .  ..   . .  .. 
1 t2 2
t2 . . . td2 yn f (tn ) ad

On a donc F = T θ. La courbe des moindres carrés est obtenue en calculant la valeur de θ qui
minimise kY − F k2 = kY − T θk2 . La solution de ce problème de minimisation est bien connue :

θ M C = (T 0 T )−1 T 0 Y.
En particulier, on peut vérifier que si d = 0, alors T 0 T = n et T 0 Y =
P
yi . On obtient bien
aM
0
C = y.
Si d = 1, alors  P  P 
n P t2i y
T 0T = P T 0Y = P i
ti ti ti yi
On retrouve alors les formules bien connues
 MC    
a0 var(t)y − cov(t, y)t /var(t)
=
aM1
C cov(t, y)/var(t)

Pour des valeurs de d supérieures à 1, l’expression explicite de θ M C est compliquée. En fait, on n’a
absolument pas besoin de cette expression, puisque seul le calcul numérique de θ M C est utile et que
d’autre part, les formules données ci-dessus pour ce calcul sont très faciles à programmer (simple
calcul matriciel).

10.3.2 le choix du degré du polynome


Un examen visuel de la série permet en général de se faire une idée du degré du polynome à
utiliser. Comme dans tous les problèmes d’ajustement de modèle, le choix d’un modèle est basé sur
l’examen des résidus. En effet, on aimerait
1. obtenir des résidus qui fluctuent autour de 0 avec une amplitude la plus faible possible.
2. utiliser un polynome de degré le plus faible possible.
Le premier critère sera d’autant plus satisfait que le degré du polynome sera élevé. En parti-
culier, le choix extrème qui consiste à utiliser un polynome de degré n − 1 conduit à un ajustement
parfait, puisque ce polynome passe par tous les points de la série. Ce choix est absurde dès que
l’on sait qu’il y a des résidus : il ne faut pas chercher à les éliminer à tout prix . . . D’un autre coté,
le second critère sera totalement satisfait avec un polynome de degré nul. Ce choix est également
absurde dès que l’on pense qu’une tendance (non constante) est présente. Il y a donc un compromis
à faire entre ces deux critères.
Exemple : Soit la chronique suivante,
35
ti 1 2 3 4 5
yi 5.7 7.2 7.7 2.9 5.7 30

ti 6 7 8 9 10 25

yi 7.0 6.0 10.4 10.2 8.0 20

ti 11 12 13 14 15 15

yi 12.7 14.0 15.8 12.7 21.3 10

ti 16 17 18 19 20 5

yi 17.2 25.0 23.2 28.9 32.9 0


2 4 6 8 10 12 14 16 18 20

Considérons les différents ajustements obtenus sur une même série, avec des polynomes de
degré 0, 1, 2 et 3 (en utilisant la méthode des moindres carrés) :
40 40

30 30

20 20

10 10

0 0
5 10 15 20 5 10 15 20
(a) (b)

40 40

30 30

20 20

10 10

0 0
5 10 15 20 5 10 15 20
(c) (d)

Fig. 6 – La série originale (yi , 1 ≤ i ≤ n) et les ajustements polynomiaux (f (t i ), 1 ≤ i ≤ n) obtenus


par la méthode des moindres carrés avec différents degrés. (a) f (t) = 13.73, (b) f (t) = −0.10+1.32t,
c) f (t) = 6.92 − 0.60t + 0.09t2 , (d) f (t) = 6.15 − 0.20t + 0.05t2 + 0.0015t3 .

20 20

10 10

0 0

−10 −10

−20 −20
5 10 15 20 5 10 15 20
(a) (b)

20 20

10 10

0 0

−10 −10

−20 −20
5 10 15 20 5 10 15 20
(c) (d)

Fig. 7 – Résidus associés (yi − f (ti ), 1 ≤ i ≤ n). (a) d = 0, (b) d = 1, (c) d = 2, (d) d = 3.

On peut voir sur les figures (a) et (b) que la série ne fluctue pas de façon irrégulière autour de
la courbe (en d’autres termes, les résidus ne fluctuent pas de façon irrégulière autour de 0), alors
que c’est clairement le cas dans les figures (c) et (d) : pour que le premier critère soit satisfait, il
convient de choisir un degré au moins égal à 2.
D’un autre coté, les ajustements obtenus avec un polynome de degré 2 ou avec un polynome
de degré 3 sont pratiquement identiques : on “ne gagne rien” à utiliser un polynome de degré 3
plutôt qu’un polynome de degré 2. Les résidus obtenus avec des polynomes de degré 2 ou 3 sont
d’ailleurs à peu près identiques. Le second critère nous conduit donc à retenir un polynome de degré
2.
Une méthode numérique peut également nous aider à faire ce choix, en calculant (yi −f (ti ))2
P
pour chacune des 4 courbes. On obtient ainsi :
d 0 1 2 3
(yi − f (ti ))2
P
1376.82 224.58 78.78 77.84
Le premier critère est d’autant plus satisfait que cette quantité est faible. On voit ici que le choix
de d = 2 améliore nettement l’ajustement, alors que cette quantité diminue peu avec en passant de
d = 2 à d = 3. Là encore, cela nous conduit à choisir une tendance quadratique.
Remarque : Plutôt qu’étudier la somme des carrés résiduels, on peut calculer la part de variance
expliquée pour chacun des modèles :
d 0 1 2 3
Part de variance expliquée 0% 83.69% 94.28% 94.35%

Un polynome de degré 3 permet d’expliquer 94.35% de la variance de la série. Le gain est donc
négligeable devant un polynome de degré 2, qui explique déjà 94.28% de cette variance.

10.4 La méthode du changement de variable


On peut parfois se ramener à des tendances linéaires ou polynomiales grâce à un simple
changement de variables. C’est le cas pour des tendances de la forme f (t) = 1/(a + bt), f (t) =
exp(a + bt), f (t) = ln(a + bt + ct2 ), . . .
En effet, ajuster une tendance de la forme f (t) = 1/(a + bt) à une série (y i ) revient à ajuster
une tendance de la forme g(t) = 1/f (t) = a + bt à la série (z i ) = (1/yi ). Il suffit donc de calculer
cette nouvelle série (zi ), puis de calculer a et b au moyen d’une des méthodes décrites plus haut
(moindres carrés ou 2 points).
Si la tendance f a maintenant la forme f (t) = log(a + bt + ct 2 ), on pourra calculer a, b et c
en ajustant une tendance polynomiale de la forme g(t) = exp(f (t)) = a + bt + ct 2 à la série (zi ) =
(exp(yi )).

10.5 Courbes de tendance qui ne se reduisent pas à une régression lineaire


Bien sûr, la tendance d’une série chronologique n’est pas nécéssairement linéaire ou poly-
nomiale. En particulier, si la tendance semble se stabiliser avec le temps, on aimerait pouvoir la
modéliser par une courbe possédant une asymptote horizontale.
La courbe de type exponentiel (ou courbe exponentielle modifiée) est définie par l’équation :

f (t) = a ebt + c

La figure 8 illustre la forme de cette tendance, suivant le signe de a et de b.

a>0 , b>0 a>0 , b<0


500 110

108
400
106
300
104

200 102

100 c
100 c
98
0 20 40 60 80 100 0 20 40 60 80 100

a<0 , b>0 a<0 , b<0


101
100 c
100 c

0 99

98
−100
97
−200
96

−300 95
0 20 40 60 80 100 0 20 40 60 80 100

Fig. 8 – exemples de courbes de type exponentiel


Lorsque c est connu, on peut se ramener à une tendance linéaire en posant

g(t) = ln(f (t) − c)


= ln(a) + bt

On fait alors le changement de variable z i = ln(yi − c) et on ajuste une droite d’équation g(t) =
ln(a) + bt à cette nouvelle série.
Le problème se complique lorsque c est inconnu puisqu’aucun changement de variable ne
permet de se ramener à une tendance polynomiale.
La méthode des moindres carrés consiste à déterminer (a, b, c) en minimisant
X
h(a, b, c) = (yt − aebt − c)2 .

Le minimum de cette fonction n’est pas connu explicitement : en dérivant la fonction h par rapport
à a, b et c, puis en utilisant le fait que ces 3 dérivéees sont nulles au point recherché, on aboutit à
un système de 3 équations à trois inconnues que l’on ne sait pas résoudre.
Néanmoins, il existe des méthodes numériques pour rechercher le minimum de h (algorithme
du gradient ou algorithme de Newton). Leur mise en oeuvre n’est pas très simple et sort du cadre
de ce cours.

10.6 La fonction d’autocorrélation empirique


Nous venons de voir une façon de procéder afin de déterminer les différentes composantes
d’une série chronologique, à savoir i) la tendance, ii) la composante saisonnière, iii) les fluctuations
irrégulières.
Cette décomposition ne sera interessante que si la série des fluctuations irrégulières obtenues
ne contient plus ni tendance, ni composante saisonnière : la série des résidus doit fluctuer
irrégulièrement autour de 0.
Un seul examen graphique de la série des fluctuations irrégulières ne permet pas toujours de
vérifier si ce critère est satisfait ou non. La fonction d’autocorrélation empirique va s’avérer être
un outil efficace pour une analyse plus fine des fluctuations irrégulières.
Rappelons que le coefficient de corrélation linéaire entre 2 séries (x i , 1 ≤ i ≤ n) et (yi , 1 ≤ i ≤
n) est défini par :
1 Pn
n i=1 (xi − x)(yi − y)
ρxy = q P
1 n 2
 1 Pn
2

n i=1 (xi − x) n i=1 (yi − y)

Pour une série chronologique (yi , 1 ≤ i ≤ n), l’idée consiste à regarder, pour différentes valeurs
de k, la corrélation entre la série (y i , 1 ≤ i ≤ n − k) et la série “décalée”(y i+k , k + 1 ≤ i ≤ n).
On calcule alors les coefficients d’autocorrélation (r(k), 0 ≤ k ≤ n − 1) au moyen de la formule
suivante :
1 Pn−k Pn−k
n−k i=1 (yi − y)(yi+k − y) (yi − y)(yi+k − y)
ρn (k) = 1 Pn 2
= i=1Pn 2
(42)
n i=1 (yi − y) i=1 (yi − y)

où y = ( ni=1 yi ) /n est la moyenne de l’ensemble de la série (y i , 1 ≤ i ≤ n).


P
Dans le cas des beaucoup de données, on utilise parfois une formule simplifiée :
1 Pn−k Pn−k
n i=1 (yi − y)(yi+k − y) (yi − y)(yi+k − y)
ρn (k) = 1 Pn 2
= i=1Pn 2
(43)
n i=1 (yi − y) i=1 (yi − y)

Remarque : Par rapport à la définition usuelle (42) du coefficient de corrélation linéaire entre
les séries (yi , 1 ≤ i ≤ n − k) et (yi+k , k + 1 ≤ i ≤ n), la formule simplifiée (43) contient trois
modifications :
1. Pour simplifier les calculs, les moyennes des séries (y i , 1 ≤ i ≤ n − k) et (yi+k , k + 1 ≤ i ≤ n)
ont été remplacées par la moyenne de l’ensemble de la série (y i , 1 ≤ i ≤ n).
2. Pour la même raison, les deux variances des séries (y i , 1 ≤ i ≤ n − k) et (yi+k , k + 1 ≤ i ≤ n)
ont été remplacées par la variance de l’ensemble de la série (y i , 1 ≤ i ≤ n).
3. Le facteur 1/n apparait au numérateur, et non 1/(n − k). (Cela entraı̂ne, en particulier, que
la série des coefficients d’autocorrélation tend vers 0 lorsque k augmente).
Ces modifications peuvent entrainer des consequences ”illogiques” –voir dernier exercice du TD.
L’importance de la corrélationempirique : Notre critère pour accepter ”l’irregularité”
d’une série des résidus sera si les testes statistiques confirment que toutes les corrélations ρ n (k), k 6=
0 sont nuls (i.e, assez petites par exemple cf un teste χ 2 ), et si les résidus ont une distribution
Gaussienne.
Voyons maintenant sur différents exemples l’allure de cette fonction d’autocorrélation.

10.7 (*) Autocorrélation d’une chronique possédant une composante périodique


La fonction d’autocorrélation est outil précieux pour détecter des périodicités dans une série.
L’exemple présenté Figure 9 illustre bien cette propriété.
La série (yi ) étant purement périodique de période 4, les série décalées (y i+4 ), (yi+8 ), (yi+12)
. . . cocident avec la série (yi ). On peut alors remarquer sur la Figure 9-c, que pour k = 4, les points
du nuage sont alignés. La série des coefficients d’autocorrélation (r(k)) présente donc des maxima
pour k = 4, 8, 12, . . ..
D’autre part, pour toute valeur de k ≥ 0, les séries (y i+k ) et (yi+k+4 ) coincident. Donc, r(k)
et r(k + 4) sont très proches, c’est-à-dire qu’une périodicité de période 4 apparaı̂t clairement sur la
série des coefficients d’autocorrélation.
y
i
2

1
(a)
0

−1
5 10 15 20 25 30 35 40
2 2 2 2

1 1 1 1
(b)
0 0 0 0

−1 −1 −1 −1
10 20 30 40 10 20 30 40 10 20 30 40 10 20 30 40
2 k=1 2 k=2 2 k=3 2 k=4

1 1 1 1
(c)
0 0 0 0

−1 −1 −1 −1
−1 0 1 2 −1 0 1 2 r(k) −1 0 1 2 −1 0 1 2
1

(d) 0

−1
0 2 4 6 8 10 12 14 16 18 20
k

Fig. 9 – (a) une série (yi ) purement périodique de période 4, (b) la série (y i ) et la série décalée
(yi+k ) pour k = 1, 2, 3, 4, (c) le nuage de points obtenu avec (y i ) en abcisse et (yi+k ) en ordonnée,
(d) la fonction d’autocorrélation (r(k), 0 ≤ k ≤ 20)

La Figure 10 illustre maintenant ce qui se passe pour une série comportant toujours une composante
périodique, mais également des fluctuations irrégulières.
y
i
4
2
(a) 0

−2
−4
5 10 15 20 25 30 35 40
4 4 4 4
2 2 2 2
(b) 0 0 0 0
−2 −2 −2 −2
−4 −4 −4 −4
10 20 30 40 10 20 30 40 10 20 30 40 10 20 30 40
4 k=1 4 k=2 4 k=3 4 k=4

2 2 2 2
(c) 0 0 0 0
−2 −2 −2 −2
−4 −4 −4 −4
−4 −2 0 2 4 −4 −2 0 2 4 r(k)−4 −2 0 2 4 −4 −2 0 2 4
1

0.5
(d)
0

−0.5
0 2 4 6 8 10 12 14 16 18 20
k

Fig. 10 – (a) une série (yi ) comportant une composante périodique de période 4 et des fluctuations
irrégulières, (b) la série (yi ) et la série décalée (yi+k ) pour k = 1, 2, 3, 4, (c) le nuage de points
obtenu avec (yi ) en abcisse et (yi+k ) en ordonnée, (d) la fonction d’autocorrélation (r(k), 0 ≤ k ≤
20)

La composante périodique est difficile à détecter sur la série des observations (y i ). Par contre,
la série des coefficients d’autocorrélation présente très clairement cette périodicité de période 4.
La série (yi ) n’étant plus purement périodique de période 4, les séries (y i ) et (yi+4 ) ne cocident
plus exactement (Figure 10-b, k = 4). On peut néanmoins remarquer sur la Figure 10-c, que
pour k = 4, la forme du nuage met clairement en évidence une corrélation positive importante
entre ces deux séries. Au contraire, la corrélation entre (y i ) et (yi+2 ) semble négative. La série des
coefficients d’autocorrélation (r(k)) présente donc des maxima pour k = 4, 8, 12, . . ., et des minima
pour k = 2, 6, 10, . . . et décroit très lentement vers 0.

10.8 (*) Autocorrélation d’une chronique présentant une tendance


La Figure 11 nous montre à présent le comportement de la fonction d’autocorrélation lors-
qu’une tendance est présente dans la série.
On peut voir dans les Figures 11-b et 11-c que les séries (y i ) et (yi+k ), pour k = 1, 2, 3, 4
sont fortement corrélées positivement. Cela explique la décroissance très lente vers 0 de la fonction
d’autocorrélation.
Cette décroissance lente est caractéristique lorsqu’une tendance est présente.
y
i

40
(a)
20

0
0 5 10 15 20 25 30 35 40

40 40 40 40
(b)
20 20 20 20

0 0 0 0
0 20 40 0 20 40 0 20 40 0 20 40
k=1 k=2 k=3 k=4
40 40 40 40
(c)
20 20 20 20

0 0 0 0
0 20 40 0 20 40 r(k) 0 20 40 0 20 40
1

(d)0.5

0 2 4 6 8 10 12 14 16 18 20
k

Fig. 11 – (a) une série (yi ) comportant une tendance et des fluctuations irrégulières, (b) la série
(yi ) et la série décalée (yi+k ) pour k = 1, 2, 3, 4, (c) le nuage de points obtenu avec (y i ) en abcisse
et (yi+k ) en ordonnée, (d) la fonction d’autocorrélation (r(k), 0 ≤ k ≤ 20)

10.9 (*) Autocorrélation d’une série de fluctuations irrégulières


Considérons à présents différents types de fluctuations irrégulières (Figure 12).

y r(k)
i
1
2
1
0.5
(a) 0

−1
0
−2
20 40 60 80 100 0 10 20 30 40 50

4 1

2
0.5
(b) 0

−2 0

−4
20 40 60 80 100 0 10 20 30 40 50

5 1

0.5
(c) 0
0

−0.5
−5
20 40 60 80 100 0 10 20 30 40 50
i k

Fig. 12 – à gauche : 3 séries (yi , 1 ≤ i ≤ 100) comportant différents types de fluctuations


irrégulières, à droite : les 3 fonctions d’autocorrélation (r(k), 0 ≤ k ≤ 50) associées
Dans le premier exemple (Figure 12-a), la série fluctue très irrégulièrement : une modélisation
probabiliste de cette série nous inciterait à la considérer comme une suite de variables indépendantes
et identiquement distribuées. La fonction d’autocorrélation (r(k)) vaut bien sûr 1 pour k = 0, puis
elle fluctue ensuite de façon très erratique au voisinage de 0 (c’est-à-dire en ne prenant que des
valeurs proches de 0). Cela signifie qu’il ne semble exister aucune structure dans cette série, aucune
relation entre observations successives. En particulier, dans un cadre de prévision, la série observée
y1 , y2 , . . . yn ne semble apporter aucune information utile pour prédire y n+1 , yn+2 , . . ..
Dans le second exemple (Figure 12-b), la série fluctue toujours irrégulièrement, mais une
certaine structure semble présente : dans un cadre probabiliste, cette série ne semblerait pas être une
suite de variables i.i.d, mais de variables corrélées positivement puisque des observations voisines ont
tendance à être proches. Cela apparait dans la fonction d’autocorrélation qui décroit toujours vers
0, mais moins vite que pour la série précédente. Les fluctuations de cette fonction d’autocorrélation
dans un voisinage de 0 sont également plus régulières que dans l’exemple précédent. Néanmoins,
i) aucune périodicité n’apparait : aucune composante périodique n’est présente, ii) la fonction
d’autocorrélation décroit beaucoup plus vite vers un voisinage de 0 que dans l’exemple proposé
dans la Figure 11 : aucune tendance n’est présente dans cette chronique. En résumé, on en conclut
donc que la série (yi ) ne comporte que des fluctuations irrégulières, mais qu’une certaine relation
semble exister entre les valeurs de cette série. L’analyse de cette relation est importante lorsque l’on
cherche à faire de la prévision, puisque maintenant, la série observée y 1 , y2 , . . . yn comporte très
vraisemblablement une information utile pour prédire y n+1 , yn+2 , . . .. Signalons simplement que les
modèles ARMA sont les modèles les plus couramment employés pour modéliser ce type de série.
Les mêmes remarques semblent valables pour la troisième série (Figure 12-c). Alors que
dans la série précédente, les séries (y i ) et (yi+1 ) étaient corrélées positivement, elles sont corrélées
négativement dans cet exemple : yi et yi+1 ont tendance à être de signe opposé. Par conséquent, y i
et yi+2 ont tendance à être de même signe : les séries (y i ) et (yi+2 ) sont à nouveau corrélées posi-
tivement, etc. Ce comportement se traduit par une fonction d’autocorrélation qui décroit toujours
vers 0, mais en oscillant autour de 0. Remarquons qu’il n’existe pas de composante périodique
de période 2, car la fonction d’autocorrélation décroitrait alors beaucoup plus lentement vers 0,
comme l’exemple Figure 10-d. Finalement, on en conclut que cette série (y i ) ne comporte que des
fluctuations irrégulières, mais que, comme dans l’exemple précédent, une certaine relation semble
exister entre les valeurs de cette série.

Vous aimerez peut-être aussi