Analyse des séries chronologiques et prévisions
Analyse des séries chronologiques et prévisions
October 1, 2007
Chapter 1
Introduction
nombre d’+observation+s N = ms = 40
nombre d’+observations N = ms = 40
· Précipitation quotidienne
1. Tendance
2. Cycle saisonnier
3. Perturbation aléatoire
Identification d’un système : Identifier les composants T (t) et S(t). On examine dans la suite un exemple concret
Fuel consommation exemple La table 1.1 représente la quantité (en m3 ) de fuel consommée dans une ville
pendant 5 ans. La figure 1.2 trace le trajectoire (observation), on remarque facilement que il présente une période et
année 1 2 3 4
1965 874 679 616 816
1966 866 700 603 814
1967 843 719 594 819
1968 906 703 634 844
1969 952 745 635 871
moyenne 888.2 709.2 616.4 835.8
950
900
850
800
750
700
650
600
550
0 5 10 15 20
On désigne
Première méthode Une méthode très simple pour trouver S(1), S(2), S(3) et S(4) est de calculer la différence entre
moyenne totale et la moyenne partielle
Soit t = k + sj
En soustrayant le composant S(k + sj) on obtient la figure 1.3. Cette méthode marche bien en générale quand le
composant tendanciel est une fonction linéaire. Soit T (t) = a + bt (b: gradient pente, ici très faible, a, b coefficients
inconnus). On examine maintenant le défaut de cette méthode, en ignorant le composant aléatoire, la moyenne totale
est (Attention : en effet, la moyenne sur R(t) est proche de 0)
N N
1 X 1 N (N + 1) 1 X
M̄ = (T (t) + S(t)) = (N a + b )+ S(t)
N j=1 N 2 N j=1
N +1
= a+ b
2
1000
900
"stat" using 1:2
"stat" using 1:3
"stat" using 1:4
800
700
600
500
400
300
200
100
0
0.5
0.45
0.4
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
Figure 1.2: Fuel consommation
PN
j=1 S(j) = 0. La moyenne partielle correspond à k est
m−1
1 X
M̄k = (T (k + sj) + S(k + sj))
m j=0
m−1
1 X
= (a + (k + sj)b + S(k + sj))
m j=0
m−1
m−1 1 X
= a + bk + bs + S(k + sj)
2 m j=0
m−1
m−1 1 X ms + 1
S̄(k) = M̄ (k) − M̄ = a + bk + bs + S(k + sj) − (a + b)
2 m j=0 2
Pm−1
= bk − b s+1
2 +
1
m j=0 S(k + sj)
1
S(3) = ((616 − 745.25) + (603 − 741.75) + (594 − 750.) + (634 − 777.7)) = −142.00
4
et S(1) = 128.594 S(2) = −46.487, P S(4) = 65.00. On remarque que S(1) + S(2) + S(3) + S(4) = 5.107 (non zéro).
ceci peut être réajusté pour que S(i) = 0
5.107 5.107
S(1) = 128.594 − 4 = 127.74 S(2) = −46.487 − 4 = −47.763
5.107 5.107
S(3) = −142.00 − 4 = −143, 254 S(4) = 65.00 − 4 = 63.746
Le résultat est tracé dans la figure 1.4. Cette méthode est facile à implementer. A noter que dans la 3ème colonne il
manque des données CMA au début et à la fin de la série. Cette méthode est assez efficace dans le cas ou b est petit.
1000
950
900
850
800
750
700
650
600
550
0 5 10 15 20
T̂ = 713.38 + 3.647t
Xt = β0 + β1 t + β2 d1 + β3 d2 + β4 d3 + β5 d4 + ε(t)
2 679
746.250
3 616 745.250
744.250
4 816 746.875
749.500
5 866 747.875
746.250
6 700 746.000
745.750
7 603 741.750
737.750
8 814 740.125
742.500
9 834 741.375
740.250
10 719 740.875
741.500
11 594 750.500
759.500
12 819 757.500
755.500
13 906 760.500
765.500
14 703 768.625
771.750
15 634 777.500
783.250
16 844 788.500
793.750
17 952 793.875
794.000
18 745 797.375
800.750
19 635
20 871
1.4 Prédiction
Identification du système, pourquoi ? Une application concrète est la prédiction. En fait, d’après les calculs précédents
on a :
Xt = T (t) + S(t) + R(t)
et
T̂ (t) = 713.38 + 3.647t
Xt , t = 1, 2, · · · , n n : taille échantillon
1000
950
900
850
800
750
700
650
600
550
0 5 10 15 20
série observée. Ces observations sont faites à intervalle de temps régulière. A noter que cet échantillon n’est pas issu
d’un n-uplet de variables aléatoires indépendantes. Voici quelques exemples des séries temporelles
40
30
20
10
-10
-20
-30
0 5 10 15 20
600
400
200
-200
0 5 10 15 20
1000
950
900
850
800
750
700
650
600
550
0 5 10 15 20
950
900
850
800
750
700
650
600
550
0 5 10 15 20 25
La résolution des divers problèmes s’appuie sur des modèles décrivant la façon dont la dérive évolue. Il est commode
de distinguer trois types de modèles: les modèles d’ajustement, les modèles auto-projectifs et les modèles explicatifs.
Nous allons présenter brièvement ces trois modèles.
Xt = f (t, εt )
où f est une fonction indexée par un nombre fini de paramètres inconnus et où εt est une v. a centrée sur la quelle
diverses hypothèses additionnelles peuvent être faites. Il existe en pratique 3 modèles généraux dans cette catégorie
de série temporelle, articulant les composants de façons différentes. Notations:
St+p = St , ∀t
S1 = −1, S2 = 2, S3 = −2, S4 = 1
εt ∼ N (0, 0.52)
106
105
104
103
102
101
100
99
98
97
0 10 20 30 40 50 60 70 80 90 100
= Tt + Tt St + (Tt + Tt St )Rt = Tt + Vt + εt
Dans la mesure où les termes sont positifs, on peut calculer le logarithmes
ln Xt = ln Tt + ln(1 + St ) + ln(1 + Rt )
Nous prenons comme exemple le modèle suivant
Xt = ea+bt (1 + St )(1 + Rt )
avec
a = ln 100, b = 0.05
Rt ∼ N (0, 202 )
Le résultat de simulation est présenté dans la figure 2.2. On distingue encore nettement la périodicité des variations
saisonnières, mais la différence Xt − Tt s’accroı̂t avec le temps. On trace maintenant cet exemple dans la figure 2.3
εt ∼ N (0, 0.12)
18000
16000
14000
12000
10000
8000
6000
4000
2000
0
0 10 20 30 40 50 60 70 80 90 100
Est-ce que la variation accidentelle est proportionnelle ou non à la tendance ? Il est difficile de donner une réponse à
cette question uniquement à partir d’une simple représentation graphique. En effet on distingue entre les deux modèles
multiplicatifs suivant les besoins du modèle et de la technique de description employée. Comment alors définir un
modèle ?
1. Graphique pour déterminer les facteurs explicatifs de son évolution.
2. Méthode numérique (chapitres suivants)
Ces deux méthodes sont deux approches complémentaires.
Xy = f (Yt , εt )
Où Yt est soit déterministe, soit aléatoire; dans ce dernier cas, les processus {Yt } et {ut } ont certaines propriétés
d’indépendance ou de non corrélation.
10
4
0 10 20 30 40 50 60 70 80 90 100
Ces modèles sont les méthodes de base de l’économétrie et nous les considérons essentiellement pour faire le lien
entre eux et les modèles auto-projectifs.
Xt = a + bYt + εt , t = 1, · · · , T
où les Yt sont indépendantes de tous les εt et où les εt sont centrés et indépendants entre eux.
TP: simulation
Les séries temporelles peuvent être simulées par ordinateur.
Exercice 2.3.1 Soient X ∼ U [0, 1] et Y ∼ U [0, 1] deux variables aléatoires indépendantes. Calculer la loi de la
variable aléatoire Z = X − Y . Montrer qu’il s’agit d’une v. a. centrée.
14000
12000
10000
8000
6000
4000
2000
0
0 10 20 30 40 50 60 70 80 90 100
Solution : Le résultat de cette exercice nous donne une méthode pour simuler les suites des variables aléatoires
indépendantes gaussiennes N (0, 1). Il est donc très utile pour la simulation numérique. On cherche donc à montrer :
Soit X et Y indépendantes de loi U [0, 1], Alors le couple (U, V ) fabriqué par
1
U = (−2 ln X) 2 cos 2πY,
1
V = (−2 ln X) 2 sin 2πY.
est indépendantes, et suivent la même loi N (0, 1) Proof. On calcule d’abord la loi de (U, V ). Soit h(u, v) une fonction
mesurable. On introduit un changement de variable
2
u + v2
1
u = (−2 ln x) 2 cos 2πy,
x = exp −
2
⇐⇒
1
v = (−2 ln x) 2 sin 2πy. y = 1 arctan v
2π u
On calcule Jacobien
2 2
u + v2 u + v2
∂x1 ∂x1 −u exp − −v exp −
∂u ∂v 2 2 1 u2 + v 2
|J| = = =− exp{− }
∂x2 ∂x2 1 v 1 u 2π 2
∂u ∂v −
2π u2 + v 2 2π u2 + v 2
Donc
1 1
E h(U, V ) = E h (−2 ln X) 2 cos 2πY, (−2 ln X) 2 sin 2πY
Z 1 Z 1
1 1
= h (−2 ln x) 2 cos 2πy, (−2 ln x) 2 sin 2πy dxdy
0 0
Z Z
1 u2 + v 2
= h(u, v) exp{− }dudv
R R 2π 2
Donc
1 u2 + v 2
p(u, v) = exp{− }
2π 2
1 u2 1 v2
= √ exp{− } × √ exp{− }
2π 2 2π 2
1 u2 1 v2
On vérifie facilement que √ exp{− } et √ exp{− } sont respectivement la densité de U et V . En
2π 2 2π 2
prenant dans la démonstration une fonction h(u, v) qui dépend uniquement de u. En effet
1
E h(U ) = E h (−2 ln X) 2 cos 2πY
Z 1 Z 1
1
= h (−2 ln x) 2 cos 2πy dxdy
0 0
Z Z
1 u2 + v 2
= h(u) exp{− }dudv
R R 2π 2
Z Z
1 v2 1 u2
= √ exp{− }dv h(u) √ exp{− }du
R 2π 2 R 2π 2
Z
1 u2
= h(u) √ exp{− }du
R 2π 2
Exercice 2.3.3 TP : simulation des chroniques. On peut simuler à l’aide de ordinateur les série suivantes
−1
2
Xt = 0.05t + 100 + St + εt où St = εt ∼ N (0, 0.52 ) (2.1)
−2
1
0.3
a+bt −0.3
Xt = e (1 + St )(1 + Rt ) où St = Rt ∼ N (0, 202) (2.2)
0.2
−0.2
avec a = ln 100 et b = 0.05
Tracer ln Xt .
−1
2
Xt = (0.05t + 100)(1 + St ) + εt où St = εt ∼ N (0, 1) (2.3)
−2
1
2.3.4 Implémentation
On construit d’abord une classe BBG:
/* ------ BBG.h ---------------*/
#ifndef BBG_H_IS_DEFINE
#define BBG_H_IS_DEFINE
class BBG {
double W1, W2;
int seesaw;
public:
double gaussien();
BBG(int);
};
#endif
/* ------ fin BBG.h -----------*/
Voici les membres fonctions pour BBG.h
/* ------ BBG.C ---------------*/
#include <stdlib.h> /* drand48(), srand48(), sin(), cos() */
#include <math.h> /* M_PI, log() */
#include <iostream.h> /* cout */
#include "BBG.h"
BBG::BBG(int seed) {
seesaw = 0;
srand48(seed);
}
double BBG::gaussien()
{
double c1,c2;
if (seesaw==0)
{
c1=2.0*M_PI*drand48();
c2=-2.0*log(drand48());
c2=sqrt(c2);
W1 = c2*cos(c1);
W2 = c2*sin(c1);
seesaw=1;
// cout <<"seesaw = "<<seesaw<<" "<<W1<<"\n ";
return(W1);
}
else
{
seesaw=0;
// cout <<"seesaw = "<<seesaw<<" "<<W2<<" \n ";
return(W2);
}
}
/* ---- fin BBG.C -----------*/
Pour tester le générateur de nombre v.a. N (0, 1), on utilise le subroutine testBBG.C
/* ---- testBBG.C -------------- */
#include<iostream.h>
#include"BBG.h"
main()
{
int seed=getpid();
// int seed=100;
/* srand48(getpid()); */
int n = 100;
testBBG(seed,n);
}
Remarques
# ------------ directories
# ------------ libraries
LIBMATH = -lm
# ------------ include
INC = -I
# ------------ macros definition
SRC =
#
# ------------ object files
OBJS = main.o\
BBG.o \
testBBG.o \
# ------------ compilateur
COMPG++ = g++
COMPGCC = gcc
# ------------ options
RULE = -o -g $@ $?
CLEAN = @ /bin/rm $?
MESS = @ echo "compilation ... $@ done
# OPT = -g
OPT = -g -Wall
# OPT = -O
# ---------------
# OPT = -g compiler avec cette option vous permet de debuger
# a l’aide de xxgdb ou gdb
# OPT = -O programme compile avec cette option sera optimise, et
# tourne plus vite, mais on ne pourra pas debuger.
# ---------------
essai : $(OBJS)
$(COMPG++) $(OPT) $(OBJS) -o essai -lm
$(MESS)
clean:
@rm -f $(OBJS)
# ----- fin Makefile for C++
2.4 Recherche et estimation de la tendance
Le mot lissage : exprime le mouvement tendanciel d’une succession de points (t, Zt ) situés au milieu d’un nuage de
points (t, Xt ).
Si on désire exprimer la tendance avec une courbe très lisse, une méthode consiste à proposer une expression
analytique. on calcule souvent cette expression à partir de données lissées jugée convenable (non à partir des données
initiales). Alors c’est quoi une bonne série lissée ?
Il est difficile de définir. les motivations sont souvent très variées. Il ne s’agit pas le plus souvent d’atteindre le
cas limite : la droite, ni de s’ajuster au point de passer chaque point observé. Lisser le moins fort possible tout en
atteignant un objectif précis
de telle sorte que ces résidus (ou résidus + saisonnière) fluctuent autour de la courbe lisse.
Xt = T t + εt
Le but consiste à mettre en évidence la tendance Tt . La méthodes par intervalle est utilisée pour résumer les séries
chronologiques comportant un grand nombre d’observations. La démarche consiste à approcher la chronique par une
fonction en escalier ou par une fonction affine par morceaux. Plus précisement, soient I1 , I2 , · · · , Ij , · · · intervalles de
temps (les semaines, les mois, les années, etc) on calcule les moyennes des observations àppartenant à ces intervalles
pour obtenir la série mj , où j est une indice centrée, pas toujours une indice coincidant avec t dans Xt . Cette méthode
très simple présente certains avantages :
l’inconvenient de cette méthode est la diminuition importante du nombre de valeurs, elle est appliquée uniquement
dans des séries présentant un nombre important d’observations.
exemple 2.4.1 On considère la série suivante. La figure 2.4.1 compare sa simulation et la moyenne par intervalle,
la longueur de la moyenne est de 4.
Tt = 0.05t + 100
S1 = −1, S2 = 2, S3 = −2, S4 = 1
εt ∼ N (0, 0.52)
i=+k
1 X
mt = Xt+i , k vérifie q = 2k + 1
q
i=−k
Par exemple
1
mt = (Xt−2 + Xt−1 + Xt + Xt+1 + Xt+2 )
5
107
106
105
104
103
102
101
100
99
98
97
0 10 20 30 40 50 60 70 80 90 100
Xt−k , · · · Xt+k =⇒ mt
Xt−k+1 , · · · , Xt+k sont prises en compte à la fois dans le calcul de mt et dans le calcul de mt+1 .
Nous étudions dans la suite de cette section l’effet du filtre de moyenne mobile sur la tendance d’une chronique.
Chronique de modèle Xt = a + εt
Il s’agit d’un modèle d’ajustement simplifié : constant + perturbation aléatoire. On suppose E εt = 0, Var εt = σ 2 et
les {εt } sont indépendantes identiques distribuées (Bruit Blanc). Soit q = 2k + 1 on a alors ∀h ≥ 1
i=k
1 X
mt = εt+i + a
q
i=−k
i=k
1 X
mt+h = εt+h+i + a
q
i=−k
σ2
Proposition 2.4.3 La Série mt ne possède pas de tendance et elle est de variance q
σ2
Preuve: E mt = a, Var mt = q
1. On dit que la serie ne possède pas de composante tendancielle (où que la tendance est nulle) dans la mésure où
sa moyenne est constante.
2. La variance est divisée par q par rapport à la série initiale, les mt sont soumises à une variation accidentelle
d’amplitude beaucoup plus petite (lisse).
Chronique de modèle Xt = at + b + εt
Ce modèle fait partie aussi des chroniques à tendance polynomiale. On suppose que la longueur de moyenne mobile q
est impaire
i=k i=k
1 X 1 X
mt = [a(t + i) + b + εt+i ] = [at + ai + b + εt+i ]
q q
i=−k i=−k
"
i=k 0 i=k
#
1 X X X
= at + b + a i+a i+ εt+i
q i=0 i=−k i=−k
i=k
1 X
= at + b + εt+i
q
i=−k
Proposition 2.4.5 Si Xt est une chronique dont la composante tendantielle est linéaire, alors la série mt des
moyennes mobiles concervent la même tendance et a pour composante accidentelle la moyenne mobile des composantes
accidentelle de la série initiale.
On admet (en exercice) le même résultat pour une moyenne mobile de longueur q = paire.
" k k
# k
2 a X X a X 2
= at + 2t i+ i = at2 + 2
2
i
q q i=1
i=−k i=−k
k(k + 1)
= at2 + a
3
Proposition 2.4.6 Soit Xt une chronique dont la composante tendancielle est un polynôme de 2ième degré at2 +bt+c,
alors la composante tendancielle de la série des moyennes mobiles est égale à
ak(k + 1)
Tt = at2 + bt + c +
3
Remarque 2.4.7 Il est évident que
1. l’estimateur de la tendance par le filtre des moyennes mobiles est biaisé, le biais est constant.
2. On montre que dans le cas d’une tendance du 3ième degré, c’est un biais linéaire en t et dans le cas d’une
tendance du 4ieme degré, c’est un biais en t2 , etc.
Il faut donc se montrer prudent dans l’utilisation des moyennes mobiles et ramener le problème autant que possible à
une fonction linéaire en t. La figure 2.6 illustre un exemple d’une série à tendance polynomiale de 2ième degré et ces
moyennes mobiles.
k
X k(k + 1)(2k + 1)
∗ i2 =
1
6
500
450
400
350
300
250
200
150
100
50
0
0 5 10 15 20 25 30
Proposition 2.4.9 Dans le cadre du modèle additif, le filtre de la moyenne mobile de longueur q élimine les variations
saisonnière dont la période p divise q.
En figure 2.7, nous donnons la représentation simultanée d’une série et sa moyenne mobile de longueur 4.
14
13
12
11
10
8
0 5 10 15 20 25 30 35 40
Les moyennes Spencer annulent les saisonnalités de période 4 en concervant les tendances polynomiales de degré ≤ 3
(sans biais).
Exercice 2.4.10 Soit la moyenne
1 1
mt = (Xt−1 + Xt + Xt+1 + (Xt−2 + Xt+2 ))
4 2
Montrer que cette moyenne mobile élimine les variations saisonnières de période 4.
Solution q = 4 paire. On sait que St−2 = S1 , St−1 = S2 , St = S3 , St+1 = S4 , St+2 = S5 = S1 .
1 1
St−1 + St + St+1 + (St−2 + St+2 )
4 2
1 1 1
= S2 + S3 + S4 + (S1 + S1 ) = (S1 + S2 + S3 + S4 ) = 0
4 2 4
Exercice 2.4.11 Soit St est évolutive linéaire de période 4. Montrer que la moyenne mobile pondérée
1
mt = (Xt−3 + 2Xt−2 + 3Xt−1 + 4Xt + 3Xt+1 + 2Xt+2 + Xt+3 )
16
élimine la variation saisonnière
Solution Soit S1 , S2 , S3 , S4 coefficients saisonniers. On pose
On a alors
1
(St−3 + 2St−2 + 3St−1 + 4St + 3St+1 + 2St+2 + St+3 )
16
1 1
= (S1 + 2S2 + 3S3 + 4S4 + 3S1 + 2S2 + S3 ) = (4S1 + 4S2 + 4S3 + 4S4 ) = 0
16 16
C’est une série de modèle additif. On étudie dans la suite l’effet des différences successives sur les modèles de chronique
6
"BB"
"DX"
"D2X"
4
-2
-4
-6
-8
0 5 10 15 20 25 30 35 40 45 50
Proposition 2.4.12 La série des différences premières d’une chronique de modèle Xt = a + εt où εt est un bruit
blanç est une suite de v. a. de moyenne nulle, de variance 2σ 2 .
La figure 2.9 donne la représentation d’une chronique simulée dont la tendance est un polynôme de degré 2, le DXt et
D2 Xt . Les différences premières presentent une tendance linéaire et les différences secondes une tendance constante,
on constate également que l’amplititude des variations augmente avec l’ordre des différences.
0 10 20 30 40 50 60 70 80 90 100
Figure 2.9: Représentation simultanée d’une chronique (échelles différentes), d’une chronique de terme Xt = at2 +bt+c+εt ,
DXt et D2 Xt
Proposition 2.4.13 Soit Xt une chronique dont le terme général de la tendance est défini par un polynôme de degré
n. Alors la série des différences Dn Xt est de la forme a + εt , où εt est une suite de v. a. de moyenne nulle et de
variance constante par rapport à t.
Définition et propriété
Définition 2.4.14 On appelle coefficient d’autocorrélation de rang k de la chronique Xt , t = 1, · · · T le coefficient † :
T
X −k
(Xt − X̄)(Xt+k − X̄) T
t=1 1X
rk = X̄ = Xt
T
X T t=1
(Xt − X̄)2
t=1
† rappel: Soient ξ, η deux v. a. alors le coefficient de corrélation est défini par
E (ξ − E ξ)(η − E η)
r= √ √
Var ξ Var η
ce coefficient peut être estimé par Pn
i=1 (ξi− ξ̄)(ηi − η̄)
r̄ = qP
n
pPn
2 2
i=1 (ξi − ξ̄) i=1 (ηi − η̄)
où ξi et ηi sont deux échantillons de taille n. Il y a donc une légère différence avec la définition 2.4.14, ce choix est dicté par le fait que εt
est de moyenne µ et de variance σ2 , indépendantes de t.
Définition 2.4.15 On appelle corrélogramme la représentation graphique de l’application: k −→ rk .
Le coefficient rk est défini pour mesurer la dépendance entre Xt et Xt+k .
Théorème 2.4.16 On considère un bruit blanc εt . les coefficient d’autocorrélation rk de rang supérieur ou égale à 1
suivent approximativement une loi normale de moyenne − T1 et de variance T1 .
ce théorème permet de juger de la taille des coefficients d’autocorrélation: en négligeant la moyenne − T1 , on peut dire
que la probablilité qu’un coefficient soit supérieur en valeur absolut à 1.96
√
T
est égale à 0.05.
1.96
) = 0.05
P (|rk | ≥
T
Pour illustrer le théorème, nous avont simulé un bruit blanc de 500 termes dont les coefficients d’autocorrélation sont
présentés dans la table 2.1. (Voir le corrélogramme Fig. 2.10.)
0.8
0.6
0.4
0.2
-0.2
0 5 10 15 20
Analyse des variation accidentelle obtenues par l’ajustement d’un modèle à des données observées est fondamentale
pusiqu’elle permet de vérifier l’adéquation du modèle choisi. Cette vérification est faite en deux étapes:
1. Calcul des résidus, définis par la différence entre les observations et les valeurs estimées, forment un bruit blanc
(si le modèle est correct), à partir duquel on peut plus tirer d’information.
2. Calcul du corrélogramme, et vérifier l’hypothèse selons la quelle il s’agit bien un bruit blane avec le théoreme
2.4.16
25
20
15
10
-5
-10
-15
0 10 20 30 40 50 60 70 80 90 100
Ces espérance sont tous nulles sauf si les indices sont les même
t+k
1 X 2k − h + 1 2
Cov (mt , mt+h ) = ( )2 σ2 = σ
q (2k + 1)2
i=t+h−k
0.8
0.6
0.4
0.2
-0.2
-0.4
-0.6
0 20 40 60 80 100
δ1 = √ Cov (DXt+1
√
,DXt )
Var DXt+1 Var DXt
σ2 1
= 2σ2 = − 2
Proposition 2.4.17 le coefficient d’autocorrélation de rang 1 des différences premières d’une chronique à tendance
linéaire est égal à −0.5 et les coefficients d’autocorrélation de rang supérieur sont nuls.
D2 Xt = 2a + εt+2 − 2εt+1 + εt = 2a + Et
Proposition 2.4.18 Le coefficent autocorrélation de rang 1 des différences secondes d’une chronique à tendance
polynômiale de degré 2 égal à − 23 et le coefficent d’autocorrélation de rang 2 à 61 . Les coefficents d’autocorrélation de
rang supérieur sont nuls.
Voir en figure 2.14 On admet plus géneéralement
Proposition 2.4.19 Les coefficients d’autocorrélation de rang supérieur ou égal à n + 1 des différences successives
d’ordre n sont nuls pour une chronique de tendance polynômiale de degré n, sans saisonnalité.
Une façon d’éliminer la tendance d’une chronique est donc de calculer les différences successives jusquà l’obtention
de coefficients d’autocorrélation dimimuant rapidement. On demande comme exercice la simulation et le calcul d’un
exemple de Xt = at2 + bt + c + εt afin de vérifier cette proposition (figure 2.15). Les coefficients d’autocorrélation
1
0.8
0.6
0.4
0.2
-0.2
0 5 10 15 20
Figure 2.13: corrélogramme des moyennes mobiles de longueur 7 d’un bruit blanc simulé 600 termes
calculés sur la série initiale sont tous presque égaux à 1, ce qui dénote une tendance monotone. Les coefficients
d’autocorrélation reste élevés sur la série des différences premières (compris entre 0.5 et 1), ce qui montre l’existence
d’une tendance non nulle. Par contre, les coeffcient d’autocorrélation sur les différences seconde mettent en évidence
l’absence de tendance. Il a donc fallu aller jusqu’aux différence du seconde ordre pour annuler la tendance existante
dans la série initiale.
Tendance polynômiale
Nous avons (dans la section 2.4.2) étudié le cas de tendance polynômiale à l’aide de moyennes mobiles, il paraı̂t
normal, lorsque la forme de la tendance est fixée, d’utiliser le critère des moindres carrés pour estimer les coefficients
du polynôme supposé. Nous nous limitons ici au cas où la série ne subit pas de variations saisonnières.
Le critère des moindres carrés appliqué à un polynôme de degré 2 est donné par la formule suivante
T
X
S= {Xt − (at2 + bt + c)}2
t=1
La méthode consiste à déterminer les coefficients a, b et c tels que la quantité S soit minimale. Cette somme représente
la somme des carrés des écarts entre les observations Xt et les valeurs du polynôme. On sait que le minimum est
atteint pour les valeurs des coefficients qui annulent les dérivées partielles premières:
∂S X
= − 2{Xt − (at2 + bt + c)}t2 = 0
∂a
∂S X
= − 2{Xt − (at2 + bt + c)}t = 0
∂b
∂S X
= − 2{Xt − (at2 + bt + c)} = 0
∂c
On obtient donc le sytème de trois équations à trois inconnues suivant:
X X X X
a t4 + b t3 + c t2 = X t t2
X X X X
a t3 + b t2 + c t = Xt t
X X X
2
a t +b t + cT = Xt
1
0.8
0.6
0.4
0.2
0.0
−0.2
−0.4
−0.6
4 8 12
Figure 2.14: corrélogramme des différences premières d’une chronique à tendance linéaire.
Ces trois équations, appelées équations normales, se limitent lorsque le polynôme est de degré 1 (tendance linéaire),
aux deux équations suivantes: P 2 P P
P b t +P c t = Xt t
b t + cT = Xt
Toutes les tendances ne sont évidemment pas linéaires ou polynomiales, la présence d’une limite vers laquelle la série
converge rend impossibble l’ajustement de la tendance par un polynôme. Nous présentons dans la suite que des
modèles les plus courants.
‡ Ici, on prolonge la définition d’espérance (variance) mathématique ainsi que son estimateur empirique à des fonctions déterministes:
T
1 X
E f (t) ∼ f (t)
T t=1
T T
1 X 1 X
Var f (t) ∼ (f (t) − f (t))2 = E f (t)2 − (E f (t))2
T t=1 T t=1
1
0.8
0.6
0.4
0.2
0.0
−0.2
−0.4
−0.6
4 8 12
Figure 2.15: corrélogramme des différences successives d’une chronique à tendance polynômiale de degré 2
Tendance exponentielle
La tendance exponentielle, souvent constatée dans les série d’observation économiques, s’exprime de la façcon suivante
:
Tt = cebt ou log(Tt ) = bt + log(c)
On suppose c > 0, l’ajustement est réalisé en considérant le logarithme des observations et de la tendance : on cherche
les valeurs b et c telles que la somme S soit minimale :
T
X
S= {(log(Xt ) − (bt + log(c)))}2
t=1
On se ramène donc au cas l’ajustement linéaire, bien que le critère des moindres carrés, utilisé sur la série des
logarithmes, ne soit pas équivalent au critère des moindres carrés appliqué aux observations.
où a est un paramètre connu (limite de la tendance), b est positif et k négatif. La tendance est croissante vers a pour
les grandes valeurs de t et l’accroissement marginal Tt est décroissant. L’ajustement est réalisé en se ramenant au cas
précedent par le changement de variable suivant:
80
70
60
50
40
30
20
10
0
10 20 30 40 50 60 70 80 90 100
1 2 ··· j ··· p
1 X1,1 X1,2 ··· X1,j ··· X1,p X 1·
2 X2,1 X2,2 ··· X2,j ··· X2,p X 2·
··· ··· ··· ··· ··· ··· ··· ···
i Xi,1 Xi,2 ··· Xi,j ··· Xi,p X i·
··· ··· ··· ··· ··· ··· ··· ···
n Xn,1 Xn,2 ··· Xn,j ··· Xn,p X n·
X ·1 X ·2 ··· X ·j ··· X ·p X
Alors le modèle
X t = T t + St + ε t
devient
Xi,j = Ti,j + Sj + εi,j
A noter aussi que le filtre moyennes mobiles permet d’estimer la tendance sauf pour les premièrs et les derniers termes,
l’estimation des coefficients ne peut être effectuée que sur n − 1 périodes dans le tableau Buys Ballot.
Les coefficients saisonniers sont utlisés pour désaisonnalisér les séries. L’objectif est d’éliminer des observations
les variations saisonnières afin de pouvoir les comparer entre elles, et comparer la dernière observation connue à la
précédente. On peut ainsi suivre l’évolution mois par mois du nombre de chomeurs, de l’indice des prix sans que la
variation sainsonnière soit prise en considération.
Définition 2.5.1 Soit sj l’estimateur des coefficients saisonniers, on appelle série désaisonnalisé (ou série corrigée
des variations saisonnières) la série des observations après élimination des variations saisonnières
′
Xi,j = Xi,j − sj
′
On obtient ainsi une série Xt .
Example 2.5.2 (TP). On se donne dans un fichier obs une chronique Xt , t = 1, · · · , 100 de période p = 4. Calculer
les coefficients saisonnièrs. On en utlise pour cela la moyenne mobiles de longueur q = 4, pour estimer la tendance,
et moyenne centrée pour estimer les coefficients saisonniers en éliminant la plus grande et la plus petite valeur dans
chaque estimation.
Xt = at + b + St + εt
Les coefficients Sj (j = 1, · · · p) et les paramètres a et b de la tendance sont déterminés par mimnimisation de la somme
des carrés des résidu. XX XX
Q= e2i,j = (Xi,j − a(p(i − 1) + j) − bj )2
i j i j
△
où bj = b + Sj . Nous admettrons que cette somme est minimale
P lorsque les dérivées partielles en bj et a sont nulles. En
ajoutant en plus le principe de conservation des aires ( Sj = 0), on déduit pour les paramètres les valeurs suivante
" n #
12 X n(n + 1)
a = (iX i· ) − X
np(n2 − 1) i=1 2
a(np + 1)
b = X−
2
p+1
sj = X ·j − X − a(j − )
2
On montre en fait que cet ajustement revient à déterminer la droite des moindres carrés sur la tendance définie
par les moyennes annuelles affetées aux fins de périodes
(X i··· , ip), i = 1, · · · , n
∀j = 1, · · · , p sj = X ·j − aj − cte
P
La constante étant déterminée par le principe de conservation des aires: sj = 0.
Théorème 2.5.3 Soit Xt une série chronique périodique de période p et de modèle Xt = Sr + εt , avec t = pq + r,
r > 0, r ≤ p. Alors les coefficients d’autocorrélations rk sont approximativement périodique de période p.
différence de rang p
On appelle différence de rang p de la série Xt les différence de deux observations séparées par p terme Xt+p − Xt .
On remarque que seul les différence premières sont égales à la différence de rang 1. Etudions l’effet de rang p sur une
chronique sans tendance de période p:
Soit
Yt = Xt+p − Xt = εt+p − εt
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
4 8 12
Figure 2.17: coefficients d’autocorrélation de Yt = Xt+4 − Xt pour une série de sans tendance de période p = 4
¶Y pour t′ > t, et t′ 6= t + p
t ⊥Yt′
Chapter 3
Définition 3.1.4 Processus stationnaire Un processus noté {Xt } est stationnaire si la loi du k−uple (Xt1 , Xt2 , · · · , Xtk )
est la même que celle du k−uple (Xt1 +r , Xt2 +r , · · · , Xtk +r ) pour toutes valeurs de t1 , t2 , · · · , tk , k, r
C’est une propriété très stricte, qui implique en particulier qu’une même loi régit chacun des variables {Xt }, t ∈ I,
et la loi de (X1 , X2 , · · · , Xn ) est la même que celle de (X1+k , X2+k , · · · , Xn+k ). Cette dernière implique qu’observer
un échantillon de mesure (X1 , X2 , · · · , Xn ) au temps 1, 2, · · · , n, plutôt que faire plus tard cette observation de n
mesures successives n’est pas important, que les lois mutuelles déterminées à partir d’observation du passé pourront
être légitimement utilisées dans le future puisque qu’elles sont invariantes pour une translation du temps. En pratique,
cette propriété de stationnarité sera supposée sans pouvoir être vérifiable ou testée.
Définition 3.1.5 Processus stationnaire du second ordre On appelle processus du 2 ordre un processus tel que
la loi de la v.a. Xt est indépendante de t, et que la covariance de Xt et Xt+k ne dépend que de k pour ∀t et k.
d’une façon équivalente, Xt est stationnaire du 2 ordre si la loi de Xt est indépendante de t et ∀t, s, (s, t) ∈ I, la
quantité Cov (Xt , Xs ) ne dépend que de l’écart t − s et non de s.
Dans un premier temps, nous interessons aux processus centrés et stationnaires, ils vérifient aussi la propriété dite
d’homoscédasticité :
Var Xt = E Xt2 = σX 2
∀t
de plus pour tout k,
Cov (Xt , Xt−k ) = Cov (Xt , Xt+k ) = E Xt Xt−k = ck , ∀t
ck
et ρk = 2
σX
Définition 3.1.8 Processus ergodique Un processus est dit ergodique quand les limites des moments empiriques
convergent en moyenne quadratique vers les espérance correspondantes, lorsque la taille de la série s’accroı̂t.
Par example, la moyenne d’un processus stationnaire est définie par E Xt , mais pour t fixé, nous avons aucune répétition
d’échantillon pour estimer cette moyenne, l’ergodicité du processus stationnaire suppose que pendant un temps assez
long, la moyenne empirique temporelle va être approximativement indépendante et qui permettra une estimation
n
1X
E Xt = lim Xi
n→∞ n
i=1
Lorqu’on observe le processus suffisament longtemps, les estimations des paramètres des modèles considérés faites
à partir des observations sont alors valides et ces estimations ne seront pas influencées par des conditions initiales
particulières
Théorème 3.1.9 Tout processus stationnaire gaussien Xt tel que
est ergodique
Pour les processus stationnaires considérés, ρk tens vers zéro quand k → ∞, alors ils sont ergodique s’ils sont gaussien.
Définition 3.1.10 Opérateur retard B Soit {Xt } un processus quelconque, on appelle opérateur retard l’opérateur
B défini par
BXt = Xt−1 ∀t
Ce qui permet de définir un nouveau processus B{Xt }. On note 1 l’opérateur identité et B 2 l’opérateur B ◦ B.
1Xt = Xt , B 2 Xt = Xt−2 , ∀t
Les 1, B, B 2 font parties de ce qu’on appelle opérateurs linéaires, qui définissent des nouveaux processus à partir de
combinaisons linéaires de processus. Plus généralement, on note P (B) (comme on parle de polynôme) de degré n, en
confondant la notation a0 avec celle de a01:
P (B) = a0 + a1 B + a2 B 2 + · · · + an B n
et
P (B)Xt = (a0 + a1 B + · · · + an B n )Xt = a0 Xt + a1 Xt−1 + · · · + an Xt−n
Les opérations habituelles sont valides, par example
△
(1 − B)2 Xt = (1 − 2B + B 2 )Xt
On fera usage de fractions rationnelles, de décomposition en éléments simples de ces fractions, de développements
polynomiaux. Par example, soit λ un nombre complexe de module inférieur à 1, on sait que
(1 − λx)−1 = 1 + λx + λ2 x2 + · · · + λn xn + · · ·
plus généralement, un opérateur f est un filtre linéaire quand c’est un opérateur invariant par changement de l’origine
du temps. Le processus filtré {Yt } défini par
Yt = f (Xt )
vérifie ainsi
Yt−τ = f (Xt−τ ) ∀t, ∀τ
est alors stationnaire si {Xt } est stationnaire.
1. Si ρk est proche de 1, c’est qu’une grande(resp. petite) valeur observée au temps t − k est suivie le plus souvent
d’une grande (resp. petite) valeur au temps t et ∀t.
2. Si ρk est proche de −1, c’est qu’une grande (resp. petite) valeur observée au temps t − k est suivie le plus souvent
d’une petite (resp. grande) valeur au temps t, et cela pour ∀t
3. Si ρk est proche de 0, qu’une grande valeur ou une petite valeur observée au temps t − k est suivie le plus souvent
d’une valeur quelconque au temps t
et Rt,k est non corrélée aux variables explicatives Xt−1 , · · · , Xt−k . Cela implique que les variables du passé proche,
associées au premières variables explicatives, pourraient suffire pour expliquer totalement le présent. Dans le cas où
k=1
Xt Xt−1 = φ11 Xt−1 Xt−1 + Rt,1 Xt−1 ∀t
Donc pour ∀t ≥ 1
E Xt Xt−1 = φ11 E Xt−1 Xt−1 + E Rt,1 Xt−1 = φ11 Var Xt−1
c’est à dire φ11 = ρ1 de même, dans le cas où k = 2 on a
l’espérance mathématique
2
E Xt Xt−1 = φ12 E Xt−1 + φ22 E Xt−2 Xt−1
2
E Xt Xt−2 = φ12 E Xt−1 Xt−2 + φ22 E Xt−2
On divise tout par E Xt = σx2 et en utilisant le fait que Xt est stationnaire centrée, on a
ρ1 = φ12 + ρ1 φ22 ρ2 − ρ21
=⇒ φ22 =
ρ2 = ρ1 φ12 + φ22 1 − ρ21
ρ1 1 ρ1 · · · ρk−3 ρ2
ρ1 1 ρ1 · · · ρk−3 ρk−2
ρ1 ρ2 ρ2 − ρ21
φ22 = =
1 ρ1 1 − ρ21
ρ1 1
△
Définition 3.2.2 On appelle la fonction Φ(k) = φkk fonction autocorrélation partielle.
Exercice 3.2.3 Montrer le corrélogramme d’un bruit blanc est nul pour ∀k ≥ 1. son corrélogramme partiel Φ l’est
aussi.
nous dirons qu’un processus {Xt } est un processus centré engendré à partir d’un bruit blanc (noté {εt }), si et seulement
si on peut écrire
∞
X
Xt = ψj εj
0
P∞
avec ψ0 = 1, ψj ∈ R et 0 |ψj | < ∞ Tous les processus stationnaires considérés dans ce chapitre sont des processus
qui peuvent être considérés comme engendrés à partir d’un bruit blanc.
Définition 3.2.4 Le modèle auto-régressifs et moyenne mobile ARMA (autoregressive moving average), est
Xt = φ1 Xt−1 + · · · + φp Xt−p + εt + θ1 εt−1 + · · · + θq εt−q
où {εt } est un bruit blanc.
1. φ1 = φ2 = · · · = φp = 0 alors on appelle Xt moyenne mobile MA, si de plus θq 6= 0, alors il s’agit d’un processus
MA(q) d’ordre q.
2. θ1 = θ2 = · · · = θq = 0 alors on appelle Xt modèle autoregressif, si de plus φp 6= 0, alors il l’ordre de ce AR est
p, noté AR(p)
En générale, on note ce modèle par ARMA(p, q). On présente d’abord quelques modèles particuliers.
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
2 4 6
Après calculs on a
E Xt = µ
2
Var Xt = E (εt + θ1 εt−1 + · · · + θq εt−q )
γ1 = (θ1 + θ2 θ1 )σ 2
γ2 = θ2 σ 2
γ3 = γ4 = · · · = 0
γj
On pourra donc calculer facilement les coefficients de corrélation ρj = γ0 , j = 1, 2, · · ·. le corrélogramme est alors
Question : quelle est la condition stationnarité ?
0.8
0.6
0.4
0.2
0.0
-0.2
-0.4
-0.6
2 4 6
σ2
= (1 + φ2 + φ4 + φ6 + · · ·)σ 2 = 1−φ2
(· · · , X−2 , X−1 , X0 , X1 , X2 , · · · , Xt ).
Par ailleurs ∀j ≥ 0
γj = Cov (Xt , Xt−j )
= E (εt + φεt−1 + · · · + φj εt−j + φj+1 εt−j−1 + φj+2 εt−j−2 + · · ·)
×(εt−j + φεt−j−1 + φ2 εt−j−2 + · · ·) σ 2
φj
= φj + φj+2 + φj+4 + · · · = σ2
1 − φ2
Les coefficients autocorrélations sont (voir la figure 3.3 par example)
γj
ρj = = φj
γ0
1 1
0.8 0.8
0.6 0.6
0.4 0.4
0.2 0.2
0.0 0.0
-0.2 -0.2
-0.4 -0.4
-0.6 -0.6
2 4 6 2 4 6
Xt = c + φ1 Xt−1 + φ2 Xt−2 + εt
La condition pour que AR(2) soit stationnaire est que l’équation 1 − φ1 z − φ2 z 2 = 0 possède deux racines (réelles ou
complexes) de module > 1.‡ On calcule maintenant quelques statistiques pour AR(2).
c
µ = E Xt = c + φ1 µ + φ2 µ =⇒ µ =
1 − φ1 − φ2
Pour calculer E Xt2 (ou Var Xt ) on utilise
Xt = µ(1 − φ1 − φ2 ) + φ1 Xt−1 + φ2 Xt−2 + εt
Xt − µ = φ1 (Xt−1 − µ) + φ2 (Xt−2 − µ) + εt
multipli Xt−j − µ et calculer l’espérance on a
γj = φ1 γj−1 + φ2 γj−2 , j = 1, 2, · · ·
ρ2 = φ1 ρ1 + φ2
‡ On admet ce résultat, il faut étudier la condition de stabilité d’équation différentielle Xt = φ1 Xt−1 + φ2 Xt−2 + Wt .
On peut utiliser ces méthdoes pour trouver
(1 − φ1 )σ 2
γ0 = exercice
(1 + φ2 )[(1 − φ2 )2 − φ21 ]
En effet, il suffit de calculer
(Xt − µ)2 = φ21 (Xt−1 − µ)2 + φ22 (Xt−2 − µ)2 + ε2t
+2φ1 φ2 (Xt−1 − µ)(Xt−2 − µ) + 2φ1 (Xt−1 − µ)εt + 2φ2 (Xt−2 − µ)εt
Xt − µ étant stationnaire et moyenne nulles, εt un bruit blanc indépendant de Xt−1 et Xt−2 , prenons espérance
mathématique nous avons
γ0 = φ21 γ0 + φ22 γ0 + σ 2 + 2φ1 φ2 γ1 = φ21 γ0 + φ22 γ0 + σ 2 + 2φ1 φ2 ρ1 γ0
Donc
1 − φ21 − φ22 − 2φ1 φ2 ρ1 γ0 = σ 2
φ1
Pour montrer le résultat, il suffit alors de remplacer ρ1 par 1−φ 2
. On peut aussi montrer la relation entre (φ1 , φ2 ) et
(γ1 , γ2 ) (exercice)
φ1 = ρ11−ρ(1−ρ2 )
2
1
ρ2 −ρ21
φ2 = 1−ρ21
(Yule-Walker).
la condition stationnarité pour AR(2) est présentée par la figure 3.4.
φ2
1
-1 1 φ1
-2 2
-1
Figure 3.4: Condition de stationnarité pour un modèle de AR(2)
3.4.4 Inversibilité
On présente dans la suite la notion de inversibilité pour certain ARMA, elle est nécessaire pour identifier un ARMA.
Pour comprendre cette notion, on introduit d’abord la notion représentation AR(∞) d’un modèle ARMA. Soit
Φ(B)Xt = Θ(B)εt .
Il y a une deuxième méthode (plus efficace). Soit Ψ(B) = ψ0 +ψ1 B+ψ2 B 2 +· · · on identifie les coefficients ψ0 , ψ1 , ψ2 , · · ·
par équation
Φ(B)Ψ(B)εt = Θ(B)εt
Dans l’example précédent, on obtient (1 − φB)Ψ(B) = 1 + θB on obtient donc
ψ0 = 1 = coefficient devant B 0
ψ1 = θ + φ = coefficient devant B
etc etc
donc
Xt = εt + (θ + φ)εt−1 + φ(θ + φ)εt−2 + · · ·
La troisième méthode consiste à inverser AR polynôme.
Xt = (1 + φB + φ2 B 2 + · · ·)(1 + θB)
Xt = (1 − φ1 B − φ2 B 2 − · · · − φp B p )−1 (1 + θB)εt
Or l’inversion d’un polynôme est souvent difficile, on suppose d’abord ∃ un factorisation de Φ(B) = (1 − φ1 B − φ2 B 2 −
· · · − φp B p ) :
1 1 1
Φ(B) = 1 − B 1 − B ··· 1 − B
r1 r2 rp
où r1 , r2 , · · · , rp sont les racines de Φ(B), alors
a1 a2 ap
Φ−1 (B) = + + ···+
1 − r11 B 1 − r12 B 1 − r1p B
2
1 1 1
et on écrit pour chaque terme de Φ−1 (B) par 1 = 1+ B+ B + · · · pour obtenir la representation
1− r1 B
r1 r2
inifinie MA(∞).
Le modèle ARMA a une représentation AR(∞) également :
∞
X
εt = ξj Xt−j
j=0
On peut biensur utiliser l’identification du polynôme Θ(B). Soit εt = Ξ(B)Xt où Ξ(B) = ξ0 + ξ1 B + ξ2 B 2 + · · · est à
identifier. L’équation Φ(B) = Θ(B)Ξ(B) on obtient pour ARMA(1, 1)
La troisième méthode consiste aussi d’inverser un polynôme εt = Θ−1 (B)Φ(B)Xt pour ARMA(p, 1) on utilise (1 +
θB)−1 = 1 − θB + θ2 − θ3 B 3 + · · ·. Le cas où q ≥ 2 est difficile.
Xt = (1 + θB)εt = εt + θεt−1
εt = (1 + θB)−1 Xt = (1 − θB + θ2 B 2 − θ3 B 3 + · · ·)Xt
· Cas 1, si θ > 1, le poid de Xt−k est (−θ)k croissant, on a desoin de tous les passés pour calculer εt .
P∞
· Cas 2, si θ = 1, on a besoin de tous les passés Xt−1 , Xt−2 , · · · pour calculer εt et j=0 |ξj | diverge
· Cas 3, |θ| < 1, alors le poids de Xt−k décroit vers 0, on appelle ce cas inversible.
Théorème 3.4.2 La condition pour que un modèle ARMA(p, q) (Φ(B)Xt = Θ(B)εt ) soit stationnaire est que tous
les racines du polynôme Φ(z) (réelles ou complexes) ont des modules supérieurs à 1. La condition pour que un modèle
ARMA soit inversible est que tous les racines du polynôme Θ(B) (réelles ou complexes) ont des modulès supérieurs à
1.
4.1 Introduction
L’identification de l’ordre (p, q) du modèle mixte est délicate dans la mesure où les méthodes à mettre en oeuvre sont
tous imprécises ou deviennent si coûteuses quand la précision est recherchée, qu’elle sont pas toujours portés sur les
logiciels. Il existe des méthodes heuristiques comme par example la méthode dite du coin. Une autre approche consiste
à ne s’interesser aux modèles mixtes qu’après avoir constaté qu’il ne peut s’agiter ni d’un AR ni d’un MA :
· l’ordre p d’un AR(p) peut se lire sur corrélogramme Φ des autocorrélations partielles, ce corrélogramme étant
nulle à partir de k = p + 1.
· l’ordre q d’un MA(q) se lit sur corrélogramme, se comportant comme un corrélogramme nul à partir des décalages
superieurs ou égaux à q + 1 et non nul en deça.
avec p, q données, il reste à estimer les paramètres de ce modèle en utilisant les observations (X1 , · · · , Xt ): la variation
du bruit blanc, les coefficient φ1 , φ2 , · · · , φp et θ1 , θ2 , · · · , θq . En pratique, la valeur de p et q sont rarement ≥ 3. Alors
que signifie une bonne estimation ? Les critères sont
E (Xt+h |X1 , X2 , · · · , Xt )
4.2 Estimation
On présente dans cette section deux méthodes d’estimation différentes, on considère tout d’abord des examples simples.
N
X
(Xt − φ1 Xt−1 − φ2 Xt−2 )2 soit minimale (4.1)
t=1
· φˆ1 , φˆ2 t. q.
N
X
(Xt − φˆ1 Xt−1 − φˆ2 Xt−2 )2 soit minimale
t=3
On suppose en fait que les 2 premiers termes dans 4.1 sont nuls
· La valeur de σ 2 sont estimée par
N
1 X
σˆ2 = (Xt − φˆ1 Xt−1 − φˆ2 Xt−2 )2
N − 2 t=3
On peut facilement appliquer le principe de ces méthodes pour des problèmes plus généraux, la méthode de moindre
carré est facile à mettre en oeuvre, elle est valide quand la taille N est importante.
Examples
On étudie maintenant quelques examples.
Example 4.2.1 Soit un modèle AR(1) gaussien
voir le chapitre 7.
d’une manière récurrente, la distribution de XN sachant X1 = x1 , X2 = x2 , · · · , XN −1 = xN −1 est
(XN |X1 = x1 , X2 = x2 , · · · , XN −1 = xN −1 , Θ) ∼ N (c + φxN −1 , σ 2 )
2
fXN |X1 ,···,XN −1 (xN |x1 , · · · , xN −1 , Θ) = √1
2πσ
exp − (xN −c−φx
2σ 2
N −1 )
N
Y
f (x1 , x2 , · · · , xN , Θ) = fX1 (x1 , Θ) fXt |Xt−1 (xt |xt−1 , Θ)
t=2
N
Y
L(x1 , x2 , · · · , xN , Θ) = fX1 (x1 , Θ) fXt |Xt−1 (xt |xt−1 , Θ)
t=2
N
N −1 N −1 2
X (xt − c − φxt−1 )2
− ln 2π − ln σ −
2 2 t=2
2σ 2
La distribution f (x1 , Θ) prend une place importante dans l’expression L(xN , Θ). Souvent quand N est grand, on
peut négliger X1 en fixant x1 : c’est à dire on considère X1 = x1 comme connu et fX1 (x1 , Θ) est simplifiée par
fX1 (x1 , Θ) = 1, alors la formule ln L est beaucoup plus facile à évaluer. Maximiser la fonction ln L(x1 , x2 , · · · , XN , Θ)
par rapport à (c, φ) en considérant σ 2 comme connu est équivalent à minimiser la fonction
N
X
(xt − c − φxt−1 )2
t=2
∂
En faisant ∂σ2 ln L(x1 , · · · , xn , σ 2 ) = 0 on obtient
N
T −1 X (xt − c − φxt−1 )2
− + =0
2σ 2 t=2
2σ 4
N
!
X (xt − ĉ − φ̂xt−1 )2
donc σˆ2 = (exercice)
t=2
N −1
Example 4.2.2 On considère le modèle Xt = φ1 Xt−1 + φ2 Xt−2 + εt , où εt est un bruit blanc gaussien, alors la densité
conditionnelle de Xt sachant X1 , · · · , Xt−1 est normale, la moyenne E (Xt |Xt−1 ) est égale à φ1 Xt−1 + φ2 Xt−2 et la
variance est
E (Xt − (φ1 Xt−1 + φ2 Xt−2 ))2 = E ε2t = σ 2
c’est à dire
1 (Xt − φ1 Xt−1 − φ2 Xt−2 )2
f (Xt |X1 , X2 , · · · , Xt−1 , Θ) = √ exp −
2πσ 2σ 2
Montrer que l’EMV de Θ = (φ1 , φ2 , σ 2 ) est
N
X
(φˆ1 , φˆ2 ) = (Xt − φ1 Xt−1 − φ2 Xt−2 )2
arg min
t=3
N
1 X
σˆ2 (Xt − φˆ1 Xt−1 − φˆ2 Xt−2 )2
=
N − 3 t=3
Sol Etant donné que X−1 , X−2 et X0 sont inconnus, et que les densités f (X1 ), f (X2 |X1 ) sont fixées à 1, on considère
N
Y
L(XN , Θ) = f (Xt |Xt−1 )
t=3
N
N −2 1 X
ln L(XN , φ1 , φ2 ) = − ln(2πσ 2 ) − 2 (Xt − φ1 Xt−1 − φ2 Xt−2 )2
2 2σ t=3
Example 4.2.3 Modèle AR(p) : Xt = c − φ1 Xt−1 − · · · − φp Xt−p + εt . Les paramètres sont Θ = (c, φ1 , · · · , φp , σ 2 ).
Sol Maximiser la fonction de vraisemblance pour un AR(p) peut être réalisé par des méthodes numériques, on cherche
alors à maximiser la fonction
ln fXN ,XN −1 ,···,Xp+1 |Xp ,Xp−1 ,···,X1 ( xN , xN −1 , · · · , xp+1 | xp , · · · , x1 , Θ)
N
N −p X (xt − c − φ1 xt−1 − φ2 xt−2 − · · · − φp xt−p )2
=− ln(2πσ 2 ) −
2 t=p+1
2σ 2
d’où N 2
1 X
σˆ2
= Xt − ĉ − φˆ1 Xt−1 − φˆ2 Xt−2 − · · · − φˆp Xt−p
N − p t=p+1
N
X 2
ˆ ˆ ˆ
(φ1 , φ2 , · · · , φp , ĉ) = arg min (Xt − c − φ1 Xt−1 − φ2 Xt−2 − · · · − φp Xt−p )
t=p+1
2
Example 4.2.4 Calculer la fonction de vraisemblance pour un MA(1).
Sol Soit
Xt = µ + εt + θεt−1 où εt ∼ N (0, σ 2 ) i.i.d.
Les paramètres à estimer sont Θ = (µ, θ, σ 2 ). Dans le cas gaussien
1 (xt − µ − θεt−1 )2
Xt |εt−1 ∼ N (µ + θεt−1 , σ 2 ) = √ exp −
2πσ 2σ 2
On suppose que ε0 = 0 alors
2 1 (x1 − µ)2
X1 |ε0 = 0 ∼ N (µ, σ ) = √ exp − et ε1 = x1 − µ
2πσ 2σ 2
1 (x2 − µ − θε1 )2
X2 |X1 , ε0 = 0 ∼ fX2 |X1 ,ε0 =0 (x2 |x1 , ε0 , Θ) = √ exp −
2πσ 2σ 2
et ε2 = x2 − µ − θε1
Xt |Xt−1 , · · · , X1 , ε0 = 0 ∼ fXt |Xt−1 ,···,X1 ,ε0 =0 (xt |xt−1 , · · · , x1 , ε0 , Θ) = fXt |εt−1 (xt |εt−1 , Θ)
1 (xt − µ − θεt−1 )2 1 ε2t
= √ exp − = √ exp − 2
2πσ 2σ 2 2πσ 2σ
Donc la fonction de vraisemblance est
N N (N )
1 1 X ε2
t
f (XN , XN −1 , · · · , X1 |ε0 = 0) = √ √ exp et εt = xt − µ − θεt−1
2π σ2 t=1
2σ 2
Où le q-vecteur ~ε0 = (ε0 , ε−1 , · · · .ε−q+1 ) et les {εt } sont obtenues par
εt = Xt − µ − θ1 εt−1 − · · · − θq εt−q
Θ = (c, φ1 , φ2 , · · · , φp , θ1 , θ2 , · · · , θq , σ 2 )
Sol Soit
~ε0 = (ε0 , ε−1 , · · · , ε−q+1 )
condition initiale
~x0 = (x0 , x−1 , · · · , x−p+1 )
On peut calculer successivement pour t = 1, 2, · · · , N
N
N X ε2t
ln L(XN , Θ) = f (XN , XN −1 , · · · , X1 |~x0 , ~ε0 , Θ) = − ln(2πσ 2 ) −
2 t=1
2σ 2
2
Box et Jenkin suggèrent une formulation légèrement différente : les εt ne sont calculées qu’à partir de t = p + 1, p +
2, · · · , N avec εp−q+1 = εp−q = · · · = εp−1 = εp = 0 et (x1 , x2 , · · · , xp ) (p valeurs observée) comme conditions initiales,
pour t = p + 1, · · · , N
εt = xt − c − φ1 xt−1 − · · · − φp xt−p − θ1 εt−1 − · · · − θq εt−q
La fonction ln L(Θ) devient
N
N −p X ε2t
= − ln(2πσ 2 ) −
2 t=p+1
2σ 2
· Il faut que la grille soit assez fine, pour capter le comportement de L(Θ) par rapport à Θ.
· Raffiner sur la zone où arg max se trouve.
Example 4.3.1 En dim = 1, AR(1) : Xt = c + φXt−1 + εt , on suppose que c = 0, σ 2 = 1 est connu. Alors selon
l’example 4.2.1
N
N 1 1X
ln L(φ) = − ln(1 − φ2 ) − (1 − φ2 )x21 − (xt − φxt−1 )2
2 2 2 t=2
Soit xN = (x1 = 0.8, x2 = 0.2, x3 = −1.2, x4 = −0.4, x5 = 0.0), La fonction L(φ) est illustrée par la figure 4.3
xN Calculer ln L(xN , Θ )
= gradΘ L(Θ)
− L(Θm m m m m m
1 , Θ2 , · · · , Θi−1 , Θi , Θi+1 , · · · , Θa )
† gradiant numérique
1 1 1 1
, , , , 1, 2, 4, 8 etc (selon problème),
Pour i = 1, · · · , a. La valeur de s est choisie de la façon suivante : on test s =
m m
16
m
8 4 2
on prendra la veleur pour la quelle L(Θ + sg(Θ )) est maximale, quand Θ est proche de la solution finale, il faut
alors raffiner encore plus. Enfin, pour éviter de tomber dans des maximums locaux, on effectue ces calculs avec
plusieurs valeurs initiales distincts.
g(θ1 )
g(θ2 )
θ3
4.4 Identification
4.4.1 Choix de p et q dans un processus AR(p) et MA(q)
Comme signalé dans l’introduction, les indicateurs pour le choix de p et q sont essentiellement la forme des fonctions
d’autocorrélation partielle Φ(k) et les corrélogrammes rk . On peut penser par example qu’une chute de Φ(k) vers de
valeurs proches de zéro pour k > p indique un AR(p), ou qu’une chute rk vers des valeurs proches de zéro pour k > q
indique un MA(q). Pour juger si les Φ(k) ou rk sont significativement différents de zéro, il est bon d’avoir une idée de
leur écart-type. On peut utiliser deux résultats
1. Pour un MA(q), la variance de rk vérifie
" q
#
1 X
∀k > q, Var rk ∼
= 1−2 2
rk
T
i=1
1.96
T
k
1.96
T
2 4 6
Les valeurs des ∆(i, j) sont inconnues, elles peuvent être estimées en remplaçant dans le déterminant les corrélations
γ(k) par leurs estimateurs rk . Il est vraisemblable que dans le tableau dont les éléments sont de ∆(i, j) on verra
appaı̂tre une rupture entre les lignes i = p − 1 et i = p, et entre les colonnes j = q − 1 et j = q.
En fait, ces nullités sont vérifiées par des tests statistiques (test student ou test chi-2). En pratique, à l’issue
de ces tests, un ensemble de modèles correspondants aux différents choix de (p, q) seront acceptés. On peut par
example accepter simultanément plusieurs modèles: MA(3), ARMA(1, 2), ARMA(3, 1) et AR(5). Après cet étape de
identification (dite Identification à priori), on procède alors aux estimations des paramètres de chacun de ces modèles,
une deuxième étape d’identification (Identification a posteriori) est alors effectuée afin de choisir le ou les meilleurs
modèles. Le schéma de cette procédure peut être résumé par l’organigramme 4.5 ci-dessous
4.5 Prévision
4.5.1 Principe de prévision
∗
On s’interesse à la prévision de la v.a. Xt+1 basée sur le vecteur Xt = (Xt , Xt−1 , · · · , Xt−m+1 ). On désigne Xt+1|t la
prévision de Xt+1 basée sur l’observation Xt . Il faut d’abord mesurer la qualité d’une prévision.
Définition 4.5.1 Erreur quadratique moyenne (MSE) On appelle MSE ( erreur quadratique moyenne) d’une
∗
prévision Xt+1|t l’espérance
∗ △ ∗
MSE Xt+1|t = E (Xt+1 − Xt+1|t )2
L’objectif est alors de minimiser cette erreur.
∗
Proposition 4.5.2 La meilleure prévision Xt+1|t au sense de MSE est l’espérance conditionnelle de Xt+1 sachant
Xt .
∗
Xt+1|t = E (Xt+1 |Xt )
Identification
a priori
Estimation des
modèles retenus
vérification
Identification
a priori
Choix de modèle
(s’il reste plusieurs modèles)
Prévisions
2
E (Xt+1 − g(Xt ))2 = E [Xt+1 − E (Xt+1 |Xt ) + E (Xt+1 |Xt ) − g(Xt )]
2
= E [Xt+1 − E (Xt+1 |Xt )]
2
+E [E (Xt+1 |Xt ) − g(Xt )]
= E I12 + E I2 + E I32
or E I2 = E (E (I2 |Xt )) et
car E (Xt+1 |Xt ) − g(Xt ) est Xt mesurable§ , donc E I2 = [E (Xt+1 |Xt ) − g(Xt )] × 0 = 0.
E I12 ≥ 0 ne dépend pas du choix de g, et E I32 ≥ 0 atteint le minimum avec g(Xt ) = E (Xt+1 |Xt ) donc la meilleure
prévision est E (Xt+1 |Xt ). 2
Il s’agit d’un espace Hilbert muni de produit scalaire < ·, · >, et la norme || · ||2 où < X, Y >= E XY et ||X||2 =
E X 2 = Var X(E X)2 .
Théorème 4.5.4 théorème de projection Si H est un sous espace fermé de L2 pour tout y ∈ L2 , il existe une
unique v.a. ŷ ∈ H t.q.
||y − ŷ|| = min ||Y − H||
H∈H
Y − Ŷ
Ŷ
H
Alors
X̂ = E L(X|1, X1, · · · , Xn ) = a0 + a1 + · · · + an
P−1
avec a = (a1 , · · · , an ) vérifiant a = γ
a0 = E X − a1 E X 1 − · · · − an E X n
E XXi = E XE Xi − (a1 E X1 + · · · + αn E Xn )E Xi +a1 E X1 Xi + · · · + αn E Xn Xi
∀i = 1, · · · , n nous avons Cov (X, Xi ) = a1 Cov (X1 , Xi ) + α2 Cov (X2 , Xi ) + · · · + an Cov (Xn , Xi )
Cov (X, X1 ) = a1 Cov (X1 , X1 ) + α2 Cov (X2 , X1 ) + · · · + an Cov (Xn , X1 )
Cov (X, X2 ) = a1 Cov (X1 , X2 ) + α2 Cov (X2 , X2 ) + · · · + an Cov (Xn , X2 )
···
Cov (X, Xn ) = a1 Cov (X1 , Xn ) + α2 Cov (X2 , Xn ) + · · · + an Cov (Xn , Xn )
P
γ= a sous forme matricielle, d’où le résultat.
Prévision linéaire
Définition 4.5.6 Soit (Xt )t∈Z un processus L2 , on appelle meilleur prévision linéaire de Xt sachant son passé la
régression linéaire de Xt sur son passé H = Vect(1, Xt−1 , Xt−2 , · · ·)
Exercice 4.6.1 AR(1) moyenne non nulle Calculer la prévision à horizon h du modèle AR(1) : Xt = µ+φXt−1 +εt
(µ considéré connu).
Solution :
XT∗ +1|T = µ + φXT
, XT∗ +2|T = µ + φXT∗ +1|T = µ + φ(µ + φXT ) = µ(1 + φ) + φ2 XT
de façon itérative
XT∗ +h|T = µ + φXT∗ +h−1|T = µ(1 + φ + φ2 + · · · + φh−1 ) + φh XT .
µ
On remarque que lorsque h → ∞, XT∗ +h|T tend vers 1−φ , la vrai moyenne du processus Xt . L’erreur de prévision à
l’horizon h est
εh = XT∗ +h|T − XT +h = XT∗ +h|T − (φXT +h−1 + µ + εT +h ) = · · ·
= XT∗ +h|T − (φh XT + (φh−1 + · · · + φ + 1)µ + εT +h + φεT +h−1 + · · · + φh−1 εT +1 )
= εT +h + φεT +h−1 + · · · + φh−1 εT +1 )
On peut biensur calculer MSE XT∗ +h|T facilement. On suppose ensuite que la variable aléatoire XT∗ +h|T suit une loi
normale de moyenne XT∗ +h|T , et de variance MSE XT∗ +h|T , pour calculer ensuite intervalle de confiance de XT∗ +h|T :
h p p i
XT∗ +h|T − µ1−α/2 σ 1 + φ2 + φ4 + · · · + φ2h−2 , XT∗ +h|T + µ1−α/2 σ 1 + φ2 + φ4 + · · · + φ2h−2
Par exemple, h = 2 nous avons ici σ = 1 XT∗ +2|T = 21.463, avec intervalle de confiance de niveau 0.95
h p p i
21.829 − 1.96σ 1 + 0.82 21.829 + 1.96σ 1 + 0.82 = [21.829 − 2.5121.829 + 2.51]] = [19.319, 24.339]
où α = 0.05 et le niveau de signification est 1 − α = 0.95, donc la valeur critique est µ0.975 = 1.96 Voici le graphe
explicatif
24
23
22
21
20
19
18
17
0 5 10 15 20 25 30 35 40
µ
Exercice 4.6.3 suite Soit Yt = Xt − 1−φ calculer les prévisions YT∗+h|T
D’après le résultat 4.4, nous avons YT∗+h|T = φYT∗+h−1|T = · · · = φh YT . Revenons sur Xt nous avons
µ µ
XT∗ +h|T = YT∗+h|T + 1−φ = φh YT + 1−φ
n
h µ
= φ (XT − 1−φ ) + 1−φ = φ XT + µ( 1−φ
µ h
1−φ )
Inconvenient de cette méthode : Il faut connaitre (estimer) les résidus passés, a priori non observables. E (XT +1 |XT , XT −1 , · · ·) =
E L(XT +1 |εT εT −1 , · · ·) . Revenons sur Xt nous avons
utilisation de AR(∞)
On peut écrire Xt = Θ(B)εt par Θ−1 (B)Xt = εt ce qui nous donne
∞
X ∞
X
Xt = ak Xt−k + εt donc Xt+h = ak Xt+h−k + εt+h
k=1 k=1
h−1
X ∞
X
XT∗ +h|T = ak XT∗ +h−k|T + ak XT +h−k|T
k=1 k=h
cette formule n’est pas utilisable, car les (Xt ) ne sont pas observés en pratique pour t < 0. On utlise une autre écriture
∞
X h−1
X ∞
X
XT +h = ak XT +h−k + εT +h = ak XT +h−k + ak XT +h−k + εT +h
k=1 k=1 k=h
P∞
k=1 ak Xt+h−k est une série convergante, le reste de cette série est négligéable. On peut considérer quand T suffisa-
ment grand que
h−1
X T
X +h X∞
XT∗ +h|T = ak XT∗ +h−k|T + ak XT +h−k + ak XT +h−k
k=1 k=h k=T +h+1
le troisième terme étant négligeable, on approxime XT∗ +h|T par X̂T∗ +h|T
h−1
X T
X +h
X̂T∗ +h|T = ak X̂T∗ +h−k|T + ak XT +h−k
k=1 k=h
Les observations ont été 11.066351, 7.3288504, 10.476839, 8.8872297, 14.374981 Calculer la prévision à l’horizon
h = 1, 2, · · · de ce processus.
Solution. On défini d’abort un processus centré Yt = Xt −10 = (1.0663511, −2.6711496, 0.4768388, −1.1127703, 4.3749811)
Pour calculer la prévision d’un modèle MA(q) on cherche d’abord sa forme AR(∞).
En fait, il est tres facile de montrer que avec cette formule nous avons toujours
YT +h|T = 0.0, si h ≥ 2
Pour calculer XT∗ +h|h , il suffit alors de utiliser XT∗ +h|T = YT∗+h|T + 10, ce qui donne
∗ ∗ ∗
X4+1|4 = 8.1642, X4+2|4 = X4+3|4 = 10.0
On sait XT∗ +h|T = E L(XT +h |XT , XT −1 , · · ·) = E L(XT +h |εT , εT −1 , · · ·). Quand h > q la prévision est similaire que le
cas AR(p) (les termes qui contiennent ε sont tous indépedant de moyenne nulle par rapport à (XT , XT −1 , · · ·) quand
h > q). (
∗ φ1 XT∗ +h−1|T + · · · + φh−1 XT∗ +1|T + φh XT + · · · + φp XT +h−p pour h ≤ p
XT +h|T =
φ1 XT∗ +h−1|T + · · · + φp XT∗ +h−p|T pour h > p
h−1
X T
X +h
X̂T∗ +h|T = ak X̂T∗ +h−k|T + ak XT +h−k
k=1 k=h
Ici, XT∗ +h|T est remplacée par X̂T∗ +h|T , car c’est une approximation.