Modélisation des Séries Temporelles en Statistique
Modélisation des Séries Temporelles en Statistique
V. Monbet
Master 1 - 2017
Contents
1 Introduction 4
1.1 Objectifs (et moyens) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.2 Qu’est-ce qu’une série temporelle? . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2 Lissages exponentiels 7
2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.1 Idées générales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2 Lissage exponentiel simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.2.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.2 Formules récursives de mise à jour . . . . . . . . . . . . . . . . . . . . . . 8
2.2.3 Interprétation géométrique . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.2.4 Choix de la constante de lissage . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3 Lissage exponentiel double . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.3.2 Calcul des coefficients . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3.3 Formules récursives de mises à jour . . . . . . . . . . . . . . . . . . . . . . 11
2.4 Méthode de Holt-Winters . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.4.2 Ajout d’une composante saisonnière. Décomposition additive. . . . . . . . 12
2
4 Premiers pas vers la modélisation de la composante aléatoire 26
4.1 Généralités sur les processus stationnaires . . . . . . . . . . . . . . . . . . . . . . 26
4.2 Quelque exemples classiques de processus. . . . . . . . . . . . . . . . . . . . . . . 27
4.2.1 Bruit blanc . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.2 Processus gaussien . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
4.2.3 Processus moyenne mobile . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
4.2.4 Processus autorégressif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5 Auto-corrélation partielle 29
5.1 Rappels . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
5.2 Coefficient de corrélation partielle entre deux variables . . . . . . . . . . . . . . . 30
5.3 Autocorrélation partielle d’un processus stationnaire . . . . . . . . . . . . . . . . 30
5.3.1 Définition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3.2 Algorithme de Durbin-Watson . . . . . . . . . . . . . . . . . . . . . . . . . 31
6 Modèles Auto-régressifs 32
6.1 Modèles autorégressifs d’ordre 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.2 Modèles auto-régressifs d’ordre p . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
6.3 Inférence statistique pour les modèles auto-régressifs . . . . . . . . . . . . . . . . 35
6.3.1 Estimation des paramètres . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.3.2 Estimateurs de Yule-Walker . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6.3.3 Maximum de vraisemblance conditionnel . . . . . . . . . . . . . . . . . . . 37
6.4 Prédiction dans les modèles autorégressifs . . . . . . . . . . . . . . . . . . . . . . 37
6.5 Sélection de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
6.6 Validation de modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3
Chapter 1
Introduction
Ce cours est une initiation aux méthodes probabilistes de prévision de phénomènes qui évoluent
dans le temps et de modélisation de séries temporelles.
4
• Saisonnalité : évolution se répétant régulièrement tous les ans ou tous les mois ou toutes
les semaines. Exemples :
• Composante stationnaire (ou résiduelle) : ce qui reste lorsque l’on a enlevé les autres
composantes. Décrit l’évolution à court terme de la série (échelle journalière).
Notion de série temporelle stationnaire définie plus précisément dans la suite. Cette hypothèse
jouera un rôle fondamental dans la suite, et remplacera l’hypothèse usuelle des v.a i.i.d. (ici, il
peut exister une dépendance entre deux valeurs successives prises par la série observée).
Le modèle le plus courant consiste à supposer que la série initiale s’écrit sous la forme
(modèle additif)
Xt = Tt + St + Yt pour tout t ∈ {1, · · · , n}
• Economie
5
• Environement - évolution de l’intensité du vent, en m/s, au large de la Bretagne entre
1979 et 2001, données journalières.
• Santé - Exemple 4 : Evolution des cas de grippe en France, par semaine, de 1984 (semaine
44) à 2002 (semaine 50), soit 945 valeurs.
6
Chapter 2
Lissages exponentiels
2.1 Introduction
Ce cours sur le lissage exponentiel est emprunté à M. Cl. Viano
[Link]
Dans l’industrie, il est courant que l’on doive effectuer des prévisions de vente de production
ou de stock pour une centaine de produits. Ces prévisions sont effectuées à partir de données
par exemple mensuelles et l’horizon de prévision est court, un an maximum. Un certain nombre
de techniques "autoprojectives" sont regroupées sous la rubrique du lissage exponentiel. Ces
approches construisent des prévisions assez précises. Elles sont peu coûteuses et les calculs peu-
vent être rendus très rapides par l’utilisation de formules récursives de mise à jour. Elles ont
beaucoup de succès dans les milieux dans lesquels un grand nombre de chroniques unidimension-
nelles doivent être analysées séparément dans un but de prévision. Les succès sont importants
malgré l’absence de bases théoriques solides comparables à celles des méthodes ARMA, ARIMA
et SARIMA. Nous présentons les bases empiriques des techniques et précisons les conditions
d’utilisation optimales. Les procédures automatiques présentent quelques dangers. On risque
des mauvaises prévisions si la technique utilisée n’est pas adaptée à la chronique analysée. Le
lissage exponentiel est brièvement présenté dans Gourieroux-Monfort ([3]). Une présentation
détaillée figure dans Mélard ([4]) page 139-170. Un article de Gardner ([2]) fait un point sur la
question.
7
2.2.1 Définition
La prévision x̂n,h est construite : en prenant en compte toute l’histoire de la chronique, de
sorte que, plus on s’éloigne de la base n de la prévision, moins l’influence des observations
correspondantes est importante. Cette décroissance de l’influence est de type exponentiel. De
là vient le nom de la technique. On se donne α, appelé constante de lissage, avec 0 < α < 1, et
on définit (la prévision x̂n,h ne dépend pas de h) :
n−1
X
x̂n,h = (1 − α) αj xn−j . (2.1)
j=0
Remarquons que plus α est voisin de 1, plus l’influence des observations éloignées dans le temps
de la base n est grande.
x = (x1 , · · · , xn ) = (· · · , 0, · · · , 0, x1 , · · · , xn )
c’est à dire que les coordonnées du nouveau vecteur sont nulles pour tous les indices négatifs ou
nul. On cherche donc la valeur de a qui minimise
+∞
X
αj (xn−j − a)2
j=0
8
la solution est fournie par
n−1
X
x̂n,h = (1 − α) αj xn−j .
j=0
Il est facile de montrer que les deux estimateurs sont asymptotiquement équivalents, on a
c’est à dire la valeur qui en moyenne réalise la meilleure prévision à l’horizon h sur les bases
1, 2, · · · , n − h en utilisant le critère des moindres carrés. On choisit une grille de valeurs de
α pour lesquelles on calcule le critère et on retient la valeur qui le minimise. Cette technique
de choix de constante peut être reprise dans les méthodes qui vont suivre. Les calculs sont
souvent plus longs car ce n’est, en fait, plus une constante de lissage que nous sommes amenés
à déterminer mais souvent deux ou trois.
En remplaçant, comme dans le lissage simple, la sommation finie par une somme de 0 à +∞, le
problème précédent devient
+∞
X
min αj (xn−j − (a1 − a2 j))2 .
a1 ∈R,a2 ∈R
j=0
9
Figure 2.1: Lissage et prévision par la méthode de lissage exponentiel simple d’un bruit blanc
[gauche] et d’une tendance linéaire X(t) = 0.5t + t , t ∼ N (0, 1)[droite](α = .1, .5, .9)
Introduisons deux lissages exponentiels simples successifs, celui des x produit L1 , celui de
L1 produit L2 :
n−1
X
L1 (n) = (1 − α) αj xn−j
j=0
n−1
X
L1 (n) = (1 − α) αj L1 (n − j)
j=0
On a donc
n−1
X
L2 (n) − (1 − α)L1 (n) = (1 − α)2 jαj xn−j
j=1
10
Figure 2.2: Lissage et prévision par la méthode de lissage exponentiel double d’un bruit blanc
[gauche] et d’une tendance linéaire X(t) = 0.5t + t , t ∼ N (0, 1)[droite](α = .1, .5, .9)
11
• ajustement d’une droite affine (sans saisonnalité)
• ajustement d’une droite affine + une composante saisonnière
• ajustement d’une constante + une composante saisonnière
le dernier cas étant déduit du second. On ajuste au voisinage de l’instant n une droite
xt = a1 + (t − n)a2
La variante proposée par Holt-Winters porte sur les formules de mise à jour dans l’estimation
de a1 et a2 par les formules (2.7) et (2.8). La formule (2.9) s’interprète comme le barycentre de
l’observation xn et de la prévision à l’horizon 1 à la date n − 1. La formule (2.10) s’interprète
comme le barycentre de la pente estimée à l’instant n − 1 et la différence â1 (n) − â1 (n − 1) entre
les ordonnées à l’origine aux dates n et n − 1.
Soit 0 < β < 1 et 0 < γ < 1 deux constantes fixées et les formules de mise à jour
â1 (n) = βxn + (1 − β)(â1 (n − 1) + â2 (n − 1)) (2.9)
â2 (n) = γ(â1 (n) − â1 (n − 1)) + (1 − γ)â2 (n − 1). (2.10)
La prévision prend la forme
x̂n,h = â1 (n) + hâ2 (n).
Cette méthode est plus souple que le lissage exponentiel amélioré, dans la mesure où elle fait
intervenir deux constantes β et γ au lieu d’une α. Les équations (2.7) et (2.8), qui sont un cas
particulier des formules (2.9) et (2.10) avec β = 1 − α2 et γ = 1−α 1+α . On remarque que si β et γ
sont petits, le lissage est fort puisqu’alors α est grand et que l’on tient compte du passé lointain.
12
Chapter 3
Modélisation de la composante
déterministe
Le modèle le plus usuel consiste à supposer que la série initiale s’écrit sous la forme (modèle
additif)
Xt = Tt + St + Yt pour tout t ∈ {1, · · · , n}
avec Xt la tendance, St la composante saisonnière (fonction périodique de période un an) et Yt
la composante stationnaire.
Quand le modèle s’écrit comme une somme de plusieurs composantes comme ci-dessus on parle
de modèle additif.
Certaines séries temporelles se comportent selon un modèle multiplicatif. On a alors
Xt = Tt St Yt pour tout t ∈ {1, · · · , n}
On remarque qu’on se ramène naturellement à un modèle additif par passage au log :
log(Xt ) = log(Tt ) + log(St ) + log(Yt ) pour tout t ∈ {1, · · · , n}
13
3.1 Analyse de la tendance
exemple : poissons
Si {xi }i∈{1,··· ,n} est une série temporelle, alors la moyenne mobile d’ordre p associée est la série
temporelle définie pour t ∈ {p + 1, · · · , n − p} par
p
X
x̂t = xi
i=t−p
Exemple : Poissons
14
3.1.2 Différenciation
∇xt = xt − xt−1
pour tout t ≥ 2.
∇(k) xt = ∇(∇(k−1) xt )
Propriétés -
La 3ème propriété implique que si Xt = Tt + zt avec Tt une tendance polynomiale, alors on peut
supprimer la tendance en appliquant successivement plusieurs fois l’opérateur ∇.
15
3.1.3 Modèle additif avec tendance paramétrique
Définition On dit qu’une série temporelle suit un modèle de tendance additif lorsqu’elle peut
se décomposer sous la forme
Xt = Tt + Zt
avec Zt une série temporelle sans tendance.
Tt = a × t + b
Tt = a0 + a1 t + a2 t2 + ...
Ajustement du modèle
On suppose que les observations {x1 , · · · , xn } suivent un modèle additif avec une tendance
paramétrique représentée par une fonction f de paramètres θ, c’est à dire vérifie
xt = f (t; θ) + zt
On cherche alors à estimer les paramètres inconnus θ. On utilise généralement la méthode des
moindres carrés.
16
Série résiduelle après avoir retiré la tendance estimée (polynôme d’ordre 2)
Il reste une tendance visible. Sur la série initiale, il semble que les fluctuations saisonnières sont
proportionnelles à la tendance. Dans ce cas, un modèle additif n’est pas adapté. On peut alors
tester un modèle multiplicatif.
Définition - On dit qu’une série temporelle suit un modèle de tendance multiplicatif lorsqu’elle
peut se décomposer sous la forme
Xt = Tt Zt
Retour sur l’exemple de la production de poisson en finistère nord entre 1971 et 1979.
17
Série résiduelle après avoir retirée la tendance estimée
• qu’elles peuvent être utilisées en prévision, ce qui n’est pas le cas des autres méthodes.
L’avantage principal des deux premières méthodes (moyenne mobile et différenciation) est qu’elles
s’ajustent à de nombreuses séries temporelles sans modifications, alors que pour les modèles
paramètriques il peut être difficile de choisir le bon modèle.
18
3.1.5 Conclusion
Pour modéliser la tendance dans une série temporelle, les différentes étapes sont :
1. Tracer la série temporelle
2. Utiliser ce graphique pour identifier le modèle en répondant aux quetions suivantes :
3. Modèle additif ou multiplicatif? Pour cela, on regarde si les composantes saisonnières et
stationnaires sont proportionnelles à la tendance ou non. Lorsque le modèle est additif,
on travaille sur la série log(xt ) afin de se ramener à un modèle additif.
4. Méthode paramétrique ou non-paramétrique? Pour cela, on regarde si il existe un modèle
simple permettant de décrire la tendance observée (modèle linéaire, polynomiale, exponen-
tiel...). Si on ne trouve pas de tel modèle, on peut utiliser une méthode non paramètrique
(MM ou différentiation).
5. Vérifier le modèle en traçant la série "résiduelle", c’est à dire la série dans laquelle on a
enlevé la tendance en utilisant la méthode choisie.
On supposera dans la suite de cette section, sauf mention contraire, que la série Xt suit un
modèle de saisonnalité additif, c’est à dire que
Xt = St + Zt
avec St une fonction périodique de période τ , avec τ le nombre de données par année, c’est à
dire vérifiant St = St+τ et Zt une série temporelle stationnaire.
De nombreuses séries temporelles observées dans la nature suivent un modèle multiplicatif, c’est
à dire vérifient
Xt = St Zt
Dans ce cas, les fluctuations de la série autour de la composante saisonnière sont proportionnelles
à celle-ci. On se ramène alors à un modèle additif par passage au logarithme.
Dans le cadre des modèles additifs, plusieurs méthodes peuvent être utilisées pour estimer la
fonction t 7−→ St . C’est l’objet des paragraphes ci-dessous.
19
3.2.2 Vérification du modèle
20
Sur cet exemple, la fonction obtenue n’est pas un bon estimateur de la fonction Sk : les fluctu-
ations rapides observées sont dues au fait qu’on a seulement 22 données pour estimer la valeur
de ŝk pour un k donné. Dans ce cas, on peut lisser la série obtenue en utilisant les moyennes
mobiles introduite précédemment. Remarque : ici on cherche à estimer une fonction périodique
supposée être périodique à partir d’une observation "bruitée" xt .
Modèle paramètrique
Lorsque l’on veut décrire la composante saisonnière grâce à un modèle paramétrique simple, on
utilise généralement un polynôme trigonomètrique. On suppose alors que :
Xt = µ + αc cos(ωt) + αs sin(ωt) + Zt
Proposition - Les estimateurs des moindres carré de sont solutions du système linéaire :
PT PT
P T cos(ωt) sin(ωt) µ T PT x(t)
t=1 t=1 X
T T T
2
P P
cos(ωt) (cos(ωt)) cos(ωt) sin(ωt) α = x(t) cos(ωt)
c
Pt=1 PT t=1 t=1 Pt=1
T PT 2 T
αs
t=1 x(t) sin(ωt)
t=1
t=1 sin(ωt) t=1 sin(ωt) cos(ωt) t=1 (sin(ωt))
T
1X
µ̂ = x(t)
T
t=1
T
2X
α̂c = x(t) cos(ωt)
T
t=1
21
et
T
2X
α̂s = x(t) sin(ωt)
T
t=1
On reconnait les coefficients de Fourrier....
Ces estimateurs sont asymptotiquement sans biais et convergents.
La résolution du système précédent pour les données de vent donne µ̂ = 29.3, αc = 21, 8 et
αs = −7.7.
3.2.3 Différenciation
Définition - On appelle différence d’ordre τ de la série Xt les quantités
(τ )
∇t = Xt+τ − Xt
22
définies pour π ∈ N. Attention : ne pas confondre cet opérateur avec l’opérateur défini à la
section 2 (modélisation de la tendance).
Si on suppose que la série {Xt } suit un modèle de saisonnalité additif, c’est à dire que
Xt = St + Zt
avec St une fonction périodique de période τ , avec τ le nombre de données par année, c’est à
dire vérifiant St+τ = St et Zt une série temporelle stationnaire (cf paragraphe 3). Alors il est
facile de vérifier que ∇τ xt = xt − xt−τ = zt − zt−τ est une série stationnaire (cf chapitre 3).
Les méthodes 2.a et 2.c s’ajustent à de nombreuses séries temporelles sans modification.
23
Chapter 4
Remarque - Dans la suite, sauf mention contraire, on supposera que Xt est à valeurs réelles.
Définition 2 - Soit X = {Xt }t∈Z un processus tel que E[Xt2 ] < ∞ pour t ∈ Z On dira que ce
processus est (faiblement) stationnaire (ou stationnaire d’ordre 2) si les 2 conditions suivantes
sont vérifiées pour tout t:
• E(Xt ) = m pour tout t ∈ {1, · · · , T }
• E(Xt Xt+h ) = γ(h) est indépendant de t
Remarques :
1. On a C(t) = C(−t) (fonction paire) donc il suffit de connaitre la fonction d’autocovariance
sur [0, T ]. De même pour ρ.
2. Pour tout k, |C(k)| ≤ C(0).
3. La fonction d’autocovariance est définie positive.
24
4.1.2 Quelques commentaires sur l’autocorrélation
En général, on utilise l’autocorrélation pour caractériser les dépendances linéaires dans des séries
résiduelles (ie des séries temporelles corrigées de la tendance et la saison). En effet, la tendance
et la saison sont des composantes déterministes et ça a peu de sens d’estimer des propriétés
statistiques de quantités déterministes. De plus, si la série étudiée a ses caractéristiques qui
évoluent dans le temps, il peut être difficile d’estimer ses propriétés statistiques car on dispose
en général d’une seule réalisation du processus ce qui n’est pas suffisant pour faire de l’estimation.
Cependant, il est très utile de comprendre quelle sera l’allure de l’auto-correlation empirique
d’une série brute comportant une tendance et/ou une saison.
xi = ai + b, i = 1, · · · , n,
Preuve à faire en exercice : donner l’expression de la moyenne puis montrer que ρ̂(k) ne dépend
ni de a ni de b. Enfin utiliser les résulats connus sur les sommes de puissances d’entiers successifs.
N (N + 1) N (N + 1)(2N + 1)
1 + 2 + ··· + N = et 1 + 22 + · · · + N 2 = .
2 6
On admettra que le résultat est le même pour une tendance polynomiale.
2πh
pour h fixé, ρ̂(h) tend vers cos T quand n tend vers l’infini.
On admettra ce résultat.
En résumé, pour une longue série présentant une tendance polynomiale, l’autocorrélation
empirique reste proche de un. Si une longue série comporte une saisonnalité, cette saisonnalité se
voit sur la fonction d’autocorrélation empirique. Ainsi si une autocorrélation empirique présente
ces caractéristiques, c’est qu’on n’a pas bien retiré la tendance et/ou correctement désaisonnalisé
la série.
25
On laisse la preuve en exercice.
La première condition signifie tout simplement que l’espérance du processus est indépendante du
temps. La seconde condition implique bien entendu l’indépendance de la fonction d’autocovariance
par rapport au temps (stationnarité). Mais elle implique en outre que les termes d’autocovariance
(pour h ≥ 0) sont tous nuls. Seule la variance est non nulle. Autrement dit, cela signifie que
les bruits blancs sont des processus stationnaires particuliers sans "mémoire". Le niveau de la
série considéré aujourd’hui n’a aucune incidence sur son niveau de demain, tout comme le niveau
d’hier n’a aucune incidence sur le niveau d’aujourd’hui.
Définition 4 Le processus (Xn )n∈Z est un processus gaussien si toutes ses lois marginales sont
gaussiennes. Ca’est à dire si quelque soient k et j1 , · · · , jk , le vecteur (Xj1 , · · · , Xjk ) est un
vecteur gaussien.
Exercice - Soit (Xn )n∈Z un suite de variables aléatoires gaussiennes indépendantes, centrées
et toutes de variance 1. Parmi les processus suivants, lesquels sont gaussiens? Lesquels sont
stationnaires? Donner alors l’expressionde leur fonction de covariance.
1. Yn = Xn Xn+1
2. Yn = Xn Xn+1 · · · Xn+k
3. Yn = Xn2 Xn+1
2
2
4. Yn = Xn2 + Xn+1
5. Yn = n + Xn
6. Yn = X1 cos(nπ/2)
Proposition 4 Soit {Xt } un processus suivant un modèle moyenne mobile, avec {t } un bruit
blanc centré vérifiant E[t ] = σ 2 < ∞, alors le processus {Xt } est stationnaire. Sa fonction
d’autocovariance est donnée par
q−|k|
X
C(h) = βk2 σ 2 si |h| ∈ 0, · · · , q et 0 sinon
k=0
26
Preuve : Un tel processus est stationnaire : écrire la moyenne et la covariance.
Ainsi, d’après le théorème de Wold, si l’on omet la composante déterministe κt , tout processus
stationnaire peut s’écrire comme une somme pondérée infinie de chocs passés, ces chocs étant
représentés par un bruit blanc de variance finie. L’implication forte de ce théorème est que, si l’on
connaît les pondérations βk , k ∈ N, et si l’on connaît la variance du bruit blanc, on est mesure
de proposer une représentation de n’importe quel processus stationnaire. Cette représentation
est aussi qualifiée de représentation moyenne mobile infinie. Reste à comprendre ce que peut
être cette composante linéaire déterministe κt . La condition Cov(κt , t−k ) = 0 implique que ce
terme est, par définition (déterministe), indépendant des chocs. Alors le cas le plus simple est
celui d’un processus stationnaire (Xt ; t ∈ Z) d’espérance non nulle, tel que E(Xt ) = m. Puisque
le bruit blanc est par définition un processus centré, une somme pondérée de ces chocs est elle-
même centrée. Par conséquent, la représentation de Wold du processus (Xt ; t ∈ Z) suppose que
l’on ajoute à cette somme pondérée des chocs passés, une composante déterministe qui n’est
autre que l’espérance du processus.
27
Chapter 5
Auto-corrélation partielle
L’auto corrélation partielle est une notion importante pour les séries temporelles, mais elle est
un peu délicate et nécessite des "rappels" de la géométrie dans un espace de variables aléatoires.
5.1 Rappels
Les variables aléatoires réelles de carré intégrable définies sur un même espace probabilité
(Ω, A, P ) forment un espace vectoriel qu’on peut munir du produit scalaire hX, Y i = E[XY ].
On note cet espace L2 = L2 (Ω, A, P ).
Projection Le projeté d’une variable aléatoire Y sur le sous espace vec(X1 , · · · , XN ) sera
noté
Pvec(X1 ,··· ,XN ) (Y ).
C’est la variable aléatoire de cet espace qui est la plus proche de Y au sens de la distance L2
vue plus haut. C’est donc la combinaison linéaire Pvec(X1 ,··· ,XN ) (Y ) = γ1 X1 + · · · + γN XN telle
que
E (Y − γ1 X1 − · · · − γN XN )2 ≤ E (Y − λ1 X1 − · · · − λN XN )2 ∀λ1 , · · · , λN .
28
Ceci implique que
∀k = 1, · · · , N, E [(Y − γ1 X1 − · · · − γN XN )Xk ] = 0
Soit encore
γ1 E(X1 Xk ) + · · · + γN E(XN Xk) = E(Y Xk )
E(X12 )
··· E(X1 XN ) γ1 E(Y X1 )
... ... ... = ...
E(X1 XN ) · · · E(Xn )2 γN E(Y XN )
D’après la definition il est facile de comprendre que si Y est elle même une combinaison
linéaire des variables X1 , · · · , Xn alors Y est son propre projeté. Par ailleurs si Y est orthogonale
à toutes les variables Xj alors le projeté est nul. Et les variables Xj ne permettent pas d’expliquer
Y.
Cette notion est un réponse à la question suivante : il arrive que 2 phénomènes soient
fortement corrélés, mais que cette corrélation soit due à l’influence d’un facteur extérieur et non
pas à un fort lien entre les deux phénomènes. Exemple : .
Calculer la corrélation entre X1 et X2 puis l’auto corrélation partielle r[X] (X1 , X2 ) entre X1 et
X2 . Commentez.
5.3.1 Définition
On définit l’auto-corrélation partielle r(h) pour h 6= 0 de la façon suivante.
29
Définition 7
r(1) = ρ(1)
r(h) = rX2 ,··· ,Xh (X1 , Xh+1 ) ∀h ≥ 2
r(h) = r(−h), ∀h 6= 0
Exemple de l’AR(1) - Soit X un processus centré tel que Xt = 0.9Xt−1 + t avec un bruit blanc
gaussaien centré et réduit et t indépendant de Xs pour tout s < t.
On calcule tout d’abord la fonction d’auto-corrélation.
corr(X1 , X2 ) = corr(0.9X1 + 2 , X1 ) = 0.9
Intéressons nous maintenant aux projections sur le passé et/ou le futur.
P[X2 ,··· ,Xk −1] (Xk ) = 0.9X(k−1) et P[X2 ,··· ,Xk −1] (X1 ) = 0.9X1 .
Il est facile de vérifier que P[X2 ,··· ,Xk −1] (Xk ) = P[X2 ,··· ,Xk −1] (0.9X(k−1) + k ). Or k est, par
définition, indépendant du passé. On a donc bien P[X2 ,··· ,Xk−1 ] (Xk ) = 0.9X(k−1) .
Considérons maintenant, P[X2 ,··· ,Xk −1] (X1 ). Dans le cas où k = 3, on écrit P[X2 ] (X1 ) = γX2
avec γ tel que
E((X1 − γX2 )2 )
soit minimum. On peut calculer la dérivée de E((X1 − γX2 )2 ) par rapport à γ : ρ(1) − γρ(0).
Et en posant que cette dérivée est nulle, on obtient γ = .9.
(h)
et d’après la proposition, r(h) = γh . Par ailleurs, par définition du projeté,
(h)
−1
γ1 C(0) · · · C(h − 1) C(1)
... = ... ... ...
(h) C(h − 1) · · · C(0) C(h)
γh
30
Chapter 6
Modèles Auto-régressifs
Notons
Xt = α1 Xt−1 + t
avec t un bruit blanc centré de variance σ 2 . On vérifie aisément que
Ainsi, si |α1 | < 1 et Xt stationnaire alors ||Xt ||2 = E(Xt2 ) est constant et
2
k
j
X
α1 t−j = α12k+2 ||Xt−k−1 ||2 → 0 quand k → ∞
Xt −
j=0
Comme ∞ j
P
j=0 |α1 |t−j est convergent en moyenne quadratique, Xt admet une représentation en
moyenne mobile
∞
X
Xt = αj t−j
j=0
α|k|
= σ2
1 − α12
31
Théorème 1 Le modèle défini par l’équation Xt = αXt−1 +σt possède une solution stationnaire
si et seulement si |α| < 1. Dans ce cas, la solution stationnaire vérifie E[Xt ] = αx0 et E[Xt2 ] =
σ2 σ2 |k| avec |k| > 0.
1−α2
et sa fonction d’auto-covariance est donnée par C(k) = 1−α 2α
Preuve du théorème
Stationnarité : il suffit de remarquer que pour tout t ∈ Z,
Xt = t + αt−1 + α2 t−2 + · · ·
ainsi si la série ∞ k
P
k=1 α est convergence on a un rocessus stationnaire dont le moment d’ordre
2 est fini.
Considérons Xt soit stationnaire et tel que E[Xt ] = 0 et E[Xt2 ] = E[Xt20 ]. On a alors
E[Xt2 ] = α2 E[Xt2 ] + σ 2
donc
σ2
E[Xt2 ] = .
1 − α2
On a de plus
C(k) = E[Xt Xt−k ] = αE[Xt−1 Xt−k ] = α2 E[Xt−2 Xt−k ].
σ2
On montre ainsi, par itération, que C(k) = 1−α2
αk .
32
Démonstration
L’équation définissant le processus AR est
p
X
Xt = ϕi Xt−i + εt
i=1
Or, il se trouve que E[Xt Xt−j ] = C(j) par définition de la fonction d’autocovariance. Les termes
du bruit blanc sont indépendants les uns des autres et, de plus, Xt−j est indépendant de εt où
j est plus grand que zéro. Pour j > 0, E[εt Xt−j ] = 0. Pour j = 0,
p p
" !#
X X
E[εt Xt ] = E εt ϕi Xt−i + εt = ϕi E[εt Xt−i ] + E[ε2t ] = 0 + σε2
i=1 i=1
Maintenant, on a pour j ≥ 0,
p
" #
X
C(j) = E ϕi Xt−i Xt−j + σε2 δj
i=1
Par ailleurs,
" p # p p
X X X
E ϕi Xt−i Xt−j = ϕi E[Xt Xt−j+i ] = ϕi C(j − i)
i=1 i=1 i=1
Remarque : Ces formules peuvent être utilisées pour calculer récursivement la fonction d’autocovariance.
33
6.3 Inférence statistique pour les modèles auto-régressifs
6.3.1 Estimation des paramètres
On dispose d’une observation {x0 , · · · , xT } de longueur T + 1 d’un processus stationnaire Xt
supposé suivre un modèle AR(p), c’est à dire vérifiant
• Maximum de vraisemblance (non étudié). L’estimation d’un modèle AR(P) par la méth-
ode du maximum de vraisemblance est délicate car la fonction de vraisemblance est très
complexe et n’a pas de dérivée analytique. Cette difficulté provient de l’interdépendance
des valeurs, ainsi que du fait que les observations antérieures ne sont pas toutes disponibles
pour les p premières valeurs.
Remarque - Les estimateurs de Yule-Walker sont tels que la moyenne et les p + 1 premières
valeurs de la fonction d’auto-covariance du modèle estimé coïncident avec celles estimées sur les
données.
34
Cas particuliers :
Modèles d’ordre p = 1. On obtient
Ĉ(1) 1
R̂1 =
Ĉ(0) 0
alors
0 Ĉ(0) Ĉ(1)
1
R̂2−1 = 0 −Ĉ(1) Ĉ(0)
Ĉ(0)2 − Ĉ(1)2 2 2 2
Ĉ(0) − Ĉ(1) Ĉ(1)(Ĉ(2) − Ĉ(0)) Ĉ(1) − Ĉ(0)Ĉ(2)
Les estimateurs de Yule-Walker sont évidemment consistants dès que les Ĉ(k) sont des esti-
mateurs consistants des covariances C(k). Le résultat suivant donne plus de précisions sur le
comportement asymptotique de ces estimateurs. Il reste vrai même dans le cas où on aurait
résolu le système des équations de Yule-Walker avec une valeur de p qui ne serait pas la bonne.
(6.7)
Dans le cadre d’un processus AR, la proposition fournit une approche à l’étude de la meilleure
(n) (n) √ (n)
valeur de p. En effet, si m > p et α̂(n) = (α̂1 , . . . , α̂m ), (6.7) affirme que n α̂m → N (0, λ)
pour n → ∞, où λ est égal a σ 2 multiplié par l’élément diagonal d’indice m, m de la matrice
Rm−1 . Or il est remarquable que cette quantité vaut toujours 1.
35
Remarque - ces formules peuvent être utilisées pour construire des intervalles de confiance
asymptotiques
√ en remplaçant σ et Rp par leurs √
estimations. Plus précisemment, pour T grand,
on a T (α̂ − α) ∼ N (0, Σ), donc en particulier T (α̂i − αi ) ∼ N (0, Σii ) avec Σii le ième terme
diagonal de la matrice Σ = σ 2 Rp−1 , puis
p √ p
P (−q1−α Σii ≤ T (α̂i − αi ) ≤ q1−α Σii ) = 1 − α
Exercice P P 2
On
P considère unePsérie temporelle {x t
P } de longueur T =P200 telle que x t = 13.1, xt = 164.2,
xt xt+1 = 6.1, xt xt+2 = −9.98 , xt xt+3 = 13.4, xt xt+4 = 11.8.
1. On suppose que cette série temporelle suit un modèle d’ordre 1
a. Ecrire les équations de Yule-Walker
b. En déduire une estimation des paramètres du modèle
c. Donner un intervalle de confiance pour le paramètre α1
2. On suppose que cette série temporelle suit un modèle d’ordre 2.
a. Ecrire les équations de Yule-Walker
b. En déduire une estimation des paramètres du modèle
c. Donner un intervalle de confiance pour le paramètre alpha1 puis pour α2 .
−(T − p) −(T − p)
log L(x1 , · · · , xT ) = log(2π) − log(σ 2 )
2 2
T
X 1
− (xt − µ − α1 xt−1 − · · · − αp xt−p
2σ 2
t=p+1
36
Le modèle se réécrit sous la forme
Xt = α1 (Xt−1 − µ) + · · · + αp (Xt−p − µ) + µ + σt
En général, on utilise les quantités suivantes:
X̂t+1|t = α1 (Xt − µ) + · · · + αp (Xt−p+1 − µ) + µ
pour prédire Xt+1 à partir de X1 , · · · , Xt .
X̂t+2|t = α1 (X̂t+1|t − µ) + · · · + αp (Xt−p+2 − µ) + µ
Et de façon générale
X̂t+k|t = α1 (X̂t+k−1|t − µ) + · · · + αp (Xt+k−p|t − µ) + µ
Remarque - Dans le cas des modèles d’ordre 1, on a X̂t+1|t − µ = α1 (Xt − µ), X̂t+2|t − µ =
α1 (X̂t+1| − µ) = α12 (Xt − µ), · · · . On vérifie aisément par récurrence que X̂t+t|t − µ = α1k (Xt − µ)
, donc en particulier que X̂t+k|t → µ quand k tend vers l’infini.
Proposition 8 (admise) - Si {Xt } est un processus stationnaire qui suit un modèle AR(p),
alors la meilleure prédiction, au sens des moindres carrés, de Xt+1 connaissant xt , ..., xt−p+1 est
donnée par x̂t défini par
x̂t+1|t = α1 xt + · · · + αp xt−p+1 + µ
Qualité de la prédiction
Prédiction à un pas de temps On a par définition X̂t+1|t − Xt+1 = σt+1 . t+1 représente
donc l’erreur de prédiction à un pas de temps. En particulier, l’estimation est non-biaisée et
la variance de l’erreur d’estimation est σ 2 . En général, afin de construire des intervalles de
prédiction, on est amené à supposer que suit une loi de Gauss centrée et réduite. On en déduit
alors que X̂t+1|t − Xt+1 suit aussi une loi de loi de Gauss centrée et de variance σ 2 . L’intervalle
[X̂t+1|t − σΦ−1 (1 − .95/2), X̂t+1|t + σΦ−1 (1 − .95/2)] est appelé intervalle de prédiction à 95%.
En pratique, σ et X̂t+1|t sont inconnues et on les estime.
Remarque - La généralisation au cas général est complexe, sauf dans le cas des modèles d’ordre
p = 1. On a alors (donner formule avec k=1, k=2, puis k=3).
X̂t+k|t − Xt+k = σt+k + α1 σt+k−1 + · · · + α1k−1 σt+1
EnP particulier, on a l’estimation est non-biaisée et la variance de l’erreur d’estimation est
σ 2 k−1 2j
j=0 α .
On peut aussi construire des IP dans le cas gaussien :
q q
[X̂t+k|t − σΦ−1 (1 − .95/2) 1 + α12 + · · · + αk−1
2 , X̂
t+1|t + σΦ −1
(1 − .95/2) 1 + α12 + · · · + αk−1
2 ]
est l’intervalle de prédiction de niveau 0.95 pour Xt+h oosqu’on a observé X jusqu’au temps t.
On vérifie aisément que la qualité de la prédiction se dégrade lorsque k augmente.
37
6.5 Sélection de modèle
Jusqu’à présent, nous avons supposé que l’ordre du modèle AR est connu. Cependant, en
pratique, cette quantité est généralement inconnue, et on cherche alors à estimer sa valeur à
partir des observations, ce qu’on appelle généralement le problème de la sélection de modèle.
Une première méthode consiste à réaliser des tests statistiques. En pratique on considère pour
p variant de 1 à P les tests successifs permettant de comparer le modèle d’ordre p au modèle
d’ordre p + 1.
H0 : X suit un modèle AR(p) contre H1 : non H0
Par le théorème de normalité asymptotique des équations de Yule-Walker (voir section 3.1.1),
on a directement , pour un processus AR(p), un théorème central limite pour les pacf empiriques
r̂(h), h > p: √
T r̂(h) → N (0, 1) quand T → ∞
Ainsi sous H0 , la probabilité que r̂(h) < 1/T Φ−1 (1 − α/2) est égale à α.
p
Une autre idée consiste à utiliser le modèle qui minimise l’erreur de prédiction à un pas de temps,
c’est à dire la valeur de X̂t+1|t − xt+1 . Cependant, en pratique, plus on augmente la valeur de
p , plus l’erreur de prédiction diminue. On peut alors utiliser le critère Bayesian Information
Criterion (BIC). On choisit alors le modèle qui minimise la quantité
On obtient alors généralement un modèle pour lequel on a un bon compromis entre le nom-
bre de paramètre et l’erreur de prediction. En pratique, on obtient généralement des modèles
parsimonieux qui s’ajuste bien aux données.
38
k
X ρ̂2ε (h)
sensiblement ce test en considérant plutôt la statistique QLB = n(n + 2) , qui, sous
n−h
h=1
H0 , suit également, pour n grand, une loi du χ2 à k degrés de liberté.
Ce test, sous sa première forme, est aussi appelé test de Box-Pierce ; sous sa seconde, il est
connu sous le nom de test de Ljung-Box.
39
Chapter 7
Xt = t + b1 t−1 + · · · + bq t−q , ∀n
Quelque soit la position des racines du polynôme B et processus M A(q) est stationnaire, centré
et on a
E(Xt t+h ) = 0 ∀h > 0
L’hypothèse sur les racines du polynôme permet de montrer que le processus M A(q) admet une
représentation en processus AR(∞)
t = Xt + β1 Xt−1 + · · · , ∀t
C(h) = 0, ∀h > q
40
0 = 0. La distribution conditionnelle de y1 |0 = µ + 1 ∼ N (µ, σ 2 ). Plus généralement, si t−1
est connu, yt |t−1 simN (µ − λt−1 , σ 2 ).
On réitère le calcul de t = 1 à T et par application successives de la formule de Bayes
T
Y
2
L(y1 , · · · , yT |0 , µ, λ, σ ) = f (yt |t−1 ; µ, λ, σ 2 )
t=1
L’expression peut paraître simple, elle est cependant non linéaire en le paramètre λ ; en effet
Approche exacte
On utilise la structure multivariée gaussienne du processus. Un processus MA(1) gaussien pos-
sède pour matrice de variance-covariance
1 + λ2
−λ 0 ··· 0
−λ
2
1 + λ2 −λ · · · 0
σ = σ2Γ
.. ..
. .
0 ··· 1+λ 2
41
Proposition 9 Pour tout t, le prédicteur à horizon 1 est
X̂n+1 = P[X−∞ ,··· ,Xt ] (Xt+1 ) = P[−∞ ,··· ,t ] Xt+1 = b1 t + · · · + bq t−q
que le prédicteur est nul dés que l’horizon h dépasse q. L’erreur de prédiction est alors
42
Chapter 8
Φ(B)Xt = Θ(B)t ,
Φ(z) = 1 − φ1 z − · · · − φp z p
Θ(z) = 1 + θ1 z + · · · + θp z p
et B est l’opérateur "retard" défini par
B k Xt = Xt−k
Cette propriété est l’une des raisons de l’intér’et pratique des modèles ARMA; une autre raison
est leur facilité de synthèse.
43
Proposition 11 (mémoire courte) Pour un processus ARMA, la fonction de corrélation est
bornée géométriquement :
on dit qu’un processus ARMA est à mémoire courte (décroissance "rapide" de ρ).
Définition 10 Un processus ARMA défini par Φ(B)Xt = Θ(B)Zt est dit causal s’il admet une
unique solution stationnaire de la forme d’un MA(∞) :
inf
Xty
ψj Zt−j .
j=0
Proposition 12 Soit {Xt } un processus ARMA(p,q) tel que les polynômes Φ et Θ n’ont pas de
racines communes. Alors {Xt } est causal si et seulement si Φ(z) 6= 0 pour tout z ∈ z tel que
|z| ≤ 1. Les coefficients ψj sont déterminés par
Θ(z)
ψ(z) = , pour tout z tel que |z| ≤ 1
Φ(z)
8.1.2 Inférence
Il y a présomption de processus ARMA si les conditions suivantes sont satisfaites :
• la fonction de corrélation empirique est : à décroissance pas trop lente et sans pics péri-
odiques.
• une méthode des moments basée sur la fonction de covariance empirique, dite robuste, qui
fait une estimation directe des paramètres.
La deuxième méthode donne généralement des résultats plus précis que la première, au moins
dans le cas des processus gaussiens, mais sa mise en oeuvre passe par la minimisation d’une
fonction de plusieurs variables qui n’admet pas de forme explicite. Il n’existe pas de résultats
généraux sur la forme de cette fonction : convexité, existence de minima locaux, vitesse de
variation . . . Il est donc préférable de disposer de valeurs approchées des paramètres pour
l’initialisation ; on utilise par exemple la méthode des moments.
44
Proposition 13 La vraisemblance L d’un processus ARMA gaussien, de moyenne nulle, de
paramètres (φ, θ, σ 2 ), est donnée par la formule suivante :
1 X (Xj − X̂j )2
L(φ, θ, σ 2 ) = (2πσ 2 )−T /2 (r0 · · · rT −1 )−1/2 exp(−
2σ 2 rj−1
j
où X̂j+1 = X̂j+1 (φ, θ, σ 2 ) est la prédiction de Xj+1 sachant X1 , · · · , Xj , dans le modèle ARMA,
et les rj sont les variances des erreurs de prédiction, divisées par la variance de :
1
rj = rj (φ, θ, σ 2 ) = E((Xj − X̂j )2 ).
σ2
8.1.3 Prédiction
Le meilleur estimateur de Xt+1 au sens de l’erreur en moyenne quadratique est l’espérance
conditionnelle de Xt+1 sachant Xt , · · · , X1 c’est à dire que c’est X̂t+1 , la projection de Xn+1 sur
le sous espace vectoriel engendré par Xt , · · · , X1 . Autrement dit,
8.1.4 Validation
On valide le modèle comme pour les processus AR : analyse des résidus (test bruit banc),
validation croisée, etc.
45
8.3 Modèles avec co-variables : ARMAX
Φ(B)Xt = Θ(B)t + D(B)Zt
soit encore
p
X q
X b
X
Xt = φi Xt−i + θi t−i + zt−d
i=1 i=1 i=1
46