Modélisation de séries stationnaires
MAP-STA2 : Séries chronologiques
Y. Goude - [email protected]
2021-2022
Contents
Rappels et généralités 1
Notion de stationnarité, auto-covariance, auto-corrélation . . . . . . . . . . . . . . . . . . . . . . . 4
Corrélation et auto-corrélation partielle 7
Nous avons vu précédemment comment, si une série chronologique présente des composantes déterministes
(tendance ou saisonalité(s)), les estimer de manière à pouvoir effectuer une prévision. Nous nous intéressons
ici à la série corrigée de sa tendance et de sa ou ses saisonnalité(s) et à la notion de stationnarité.
Rappels et généralités
Ce chapitre fait appel à différentes notions de probabilité et statistiques que nous rappelons ici.
processus stochastique un processus stochastique est une famille de variables aléatoires (Yt )t∈I définies
sur (Ω, A, P ). Les applications t → Yt (ω), ω ∈ Ω sont appelés trajectoires du processus.
processus Gaussien Le processus (Yt )t∈Z est un processus gaussien si toutes ses lois marginales sont
gaussiennes ie si ∀k et ∀j1 , ..., jk , (Yj1 , Yj2 , ..., Yjk ) est un vecteur gaussien.
bruit blanc fort soit εt un processus aléatoire. On dira qu’il s’agit d’un bruit blanc fort si les εt sont
indépendants et identiquement distribués. Il est dit centré si E(εt ) = 0 et réduit si var(εt ) = 1
bruit blanc faible soit εt un processus aléatoire. On dira qu’il s’agit d’un bruit blanc faible si les εt vérifient:
• E(εt ) = µ
• E(ε2t ) = σ 2
• cov(εi , εj ) = 0 pour i 6= j
espace L2 L’ensemble des variables aléatoires X telles que E(X 2 ) < ∞ peut être muni d’une structure
d’espace vectorielp
normé noté L2 . On prend comme produit scalaire l’application (X, Y ) → E(XY ) et comme
norme ||X||L2 = E(X 2 )
covariance la covariance entre deux variables aléatoires X et Y est définie ainsi:
cov(X, Y ) = E[(X − E(X))(Y − E(Y ))] = E(XY ) − E(X)E(Y )
produit sacalaire soit X et Y deux variables aléatoires, (X, Y ) → E(XY ) est un produit scalaire vérifiant
les propriétés suivantes:
• symétrie: E(XY ) = E(Y X)
• bilinéarité: E((aX + bY )Z) = aE(XZ) + bE(Y Z)
1
• positivité: E(X 2 ) >= 0, caractère défini E(X 2 ) = 0 → P (X = 0) = 1
orthogonalité soit X et Y deux variables aléatoires, elles sont orthogonales lorsque E(XY ) = 0 (si les
variables sont centrées cela revient à cov(X,Y)=0)
distance on définie la distance entre X et Y deux variables aléatoires par d(X, Y ) = E[(X − Y )2 ]
p
espace engendré l’espace engendré par les variables aléatoires X1 , X2 , ...Xk , noté M (X1 , .., Xk ) est
l’ensemble des combinaisons linéaires de ces variables:
M (X1 , .., Xk ) = {λ1 X1 + ... + λk Xk , λ ∈ Rk } = {Xλ, λ ∈ Rk }
en notant X = (X1 , ..., Xk ), λ = (λ1 , ...λk )
projection PM (X1 ,..,Xk ) (Y ) = Xα la projection linéaire d’une variable Y sur M (X1 , .., Xk ) est telle que
E[(Y − Xα)2 ] ≤ E[(Y − Xβ)2 ], ∀β
c’est le vecteur de M (X1 , .., Xk ) le plus proche de Y au sens de la distance d définie ci-dessus.
propriété de la projection linéaire la projection linéaire est orthogonale au plan M (X1 , .., Xk ).
Ainsi:
∀j ∈ (1, .., k) : E[(Y − PM (X1 ,..,Xk ) (Y ))Xj ] = 0
et donc ∀j ∈ (1, .., k):
α1 E(X1 Xj ) + ... + αk E(Xk Xj ) = E(Y Xj )
en notant:
E(X12 ) E(X1 Xk )
...
ΣX = .
.. .. ..
. .
E(X1 Xk ) ... E(Xk2 )
la matrice de covariance de X, et si cette matrice est inversible (si les Xj ne sont pas linéairement dépendants)
on a
E(Y X1 )
α = Σ−1 ..
.
X
E(Y Xk )
Pythagore
||Y ||2L2 = ||PM (X1 ,..,Xk ) ||2L2 + ||Y − PM (X1 ,..,Xk ) ||2L2
extension de la loi des grands nombres lorsque l’on s’intéresse à un processus stochastique (Yt )t∈Z on
aimerait disposer d’un résultat de type loi P
des grands nombres sur une trajectoire du processus. Par exemple
T
on aimerait que la moyenne empirique T1 t=1 Yt converge p.s. vers E(Y0 ) lorsque T → ∞. Celà n’est pas
toujours vrai, notamment quand la dépendance temporelle entre les observations est trop “forte”. Nous
admettrons le théorême suivant:
2
théorême soient H : (Rd )Z → R une fonction mesurable, (εi )i∈Z une suite i.i.d. de v.a. à valeur dans Rd .
Posons Yt = H((εi )i∈Z ), alors la série (Yt )t∈Z est stationnaire forte (voir plus loin) et, si Y0 est intégrable:
T
1X
lim Yt = E(Y0 ), p.s.
T →∞ T
t=1
exemple: voir plus loin le cas d’une moyenne mobile infinie.
3
Notion de stationnarité, auto-covariance, auto-corrélation
Pour pouvoir espérer prévoir le futur d’une série chronologique (Yt ), il est nécessaire que cette série présente
une certaine reproductibilité. Cela permet que l’inférence effectuée sur certains paramètres de loi ou de
modèle (corrélation, régression linéaire. . . ) soit pérenne dans le temps.
définition soit un processus aléatoire (Yt )t∈Z , il est dit stationnaire au sens fort (ou strictement) si pour
toute fonction f mesurable f (Y1 , Y2 , ..., Yt ) et f (Y1+h , Y2+h , ..., Yt+h ) ont la même loi.
Cette notion de stationnarité forte est très difficile à vérifier en pratique. On lui préfère généralement la
notion de stationnarité faible qui porte sur les moments d’ordre 1 et 2 du processus.
définition la fonction d’auto-covariance d’un processus Yt∈Z
cov(Yt , Yt+h ) = γ(h)
définition la fonction d’auto-corrélation d’un processus Yt∈Z
ρ(h) = γ(h)/γ(0)
remarque γ(h) et ρ(h) sont des fonctions symétriques, ρ(0) = 1.
définition soit un processus aléatoire (Yt )t∈Z tel que E(Yt2 ) < ∞, il est dit stationnaire au sens faible (ou
d’ordre 2) si son espérance est constante et ses auto-covariances sont stables dans le temps ie:
∀t E(Yt ) = µ
∀t , ∀h cov(Yt , Yt+h ) = γ(h)
On remarque que var(Yt ) = γ(0) et donc qu’un processus stationnaire faible à une variance constante dans le
temps.
En pratique, pour apprécier la stationnarité d’un processus, on commence d’abord par vérifier que sa moyenne
et sa variance sont constantes dans le temps.
exercice selon vous quel(s) processus ci-dessous est(sont) stationnaire(s)? Pourquoi?
4
2
10
X1
X2
0
−3
0
0 50 100 200 300 0 50 100 200 300
Index Index
2
3
1
0
X3
X4
−2
−3
0 50 100 200 300 0 50 100 200 300
Index Index
Voilà quelques examples de processus stationnaires:
• un bruit blanc εt vérifiant E(εt ) = µ et var(εt ) = σ 2
preuve on a par définition cov(εt , εt+h ) = 0
• Le processus gaussien (Yt )t∈Z tel que E(Yt ) = µ et cov(Yt , Yt+h ) = α|h| (|α| < 1) est faiblement
stationnaire. Tout processus gaussien stationnaire faible est stationnaire fort.
• le processus moyenne mobile Xt = εt + a1 εt−1 + a2 εt−2 + ... + aq εt−q
preuve
γ(0) = σ 2 (1 + a21 + ... + a2q )
γ(1) = σ 2 (a1 + a1 a2 + ... + aq−1 aq )
...
γ(q) = σ 2 (aq )
γ(q + h) = 0
• processus autorégressif d’ordre 1:
Yt = aYt−1 + εt
en supposant que |a| < 1 on a bien E(Yt ) = 0 et
σ2
var(Yt ) = σ 2 (1 + a + a2 + ...) =
1 − a2
pour tout h > 0:
σ 2 ah
γ(h) = σ 2 (ah + ah+2 + ...) =
1 − a2
5
comme de plus γ(h) = γ(−h),
σ 2 a|h|
γ(h) =
1 − a2
on remarque que pour ce processus ρ(h) = a|h| , donc l’autocorrélation tend vers 0 à une vitesse exponentielle.
• soit (Xt )t∈Z un processus stationnaire d’espérance
P µ et de fonction d’autocovariance γ(h), (ai )i∈Z une
suite de nombres réels absolument sommable i∈Z |ai | < ∞, alors Yt = i∈Z ai Xt−i est un processus
P
stationnaire.
tout d ’abord, on remarque que
X X X
||ai Xt−i || = |ai |||Xt−i || = Var(X) + E(X)2
p
|ai | < ∞
i∈Z i∈Z i∈Z
ai Xt−i est donc bien convergente au sens de L2 et Yt est de carré intégrable.
P
i∈Z
on vérifie également que E(Yt ) ne dépend pas de t:
X X X
E( ai Xt−i ) = ai E(Xt−i ) = µ ai
i∈Z i∈Z i∈Z
ainsi que sa fonction d’autocovariance:
X X
cov(Yt , Yt+h ) = cov( ai Xt−i , aj Xt+h−j )
i∈Z j∈Z
XX
cov(Yt , Yt+h ) = ai aj cov(Xt−i , Xt+h−j )
i∈Z j∈Z
XX
cov(Yt , Yt+h ) = ai aj γ(h + i − j))
i∈Z j∈Z
En pratique, on ne connait pas explicitement les fonctions d’auto-covariance et d’auto-corrélation. Il est donc
nécessaire de les estimer en se basant sur des observations.
Pn
définition soit une série d’observations (yt )t∈(1,...,n) , notons ȳ = n1 t=1 yt , alors la fonction d’auto-covariance
empirique vaut, pour tout h ∈ (0, ..., n − 1)
n
1 X
b(h) =
γ (yt − ȳ)(yt−h − ȳ)
n−h
t=h+1
Pn
définition soit une série d’observations (yt )t∈(1,...,n) , notons ȳ = 1
n t=1 yt , alors la fonction d’auto-corrélation
empirique vaut, pour tout h ∈ (0, ..., n − 1)
Pn
k=h+1 (yt − ȳ)(yt−h
1
n−h − ȳ)
ρb(h) = Pn
t=1 (yt − ȳ)
1 2
n
Le graphique représentant la fonction d’auto-corrélation empirique est appelé l’auto-corrélogramme.
exemple voilà un exemple de série et son auto-corrélogramme, à votre avis de quel type de série s’agit-il?
6
2
1.0
0.8
1
0.6
0
ACF
0.4
y
−1
0.2
0.0
−2
0 50 100 150 200 0 5 10 15 20
Index Lag
Corrélation et auto-corrélation partielle
Lorsque l’on s’intéresse à caractériser les dépendances d’au moins 3 variables aléatoires, il est nécessaire
d’introduire la notion de corrélation partielle. En effet,si l’on considère les variables X1 , ..., Xk , X1 peut être
corrélée à X3 parce que X1 et X3 sont toutes deux corrélées à X2 . Voilà quelques exemples frappants:
définition soit les variables aléatoires X1 , ..., Xk , le coefficient de corrélation partielle entre X1 et Xk
abstraction faite de X2 , ..., Xk−1 est définie par:
rX2 ,..,Xk−1 (X1 , Xk ) = ρ(X1 − PM (X2 ,..,Xk−1 ) , Xk − PM (X2 ,..,Xk−1 ) )
exercice soit X, Z1 , Z2 3 variables aléatoires indépendantes centrées de variance 1, et les variables X1 et X2
définies ainsi:
X1 = X + Z1 et X2 = X + Z2
Calculer ρ(X1 , X2 ) puis rX (X1 , X2 ). Commenter.
définition soit un processus aléatoire (Yt )t∈Z stationnaire faible centré. La fonction d’auto-corrélation
partielle est définie de la manière suivante:
r(1) = ρ(1)
r(h) = rY2 ,...,Yh (Y1 , Yh+1 ), ∀h ≥ 2
r(h) = r(−h)
on remarque que r(h) = rY2 ,...,Yh (Y1 , Yh+1 ) = rYk ,...,Yk+h (Yk , Yk+1+h ) car le processus est stationnaire.
Pour obtenir l’auto-corrélation partielle d’un processus, voyons les propriétés suivantes.
7
Figure 1: exemple de corrélations falacieuses, source: http://www.courrierinternational.com/grand-
format/statistiques-les-correlations-de-labsurde
8
propriété considérons un processus stationnaire faible (Yt )t∈Z . Supposons le centré et notons γ sa fonction
d’autocovariance.
La projection de Yt sur son passé (espace vectoriel engendré par (Yt−1 , .., Yt−k )) s’écrit:
k
X
PMt−1
k (Yt ) = bk,j Yt−j
j=1
ou les coefficients s’obtiennent ainsi:
k
X
E(Yt Yt−i ) = bk,j E(Yt−j Yt−i )
j=1
k
X
γ(i) = bk,j γ(i − j)
j=1
en notant Γk la matrice [γ(i − j)]1≤i,j≤k on a:
bk,1 γ(1)
.. −1 .
. = Γk ..
bk,k γ(k)
propriété soit un processus stationnaire faible (Yt )t∈Z et PMt−1
k (Yt ) = bk,1 Yt−1 + ... + bk,k Yt−k sa projection
sur son passé, alors on a son auto-corrélation partielle d’ordre k vaut r(k) = bk,k .
preuve
Pour k = 1 c’est évident.
Pour k ≥ 2, calculons
cov(Yt − PM k−1 (Yt ), Yt−k − PM k−1 (Yt−k ))
t−1 t−1
remarquons que
k−1
X
PMt−1
k (Yt ) = bk,j Yt−j + bk,k (Yt−k − PM k−1 (Yt−k )) + bk,k PM k−1 (Yt−k )
t−1 t−1
j=1
comme Yt−k − PM k−1 (Yt−k ) est orthogonal à Mt−1
k−1
(Yt ), en projetant sur Mt−1
k−1
(Yt ) on a:
t−1
k−1
X
PM k−1 (Yt ) = bk,j Yt−j + bk,k PM k−1 (Yt−k )
t−1 t−1
j=1
et donc:
cov(Yt − PM k−1 (Yt ), Yt−k − PM k−1 (Yt−k )) = cov(Yt − PMt−1
k (Yt ) + bk,k Yt−k − bk,k PM k−1 (Yt−k ), ...)
t−1 t−1 t−1
=cov(Yt − PMt−1
k (Yt ), Yt−k − PM k−1 (Yt−k )) + bk,k var(Yt−k − PM k−1 (Yt−k ))
t−1 t−1
=bk,k var(Yt−k − PM k−1 (Yt−k ))
t−1
9
car Yt − PMt−1
k (Yt ) est orthogonal à Mt−1
k
(Yt ). De plus, var(Yt−k − PM k−1 (Yt−k )) = var(Yt − PM k−1 (Yt )) et
t−1 t−1
on a bien:
r(k) = bk,k
On a donc que l’auto-corrélation partielle d’ordre k s’obtient comme le dernier coefficient du vecteur:
bk,1 γ(1)
.. −1 .
. = Γk ..
bk,k γ(k)
En pratique, pour estimer la fonction des auto-corrélations partielles, on utilise l’algorithme de Durbin qui
permet d’obtenir les auto-corrélations partielles de manière récursive (notons que, plus généralement, cet
algorithme permet d’obtenir efficacement les coefficients d’une régression linéaire si on ajoute une variable à
un modèle existant).
algorithme de Durbin l’agorithme de Durbin permet d’obtenir les auto-corrélation partielles r(k) = bk,k
d’un processus processus stationnaire faible (Yt )t∈Z via la formule récursive suivante:
bk,j = bk−1,j − bk,k bk−1,k−j , ∀j = 1, ..., k − 1
Pk−1
γ(k) − j=1 γ(k − j)bk−1,j
bk,k = Pk−1
γ(0) − j=1 γ(j)bk−1,j
preuve
On a
k−1
X
PM k−1 (Yt ) = bk,j Yt−j + bk,k PM k−1 (Yt−k )
t−1 t−1
j=1
Pk−1
De plus PM k−1 (Yt ) = j=1 bk−1,j Yt−j et
t−1
k−1
X k−1
X
PM k−1 (Yt−k ) = bk−1,j Yt−(k−j) = bk−1,k−j Yt−j
t−1
j=1 j=1
ce qui donne les équations, ∀j ∈ (1, ..., k − 1)
bk,j = bk−1,j − bk,k bk−1,k−j
or rappelons nous que:
bk,1 γ(1)
.. −1 .
. = Γk ..
bk,k γ(k)
et donc:
10
k
X
bk,j γ(k − j) = γ(k)
j=1
ce qui permet d’avoir finalement:
Pk−1
γ(k) − j=1 γ(k − j)bk−1,j
bk,k = Pk−1
γ(0) − j=1 γ(j)bk−1,j
11