Modélisation ARMA et ARIMA en économétrie
Modélisation ARMA et ARIMA en économétrie
S. Fofana 1
1. ENSAE-Sénégal, Immeuble ANSD, Rocade Fann Bel-air Cerf-volant, BP 45512 Dakar RP - SENEGAL,
e-mail : fof_sn@[Link], [Link]@[Link]
1
Chapitre 3
Ensuite, il examine les graphiques en notant l’allure générale, l’existence d’une tendance ou
d’une composantes périodique ou quasi périodiques, la présence de valeurs aberrantes, etc.
2
1.3 Identification ou Spécification du modèle
L’étape d’identification ou de la spécification d’un processus ARIMA(p, d, q) consiste à
observer la nature des fonctions empiriques d’autocorrélation et d’autocorrélation partielle,
de la série elle-même, pour choisir les ordres des parties AR (choix de l’entier p) et MA
(choix de l’entier q), ainsi que l’ordre d’intégration (choix de l’entier d), une fois la série
stationnarisée.
Ordre q
Théorème 1 Test de Bartlett
Soit (Xt )t∈Z un processus MA(q) stationnaire gaussien.
Sous l’hypothèse H0 : ρ(h) = 0 pour h > q (i.e. que les autocorrelations ne sont pas
significativement differents de zero), on a quand T −→ +∞
q
√ X
T ρ̂(h) −→ N 0, 1 + 2 ρ̂2 (i)
i=1
Le test est bilatéral symétrique, la région de rejet de H0 est ] − ∞, −t1− α2 ] ∪ [t1− α2 , +∞[.
– |tρ̂(h) | < t1− α2 , on accepte l’hypothèse H0 : ρ(h) n’est pas significatif
– |tρ̂(h) | ≥ t1− α2 , on rejette l’hypothèse H0 : ρ(h) est significatif
Sous l’hypothèse H0 : ρX (h) = 0, l’intervalle de confiance
q de ρ̂X (h), au risque de premier
" Ph−1 2 #
1 + 2 i=1 ρ̂X (i)
espèce α = 5% est donnée par : ρ̂X (h) ∈ 0 ± 1, 96
T 1/2
Donc ce théorème nous permet d’identifier l’ordre q tout en sachant ρ(h) = 0 au-delà de q
ie pour tout h ≥ q + 1.
Ordre p
Théorème 2 de Quenouille
Soit (Xt )t∈Z un processus AR(p) stationnaire gaussien. Sous l’hypothèse H0 : φhh = 0 pour
tout h ≥ p + 1, on quand T −→ +∞
√
T φ̂hh −→ N (0, 1)
φ̂hh
Pour tester la nullité des autocorrelation partielles, on compare la statistique tφ̂hh = q
1
T
et la valeur critique d’une loi de student à T − k degré de liberté où k est le nombre de
paramètre à estimer.
– |tφ̂hh | < t1− α2 , on accepte l’hypothèse H0
– |tφ̂hh | ≥ t1− α2 , on rejette l’hypothèse H0
Sous l’hypothèse H0 : φhh = 0, l’intervalle de confiance de φ̂hh , au risque de premier espèce
h 1 i
α = 5% est donnée par : φ̂hh ∈ 0 ± 1, 96 1/2
T
3
Donc ce théorème nous permet d’identifier l’ordre p tout en sachant φhh = 0 au-delà de p
i.e. pour h ≥ p + 1.
Ces intervalles permettent de décider empiriquement quel est l’ordre p pour un processus
AR(p) et quel est l’ordre q pour un processus M A(q). Ces ordres correspondent aux valeurs
de h pour lesquelles l’ACF empirique et le PACF empirique se trouvent à l’extérieur des
intervalles de confiance.
Détermination de l’entier d
Si la trajectoire observée est issue d’un processus stationnaire, on dira que (Xt )t∈Z est intégré
d’ordre zéro, sinon on suppose qu’il existe un entier d > 0 tel que (I −B)d Xt est stationnaire,
et on dira que le processus (Xt )t∈Z est intégré d’ordre d. Cependant dans la majorité des
cas rencontrés en pratique, l’entier d correspondant à l’ordre d’intégration est inférieur ou
égal à 1. Ainsi pour déterminer d, dans le cas de la modélisation ARIM A, deux hypothèses
s’imposent
H0 : d = 0
contre
H1 : d = 1.
On peut se servir des tests de racine unitaire de Dickey-Fuller (1979, 1981) ou de Phillips-
Perron (1988) pour le choix de d à partir des données dont on dispose.
Le cas d ∈]0, 1[ sera traité pour les modèles à longue mémoire, commme le modèle F ARIM A.
4
p
X
2
σX = γ(i)φi + σε2
i=1
Γφt = ρt
où Γ est la matrice de variance-covariance normée du processus (Xt )t∈Z .
Γ est symétrique et est à valeurs propres λi > 0, donc Γ est définie positive. Γ étant une
matrice définie positive, Γ est donc régulière et admet donc une inverse Γ−1 ,
Γφt = ρt =⇒ φt = Γ−1 ρt .
Donc un estimateur de φ = (φ1 , φ2 , . . . , φp ), noté φ̂, est donné par : φ̂t = Γ̂−1 ρ̂t .
Proposition 1.1
La distribution des estimateurs de Yule-Walker φ̂ du model paramétrique d’un processus
AR(p) causal
Xt = φ1 Xt−1 + ... + φp Xt−p + εt .
est asymptotiquement normale,
√ d
n(φ̂ − φ) −→ N (0, σ 2 Γ−1
p )
et
d
σ̂ε −→ σε2
Mise en oeuvre
Splus effectue cette estimation à l’aide de la fonction ar(), avec l’option par défaut
method="yule-walker".
5
suivent une loi normale de moyenne nulle et de variance σε2 .
Notons θ = (θ1 , θ2 , . . . , θq , φ1 , φ2 , . . . , φp , σε2 ) le paramètre à estimer.
Mise en oeuvre
Avec S-Plus, l’estimation des paramètres d’un processus ARMA se fait à l’aide de la fonction
[Link]() qui prend en argument le nom de la série et le modèle spécifié.
[Link](serie, model=list(order=c(1,0,1)))
oubien en spécifiant les valeur initiales de l’algorithme de minimisation
[Link](serie, model=list(order=c(ar=0.2, ma=0.6))
6
on spécifie ce modèle à l’aide de l’option [Link] de la manière suivante :
[Link]<-list(order=c(3,0,4), [Link]=c(T,F,T), [Link]=c(T,F,F,T))
puis on utilse la fonction [Link]() de la même manière pour les ARMA classiques.
Remarque
La méthode des MCO est inapplicable pour les modèles M A(q) et ARM A(p, q), car εt−q ,
variable aléatoire explicative du modèle, est inobservable.
La méthode des MCO est applicable pour les modèles AR(p) car les termes d’erreurs sont non
corrélés et la variance non conditionnelle constante mais toutefois elle reste moins perfor-
mante que l’estimateur de la vraisemblance maximale.
t=1
Régle de décision
– Si |tφ̂p | < t1− α2 , on accepte l’hypothèse H0 de processus ARM A(p − 1, q).
– Si |tφ̂p | ≥ t1− α2 , on rejette H0 et on retient un processus ARM A(p, q).
Sous l’hypothèse H0 : φp = 0, pour le modèle,h l’intervalle de
i confiance de φ̂p , au risque de
premier espèce α = 5% est donnée par : φ̂p ∈ 0 ± 1, 96σ̂φ̂p .
0
On peut appliquer un raisonnement similaire pour tester l’hypothèse nulle : H0 : p = p et
0
q = q − 1.
Mise en oeuvre
On compare donc la valeur absolue de chacun des paramètres estimés avec sa variance.
Ainsi, si la valeur absolue du paramètre est plus grande que 1.96×l’écart-type du
paramètre, alors on rejette, au risque de α = 0.05, l’hypothèse de nullité du paramètre. On
7
suppose que les paramètres estimés sont dans [Link] ( [Link]<–-[Link](.,.)).
Ce qui donne les commandes suivantes :
abs([Link]$model$ar)>1.96*sqrt([Link]$[Link][1,1])
[1] T
abs([Link]$model$ma)>1.96*sqrt([Link]$[Link][2,2])
[1] T
abs([Link]$coef[1])>1.96*sqrt([Link]$[Link][1,1])
[1] T
abs([Link]$coef[2])>1.96*sqrt([Link]$[Link][2,2])
[1] T
8
PT −k
t=1 (et − e)(et+k − e)
ρ̂e (k) = PT 2
t=1 (et − e)
est la fonction d’autocorrélation d’ordre k des résidus estimés sur l’échantillon de la
série, T est la longueur de la série et K est le nombre de retards choisis pour calculer les
autocorrélation
T et est conseillé d’être choisi proche du tiers du nombre d’observation,
K= 3 .
Le test à effectuer sur la fonction d’autocorrélation des résidus est donc
H0 : ρ̂e (1) = ρ̂e (2) = . . . = ρ̂e (K) = 0
contre
H1 : il ∃ au moins un h telle que ρ̂e (h) 6= 0
c’est dire H0 : les résidus sont un bruit blanc contre H1 : les résidus ne sont pas un
bruit blanc.
Régle de décision
– Si BPK > χ2(1−α) (K − (p + q)), on rejette H0 : les résidus ne sont pas un bruit blanc.
– Si la P -value< 0.05 alors on rejette l’hypothèse nulle au seuil de 5% et donc les résidus
sont autocorrélés à l’ordre K − (p + q).
Définition
On appelera P -value, ou puissance du test, la probabilité 1 − β, probabilité de rejeter
H0 en ayant raison, β étant le risque de second espèce.
Ljung et Box (1978) introduisent une modification de la statistique de BPK qui améliore
l’approximation vers la distribution de χ2 lorsque la taille de l’échantillon est petite.
Celle-ci est définie par K
X ρ̂2e (k)
LBK = T (T + 2) .
T −k
k=1
Sous l’hypothèse nulle d’absence d’autocorrélation :
Mise en oeuvre
Pour effectuer ce test sur les résidus, on utilise, sous S-Plus, la fonction [Link]().
Cette fonction renvoie la trajectoire des résidus, l’ACF des résidus, le PACF et le
graphique des résultats du test de portmanteau de Box et Pierce. On a :
[Link]([Link])
residus<–-[Link]([Link], plot=F)$[Link] // permet de recupérer la
série des résidus.
9
[Link](x, lag = 1, type = c("Box-Pierce", "Ljung-Box"))
On montre que 1
E(εt ) = 0, V (εt ) = ση2
1 − φ2
1
cov(εt , εt−j ) = φj ση2 .
1 − φ2
L’autocorrélation entre εt et εt−1 ou l’autocorrélation d’ordre 1, est
cov(εt , εt−1 )
ρ1 = p p (1)
V (εt ) V (εt )
= φ
εt = ρ1 εt−1 + ηt
où (et )t=1,...,T est la série des résidus issue de l’estimation du modèle de régression.
Cette approximation de DW , quant T est grand, vers 2(1 − ρe (1)) simplifie la lecture
du test. Ainsi une valeur de DW proche de 0 signifie une autocorrélation positive,
une valeur proche de 4 une autocorrélation négative et une valeur proche de 2 la non
autocorrélation.
10
Régle de décision
– Si DW < d1 (T ), on rejette H0
– Si DW > d2 (T ), on accepte H0
– Si d1 (T ) < DW < d2 (T ), on ne peut rien conclure.
Mise en oeuvre
dwtest(formula, [Link] = NULL, alternative = c("greater","[Link]","less"),
iterations = 15, exact = NULL, tol = 1e-10, data = list())
11
Remarque
Si les résidus sont de moyenne nulle et ne sont pas corrélés, on peut parler de bruit blanc
mais le phénomène de "volatility clustering" (agrégats de volatilité), à savoir que les péri-
odes de forte volatilité alternent avec les périodes de faible volatilité et la distribution
à queue épaisse (Kurtosis>3) peut se poser. Il faut dans ce cas regarder les autocor-
rélations des résidus au carré. Si ces derniers sont corrélés, on en déduit que les résidus
sont non-corrélés mais pas indépendants. L’hypothèse de processus ARIMA(p,d,q) pur
est donc rejetée. On est donc amené à modéliser la variance des erreurs. Le modèle
le plus populaire est le modèle GARCH(p,q) (Generalized Auto Regressive Conditionnal
Heteroscedasticity).
– Tests de normalité
Il existe deux grandes familles de Tests de Normalité :
– La famille des tests paramétriques, on peut citer par exemple, les tests de Skewness,
Kurtosis et Jarque-Bera. Pour ces tests paramétriques, on spécifie sous H0 , l’égalité
entre le paramètre inconnu et une norme. Par exemple, on teste la normalité d’une
variable aléatoire en égalisant le paramètre du Jarque-Bera à 0 sous H0 .
Ces tests paramètrique sont asymptotiquement puissants ce qui signifie que l’on ne peut
les appliquer à des séries d’observation que si l’on dispose d’un nombre d’observations
suffisant, au minimum trente observations.
– La famille des tests non paramétriques, on peut citer par exemple, les tests de
Kolmogorov Smirnov, Cramér-Von Mise, Anderson Darling, Shapiro-Wilk et Shapiro-
Francia. Pour ces tests on ne spécifie pas sous H0 l’égalité d’un paramètre à une norme,
mais de façon plus générale l’égalité entre les distributions de probabilité empirique et
théorique.
Tests de Skewness et Kurtosis
On peut regarder les moments d’ordre supérieur et la distribution empirique des résidus
estimés. On regarde particulièrement les moments d’ordre 3 et 4 qui correspondent re-
spectivement au Skewness et au Kurtosis et qui sont estimés par leurs valeurs empiriques,
ˆ e et K̂e , définies par :
Sk
T
X T
X
1
T (et − e)3 1
T (et − e)4
ˆ e = µ3 = µ 3 =
Sk t=1 µ4 µ4
= 2 2 = t=1
σ3 (σ 2 )3/2 XT 3/2 , K̂e =
σ 4 (σ ) T
X 2
1
T (ei − e)2 1
T (ei − e)2
t=1 t=1
On sait que
– Pour une distribution symétrique, en particulier pour la loi normale, sa moyennne est son
point symétrique et ses moments centrés d’ordre impaire sont nuls, donc son Skewness
est nul.
– Pour une distribution normale, le Kurtosis est égale à 3.
Donc
– Si Skewness Sk ˆ e = 0 ⇒ la distribution des résidus est symétrique.
– Si Kurtosis K̂e = 3 ⇒ la distribution des résidus semble être normale.
Si ceci est vérifié on a : et ∼ N (0, σε2 ).
12
On peut aussi se servir des lois limites suivantes pour effectuer les tests
Sk L
q −−−−−→N (0, 1)
6 T →+∞
T
K −3 L
q −−−−−→N (0, 1)
24 T →+∞
T
Sous R
library(tseries)
[Link](serie)
Il y a aussi des tests distributionnels des résidus comme Fisher, Student, qui testent la
Gaussianité.
13
La distribution de la statistique Dn est indépendante de F (x) si F (x) est continue; le
test est donc un test non paramétrique.
Suivant Kolmogorov, pour toute valeur de z ≥ 0, on a
z
P Dn ≤ √ −−−→ K(z)
n n→∞
Pour z < 0 on a z
P Dn ≤ √ −−−→ K(z) = 0
n n→∞
La Table de K(z) est calculée par N. Smirnov (1939).
Pour voir de prés la distribution empirique des résidus estimés et , on peut tracer
l’histogramme et la densité de distribution des résidus standardisés à l’aide respective-
ment des fonctions hist() et density() sous S-Plus.
Mise en oeuvre
On suppose avoir recupérer la série des résidus dans residus, on a :
hist(residus, main="histogramme des résidus")
14
Remarque
La remise en cause de l’hypothèse de normalité de la série des résidus doit conduire à
s’interroger sur l’existence de points extrêmes dans la série (considérés comme des points
aberrants) et sur leur traitement.
Remarque
Si l’hypothèse de bruit blanc est rejeté sur la série résiduelle, autrement dit si on a du
bruit correlé, la regression linéaire peut être remplacée par une méthode stochastique
d’interpolation spatiale appelé krigeage en géostatistique.
Plus la valeur de ces critères est faible, plus le modèle estimé est proche des observations.
Le RMSE est très utile pour comparer plusieurs estimateurs, notamment lorsque l’un
d’eux est biaisé. Si les deux estimateurs à comparer sont sans biais, l’estimateur le plus
efficace est simplement celui qui a la variance la plus petite.
– Critères d’information
Ces critère proposent la minimisation en (p, q) de la fonction considérée
– Le critère d’Akaike (1969) :
2(p + q)
AIC(p, q) = log σ̂ε2 +
T
Si les vrais ordres du modèle sont (p0 , q0 ), le critère AIC de manière pratique à tendance
à choisir p̂ > p0 et q̂ > q0 .
Pour obtenir un estimateur de (p0 , q0 ) consistant, on utilise la version modifiée du critère
AIC : le critère BIC.
– Le critère d’information bayesien d’Akaike (1977) ou de Schwarz (1978) :
log T
BIC = log σ̂ε2 + (p + q)
T
15
Ce critère est plutôt recommandé pour les modèles ARM A.
– Le critère d’information de Hannan-Quinn (1979) :
log T
HQ = log σ̂ε2 + α(p + q) log ,
T
où α est une constante à spécifier (α > 2), p est l’ordre de la partie AR et q est l’ordre de
la partie M A.
On choisit le modèle qui minimise les critères standards et les critères d’information. Le
modèle sélectionné sera alors utilisé pour la prévision.
1.6 Prévision
Considérons un processus ARM A(p, q) défini par l’équation:
Φ(B)Xt = Θ(B)εt
On veut prédire les valeurs futures Xt+1 , ..., Xt+h de la série (Xt ) à partir des valeurs
observées {X1 , X2 , ..., Xt , ε1 , ε2 , ..., εt }.
Soit X̂t (h) le prédicteur de (Xt )t∈Z à l’instant t et à l’horizon h > 0 (oubien la
valeur prévue au temps t + h de (Xt ) c’est à dire la valeur estimée de la valeur prévue
pour l’instant futur t + h, calculée au moment présent t). Par définition, on a l’expréssion
suivante :
X̂t (h) = E(Xt+h |It )
où It = σ(X1 , . . . , Xt , ε1 , . . . , εt ) est l’ensemble d’information disponible à la date t.
Ce prédicteur représente la meilleure prévision de la série Xt conditionnellement à l’ensemble
d’information disponible.
Exemple
Soit un processus ARM A(1, 1) défini par l’équation suivante :
Φ(B)
Φ(B)Xt = Θ(B)εt ⇔ Xt = εt
Θ(B)
= Ψ(B)εt .
Soit,
Xt = εt + ψ1 εt−1 + ψ2 εt−2 + ψ3 εt−3 + ...
Donc la prévision théorique peut s’écrire de la forme suivante :
On a alors
16
Pour h = 1 et h = 2, on obtient respectivement :
En supposant que εt est un bruit blanc gaussien de variance σε2 , et+h obéit donc à une loi
N (0, σe2 ) où σe2 la variance de l’erreur de prévision est donnée par
h−1
X 2 h−1
X
V (et+h ) = E ψi εt+h−i = ψi2 E(εt+h−i )2
i=0 i=0
h−1
X
= σε2 ψi2 .
i=0
La précision des estimations est donc d’autant plus forte que la variance du bruit blanc
est faible. Et cette précision diminue quand on veut prévoir plus loin dans le futur car la
variance de l’erreur de prévision, dépendant aussi de l’horizon h, devient élevée.
On peut enfin construire un intervalle de confiance autour des prévisions réalisées. En effet,
par hypothèse les εt sont un bruit blanc gaussien; la distribution conditionnelle de la valeur
à prévoir est donc une variable aléatoire d’espérance X̂t (h) et d’écart-type σ(êt+h ).
Ainsi, la valeur observée :
Par conséquent, pour toute valeur de α comprise entre 0 et 1, la relation suivante est obtenue:
h−1 h−1
" X 1/2 X 1/2 #
P X̂t (h) − q1−α/2 × σ̂ε ψj2 ≤ Xt+h ≤ X̂t (h) − q1−α/2 × σ̂ε ψj2 =1−α
j=0 j=0
où σ̂ε est l’estimation de l’écart-type σε du bruit blanc et q1−α/2 le quantile d’ordre 1 − α/2
de la loi normale centrée reduite (α = 5% =⇒ q1−α/2 = 1.96).
17
On calcule les prévisions en utilisant, une version tronquée et corrigée de la moyenne de
l’equation (??), voir Brockwell et Davis (1991), p. 533 :
T −1+h
X
X̂t (h) = ψh+i εt−i (3)
i=0
Mise en oeuvre
[Link]<-rts(serie, start=1)
[Link]<-[Link]([Link], [Link]$model,n=20)
[Link]<-[Link]$mean-1.96*[Link]$[Link]
[Link]<-[Link]$mean+1.96*[Link]$[Link]
[Link]([Link],[Link]$mean,[Link],[Link],main="prevision à
l’horizon h=20")
Il convient dès lors d’examiner les différentes méthodes pour intégrer l’information exogène
disponible dans des modèles dits multivariés.
18