0% ont trouvé ce document utile (0 vote)
249 vues18 pages

Modélisation ARMA et ARIMA en économétrie

Ce document présente les étapes de la méthode de modélisation des séries chronologiques de Box-Jenkins. Il décrit les 7 étapes de la méthode incluant la familiarisation avec les données, l'analyse préliminaire, l'identification du modèle, l'estimation des paramètres, la validation du modèle, la prévision et l'interprétation des résultats.

Transféré par

Mansour laye Thiaw
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
249 vues18 pages

Modélisation ARMA et ARIMA en économétrie

Ce document présente les étapes de la méthode de modélisation des séries chronologiques de Box-Jenkins. Il décrit les 7 étapes de la méthode incluant la familiarisation avec les données, l'analyse préliminaire, l'identification du modèle, l'estimation des paramètres, la validation du modèle, la prévision et l'interprétation des résultats.

Transféré par

Mansour laye Thiaw
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

ENSAE - Sénégal

Ecole Nationale de la Statistique et de l’Analyse Economique


2019 - 2020

Econométrie des Séries Temporelles


Théorie et Pratique

S. Fofana 1

1. ENSAE-Sénégal, Immeuble ANSD, Rocade Fann Bel-air Cerf-volant, BP 45512 Dakar RP - SENEGAL,
e-mail : fof_sn@[Link], [Link]@[Link]

1
Chapitre 3

Modélisation univariée de Box-Jenkins

1 Les étapes de la méthode de Box-Jenkins


Dans cette section on étudie la modélisation des séries chronologiques au moyen des modèles
ARMA et ARIMA. L’approche est essentiellement celle de Box et Jenkins (1976), compléter
par Anderson (1977), Ljung et Box (1978), Roy (1982) . Pour un exposé plus détaillé, voir
par exemple Gourieroux et Monfort (1983) ou Roy (1980).

La méthode se décompose en 7 étapes (Anderson, 1977):


– familiarisation avec les données,
– analyse préliminaire,
– identification ou spécification du modèle,
– estimation des paramètres,
– validation par tests ou test d’adéquation du modèle,
– prévision,
– interprétation des résultats.

1.1 Familiarisation avec les données


Le statisticien commence par s’informer d’abord sur le domaine dont relèvent les données
qu’il a à traiter. Il prend connaissance des théories existantes. Il s’enquiert de la manière
dont les données ont été obtenues (précision, exactitude, périodicité inhérente au phénomène
étudié, du manque d’homogénéité dans le temps, des événements qui ont pu affecter la
grandeur étudiée). Il représente graphiquement les données.

Ensuite, il examine les graphiques en notant l’allure générale, l’existence d’une tendance ou
d’une composantes périodique ou quasi périodiques, la présence de valeurs aberrantes, etc.

1.2 Analyse préliminaire


Ils’agit de prendre un certain nombre d’options:
– abandonner une partie des données au début de la série,
– enquêter au sujet des données aberrantes, puis effectuer des corrections
– suppléer les valeurs manquantes,
– transformer les données (logarithmes, inverses, racine carrée, etc.),
– choisir de travailler en différence ordinaire (opérateur ∇), différence saisonnière (∇s ) ou
les deux différences (∇∇s ),
– etc, etc.
Ces options ne sont pas définitives. Elles doivent permettre de réaliser l’étape d’identification
dans les meilleures conditions possibles.

2
1.3 Identification ou Spécification du modèle
L’étape d’identification ou de la spécification d’un processus ARIMA(p, d, q) consiste à
observer la nature des fonctions empiriques d’autocorrélation et d’autocorrélation partielle,
de la série elle-même, pour choisir les ordres des parties AR (choix de l’entier p) et MA
(choix de l’entier q), ainsi que l’ordre d’intégration (choix de l’entier d), une fois la série
stationnarisée.

Détermination des ordres p et q


Le choix des entiers p et q se fait à l’aide de l’ACF empirique et de la PACF empirique.

Ordre q
Théorème 1 Test de Bartlett
Soit (Xt )t∈Z un processus MA(q) stationnaire gaussien.
Sous l’hypothèse H0 : ρ(h) = 0 pour h > q (i.e. que les autocorrelations ne sont pas
significativement differents de zero), on a quand T −→ +∞
q
√  X 
T ρ̂(h) −→ N 0, 1 + 2 ρ̂2 (i)
i=1

Pour tester l’hypothèse H0 , on utilise le test de Student en compararant la statistique


 
1
h−1  12
ρ̂(h)
X
2
tρ̂(h) = σ̂ , où σ̂ρ̂(h) = 1+2 ρ̂X (i) , et la valeur critique d’une loi de Student à
ρ̂(h) T
i=1
T − q degrés de liberté.

Le test est bilatéral symétrique, la région de rejet de H0 est ] − ∞, −t1− α2 ] ∪ [t1− α2 , +∞[.
– |tρ̂(h) | < t1− α2 , on accepte l’hypothèse H0 : ρ(h) n’est pas significatif
– |tρ̂(h) | ≥ t1− α2 , on rejette l’hypothèse H0 : ρ(h) est significatif
Sous l’hypothèse H0 : ρX (h) = 0, l’intervalle de confiance
q de ρ̂X (h), au risque de premier
" Ph−1 2 #
1 + 2 i=1 ρ̂X (i)
espèce α = 5% est donnée par : ρ̂X (h) ∈ 0 ± 1, 96
T 1/2
Donc ce théorème nous permet d’identifier l’ordre q tout en sachant ρ(h) = 0 au-delà de q
ie pour tout h ≥ q + 1.

Ordre p
Théorème 2 de Quenouille
Soit (Xt )t∈Z un processus AR(p) stationnaire gaussien. Sous l’hypothèse H0 : φhh = 0 pour
tout h ≥ p + 1, on quand T −→ +∞

T φ̂hh −→ N (0, 1)
φ̂hh
Pour tester la nullité des autocorrelation partielles, on compare la statistique tφ̂hh = q
1
T
et la valeur critique d’une loi de student à T − k degré de liberté où k est le nombre de
paramètre à estimer.
– |tφ̂hh | < t1− α2 , on accepte l’hypothèse H0
– |tφ̂hh | ≥ t1− α2 , on rejette l’hypothèse H0
Sous l’hypothèse H0 : φhh = 0, l’intervalle de confiance de φ̂hh , au risque de premier espèce
h 1 i
α = 5% est donnée par : φ̂hh ∈ 0 ± 1, 96 1/2
T

3
Donc ce théorème nous permet d’identifier l’ordre p tout en sachant φhh = 0 au-delà de p
i.e. pour h ≥ p + 1.

Ces intervalles permettent de décider empiriquement quel est l’ordre p pour un processus
AR(p) et quel est l’ordre q pour un processus M A(q). Ces ordres correspondent aux valeurs
de h pour lesquelles l’ACF empirique et le PACF empirique se trouvent à l’extérieur des
intervalles de confiance.

Détermination de l’entier d
Si la trajectoire observée est issue d’un processus stationnaire, on dira que (Xt )t∈Z est intégré
d’ordre zéro, sinon on suppose qu’il existe un entier d > 0 tel que (I −B)d Xt est stationnaire,
et on dira que le processus (Xt )t∈Z est intégré d’ordre d. Cependant dans la majorité des
cas rencontrés en pratique, l’entier d correspondant à l’ordre d’intégration est inférieur ou
égal à 1. Ainsi pour déterminer d, dans le cas de la modélisation ARIM A, deux hypothèses
s’imposent
H0 : d = 0
contre
H1 : d = 1.
On peut se servir des tests de racine unitaire de Dickey-Fuller (1979, 1981) ou de Phillips-
Perron (1988) pour le choix de d à partir des données dont on dispose.

On retiendra en pratique, que la présence d’une tendance linéaire entraine le choix d = 1 et


qu’une moyenne constante entraine le choix d = 0.

Le cas d ∈]0, 1[ sera traité pour les modèles à longue mémoire, commme le modèle F ARIM A.

1.4 Estimation des paramètres


Il existe de nombreuses méthodes concurrentes d’estimation des paramètres d’un processus
ARIMA. On se réfère à Box et Jenkins (1970), Brockwell et Davis (1987) ou Hamilton (1994)
pour une revue des différentes méthodes d’estimation. Nous nous contentons de présenter ici
la méthode de Yule-Walker pour estimer les paramètres d’un processus AR(p) et la méthode
de maximum de vraisemblance pour le cas des processus ARMA(p, q).

Cas des processus AR(p)


Pour ce type de processus, nous proposons, pour l’estimation des paramètres, la méthode
de Yule-Walker.
Soit (Xt )t∈Z un processus AR(p), défini par :
Φ(B)Xt = εt εt ∼ BB(0, σε2 )
ou par
Xt = φ1 Xt−1 + φ2 Xt−2 + ... + φp Xt−p + εt où (φi )i=1,...,p ∈ Rp
Les paramètres à estimer ici sont : φ1 , φ2 , . . . , φp et la variance résiduelle, σε2 .

On a, pour tout h = 1, ..., p


p
X
φi ρ(h − i) = ρ(h)
i=1
Equation de Yule-Walker

4
p
X
2
σX = γ(i)φi + σε2
i=1

où σX2 est la variance du processus (X ) 2


t t∈Z , égale à γ0 , et σε est la variance du processus
bruit blanc (εt )t∈Z .
En écriture matricielle, l’équation de Yule-Walker peut se mettre sous la forme suivante:
    
1 ρ1 ρ2 . . . ρp−1 φ1 ρ1
 ρ1 1 ρ2 . . . ρp−2    φ2   ρ2 
   

 .. .
.. .. . .
..   ..  =  .. 
    .
 .
 .   


 .. .. . . .
.   .
.   .
. 
 . . . .  .   . 
ρp−1 ρp−2 . . . . . . 1 φp ρp

Γφt = ρt
où Γ est la matrice de variance-covariance normée du processus (Xt )t∈Z .
Γ est symétrique et est à valeurs propres λi > 0, donc Γ est définie positive. Γ étant une
matrice définie positive, Γ est donc régulière et admet donc une inverse Γ−1 ,

Γφt = ρt =⇒ φt = Γ−1 ρt .

Donc un estimateur de φ = (φ1 , φ2 , . . . , φp ), noté φ̂, est donné par : φ̂t = Γ̂−1 ρ̂t .

La variance résiduelle σ̂ε2 est alors donnée par l’équation :


p
X
σ̂ε2 = 2
σ̂X − φ̂i γ̂(i)
i=1

Proposition 1.1
La distribution des estimateurs de Yule-Walker φ̂ du model paramétrique d’un processus
AR(p) causal
Xt = φ1 Xt−1 + ... + φp Xt−p + εt .
est asymptotiquement normale,
√ d
n(φ̂ − φ) −→ N (0, σ 2 Γ−1
p )

et
d
σ̂ε −→ σε2

Mise en oeuvre
Splus effectue cette estimation à l’aide de la fonction ar(), avec l’option par défaut
method="yule-walker".

Estimation d’un processu ARMA(p, q)


Dans ce cas, nous présentons la méthode d’estimation par maximum de vraisemblance
(M LE). L’intérêt de cette méthode est qu’elle utilise toute l’information à court comme à
long terme concernant les comportements des séries puisque sont estimés simultanément les
paramètres autorégressif, moyenne mobile et le paramètre de différenciation fractionnaire
d. La méthode s’inscrit dans le domaine temporel. On suppose que les résidus ε1 , . . . , εT

5
suivent une loi normale de moyenne nulle et de variance σε2 .
Notons θ = (θ1 , θ2 , . . . , θq , φ1 , φ2 , . . . , φp , σε2 ) le paramètre à estimer.

La méthode préconisée par Box et Jenkins (1976, p.211) conditionne la vraissemblance du


processus sur les p premières valeurs observées, X1 , . . . , Xp , du processus (Xt )t∈Z ; et sur les
q valeurs du processus gaussien (εt )t∈Z , telles que :
εp = εp−1 = . . . = εp−q+1 = 0

Ainsi à partir de la suite X1 , . . . , XT , on peut alors calculer par itérations la suite


εp+1 , εp+2 , . . . , εT , de la manière suivante, pour tout t = p + 1, . . . , T :
εt = Xt − φ1 Xt−1 − . . . − φp Xt−p + θ1 εt−1 + . . . + θq εt−q .

On suppose que les perturbations sont gaussiennes conditionnellement aux Xt , t ≤ p, alors


Xt , pour tout t = p + 1, ..., T est normalement distribué avec une moyenne égale à
φ1 Xt−1 + . . . + φp Xt−p − θ1 εt−1 − . . . − θq εt−q et une variance égale à σε2 .
La log-vraisemblance conditionnelle est alors donnée par l’équation suivante :
LBJ (θ) = log f (XT , . . . , Xp+1 |Xp , . . . X1 , εp = . . . = εp−q+1 = 0)
T
Y
= log f (Xt |Ft−1 )
t=p+1
Ft−1 = σ(Xt−1 , . . . , Xp+1 , Xp , . . . X1 , εp = . . . = εp−q+1 = 0)
T
T −p T −p 2
X ε2t
= − log(2π) − log(σε ) −
2 2 2σε2
t=p+1

L’estimateur du maximum de vraissemblance (EM V ), noté θ̂EM V , est le paramètre qui


maximise la log-vraissemblance, i.e.:
θ̂EM V = Arg max LBJ (θ).
θ
En pratique, les estimateurs du maximum de vraisemblance sont trouvés numériquement par
des algorithms itératifs : on cherche le maximum de la fonction de vraisemblance numérique-
ment (par exemple, par la méthode de Newton-Raphson), démarrant d’une valeur initiale
pour le vecteur du paramètre recherché. Cette valeur initiale peut être fournie par les estima-
teurs de Yule-Walker ou par les estimateurs des moindres carrés. S-Plus utilise la méthode
de type quasi-Newton présentée, par exemple, dans Denis et al. (1981).

Mise en oeuvre
Avec S-Plus, l’estimation des paramètres d’un processus ARMA se fait à l’aide de la fonction
[Link]() qui prend en argument le nom de la série et le modèle spécifié.

[Link](serie, model=list(order=c(1,0,1)))
oubien en spécifiant les valeur initiales de l’algorithme de minimisation
[Link](serie, model=list(order=c(ar=0.2, ma=0.6))

arima(seriec, order = c(1,1,1), seasonal = list(order=c(1,1,1), period=12))

Les ARMA creux ou percés sont estimés de la manière suivante :


Supposons que l’on dispose du processus ARM A(3, 4) suivant,
(I − φ1 B − φ3 B 3 )Xt = (I − θ1 B − θ4 B 4 )εt ,

6
on spécifie ce modèle à l’aide de l’option [Link] de la manière suivante :
[Link]<-list(order=c(3,0,4), [Link]=c(T,F,T), [Link]=c(T,F,F,T))
puis on utilse la fonction [Link]() de la même manière pour les ARMA classiques.

Remarque
La méthode des MCO est inapplicable pour les modèles M A(q) et ARM A(p, q), car εt−q ,
variable aléatoire explicative du modèle, est inobservable.
La méthode des MCO est applicable pour les modèles AR(p) car les termes d’erreurs sont non
corrélés et la variance non conditionnelle constante mais toutefois elle reste moins perfor-
mante que l’estimateur de la vraisemblance maximale.

1.5 Validation par tests des modèles


Au début de cette partie on dispose de plusieurs processus ARMA dont on a estimé les
paramètres. La validation des processus estimés se fait à l’aide d’un test de significativité
des paramètres (ils doivent être significativement différent de 0) et d’une analyse sur les
résidus estimés permettant de tester les hypothèses effectuées sur le processus d’innovation
(εt )t∈Z (les résidus estimés doivent suivre un processus de bruit blanc : et ∼ BB(0, σe2 )
où et est l’estimateur de l’erreur εt puisque l’on a supposé que εt ∼ BB(0, σε2 ) lors de la
définition du processus ARM A(p, q)). Si plusieurs modèles sont valides, l’étape de validation
se poursuit par la comparaison des qualités de ces derniers à l’aide de critères de choix.

Significativité des paramètres


Il est important de déterminer si les paramètres du modèle sont significativement différents
de zéro. On suppose que l’on part d’un modèle ARM A(p, q) et que l’on examine le test
0 0
correspondant à l’hypothèse nulle H0 : p = p − 1 et q = q. On test ainsi l’hypothèse
nulle de processus ARM A(p − 1, q) i.e.(φp = 0) contre l’hypothèse alternative de processus
ARM A(p, q) i.e. (φp 6= 0). On utilisera dans ce cas le test de Student qui consiste à
φ̂p
comparer la statistique tφ̂p = σ̂φ̂p avec la valeur critique d’une loi de Student à T − k degrés
de liberté, où k = p + q + 1 est le nombre de paramètres estimés,
n
σ̂ε2 1 X 2
σ̂φ2ˆ = n où σ̂ε2 = et
p X n−k
(Xt − X)2 t=1

t=1

σ̂ε est appelé variance résiduelle.

Régle de décision
– Si |tφ̂p | < t1− α2 , on accepte l’hypothèse H0 de processus ARM A(p − 1, q).
– Si |tφ̂p | ≥ t1− α2 , on rejette H0 et on retient un processus ARM A(p, q).
Sous l’hypothèse H0 : φp = 0, pour le modèle,h l’intervalle de
i confiance de φ̂p , au risque de
premier espèce α = 5% est donnée par : φ̂p ∈ 0 ± 1, 96σ̂φ̂p .
0
On peut appliquer un raisonnement similaire pour tester l’hypothèse nulle : H0 : p = p et
0
q = q − 1.

Mise en oeuvre
On compare donc la valeur absolue de chacun des paramètres estimés avec sa variance.
Ainsi, si la valeur absolue du paramètre est plus grande que 1.96×l’écart-type du
paramètre, alors on rejette, au risque de α = 0.05, l’hypothèse de nullité du paramètre. On

7
suppose que les paramètres estimés sont dans [Link] ( [Link]<–-[Link](.,.)).
Ce qui donne les commandes suivantes :

abs([Link]$model$ar)>1.96*sqrt([Link]$[Link][1,1])
[1] T
abs([Link]$model$ma)>1.96*sqrt([Link]$[Link][2,2])
[1] T
abs([Link]$coef[1])>1.96*sqrt([Link]$[Link][1,1])
[1] T
abs([Link]$coef[2])>1.96*sqrt([Link]$[Link][2,2])
[1] T

Dans ce cas, on peut alors conclure à la significativité des paramètres du modèle, au


risque α = 0.05.

Analyse des résidus


Cette étape consiste à modéliser les résidus et . S’il n’y a pas de dépendance parmi ces
résidus alors on peut considérer qu’ils sont i.i.d. et la modélisation de la série temporelle est
achevée. Les résidus provenant du modèle sont donnés par :

X q̂
X
et = Xt − φ̂i Xt−i − θ̂j et−j
i=1 j=1

Tests de diagnostic résiduel


Les tests consistent à vérifier que les résidus suivent un bruit blanc, i.e. sont moyenne nulle,
non-corrélés et ne présentent pas d’hétéroscédasticité.
– Test de nullité de la moyenne des erreurs
Le processus εt est supposé être un bruit blanc. Soit (et )t=1,...,T la série des résidus issue
du modèle, on teste alors
H0 : ẽ = 0
contre
H1 : ẽ 6= 0
où ẽ est le paramètre inconnu de la moyenne des résidus issus de l’estimation ARMA.
La statistique du test est
e−0
te =
σe
Cette statistique, sous l’hypothèse nulle de moyenne nulle, suit asymptotiquement la loi
student t(T −(p+q+1)) .
– Test de non autocorrélation des erreurs
- Test de Portmanteau
Pour tester si les résidus observés sont i.i.d. on peut se servir de la fonction
d’autocorrélation empirique ρ̂e .
Pour tester la significativité globale des autocorrélations à l’aide d’une statistique, le
test utilisé par les logiciels S-Plus et R est le test Portmanteau de Box et Pierce
(1970), basé sur la statistique suivante
K
X
BPK = T ρ̂2e (k)
k=1

8
PT −k
t=1 (et − e)(et+k − e)
ρ̂e (k) = PT 2
t=1 (et − e)
est la fonction d’autocorrélation d’ordre k des résidus estimés sur l’échantillon de la
série, T est la longueur de la série et K est le nombre de retards choisis pour calculer les
autocorrélation
T  et est conseillé d’être choisi proche du tiers du nombre d’observation,
K= 3 .
Le test à effectuer sur la fonction d’autocorrélation des résidus est donc
H0 : ρ̂e (1) = ρ̂e (2) = . . . = ρ̂e (K) = 0
contre
H1 : il ∃ au moins un h telle que ρ̂e (h) 6= 0
c’est dire H0 : les résidus sont un bruit blanc contre H1 : les résidus ne sont pas un
bruit blanc.

Cette statistique BPK , sous l’hypothèse de non-corrélation des K premières valeurs de


la série (H0 : ρe (1) = ρe (2) = ... = ρe (K) = 0), suit asymptotiquement une distribution
de χ2 avec K − (p + q) degrés de liberté, où p est l’ordre de la partie AR (saisonnier ou
non), q est l’ordre de la partie MA (saisonnière ou non) et K est le nombre de retards
inclus dans la sommation. L’adéquation du modèle est rejetée au risque α, si :
BPK > χ2K−(p+q) (1 − α).

Régle de décision
– Si BPK > χ2(1−α) (K − (p + q)), on rejette H0 : les résidus ne sont pas un bruit blanc.
– Si la P -value< 0.05 alors on rejette l’hypothèse nulle au seuil de 5% et donc les résidus
sont autocorrélés à l’ordre K − (p + q).
Définition
On appelera P -value, ou puissance du test, la probabilité 1 − β, probabilité de rejeter
H0 en ayant raison, β étant le risque de second espèce.

Ljung et Box (1978) introduisent une modification de la statistique de BPK qui améliore
l’approximation vers la distribution de χ2 lorsque la taille de l’échantillon est petite.
Celle-ci est définie par K
X ρ̂2e (k)
LBK = T (T + 2) .
T −k
k=1
Sous l’hypothèse nulle d’absence d’autocorrélation :

ρ̂e (1) = ρ̂e (2) = . . . = ρ̂e (K) = 0

La statistique LBK suit une loi de Khi-deux à (K − p − q) degrés de liberté.

Mise en oeuvre
Pour effectuer ce test sur les résidus, on utilise, sous S-Plus, la fonction [Link]().
Cette fonction renvoie la trajectoire des résidus, l’ACF des résidus, le PACF et le
graphique des résultats du test de portmanteau de Box et Pierce. On a :
[Link]([Link])
residus<–-[Link]([Link], plot=F)$[Link] // permet de recupérer la
série des résidus.

Sous R la fonction tsdiag().


tsdiag([Link])
residus<–-[Link]$residual // permet de recupérer la série des résidus.

9
[Link](x, lag = 1, type = c("Box-Pierce", "Ljung-Box"))

L’option lag=1 permet de choisir l’entier K. Ces tests de non-corrélation de type


Portmanteau connus pour leur faible puissance sont à utiliser avec prudence.
- Test de Durbin-Watson
Le test développé par Durbin et Watson (1950, 1951, 1971) est procédure très largement
utilisée. Ce test est basé sur l’hypothèse que les erreurs dans le modèle de régression
sont générés par un processus autorégressif d’ordre 1 observé à des périodes de
temps réguliers
εt = φεt−1 + ηt
où ηt ∼ N (0, ση2 ) et |φ| < 1.
Sous forme M A(∞), on a

X
εt = φj ηt−j
j=0

On montre que  1 
E(εt ) = 0, V (εt ) = ση2
1 − φ2
 1 
cov(εt , εt−j ) = φj ση2 .
1 − φ2
L’autocorrélation entre εt et εt−1 ou l’autocorrélation d’ordre 1, est

cov(εt , εt−1 )
ρ1 = p p (1)
V (εt ) V (εt )
= φ

Le test permet ainsi de détecter une autocorrélation d’ordre 1 sous la forme

εt = ρ1 εt−1 + ηt

Le test de Durbin-Watson est un test statistique de présence de corrélation positive des


erreurs du modèle de régression. Ainsi, les hypothèse du test sont
H0 : ρ(1) = 0
contre
H1 : ρ(1) > 0
La statistique du test est
PT 2
PT 2 PT 2 PT
t=2 (et − et−1 ) t=2 et + t=2 et−1 − 2 t=2 et et−1
DW = PT 2 = PT 2 ≈ 2(1 − ρe (1))
t=1 et t=1 et

où (et )t=1,...,T est la série des résidus issue de l’estimation du modèle de régression.
Cette approximation de DW , quant T est grand, vers 2(1 − ρe (1)) simplifie la lecture
du test. Ainsi une valeur de DW proche de 0 signifie une autocorrélation positive,
une valeur proche de 4 une autocorrélation négative et une valeur proche de 2 la non
autocorrélation.

Durbin et Watson (1951) montrent que la distribution de la statistique DW oscille entre


deux distributions d1 (T ) et d2 (T ).
Les valeurs de d1 (T ) et de d2 (T ) sont données par la table de Durbin.

10
Régle de décision
– Si DW < d1 (T ), on rejette H0
– Si DW > d2 (T ), on accepte H0
– Si d1 (T ) < DW < d2 (T ), on ne peut rien conclure.

Mise en oeuvre
dwtest(formula, [Link] = NULL, alternative = c("greater","[Link]","less"),
iterations = 15, exact = NULL, tol = 1e-10, data = list())

- Test de Von Neumann


On ordonne par ordre croissante les valeurs des résidus estimés. Soit e(t) la série ordon-
née, le coefficient du ratio de test de Von Neumann est
PT −1 2
t=1 (e(t) − e(t+1) )
RV N = P T −1 2
t=1 (e(t) − e)

où e est la moyenne des e(t) .


L’hypothèse nulle, d’indépendance des valeurs des résidus, est rejetée si RV N > tα où
tα = 5% est la valeur critique de Bartels, par exemple tα = 1, 67 au seuil de 5%.
– Tests d’homoscédasticité
Un bruit blanc est par définition homoscédastique. Tous les tests d’hétéroscédasticité
peuvent ici être employés.
– Test d’hétéroscédasticité de ARCH
On teste alors
H0 : V (εt ) = cst = σε2
contre
H1 : V (εt ) = σt2 = α0 + α1 ε2t−1 + ... + αp ε2t−p
La statistique du test est
χ2ARCH = T R2
où R2 est le coefficient de détermination obtenu dans la régression des résidus carrés
issus de la modélisation ARM A sur les résidus carrés retardés jusqu’à l’ordre p et T la
taille de la série.
Cette statistique, sous l’hypothèse nulle de variance constante, suit asymptotiquement
la loi chi-deux à p degrés de liberté, χ2p .
– Test de stabilité structurelle de Chow
Ce test sert à comparer des variances des résidus sur des sous périodes de la chronique.

Considérons le modèle suivant



α0 + α1 Xt−1 + α1 Xt−2 + εt , si t ≤ τ
Xt =
β0 + β1 Xt−1 + β2 Xt−2 + εt , si t > τ.
Ce test permet de savoir si les paramètres sont identiques au cours de deux ou plusieurs
sous périodes. La statistique du test, appelée statistique de Fisher, est donnée par
(SCRc − SCR1 − SCR2 )/k
F =
(SCR1 + SCR2 )/(n − 2k)
où SCRc est la somme des carrés des résidus issus de la regression linéaire utilisant
toutes les données, avant et après la rupture. SCR1 est la somme des carrés des résidus
à partir de la régression linéaire du premier régime, SCR2 est la somme des carrés des
résidus à partir de la régression linéaire du deuxième régime, n est le nombre total des
observations, k est le nombre de paramètres à estimer.

11
Remarque
Si les résidus sont de moyenne nulle et ne sont pas corrélés, on peut parler de bruit blanc
mais le phénomène de "volatility clustering" (agrégats de volatilité), à savoir que les péri-
odes de forte volatilité alternent avec les périodes de faible volatilité et la distribution
à queue épaisse (Kurtosis>3) peut se poser. Il faut dans ce cas regarder les autocor-
rélations des résidus au carré. Si ces derniers sont corrélés, on en déduit que les résidus
sont non-corrélés mais pas indépendants. L’hypothèse de processus ARIMA(p,d,q) pur
est donc rejetée. On est donc amené à modéliser la variance des erreurs. Le modèle
le plus populaire est le modèle GARCH(p,q) (Generalized Auto Regressive Conditionnal
Heteroscedasticity).

– Tests de normalité
Il existe deux grandes familles de Tests de Normalité :
– La famille des tests paramétriques, on peut citer par exemple, les tests de Skewness,
Kurtosis et Jarque-Bera. Pour ces tests paramétriques, on spécifie sous H0 , l’égalité
entre le paramètre inconnu et une norme. Par exemple, on teste la normalité d’une
variable aléatoire en égalisant le paramètre du Jarque-Bera à 0 sous H0 .
Ces tests paramètrique sont asymptotiquement puissants ce qui signifie que l’on ne peut
les appliquer à des séries d’observation que si l’on dispose d’un nombre d’observations
suffisant, au minimum trente observations.
– La famille des tests non paramétriques, on peut citer par exemple, les tests de
Kolmogorov Smirnov, Cramér-Von Mise, Anderson Darling, Shapiro-Wilk et Shapiro-
Francia. Pour ces tests on ne spécifie pas sous H0 l’égalité d’un paramètre à une norme,
mais de façon plus générale l’égalité entre les distributions de probabilité empirique et
théorique.
Tests de Skewness et Kurtosis
On peut regarder les moments d’ordre supérieur et la distribution empirique des résidus
estimés. On regarde particulièrement les moments d’ordre 3 et 4 qui correspondent re-
spectivement au Skewness et au Kurtosis et qui sont estimés par leurs valeurs empiriques,
ˆ e et K̂e , définies par :
Sk
T
X T
X
1
T (et − e)3 1
T (et − e)4
ˆ e = µ3 = µ 3 =
Sk t=1 µ4 µ4
= 2 2 =  t=1
σ3 (σ 2 )3/2  XT 3/2 , K̂e =
σ 4 (σ ) T
X 2
1
T (ei − e)2 1
T (ei − e)2

t=1 t=1

où e est la moyenne empirique calculée sur l’ensemble de l’échantilon e1 , ..., eT .

On sait que
– Pour une distribution symétrique, en particulier pour la loi normale, sa moyennne est son
point symétrique et ses moments centrés d’ordre impaire sont nuls, donc son Skewness
est nul.
– Pour une distribution normale, le Kurtosis est égale à 3.
Donc
– Si Skewness Sk ˆ e = 0 ⇒ la distribution des résidus est symétrique.
– Si Kurtosis K̂e = 3 ⇒ la distribution des résidus semble être normale.
Si ceci est vérifié on a : et ∼ N (0, σε2 ).

12
On peut aussi se servir des lois limites suivantes pour effectuer les tests
Sk L
q −−−−−→N (0, 1)
6 T →+∞
T

K −3 L
q −−−−−→N (0, 1)
24 T →+∞
T

Le test de Jarque et Bera


Pour tester la normalité, on peut aussi se servir du test de Jarque-Bera, proposé en 1980
par Carlos Jarque et Anil Bera. Il permet de tester simultanément l’absence d’asymétrie
et d’aplatissement. Le test est basé sur la statistique suivante :
T ˆ2 T
JB = Sk e + (K̂e − 3)2 .
6 24
Sous l’hypothèse H0 : de normalité des résidus, la statistique JB suit asymptotiquement
un chi-deux à 2 degrés de liberté, χ22 .

La région critique pour un risque α du test est définie par

R.C. : JB > χ21−α (2).

Donc si JB ≥ χ21−α (2), on rejette l’hypothèse H0 de normalité des résidus au seuil α.

Pour un risque α = 0.05, le seuil critique est χ20.95 (2) = 5.99.

Sous R
library(tseries)
[Link](serie)

Il y a aussi des tests distributionnels des résidus comme Fisher, Student, qui testent la
Gaussianité.

Quelques tests non paramétriques


– Le test de Kolmogorov-Smirnov
Lilliefors (1967) présente une table pour tester la normalité en utilisant la Statistique
de Kolmogorov-Smirnov.
Définition 3
On définit la fonction de répartition empirique du n-échantillon X = (X1 , ..., Xn ), par
la fonction en escalier suivante :
 n
Card {1 ≤ i ≤ n : Xi ≤ t} 1X
Fn = = 1{Xi ≤t}
n n
i=1

La statistique du test de Kolmogorov est basée sur la distance maximale entre F et Fn


et est définie par
Dn = sup F (x) − Fn (x)
x∈R
où F est la loi de distribution inconnue de X dont sa moyenne et sa variance sont
estimées à partir de l’échantillon et Fn la distribution empirique de X obtenue à partir
de l’échantillon.

13
La distribution de la statistique Dn est indépendante de F (x) si F (x) est continue; le
test est donc un test non paramétrique.
Suivant Kolmogorov, pour toute valeur de z ≥ 0, on a
 z 
P Dn ≤ √ −−−→ K(z)
n n→∞

où K(z) est la fonction de distribution cumulée donnée par



2 z2
X
K(z) = 1 − 2 (−1)k−1 e−k
k=1

Pour z < 0 on a  z 
P Dn ≤ √ −−−→ K(z) = 0
n n→∞
La Table de K(z) est calculée par N. Smirnov (1939).

Connaissant la répartition de la grandeur aléatoire Dn , on peut alors, avec un risque


fixé à l’avance, conclure si l’écart maximum entre F (x) et F̂n (x) peut être imputé au
hasard de l’échantillonnage ou, au contraire, est dû au fait que l’échantillon n’est pas
extrait d’une population décrite par la fonction de distribution F (x).

Le test à effectuer se présente comme suit :

H0 : F (x) = F̂n (x) ∀x


H1 : ∃ x : F (x) 6= F̂n (x).

La mise en oeuvre passe par la fonction [Link]() du package "stats"

Il existe d’autres tests de normalité comme :

– Le test Cramer-Von Mise : [Link](X)

– Le test d’Anderson-Darling : [Link](X)

– Le test de Shapiro-Wilk : [Link](X)

Pour voir de prés la distribution empirique des résidus estimés et , on peut tracer
l’histogramme et la densité de distribution des résidus standardisés à l’aide respective-
ment des fonctions hist() et density() sous S-Plus.

Mise en oeuvre
On suppose avoir recupérer la série des résidus dans residus, on a :
hist(residus, main="histogramme des résidus")

plot(density(residus,[Link]=T),type="l",main="densité des residus",xlab="",ylab="")

matplot(density(residus, [Link]=T)$x, cbind(density(res, [Link]=T)$y,


dnorm(density(residus, [Link]=T)$x)), type="l", lty=c(3,1), main="densité
des residus", xlab="", ylab="")

14
Remarque
La remise en cause de l’hypothèse de normalité de la série des résidus doit conduire à
s’interroger sur l’existence de points extrêmes dans la série (considérés comme des points
aberrants) et sur leur traitement.

Remarque
Si l’hypothèse de bruit blanc est rejeté sur la série résiduelle, autrement dit si on a du
bruit correlé, la regression linéaire peut être remplacée par une méthode stochastique
d’interpolation spatiale appelé krigeage en géostatistique.

Critères de choix des modèles


Après examen des coefficients et analyse des résidus, certains modèles sont écartés. Pour
choisir le meilleur de ces modèles restants, pour la prévision de l’évolution future de la série à
partir des données passées, on fait appel aux critères standards et aux critères d’information.
– Critères standards :
– L’erreur absolue moyenne (Mean Absolute Error):
T
1X
M AE = |et |
T
t=1

– Racine de l’erreur quadratique moyenne (Root Mean Squared Error):


v
u
u1 X T
RM SE = t e2t
T
t=1

– Ecart absolu moyen en pourcentage (Mean Absolute Percent Error):


T
1 X et
M AP E = 100
T Xt

t=1

où et est le résidu du modèle ARM A étudié, T le nombre d’observation de la série Xt .

Plus la valeur de ces critères est faible, plus le modèle estimé est proche des observations.
Le RMSE est très utile pour comparer plusieurs estimateurs, notamment lorsque l’un
d’eux est biaisé. Si les deux estimateurs à comparer sont sans biais, l’estimateur le plus
efficace est simplement celui qui a la variance la plus petite.
– Critères d’information
Ces critère proposent la minimisation en (p, q) de la fonction considérée
– Le critère d’Akaike (1969) :
2(p + q)
AIC(p, q) = log σ̂ε2 +
T
Si les vrais ordres du modèle sont (p0 , q0 ), le critère AIC de manière pratique à tendance
à choisir p̂ > p0 et q̂ > q0 .
Pour obtenir un estimateur de (p0 , q0 ) consistant, on utilise la version modifiée du critère
AIC : le critère BIC.
– Le critère d’information bayesien d’Akaike (1977) ou de Schwarz (1978) :
log T
BIC = log σ̂ε2 + (p + q)
T

15
Ce critère est plutôt recommandé pour les modèles ARM A.
– Le critère d’information de Hannan-Quinn (1979) :
 log T 
HQ = log σ̂ε2 + α(p + q) log ,
T
où α est une constante à spécifier (α > 2), p est l’ordre de la partie AR et q est l’ordre de
la partie M A.
On choisit le modèle qui minimise les critères standards et les critères d’information. Le
modèle sélectionné sera alors utilisé pour la prévision.

1.6 Prévision
Considérons un processus ARM A(p, q) défini par l’équation:

Φ(B)Xt = Θ(B)εt

On veut prédire les valeurs futures Xt+1 , ..., Xt+h de la série (Xt ) à partir des valeurs
observées {X1 , X2 , ..., Xt , ε1 , ε2 , ..., εt }.

Soit X̂t (h) le prédicteur de (Xt )t∈Z à l’instant t et à l’horizon h > 0 (oubien la
valeur prévue au temps t + h de (Xt ) c’est à dire la valeur estimée de la valeur prévue
pour l’instant futur t + h, calculée au moment présent t). Par définition, on a l’expréssion
suivante :
X̂t (h) = E(Xt+h |It )
où It = σ(X1 , . . . , Xt , ε1 , . . . , εt ) est l’ensemble d’information disponible à la date t.
Ce prédicteur représente la meilleure prévision de la série Xt conditionnellement à l’ensemble
d’information disponible.

Exemple
Soit un processus ARM A(1, 1) défini par l’équation suivante :

Xt = φ1 Xt−1 + εt − θ1 εt−1 , |φ1 | < 1 et |θ1 | < 1 (stationnarité et invertibilité)

Calculer les prévisions pour l’horizon h > 1.

Considérons la forme M A(∞) du processus ARM A, on a

Φ(B)
Φ(B)Xt = Θ(B)εt ⇔ Xt = εt
Θ(B)
= Ψ(B)εt .

Soit,
Xt = εt + ψ1 εt−1 + ψ2 εt−2 + ψ3 εt−3 + ...
Donc la prévision théorique peut s’écrire de la forme suivante :

Xt+h = εt+h + ψ1 εt+h−1 + ψ2 εt+h−2 + ψ3 εt+h−3 + ...

On a alors

X̂t (h) = E(Xt+h |It )


= E(εt+h + ψ1 εt+h−1 + ψ2 εt+h−2 + ψ3 εt+h−3 + ...|It ).

16
Pour h = 1 et h = 2, on obtient respectivement :

X̂t (1) = ψ1 εt + ψ2 εt−1 + ...

X̂t (2) = ψ2 εt + ψ3 εt−1 + ...


Ainsi on en déduit

X̂t (h) = ψh εt + ψh+1 εt−1 + ψh+2 εt−2 + ...


X
= ψh+i εt−i . (2)
i≥0

On définit ainsi, l’erreur de prévision êt+h par,

et+h = Xt+h − X̂t (h)


h−1
X
= ψi εt+h−i avec ψ0 = 1.
i=0

En supposant que εt est un bruit blanc gaussien de variance σε2 , et+h obéit donc à une loi
N (0, σe2 ) où σe2 la variance de l’erreur de prévision est donnée par
h−1
X 2 h−1
X
V (et+h ) = E ψi εt+h−i = ψi2 E(εt+h−i )2
i=0 i=0
h−1
X
= σε2 ψi2 .
i=0

La précision des estimations est donc d’autant plus forte que la variance du bruit blanc
est faible. Et cette précision diminue quand on veut prévoir plus loin dans le futur car la
variance de l’erreur de prévision, dépendant aussi de l’horizon h, devient élevée.

On peut enfin construire un intervalle de confiance autour des prévisions réalisées. En effet,
par hypothèse les εt sont un bruit blanc gaussien; la distribution conditionnelle de la valeur
à prévoir est donc une variable aléatoire d’espérance X̂t (h) et d’écart-type σ(êt+h ).
Ainsi, la valeur observée :

Xt+h − X̂t (h)


h−1
X 1/2 suit donc une loi normale N (0, 1).
σε ψj2
j=0

Par conséquent, pour toute valeur de α comprise entre 0 et 1, la relation suivante est obtenue:
h−1 h−1
" X 1/2 X 1/2 #
P X̂t (h) − q1−α/2 × σ̂ε ψj2 ≤ Xt+h ≤ X̂t (h) − q1−α/2 × σ̂ε ψj2 =1−α
j=0 j=0

où σ̂ε est l’estimation de l’écart-type σε du bruit blanc et q1−α/2 le quantile d’ordre 1 − α/2
de la loi normale centrée reduite (α = 5% =⇒ q1−α/2 = 1.96).

L’intervalle de confiance de la prévision, au seuil α%, est donc donné par :


 h−1
X 1/2 
Xt+h ∈ X̂t (h) ± q1−α/2 × σ̂ε ψj2
j=0

17
On calcule les prévisions en utilisant, une version tronquée et corrigée de la moyenne de
l’equation (??), voir Brockwell et Davis (1991), p. 533 :
T −1+h
X
X̂t (h) = ψh+i εt−i (3)
i=0

R et Splus effectuent cette estimation à l’aide respectivement des fonctions predict() et


[Link]().

Mise en oeuvre
[Link]<-rts(serie, start=1)
[Link]<-[Link]([Link], [Link]$model,n=20)
[Link]<-[Link]$mean-1.96*[Link]$[Link]
[Link]<-[Link]$mean+1.96*[Link]$[Link]
[Link]([Link],[Link]$mean,[Link],[Link],main="prevision à
l’horizon h=20")

La modélisation univariée présente l’avantage de ne nécessiter que les seules informations


passées de la série à prévoir. En revanche, pour étudier les agrégats macroéconomiques, la
capacité d’un modèle à intégrer l’information exogène est essentielle.

Il convient dès lors d’examiner les différentes méthodes pour intégrer l’information exogène
disponible dans des modèles dits multivariés.

2 Application avec utilisation de logiciels


On s’interesse dans cette section à une série de données et on applique toutes les étapes de la
modélisation vue en théorie. Le travail sera fait sous forme de séances de Travaux Pratiques
et à la fin un projet sera remis aux étudiants.
Chaque étudiant considérera la base de données qui lui aura été attribuée. Il cherchera à
trouver le meilleur modèle linéaire permettant de capturer l’ensemble des caractéristiques
observées sur la série.
Les étapes de présentation et d’analyse préliminaire des données doivent bien être présentées.

18

Vous aimerez peut-être aussi