9.
Éléments d’analyse
des séries temporelles
C
e chapitre est consacré à une présentation sommaire des tech-
niques d’analyse des séries chronologiques. Ce thème, à lui seul,
peut faire l’objet de longs développements et de nombreux
ouvrages1 y sont intégralement consacrés. Nous étudions en I. les carac-
téristiques statistiques – en terme de stationnarité – des séries tempo-
relles en présentant les différents tests (Dickey-Fuller, corrélogramme,
etc.) s’y rapportant. Puis en II., nous présentons différentes classes de
modèles (AR, MA, ARMA) en étudiant leurs propriétés. Enfin, la métho-
de Box et Jenkins qui systématise une démarche d’analyse des séries tem-
porelles fait l’objet de la section III.
I. Stationnarité
A. Définition et propriétés
Avant le traitement d’une série chronologique, il convient d’en étudier les carac-
téristiques stochastiques. Si ces caractéristiques – c’est-à-dire son espérance et
sa variance – se trouvent modifiées dans le temps, la série chronologique est
considérée comme non stationnaire ; dans le cas d’un processus stochastique
invariant, la série temporelle est alors stationnaire. De manière formalisée, le
processus stochastique yt est stationnaire si :
1. Pour un approndissement de ce chapitre, se référer au livre de Bourbonnais R. et Terraza M.,
Dunod, 2010.
Éléments d’analyse des séries temporelles 239
E(yt ) = E(yt+m ) = µ ∀t et ∀m , la moyenne est constante et indépendante du
temps ;
var(yt ) < ∞ ∀t , la variance est finie et indépendante du temps ;
cov(yt ,yt+k ) = E[(yt − µ)(yt+k − µ)] = γk , la covariance est indépendante du
temps.
Il apparaît, à partir de ces propriétés, qu’un processus de bruit blanc1 εt dans
lequel les εt sont indépendants et de même loi N (0,σε2 ) est stationnaire.
Une série chronologique est donc stationnaire si elle est la réalisation d’un
processus stationnaire2. Ceci implique que la série ne comporte ni tendance, ni
saisonnalité et plus généralement aucun facteur n’évoluant avec le temps.
B. Fonctions d’autocorrélation simple et partielle
La fonction d’autocorrélation (FAC) est la fonction notée ρk qui mesure la cor-
rélation de la série avec elle-même décalée de k périodes, comme l’illustre le
tableau 1.
Sa formulation est la suivante :
n
(yt − y)(yt−k − y)
cov(yt ,yt−k ) t=k+1
ρk = = [1]
σ yt σ yt−k
n n
(yt − y)2 (yt−k − y)2
t=k+1 t=k+1
avec y moyenne de la série calculée sur n − k périodes, n = nombre d’observations.
Nous pouvons en déduire que :
ρ0 = 1 et ρk = ρ−k
Cette formule [1] est malaisée à manier puisqu’elle exige de recalculer pour
chaque terme ρk les moyennes et les variances, c’est pourquoi on lui préfère la
fonction d’autocorrélation d’échantillonnage :
n
(yt − y)(yt−k − y)
t=k+1
k =
ρ [2]
n
(yt − y)2
t=1
avec y moyenne de la série calculée sur n périodes.
1. Un processus de bruit blanc est une suite de variables aléatoires de même distribution et mutuel-
lement indépendantes. Ce terme est emprunté à la physique faisant référence au spectre de la
lumière blanche.
2. Si les conditions énoncées ci-dessous sont vérifiées, on dit que la série est stationnaire de second
ordre, ou encore faiblement stationnaire. Dans le cas où, aux conditions définies, s’ajoute la
constante de la distribution de probabilité, on parle de série strictement stationnaire.
240 ÉCONOMÉTRIE
Tableau 1 – Exemple de calcul d’une fonction d’autocorrélation
k 0 1 2 3 4
t yt yt−1 yt−2 yt−3 yt−4
1 123
2 130 123
3 125 130 123
4 138 125 130 123
5 145 138 125 130 123
6 142 145 138 125 130
7 141 142 145 138 125
8 146 141 142 145 138
9 147 146 141 142 145
10 157 147 146 141 142
11 150 157 147 146 141
12 145 150 157 147 146
Moyenne yt 140,75 142,36 143,60 145,67 146,63
Moyenne yt−k 140,75 140,36 139,40 137,44 136,25
Variance yt 95,02 72,41 62,84 24,11 22,23
Variance yt−k 95,02 101,87 101,84 74,91 71,44
ρk 1 0,77 0,62 0,59 0,55
Lorsque le nombre d’observations n est suffisamment grand, les deux for-
mules [1] et [2] donnent des résultats très proches.
La fonction d’autocorrélation partielle (FAP) s’apparente à la notion de cor-
rélation partielle. Nous avons défini au chapitre 4 le coefficient de corrélation
partielle comme étant le calcul de l’influence de x1 sur x2 en éliminant les
influences des autres variables x3 , x4 , . . . , xk .
Par analogie, nous pouvons définir l’autocorrélation partielle de retard k
comme le coefficient de corrélation partielle entre yt et yt−k , c’est-à-dire comme
étant la corrélation entre yt et yt−k l’influence des autres variables décalées de k
périodes (yt−1 , yt−2 , . . . , yt−k+1 ) ayant été retirée.
Afin d’éviter par la suite toutes ambiguïtés entre les deux fonctions d’auto-
corrélation, nous appelons fonction d’autocorrélation simple, la fonction d’auto-
corrélation.
C. Tests de « bruit blanc » et de stationnarité
Nous ne pouvons identifier clairement les caractéristiques stochastiques d’une
série chronologique que si elle est stationnaire. Cette étude de stationnarité
Éléments d’analyse des séries temporelles 241
s’effectue essentiellement à partir de l’étude des fonctions d’autocorrélation (ou
de leur représentation graphique appelée « corrélogramme »). Une série chro-
nologique est stationnaire si elle ne comporte ni tendance ni saisonnalité. Nous
allons donc, à partir de l’étude du corrélogramme d’une série, essayer de mon-
trer de quelle manière nous pouvons mettre en évidence ces deux composantes.
Nous pouvons distinguer différents types de séries stationnaires :
– à mémoire, c’est-à-dire dont on peut modéliser, par une loi de reproduc-
tion, le processus ;
– identiquement et indépendamment distribuée notée i.i.d. ou appelée Bruit
Blanc (« White Noise ») ;
– normalement (selon une loi normale) et indépendamment distribuée notée
n.i.d. ou appelée Bruit Blanc gaussien.
1) Analyse des fonctions d’autocorrélation
Lorsque nous étudions la fonction d’autocorrélation d’une série chronologique,
la question qui se pose est de savoir quels sont les termes ρk qui sont significa-
tivement différents de 0.
En effet, par exemple, si aucun terme n’est significativement différent de 0,
on peut en conclure que le processus étudié est sans mémoire et donc qu’à ce
titre il n’est affecté ni de tendance ni de saisonnalité. Ou encore si une série men-
suelle présente une valeur élevée pour ρ12 (corrélation entre yt et yt−12 ), la série
étudiée est certainement affectée d’un mouvement saisonnier1. Nous verrons à
partir d’exemples différents cas de figures.
Le test d’hypothèses pour un terme ρk est le suivant :
H0 : ρk = 0
H1 : ρk =
/ 0
Nous pouvons utiliser le test d’hypothèses d’un coefficient de corrélation,
présenté au chapitre 1, fondé sur la comparaison d’un t de Student empirique et
théorique. Toutefois, Quenouille2 a démontré que pour un échantillon de taille
importante (n > 30) , le coefficient ρk tend√de manière asymptotique vers une loi
normale de moyenne 0 et d’écart type 1/ n .
L’intervalle de confiance du coefficient ρk est alors donné par :
1
ρk = 0 ± t α/2 √
n
n = nombre d’observations.
1. Il s’agit même d’un test de détection de saisonnalité.
2. Quenouille M. H., 1949.
242 ÉCONOMÉTRIE
k est à l’extérieur de cet intervalle de confiance, il
Si le coefficient calculé ρ
est significativement différent de 0 au seuil α (en général α = 0,05 et
t α/2 = 1,96) . La plupart des logiciels fournissent, avec le corrélogramme, l’in-
tervalle de confiance, ce qui autorise une interprétation instantanée.
Nous devons souligner une limite des tests à 5 %. En effet, lorsqu’une fonc-
tion d’autocorrélation est calculée pour un nombre important de retards, nous
pouvons nous attendre à ce que quelques-uns soient, de manière fortuite, signi-
ficativement différents de 0. Si h est le nombre de retards, le nombre possible de
faux rejets est alors de 0,05 × h , pour un seuil de confiance de 5 %.
Dans le cas où le corrélogramme ne laisse apparaître aucune décroissance de
ses termes (absence de « cut off »), nous pouvons en conclure que la série n’est
pas stationnaire en tendance.
2) Statistiques de Box-Pierce et Ljung-Box
Le test de Box-Pierce permet d’identifier les processus sans mémoire (suite de
variables aléatoires indépendantes entre elles). Nous devons donc identifier
cov(yt ,yt−k ) = 0 ou encore ρk = 0 ∀k .
Un processus de bruit blanc implique que ρ1 = ρ2 = . . . = ρh = 0 , soit les
hypothèses :
H0 : ρ1 = ρ2 = . . . = ρh = 0
H1 : il existe au moins un ρi significativement différent de 0.
Pour effectuer ce test, on recourt à la statistique Q (due à Box-Pierce1) qui
est donnée par :
h
Q=n k2
ρ
k=1
h = nombre de retards, ρ k = autocorrélation empirique d’ordre k, n = nombre
d’observations.
La statistique Q est distribuée de manière asymptotique comme un χ 2 (chi-
deux) à h degrés de liberté. Nous rejetons donc l’hypothèse de bruit blanc, au
seuil α , si la statistique Q est supérieure au χ 2 lu dans la table au seuil (1 − α)
et h degrés de liberté.
Nous pouvons utiliser aussi une autre statistique, dont les propriétés asymp-
totiques sont meilleures, dérivée de la première qui est le Q ′ de Ljung et Box2 :
h
k2
ρ
Q ′ = n(n + 2) qui est aussi distribuée selon un χ 2 à h degrés de liber-
k=1
n − k
té et dont les règles de décisions sont identiques au précédent. Ces tests sont
appelés par les anglo-saxons : « portmanteau test » soit littéralement test
« fourre-tout ».
1. Box G E. P. et Pierce D. A., 1970.
2. Ljung G. M. et Box G E. P., 1978.
Éléments d’analyse des séries temporelles 243
3) Tests de normalité
Pour calculer des intervalles de confiance prévisionnels et aussi pour effectuer
les tests de Student sur les paramètres, il convient de vérifier la normalité des
erreurs. Le test de Jarque et Bera (1984), fondé sur la notion de Skewness (asy-
métrie) et de Kurtosis (aplatissement), permet de vérifier la normalité d’une dis-
tribution statistique.
a) Les tests du Skewness et du Kurtosis
1 n
Soit µk = (xi − x)k le moment centré d’ordre k, le coefficient de Skewness
n i=1
µ3 µ4
(β11/2 ) est égal à : β11/2 = 3/2 et le coefficient de Kurtosis : β2 = 2 .
µ2 µ2
Si la distribution est normale et le nombre d’observations grand (n > 30) :
1/2 6 24
β 1 → N 0; et β2 → N 3;
n n
On construit alors les statistiques :
|β11/2 − 0| |β2 − 3|
ν1 = et ν2 = que l’on compare à 1,96 (valeur de la loi nor-
6 24
n n
male au seuil de 5 %).
Si les hypothèses H0 : ν1 = 0 (symétrie) et ν2 = 0 (aplatissement normal)
sont vérifiées, alors ν1 1,96 et ν2 1,96 ; dans le cas contraire, l’hypothèse de
normalité est rejetée.
b) Le test de Jarque et Bera
Il s’agit d’un test qui synthétise les résultats précédents ; si β11/2 et β2 obéissent
n n
à des lois normales alors la quantité s : s = β1 + (β2 − 3)2 suit un χ 2 à deux
6 24
degrés de liberté.
2
Donc si s > χ1−α (2), on rejette l’hypothèse H0 de normalité des résidus au
seuil α .
Ces tests de normalité servent également dans le cas où il y a hétéroscédaci-
té. En effet, l’hétéroscédacité se manifeste sur le graphe de la distribution par
des queues de probabilité plus épaisses (distribution leptokurtique) que les
queues de la loi normale.
4) Tests d’homoscédasticité
Un processus de bruit blanc doit être homoscédastique, les tests d’hétéroscédas-
ticité du chapitre 5, Section II peuvent être utilisés.
244 ÉCONOMÉTRIE
– Le test de Goldfeld-Quandt a pour but de comparer la somme des carrés
des résidus d’estimation après avoir scindé les résidus en deux sous-échan-
tillons.
– Un autre test consiste à étudier la distribution des carrés des résidus.
L’analyse des termes du corrélogramme des résidus au carré permet de tes-
ter l’existence d’une hétéroscédacité. Si certaines valeurs de la FAC (tests
de Box-Pierce ou Ljung-Box) sont significativement différentes de 0, nous
pouvons conclure à la présence d’une hétéroscédacité.
II. La non-stationnarité et les tests de racine
unitaire
A. La non-stationnarité : les processus TS et DS
Les chroniques économiques sont rarement des réalisations de processus aléa-
toires stationnaires. Pour analyser la non-stationnarité, deux types de processus
sont distingués :
– les processus TS (Trend Stationary) qui représentent une non-stationnarité
de type déterministe1 ;
– les processus DS (Differency Stationary) pour les processus non station-
naires aléatoires.
a) Les processus TS
Un processus TS s’écrit : xt = f t + εt où f t est une fonction polynômiale du
temps, linéaire ou non linéaire, et εt un processus stationnaire. Le processus TS
le plus simple (et le plus répandu) est représenté par une fonction polynômiale
de degré 1. Le processus TS porte alors le nom de linéaire et s’écrit :
xt = a0 + a1 t + εt .
Si εt est un bruit blanc (gaussien ou non), les caractéristiques de ce proces-
sus sont alors :
E[x t ] = a0 + a1 t + E[εt ] = a0 + a1 t
V [x t ] = 0 + V [εt ] = σε2
/ t′
cov[x t ,x t ′ ] = 0 pour t =
Ce processus TS est non stationnaire car E[xt ] dépend du temps.
Connaissant a0 et
a1 , le processus xt peut être stationnarisé en retranchant, de la
valeur de xt en t, la valeur estimée a0 +
a1 t . Dans ce type de modélisation, l’ef-
1. Par définition, un processus est aléatoire d’où l’ambiguïté du terme de processus déterministe.
Éléments d’analyse des séries temporelles 245
fet produit par un choc (ou par plusieurs chocs aléatoires) à un instant t est tran-
sitoire. Le modèle étant déterministe, la chronique retrouve son mouvement de
long terme qui est ici la droite de tendance. Il est possible de généraliser cet
exemple à des fonctions polynômiales de degré quelconque.
b) Les processus DS
Les processus DS sont des processus que l’on peut rendre stationnaires par l’uti-
lisation d’un filtre aux différences : (1 − D)d xt = β + εt où εt est un processus
stationnaire, β une constante réelle, D l’opérateur décalage et d l’ordre du filtre
aux différences.
Ces processus sont souvent représentés en utilisant le filtre aux différences pre-
mières (d = 1) . Le processus est dit alors processus du premier ordre. Il s’écrit :
(1 − D)xt = β + εt ⇔ xt = xt−1 + β + εt
L’introduction de la constante β dans le processus DS permet de définir deux
processus différents :
• β = 0 : le processus DS est dit sans dérive.
Il s’écrit : xt = xt−1 + εt .
Comme εt est un bruit blanc, ce processus DS porte le nom de modèle de
marche au hasard ou de marche aléatoire (Random Walk Model). Il est très fré-
quemment utilisé pour analyser l’efficience des marchés financiers.
Pour étudier les caractéristiques de ce modèle, écrivons-le sous sa forme
développée :
x t = x t−1 + εt
x t−1 = x t−2 + εt−1 ⇒ x t = x t−2 + εt−1 + εt
x t−2 = x t−3 + εt−2 ⇒ x t = x t−3 + εt−2 + εt−1 + εt
etc.
Si le premier terme de la chronique est x 0 , le modèle s’écrit alors :
t
xt = x0 + εi
i =1
Les caractéristiques de ce processus sont (en supposant x 0 certain) :
E[x t ] = x 0
V [x t ] = tσε2
cov[x t ,x t ′ ] = σε2 × Min(t,t ′ ) si t =
/ t′
Par exemple :
cov(x 4 ,x 2 ) = E[(x 0 + ε1 + ε2 + ε3 + ε4 )(x 0 + ε1 + ε2 )]
= E(ε1 × ε1 ) + E(ε2 × ε2 ) = 2σε2 .
/ t ′.
En effet tous les produits E(εt × εt ′ ) = 0 si t =
246 ÉCONOMÉTRIE
Ce processus est non stationnaire en variance puisqu’elle dépend du temps.
Cette non stationnarité est dite aléatoire ou stochastique.
Pour stationnariser la marche aléatoire, il suffit d’appliquer au processus le
filtre aux différences premières : xt = xt−1 + εt ⇔ (1 − D)xt = εt .
• β = 0 : le processus porte alors le nom de processus DS avec dérive.
Il s’écrit : xt = xt−1 + β + εt .
Comme précédemment, on peut rechercher sa forme équivalente développée :
x t = x t−1 + β + εt
x t−1 = x t−2 + β + εt−1 ⇒ x t = x t−2 + 2β + εt−1 + εt
x t−2 = x t−3 + β + εt−2 ⇒ x t = x t−3 + 3β + εt−2 + εt−1 + εt
etc.
Si on suppose la valeur d’origine x 0 connue et déterministe, on a alors :
t
x t = x 0 + βt + εi
i =1
On peut analyser les caractéristiques de ce processus :
E[x t ] = x 0 + βt
V [x t ] = tσε2
/ t′
cov[x t ,x t ′ ] = σε2 × Min(t,t ′ ) si t =
Le processus est non stationnaire de par son espérance et sa variance.
L’espérance étant de la même forme que celle d’un processus TS, on reconnaît
dans ce processus une non stationnarité déterministe et aléatoire à la fois.
La stationnarisation de ce processus est réalisée en utilisant le filtre aux dif-
férences premières :
x t = x t−1 + β + εt ⇔ (1 − B)x t = β + εt
Soit en employant la forme développée :
t
t−1
x t = x 0 + βt + εi et en calculant : x t−1 = x 0 + β(t − 1) + εi
i =1 i =1
On a : x t − x t−1 = (1 − B)x t = β + εt .
Dans les processus de type DS, un choc à un instant donné se répercute à
l’infini sur les valeurs futures de la série ; l’effet du choc est donc permanent et
va en décroissant.
En résumé, pour stationnariser un processus TS, la bonne méthode est celle
des moindres carrés ordinaires ; pour un processus DS, il faut employer le filtre
aux différences. Le choix d’un processus DS ou TS comme structure de la chro-
nique n’est donc pas neutre.
Éléments d’analyse des séries temporelles 247
c) Conséquences d’une mauvaise stationnarisation du processus
Pour un processus TS, la bonne méthode de stationnarisation est celle des
moindres carrés ordinaires. Supposons que l'on applique au processus TS du pre-
mier ordre un filtre aux différences premières. A priori, comme le degré du poly-
nôme est 1, ce filtre peut être considéré comme correct puisqu'un filtre aux dif-
férences d'ordre d élimine un polynôme de même degré. Cependant, on démontre
que l'application du filtre aux différences a créé une perturbation artificielle.
Pour un processus DS, la bonne méthode de stationnarisation est le filtre aux
différences premières. Supposons que l'on applique la méthode des moindres
carrés ordinaires (régression sur le temps) sur les observations d'un échantillon
du processus, les paramètres de la tendance sont estimés et par conséquent le
résidu de la régression doit être un bruit blanc. Nelson et Kang montrent à par-
tir de simulations, que l'élimination d'une tendance linéaire sur un processus de
marche aléatoire crée artificiellement une forte autocorrélation des résidus pour
les premiers retards.
Sur le plan économétrique, il est donc primordial d'identifier clairement le
processus sous-jacent et d'employer la méthode adéquate de stationnarisation.
Sinon le risque de créer des « bruits parasites » artificiels est très élevé.
Les conséquences sont également importantes sur le plan économique.
Considérons, par exemple, le PIB d'un pays comme la France en valeur réelle.
Si ce PIB est DS plutôt que TS, il est alors nécessaire de remettre en cause la
décomposition traditionnelle (tendance et cycle) et sa justification théorique :
l'indépendance des schémas explicatifs. Si le PIB est en effet DS, la croissance
et le cycle sont liés et ne peuvent être en conséquence étudiés de façon séparés.
Or, d'après les travaux de Nelson et Plosser (1982) sur des chroniques macro-
économiques américaines, la variabilité constatée de la composante conjonctu-
relle serait due à une structure DS. Comme jusqu'à présent, l'analyse de cette
composante s'effectue à partir du résidu d'une régression entre le PIB et une ten-
dance déterministe, cette analyse surestime l'amplitude du cycle et sous-estime
l'importance de la tendance. Sur ce constat, Beveridge S. et Nelson C.R. (1981)
proposent une décomposition des processus selon une tendance stochastique
(permanente) qui obéit à une marche aléatoire avec ou sans dérive et une com-
posante stationnaire (transitoire). Par la suite Harvey A.C. (1988) utilise les
modèles structurels à composantes inobservables (modèle tendance plus cycle et
tendance-cycle) représentées sous forme d'un modèle espace d'états estimé par
le filtre de Kalman.
B. Les tests de racine unitaire
et la stratégie séquentielle de test
Les tests de racine unitaire « Unit Root Test » permettent non seulement de
détecter l’existence d’une non-stationnarité mais aussi de déterminer de quelle
non-stationnarité il s’agit (processus TS ou DS) et donc la bonne méthode pour
stationnariser la série.
248 ÉCONOMÉTRIE
a) Tests de racines unitaires : tests de Dickey-Fuller (1979)
Les tests de Dickey-Fuller (DF) permettent de mettre en évidence le caractère
stationnaire ou non d’une chronique par la détermination d’une tendance déter-
ministe ou stochastique.
Les modèles servant de base à la construction de ces tests sont au nombre de
trois. Le principe des tests est simple : si l’hypothèse H0 : φ1 = 1 est retenue
dans l’un de ces trois modèles, le processus est alors non stationnaire.
[1] xt = φ1 xt−1 + εt Modèle autorégressif d’ordre 1.
[2] xt = φ1 xt−1 + β + εt Modèle autorégressif avec constante.
[3] xt = φ1 xt−1 + bt + c + εt Modèle autorégressif avec tendance.
Si l’hypothèse H0 est vérifiée, la chronique xt n’est pas stationnaire quel que
soit le modèle retenu.
Dans le dernier modèle [3], si on accepte H1 : φ1 < 1 et si le coefficient b est
significativement différent de 0, alors le processus est un processus TS ; on peut
le rendre stationnaire en calculant les résidus par rapport à la tendance estimée
par les moindres carrés ordinaires.
Sous H0, les règles habituelles de l’inférence statistique ne peuvent pas être
appliquées pour tester cette hypothèse, en particulier la distribution de Student
du paramètre φ1 ; Dickey et Fuller ont donc étudié la distribution asymptotique
de l’estimateur φ1 sous l’hypothèse H0. À l’aide de simulations de Monte-Carlo,
ils ont tabulé les valeurs critiques pour des échantillons de tailles différentes.
Ces tables sont des tables1 analogues aux tables du t de Student. Les auteurs ont
choisi de tester la valeur (φ 1 pour des raisons purement sta-
1 − 1) au lieu de φ
tistiques. Cela n’est pas gênant pour le test. En effet, xt = φ1 xt−1 + εt s’écrit
aussi :
xt − xt−1 = φ1 xt−1 − xt−1 + εt
xt = (φ1 − 1)xt−1 + εt
Il est donc équivalent de tester comme hypothèse H0 : φ1 = 1 ou φ1 − 1 = 0 .
Les principes généraux du test sont les suivants.
On estime par les moindres carrés ordinaires le paramètre φ1 noté φ 1 pour les
modèles [1], [2] et [3]. L’estimation des coefficients et des écarts types du modèle
par les moindres carrés ordinaires fournit tφ̂1 qui est analogue à la statistique de
Student (rapport du coefficient sur son écart type). Si tφ̂1 ttabulé , alors on accep-
te l’hypothèse H0 ; il existe une racine unité, le processus n’est donc pas
stationnaire.
Remarque : les principaux logiciels d’analyse de séries temporelles calculent
automatiquement les valeurs critiques tφ̂1 .
b) Les tests de Dickey et Fuller Augmentés
Dans les modèles précédents, utilisés pour les tests de Dickey-Fuller simples, le
processus εt est, par hypothèse, un bruit blanc. Or il n’y a aucune raison pour
1. Cf. table 7 en fin d’ouvrage.
Éléments d’analyse des séries temporelles 249
que, a priori, l’erreur soit non corrélée ; on appelle tests de Dickey-Fuller
Augmentés (ADF, 1981) la prise en compte de cette hypothèse.
Les tests ADF sont fondés, sous l’hypothèse alternative |φ1 | < 1 , sur l’esti-
mation par les MCO des trois modèles :
p
Modèle [4] : xt = ρxt−1 − φj xt− j+1 + εt
j=2
p
Modèle [5] : xt = ρxt−1 − φj xt− j+1 + c + εt
j=2
p
Modèle [6] : xt = ρxt−1 − φj xt− j+1 + c + bt + εt
j=2
avec εt → i.i.d.
Le test se déroule de manière similaire aux tests DF simples, seules les tables
statistiques diffèrent. La valeur de p peut être déterminée selon les critères de
Akaike ou de Schwarz, ou encore, en partant d’une valeur suffisamment impor-
tante de p, on estime un modèle à p – 1 retards, puis à p – 2 retards, jusqu’à ce
que le coefficient du pième retard soit significatif.
c) Le test de Phillips et Perron (1988)
Ce test est construit sur une correction non paramétrique des statistiques de
Dickey-Fuller pour prendre en compte des erreurs hétéroscédastiques. Il se
déroule en quatre étapes :
1) Estimation par les moindres carrés ordinaires des trois modèles de base
des tests de Dickey-Fuller et calcul des statistiques associées, soit et le résidu
estimé.
1 n
σ2 =
2) Estimation de la variance dite de court terme e2
n t=1 t
3) Estimation d'un facteur correctif st2 (appelé variance de long terme) établi
à partir de la structure des covariances des résidus des modèles précédemment
estimés de telle sorte que les transformations réalisées conduisent à des distri-
butions identiques à celles du Dickey-Fuller standard :
l
1 n i 1 n
st2 = et2 + 2 1− et et−i .
n t=1 i=1
l + 1 n t=i+1
Pour estimer cette variance de long terme, il est nécessaire de définir un
nombre de retards l (troncature de Newey-West) estimé en fonction du nombre
d'observations n, l ≈ 4(n/100)2/9 .
√ 1 − 1) n(k − 1)
(φ σφ̂1
4) Calcul de la statistique de PP : tφ̂∗ = k× + √
1
σφ̂1 k
σ2
avec k = (qui est égal à 1 – de manière asymptotique – si et est un bruit
st2
blanc). Cette statistique est à comparer aux valeurs critiques de la table de
MacKinnon.
250 ÉCONOMÉTRIE
d) Stratégie de tests
Nous constatons que pour réaliser un test de racine unitaire, le résultat n’est pas
identique selon l’utilisation de l’un des trois modèles comme processus généra-
teur de la chronique de départ. Les conclusions auxquelles on parvient sont donc
différentes et peuvent entraîner des transformations erronées. C’est la raison pour
laquelle Dickey et Fuller, et à leur suite d’autres auteurs, ont élaboré des straté-
gies de tests1. Nous présentons un exemple simplifié (schéma 1) d’une stratégie
de tests. Les valeurs critiques des tĉ et tb̂ permettant de tester la nullité des coeffi-
cients c et b des modèles [2] et [3] sont données en fin d’ouvrage (table 7).
e) Le test KPSS (1992)
Kwiatkowski et al. (1992) propose d’utiliser un test du multiplicateur de
Lagrange (L M) fondé sur l’hypothèse nulle de stationnarité. Après estimation
t
des modèles [2] ou [3], on calcule la somme partielle des résidus : St = ei et
i=1
on estime la variance de long terme (st2 ) comme pour le test de Phillips et Perron.
Estimation du modèle [3]
yt = c + bt + φ1yt –1 + at
Test b = 0
non
Test φ1 = 1 oui
non oui
Processus TS :φ1<1 Processus DS
yt = c + bt + φ1yt –1 + at
Estimation du modèle [2]
yt = c + φ1yt –1 + at
Test c = 0
non
Test φ1 = 1
oui
oui non
Processus DS Processus stationnaire
Estimation du modèle [1]
yt = φ1yt –1 + at
Test φ1 = 1
oui non
Processus DS Processus stationnaire
Schéma 1 – Stratégie simplifiée des tests de racine unitaire
1. Cf. Bourbonnais R. et Terraza M. Chapitre 5, 2010.
Éléments d’analyse des séries temporelles 251
n
St2
1 t=1
La statistique est alors L M = . On rejette l’hypothèse de stationna-
st2 n2
rité si cette statistique est supérieure aux valeurs critiques lues dans une table
élaborée par les auteurs.
Il est à noter que les logiciels RATS et Eviews permettent directement l'uti-
lisation de ces tests.
Exercice n° 1
fichier C9EX1
Exemple d’application des tests de racine unitaire au CAC40
On demande d’appliquer les tests de non-stationnarité à l’indice CAC40 (indice
représentatif de l’évolution des cours de bourse) sur une période de 1160 jours.
Solution
Nous allons étudier le CAC40 sur 1 160 observations quotidiennes. Le graphique 1
illustre l’évolution de l’indice CAC40.
Les fonction d’autocorrélation simple et partielle, pour h = 15 retards, sont obtenues
directement par une fonction :
252 ÉCONOMÉTRIE
Graphique 1 – Évolution de l’indice boursier CAC40
Eviews fournit les résultats des fonctions d’autocorrélation simple (colonne AC) et par-
tielle (colonne PAC), avec les corrélogrammes respectifs. Les bornes de l’intervalle de
confiance sont stylisées par des traits pointillés horizontaux ; chaque terme qui sort de cet
intervalle est donc significativement différent de 0 au seuil de 5 %. Nous nous apercevons
que tous les termes du corrélogramme simple sont extérieurs à l'intervalle de confiance. Le
processus n'est pas un bruit blanc (il semble même caractéristique d'un processus non sta-
tionnaire). La statistique Q de Ljung-Box (la seule calculée par Eviews) confirme ce fait :
2
Q-Stat = 14483 (au retard k = 15) > χ0,05;15 = 25, on refuse l'hypothèse de nullité des coef-
ficients ρk (la probabilité critique de ce test est indiquée αc = 0,000 < 0,05, donc on refu-
se H0). Le processus CAC40 n'est pas un bruit blanc. A partir des tests de Dickey-Fuller
nous allons examiner si le processus est non stationnaire.
Le test de Dickey-Fuller simple consiste à estimer1 les trois modèles :
[1] : CACt − CACt−1 = DCACt = (φ1 − 1) CACt−1
[2] : CACt − CACt−1 = DCACt = (φ1 − 1) CACt−1 + c
[3] : CACt − CACt−1 = DCACt = (φ1 − 1) CACt−1 + c + bt
L’estimation par les MCO des paramètres du modèle [3] donne :
DCACt = −0,008447 CACt−1 + 14,94 + 0,002103 t
(–2,053) (2,0) (1,11)
n = 1 159 − (·) = t empirique.
Le coefficient de la droite de tendance n’est pas significativement différent de 0
(t ∗ = 1,11), on rejette l’hypothèse d’un processus TS et tφ̂1 = −2,053 > ttabulé
= −3,41 (ou n(φ 1 − 1) = 1 159 × −0,008447 = −9,79 > −21,8 ) ; on accepte l’hypo-
thèse H0 (valeurs critiques au seuil de 5 %) ; le processus n’est pas stationnaire.
L’estimation par les MCO des paramètres du modèle [2] donne :
DCACt = −0,00709 CACt−1 + 13,63
(–1,805) (1,85)
n = 1 159 − (·) = t empirique.
1. Ces tests très brièvement présentés ici doivent faire l’objet d’une stratégie afin de tester les cas
des hypothèses jointes. Cf. Bourbonnais R. et Terraza M., 2010.
Éléments d’analyse des séries temporelles 253
Le terme constant n’est pas significativement différent de 0 (t ∗ = 1,85), on rejette
l’hypothèse d’un processus DS avec dérive et tφ̂1 = −1,805 > ttabulé = −2,86 ; on
accepte l’hypothèse H0 ; le processus n’est pas stationnaire.
Enfin l’estimation par les MCO des paramètres du modèle [1] donne :
DCACt = 0,000174 CACt−1
(0,536)
n = 1 159 − (·) = t empirique.
tφ̂1 = 0,536 > ttabulé = −1,95 , on accepte l’hypothèse H0 ; le processus n’est pas
stationnaire.
Le test DFA (avec quatre retards) conduit à des résultats similaires :
Hypothèse H0 : CAC possède une racine unitaire
Nombre de retards (minimum du critère de Akaike) = 4
Test de Dickey-Fuller Augmenté t Statistique Probabilité critique
Modèle [4] 0,46 0,81
Modèle [5] –2,03 0,27
Modèle [6] –2,28 0,44
Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas l’hy-
pothèse H0 ; nous pouvons donc conclure que le processus CAC40 possède une racine
unitaire et n’est donc pas stationnaire.
Nous procédons ensuite au test de Phillips-Perron avec une troncature l = 6.
Hypothèse H0 : CAC possède une racine unitaire
Troncature l = 6
Test de Phillips-Perron t Statistique ajusté Probabilité critique
Modèle [1] 0,50 0,82
Modèle [2] –1,94 0,31
Modèle [3] –2,20 0,49
Les probabilités critiques sont toutes supérieures à 0,05, nous ne rejetons pas l’hy-
pothèse H0 ; le processus CAC40 possède une racine unitaire.
Enfin, nous procédons aux tests KPSS.
Hypothèse H0 : CAC ne possède pas une racine unitaire
Troncature l = 6
Test de Kwiatkowski-Phillips-Schmidt-Shin LM Statistique Valeur critique à 5%
Modèle [2] 2,58 0,46
Modèle [3] 1,31 0,14
La statistique LM est supérieure à la valeur critique (pour un seuil de 5%) pour les
deux spécifications, nous rejetons l’hypothèse H0, le processus CAC40 possède donc une
racine unitaire.
Tous les résultats sont convergents, nous pouvons donc conclure que le processus
CAC40 n’est pas stationnaire.
S’agit-il d’un processus de marche au hasard sans dérive ? Nous allons le vérifier en
calculant le corrélogramme de la série filtrée par les différences premières ceci afin de
stationnariser le processus :
DCACt = CACt – CACt–1.
254 ÉCONOMÉTRIE
La statistique Q a une probabilité critique de 0,182 (pour k = 15) largement supé-
rieure à 0,05 ; nous acceptons l’hypothèse H0 de nullité des coefficients du corrélogram-
me. Le corrélogramme de la série CAC40 filtrée par les différences premières est carac-
téristique d’un bruit blanc. La série CAC40 est donc bien un processus DS sans dérive.
S’agit-il d’un bruit blanc gaussien ?
L’histogramme de la distribution et les valeurs empiriques des Skewness, Kurtosis
et de la statistique de Jarque-Bera sont donnés par :
Les tests sont effectués à partir des valeurs :
1/2
|β − 0| | − 0,39 − 0|
ν1 = 1 = = 5,42 > 1,96
6 6
n 1 159
Éléments d’analyse des séries temporelles 255
|β2 − 3| |6,83 − 3|
et ν2 = = = 26,61 > 1,96 .
24 24
n 1 159
Nous rejetons l’hypothèse de normalité en ce qui concerne la symétrie et l’aplatissement
de la distribution, ce qui est confirmé par la statistique de Jarque-Bera :
2
JB = 741,3 > χ0,05 (2) = 5,99 . Le processus CAC40 en différences est donc un bruit
blanc non gaussien.
III. Les modèles ARIMA
Nous allons présenter une famille de processus aléatoires qui sont censés recou-
vrir une gamme très large d’évolution possible de séries chronologiques : les
processus autorégressifs et les processus de moyenne mobile.
A. Typologie des modèles AR, MA et ARMA
1) Modèle AR (Auto Régressif)
a) Formulation
Dans le processus autorégressif d’ordre p, l’observation présente yt est générée
par une moyenne pondérée des observations passées jusqu’à la p-ième période
sous la forme suivante :
AR(1) : yt = θ1 yt−1 + εt
AR(2) : yt = θ1 yt−1 + θ2 yt−2 + εt
...
AR( p) : yt = θ1 yt−1 + θ2 yt−2 + . . . + θ p yt− p + εt [4]
où θ1 ,θ2 ,. . . ,θ p sont des paramètres à estimer positifs ou négatifs, εt est un aléa
gaussien.
Nous pouvons ajouter à ce processus une constante qui ne modifie en rien les
propriétés stochastiques. L’équation [4] peut aussi s’écrire à l’aide de l’opéra-
teur décalage D :
(1 − θ1 D − θ2 D 2 − . . . − θ p D p )yt = εt
b) Caractéristiques des corrélogrammes
Il est démontré que le corrélogramme simple d’un processus AR( p) est caracté-
risé par une décroissance géométrique de ses termes de type :
ρk = ρ k
Le corrélogramme partiel a ses seuls p premiers termes différents de 0.
256 ÉCONOMÉTRIE
2) Modèle MA (Moving Average : Moyenne Mobile)
a) Formulation
Dans le processus de moyenne mobile d’ordre q, chaque observation yt est géné-
rée par une moyenne pondérée d’aléas jusqu’à la q-ième période.
MA(1) : yt = εt − α1 εt−1
MA(2) : yt = εt − α1 εt−1 − α2 εt−2
...
MA(q) : yt = εt − α1 εt−1 − α2 εt−2 − . . . − αq εt−q [5]
où α1 ,α2 ,. . . ,αq sont des paramètres pouvant être positifs ou négatifs et εt est un
aléa gaussien.
L’équation [5] peut aussi s’écrire :
(1 − α1 D − α2 D 2 − . . . − αq D q )εt = yt .
Dans ce processus, tout comme dans le modèle auto-régressif AR, les aléas
sont supposés être engendrés par un processus de type bruit blanc. Nous pou-
vons interpréter le modèle MA comme étant représentatif d’une série chronolo-
gique fluctuant autour de sa moyenne de manière aléatoire, d’où le terme de
moyenne mobile car celle-ci, en lissant la série, gomme le bruit créé par l’aléa.
Il est à noter qu’il y a équivalence entre un processus MA(1) et un processus
AR d’ordre p infini :
MA(1) = AR(∞).
b) Caractéristiques des corrélogrammes
Le corrélogramme simple d’un processus MA(q) est de la forme générale :
i=q−k
αi αi+k
i=0
ρk = pour k = 0,1,. . . ,q et ρk = 0 pour k > q.
i=q
2
α i
i=0
C’est-à-dire que seuls les q premiers termes du corrélogramme simple sont
significativement différents de 0.
Le corrélogramme partiel est caractérisé par une décroissance géométrique
des retards.
3) Modèle ARMA (mélange de processus AR et MA)
a) Formulation
Les modèles ARMA sont donc représentatifs d’un processus généré par une
combinaison des valeurs passées et des erreurs passées. Ils sont définis par
l’équation :
Éléments d’analyse des séries temporelles 257
ARMA( p,q) : (1 − θ1 D − θ2 D 2 − . . . − θ p D p )yt =
= (1 − α1 D − α2 D 2 − . . . − αq D q )εt
Nous avons :
ARMA(1,0) = AR(1); ARMA(0,1) = MA(1).
Dans le cas d’un processus ARMA(p, q) avec constante :
yt = µ + θ1 x t−1 + θ2 x t−2 + ... + θ p x t− p + εt − α1 εt−1
−α2 εt−2 − ... − αq εt−q
µ
L’espérance du processus est donnée1 par E(x t ) =
(1 − θ1 − θ2 − ... − θ p )
Donc connaissant l’espérance du processus (Eviews calcule directement l’es-
pérance du processus), la constante du processus ARMA est déterminée par :
µ = E(x t ) × (1 − θ1 − θ2 − ... − θ p )
b) Caractéristiques des corrélogrammes
Les corrélogrammes simples et partiels sont, par voie de conséquence, un
mélange des deux corrélogrammes des processus AR et MA purs. Il s’avère
ainsi plus délicat d’identifier ces processus à partir de l’étude des fonctions
d’autocorrélation empiriques.
Le tableau 2 synthétise les caractéristiques, en termes de corrélogrammes,
des processus AR, MA et ARMA.
Tableau 2 – Résumé des propriétés des fonctions d’autocorrélation
simple et partielle
Processus Fonction autocorrélation simple Fonction autocorrélation partielle
AR(1) Décroissance exponentielle(θ1 > 0) ou Pic significatif pour le premier retard:
sinusoïdale amortie (θ1 < 0) Positif si θ1 > 0 et négatif si θ1 < 0,
les autres coefficients nuls pour des
retards > 1
AR(2) Décroissance exponentielle ou sinusoï- Pics significatifs pour le premier et
dale selon les signes de θ1 et θ2 second retards, les autres coefficients sont
nuls pour des retards > 2
AR(p) Décroissance exponentielle et/ou sinu- Pics significatifs pour les p premiers
soïdale retards, les autres coefficients sont nuls
pour des retards > p
1. Il suffit de remplacer chaque terme E(x t ) = E(x t−1 ) = E(x t−2 ) = ... = E(x t− p ) car la série
est stationnaire.
258 ÉCONOMÉTRIE
Processus Fonction autocorrélation simple Fonction autocorrélation partielle
MA(1) Pic significatif pour le premier retard : Décroissance exponentielle (α 1 > 0) ou
positif si α 1 < 0 et négatif si α 1 > 0. sinusoïdale amortie (α 1 < 0)
Les autres coefficients sont nuls pour
des retards > 1
MA(2) Pics significatifs pour le premier et Décroissance exponentielle ou sinusoïda-
second retards. Les autres coefficients le selon les signes de α 1 et α 2
sont nuls pour des retards > 2
MA(q) Pics significatifs pour les q premiers Décroissance exponentielle et/ou sinusoï-
retards. Les autres coefficients nuls pour dale
des retards > q
ARMA(1, 1) Décroissance géométrique à partir du Décroissance exponentielle (α 1 > 0) ou
premier retard, le signe est déterminé sinusoïdale amortie (α 1 < 0)
par θ1 – α 1
ARMA(p, q) Décroissance exponentielle ou sinusoï- Décroissance exponentielle ou sinusoïda-
dale amortie tronquée après (q – p) le amortie tronquée après p – q retards
retards
4) Conditions d’utilisation
Les modèles AR, MA, ARMA ne sont représentatifs que de chroniques :
– stationnaires en tendance ;
– corrigées des variations saisonnières.
B. L’extension aux processus ARIMA et SARIMA
Les tests de Dickey-Fuller et Dickey-Fuller Augmenté envisagés précédemment
permettent de déterminer si la série est stationnaire et dans le cas d’une non-
stationnarité de quel type il s’agit : TS et DS.
Si la série étudiée est de type TS, il convient de la stationnariser par régres-
sion sur le temps et le résidu d’estimation est alors étudié selon la méthodologie
de Box-Jenkins. Ceci permet de déterminer les ordres p et q des parties AR et
MA du résidu. Le modèle est toujours dans ce cas un ARMA( p, q) .
Si la série étudiée est de type DS, il convient de la stationnariser par passa-
ge aux différences selon l’ordre d’intégration I = d (c’est-à-dire le nombre de
fois qu’il faut différencier la série pour la rendre stationnaire). La série diffé-
renciée est alors étudiée selon la méthodologie de Box-Jenkins qui permet de
déterminer les ordres p et q des parties AR et MA. On note ce type de modèle
ARIMA( p, d, q) .
Les modèles SARIMA permettent d’intégrer un ordre de différenciation lié
à une saisonnalité généralisée par la transformation : (1 − D s )yt = yt − yt−s où
s correspond à la périodicité des données (s = 4 pour une série trimestrielle,
s = 12 pour une série mensuelle).
Éléments d’analyse des séries temporelles 259
Exercice n° 2
Génération de processus ARMA et analyse des corrélogrammes
On demande de générer sur 200 observations, de manière artificielle, les processus
suivants et d’en étudier les corrélogrammes.
1) MA(1) : yt = 2 + (1 + 0,8 D)εt
2) AR(1) : (1 − 0,9 D)yt = 2 + εt
3) MA(2) : yt = 2 + (1 + 0,6 D − 0,3 D 2 )εt
4) AR(2) : (1 − 0,9 D + 0,7 D 2 )yt = 2 + εt
5) ARMA(1, 1) : (1 − 0,9 D)yt = 2 + (1 + 0,8 D)εt
avec εt → N (0 ; 1).
Solution
Le programme Eviews ( C9EX2.PRG) permettant de générer les processus est dis-
ponible en téléchargement.
IV. La méthode de Box et Jenkins
La partie autorégressive d’un processus, notée AR, est constituée par une com-
binaison linéaire finie des valeurs passées du processus. La partie moyenne
mobile, notée MA, est constituée d’une combinaison linéaire finie en t des
valeurs passées d’un bruit blanc. Wold (1954) montre que les modèles ARMA
permettent de représenter la plupart des processus stationnaires. L’approche de
Box et Jenkins (1976) consiste en une méthodologie d’étude systématique des
séries chronologiques à partir de leurs caractéristiques afin de déterminer, dans
la famille des modèles ARIMA, le plus adapté à représenter le phénomène étu-
dié. Trois étapes principales sont définies.
A. Recherche de la représentation adéquate :
l’identification1
La phase d’identification est la plus importante et la plus difficile : elle consiste
à déterminer le modèle adéquat dans la famille des modèles ARIMA. Elle est
1. Attention : il ne faut pas confondre l’emploi de ce terme avec son utilisation dans le cadre des
modèles à équations simultanées.
260 ÉCONOMÉTRIE
fondée sur l’étude des corrélogrammes simple et partiel. Nous pouvons essayer
d’édicter quelques règles simples facilitant la recherche des paramètres p, d, q
du modèle ARIMA.
1) Désaisonnalisation
Dans le cas d’une série affectée d’un mouvement saisonnier, il convient de la reti-
rer préalablement à tout traitement statistique. Cette saisonnalité est ajoutée à la
série prévue à la fin du traitement afin d’obtenir une prévision en terme brut.
2) Recherche de la stationnarité en terme de tendance
Si l’étude du corrélogramme simple et les tests statistiques s’y rapportant (statis-
tique Q) présagent d’une série affectée d’une tendance, il convient d’en étudier les
caractéristiques selon les tests de Dickey-Fuller. La méthode d’élimination de la
tendance est fonction du processus DS ou TS sous-jacent à la chronique étudiée.
Après stationnarisation, nous pouvons identifier les valeurs des paramètres
p, q du modèle ARMA.
• Si le corrélogramme simple n’a que ses q premiers termes (q = 3 maximum)
différents de 0 et que les termes du corrélogramme partiel diminuent lente-
ment, nous pouvons pronostiquer un MA(q) .
• Si le corrélogramme partiel n’a que ses p premiers termes (p = 3 maximum)
différents de 0 et que les termes du corrélogramme simple diminuent lente-
ment, cela caractérise un AR( p) .
• Si les fonctions d’autocorrélation simple et partiel ne paraissent pas tronquées,
il s’agit alors d’un processus de type ARMA, dont les paramètres dépendent
de la forme particulière des corrélogrammes.
B. Estimation des paramètres
Les méthodes d’estimation diffèrent selon le type de processus diagnostiqué.
Dans le cas d’un modèle AR( p), nous pouvons appliquer une méthode des
moindres carrés (cf. chapitre 7) ou bien nous pouvons utiliser les relations exis-
tantes entre les autocorrélations et les coefficients du modèle (équations de Yule-
Walker).
L’estimation des paramètres d’un modèle MA(q) s’avère plus complexe.
Box et Jenkins suggèrent d’utiliser une procédure itérative de type balayage que
nous pouvons illustrer de la manière suivante.
Supposons le processus :
(1 − θ1 D − θ2 D 2 )yt = (1 − α1 D − α2 D 2 )εt
que nous pouvons écrire :
Éléments d’analyse des séries temporelles 261
1
yt = (1 − α1 D − α2 D 2 )εt
1 − θ1 D − θ2 D 2
1
Nous posons vt = εt ,
1 − θ1 D − θ2 D 2
il vient alors :
vt − θ1 vt−1 − θ2 vt−2 = εt [6]
Ce qui nous donne :
yt = vt − α1 vt−1 − α2 vt−2 où vt = yt + α1 vt−1 + α2 vt−2 [7]
Nous pouvons alors initialiser la procédure de balayage en partant de deux
α1 ;
intervalles de valeurs plausibles pour ( α2 ) et d’un pas d’incrémentation.
α2 ), nous posons :
α1 ;
Puis, pour chaque couple de valeurs ( v0 = 0 et
v1 = 0,
et nous calculons les valeurs estimées de
vt à partir de la relation [7] :
v2 = y2
v3 = y3 +
α1
v2
v4 = y4 +
α1
v3 +
α2
v2 , etc.
Après calcul de toutes les valeurs de
vt , nous estimons les paramètres θ1 et
θ2 par la méthode des moindres carrés appliquée à l’équation [6] :
vt = θ1 vt−1 + θ2 vt−2 + εt [8]
Nous retenons les valeurs θ1 ,
θ2 et
α1 ,
α2 qui rendent minimum la somme
des carrés des résidus issue de la régression de l’équation [8].
Cette méthode d’estimation n’est valide que si le nombre de paramètres à
estimer n’est pas trop important.
Nous pouvons mentionner des méthodes d’estimation fondées sur une maxi-
misation de fonctions de vraisemblance recourant alors à des procédures itéra-
tives de régression non linéaire, telles que celles envisagées au chapitre 6.
C. Tests d’adéquation du modèle et prévision
Les paramètres du modèle étant estimés (on vérifie la convergence de la procé-
dure itérative d’estimation), nous examinons les résultats d’estimation.
• Les coefficients du modèle doivent être significativement différents de 0 (le test
du t de Student s’applique de manière classique). Si un coefficient n’est pas
significativement différent de 0, il convient d’envisager une nouvelle spécifi-
cation éliminant l’ordre du modèle AR ou MA non valide.
• L’analyse des résidus : si les résidus obéissent à un bruit blanc, il ne doit pas
exister d’autocorrélation dans la série et les résidus doivent être homoscédas-
tiques. Les tests suivants peuvent être utilisés.
262 ÉCONOMÉTRIE
– le test de Durbin Watson, bien qu’il ne permette de détecter que des auto-
corrélations d’ordre 1 ;
– les tests de Box et Pierce et de Ljung et Box (cf. I, C de ce chapitre) qui
permettent de tester l’ensemble des termes de la fonction d’autocorréla-
tion. Si le résidu est à mémoire, cela signifie que la spécification du modè-
le est incomplète et qu’il convient d’ajouter au moins un ordre au proces-
sus ;
– le test ARCH d’hétéroscédasticité (cf. chapitre 5, II, D) effectué à partir de
la fonction d’autocorrélation du résidu au carré.
La phase de validation du modèle est très importante et nécessite le plus sou-
vent un retour à la phase d’identification.
Lorsque le modèle est validé, la prévision peut alors être calculée à un hori-
zon de quelques périodes, limitées car la variance de l’erreur de prévision croît
très vite avec l’horizon.
Nous pouvons résumer les différentes étapes de la méthodologie de Box et
Jenkins à partir du schéma 2.
Schéma 2 – Les étapes de la méthodologie de Box et Jenkins
Éléments d’analyse des séries temporelles 263
Exercice n° 3 fichier C9EX3
Analyse par la méthodologie de Box et Jenkins et prévision
de trois processus aléatoires
Soit les trois processus x1 , x2 et x3 connus sur 220 périodes, on demande de :
– analyser leurs propriétés stochastiques ;
– déterminer, le cas échéant, l’ordre du processus ARMA(p, q) ;
– effectuer une prévision, par une méthode adaptée, à un horizon de 3 périodes.
Solution
Les résultats sont fournis sans les calculs intermédiaires.
1) Analyse du processus x1
Le graphique 2 présente l’évolution du processus x1 et son corrélogramme, à leur
lecture le processus est non stationnaire.
800
700
600
500
400
300
200
100
0
25 50 75 100 125 150 175 200
X1
Graphique 2 – Évolution et fonction d’autocorrélation simple du processus x1
a) Stratégie simplifiée de test : tests de Phillips-Perron (fenêtre de Newey-West = 4)
Estimation du modèle [3]
Null Hypothesis: X1 has a unit root
Exogenous: Constant, Linear Trend
Bandwidth: 4 (Fixed using Bartlett kernel)
Adj. t-Stat Prob.
Phillips-Perron test statistic – 2.148148 0.5157
Dependent Variable: D(X1)
Included observations: 219 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X1(-1) – 0.039046 0.021398 – 1.824772 0.0694
C 3.725580 0.811468 4.591160 0.0000
@TREND(1) 0.124280 0.066711 1.862974 0.0638
264 ÉCONOMÉTRIE
Nous acceptons l’hypothèse H0 de racine unitaire, nous ne pouvons donc pas inter-
préter les probabilités critiques calculées directement selon les lois de Student. Nous
devons nous référer à la table statistique 7 en fin d’ouvrage : tb∗ = 1,86 < tb0,05 = 2,79
(valeur lue à 5%, modèle [3]), acceptation de l’hypothèse b = 0. Selon la stratégie
séquentielle de test nous estimons le modèle [2].
Estimation du modèle [2]
Null Hypothesis: X1 has a unit root
Exogenous: Constant
Bandwidth: 4 (Fixed using Bartlett kernel)
Adj. t-Stat Prob.
Phillips-Perron test statistic 0.307267 0.9783
Dependent Variable: D(X1)
Included observations: 219 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X1(-1) 0.000673 0.001830 0.367843 0.7133
C 3.128542 0.749736 4.172860 0.0000
Nous acceptons l’hypothèse H0 de racine unitaire, nous ne pouvons pas interpréter
les probabilités critiques calculées directement selon les lois de Student :
tc∗ = 4,17 > tc0,05 = 2,84 (valeur lue à 5%, modèle [2]), nous refusons l’hypothèse
c = 0. Il s’agit donc d’un processus DS avec dérive : x1t = x1t−1 + c + εt . Nous le sta-
tionarisons par le passage aux différences premières.
b) Analyse des fonctions d’autocorrélation simple et partielle sur la série stationnaire
Il ne s’agit pas d’une marche au hasard (les probabilités critiques de la Q-Stat sont
toutes très largement inférieures à 0,05), le processus est à mémoire, il existe donc une
représentation dans la classe des processus ARMA.
Éléments d’analyse des séries temporelles 265
c) Recherche des ordres p et q de la représentation ARMA
Compte tenu de la forme des corrélogrammes simple et partiel nous sélectionnons
un modèle ARMA(2, 1). Nous constatons que la constante est significativement diffé-
rente de 0, et des essais d’autres représentations concurrentes (ARMA(1, 1)) indiquent
des valeurs des critères d’information (AIC ou SC) supérieures au modèle retenu.
Dependent Variable: D(X1)
Included observations: 217 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
C 3.327748 0.346054 9.616272 0.0000
AR(1) 0.760134 0.066149 11.49128 0.0000
AR(2) - 0.604867 0.062249 - 9.716905 0.0000
MA(1) 0.500890 0.073470 6.817644 0.0000
d) Validation de la représentation
• Tests de Student sur les coefficients :
Les coefficients sont tous significativement différents de 0 (probabilités critiques
inférieures à 0,05)
• Analyse des résidus
Corrélogramme du résidu Corrélogramme du résidu au carré
Le corrélogramme du résidu indique qu’il s’agit d’un processus sans mémoire, le
corrélogramme du résidu au carré (test ARCH, cf. chapitre 5) n’indique aucun terme de
significativement différent de 0 ; l’homoscédasticité des résidus est donc vérifiée. Les
résidus sont donc un processus de bruit blanc.
Les résidus sont-ils gaussiens ? La statistique de Jarque-Bera (JB = 2,06) indique
une probabilité critique de 0,35, nous acceptons l’hypothèse H0 de normalité des rési-
dus.
La représentation est validée, x1t est un processus ARIMA(2, 1, 1) avec constante.
e) Prévision
La valeur de la constante est égale à : µ = E(x1t ) × (1 − θ1 − θ2 )
266 ÉCONOMÉTRIE
La prévision est donnée par :
∆x1t = θ1 × ∆x1t−1 + θ2 × ∆x1t−2 + E(x1t ) × (1 − θ1 − θ2 ) + εt + α1 εt−1
∆x1t = 0,76 × ∆x1t−1 − 0,60 × ∆x1t−2 + 3,33 × (1 − 0,76 + 0,60) + εt + 0,50 × εt−1
x1t = x1t−1 + ∆x1t
∆x1,221 = 0,76 × ∆x1,220 − 0,60 × ∆x1,219 + 2,81 + ε221 + 0,50 × ε220
∆x1,221 = 0,76 × 7,76 − 0,60 × 12,39 + 2,81 + 0 + 0,50 × 0,87 = 1,65
Jusqu’à l’observation t = 220 nous prenons εt = résidu, pour t > 220, E(εt ) = 0.
x1,221 = x1,220 + ∆x1,221 = 741,90 + 1,65 = 743,55
∆x1,222 = 0,76 × ∆x1,221 − 0,60 × ∆x1,220 + 2,81 + ε222 + 0,50 × ε221
∆x1,222 = 0,76 × 1,65 − 0,60 × 7,76 + 2,81 + 0 + 0 = −0,63
x1,222 = x1,221 + ∆x1,222 = 743,55 − 0,63 = 742,92
∆x1,223 = 0,76 × ∆x1,222 − 0,60 × ∆x1,221 + 2,81 + ε223 + 0,50 × ε222
∆x1,223 = 0,76 × −0,63 − 0,60 × 1,65 + 2,81 + 0 + 0 = 1,34
x1,223 = x1,222 + ∆x1,223 = 742,92 + 1,34 = 744,26
Les résultats sont présentés au tableau 3.
Tableau 3 – Calcul des prévisions du processus ARIMA(2, 1, 1)
t x1t ∆x1t εt = résidus
218 721,75 10,2 4,07
219 734,14 12,39 2,28
220 741,90 7,76 0,87
221 743,55 1,65 0
222 742,92 – 0,63 0
223 744,26 1,34 0
2) Analyse du processus x2
Le graphique 3 présente l’évolution du processus x2 et son corrélogramme, à leur
lecture le processus semble non stationnaire.
35
30
25
20
15
10
0
25 50 75 100 125 150 175 200
X2
Graphique 3 – Évolution et fonction d’autocorrélation simple du processus x2
Éléments d’analyse des séries temporelles 267
a) Stratégie simplifiée de test : tests de Dickey-Fuller
Doit-on utiliser le test de Dickey-Fuller simple ou le test de Dickey-Fuller
Augmenté ?
Préalablement nous déterminons la valeur de p, si p = 0 nous utilisons le test de
Dickey-Fuller. À partir du modèle [2] (modèle avec constante) nous sélectionnons
l’ordre p du modèle à partir des critères d’information d’Akaike et de Schwarz. Les deux
critères sont convergents1 p = 3.
Null Hypothesis: X2 has a unit root
Exogenous: Constant
Lag Length: 3 (Automatic based on AIC, MAXLAG=8)
Null Hypothesis: X2 has a unit root
Exogenous: Constant
Lag Length: 3 (Automatic based on SIC, MAXLAG=8)
Nous appliquons donc la stratégie séquentielle des tests à partir des tests de Dickey-
Fuller Augmenté avec p = 3.
Estimation du modèle [3]
Null Hypothesis: X2 has a unit root
Exogenous: Constant, Linear Trend
Lag Length: 3 (Fixed)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic – 2.253814 0.4570
Test critical values: 1% level – 4.001108
5% level – 3.430766
10% level – 3.138998
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(X2)
Sample (adjusted): 5 220
Included observations: 216 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X2(– 1) – 0.080344 0.035648 – 2.253814 0.0252
D(X2(– 1)) – 0.229159 0.070487 – 3.251071 0.0013
D(X2(– 2)) – 0.209633 0.069319 – 3.024181 0.0028
D(X2(– 3)) – 0.168372 0.067849 – 2.481571 0.0139
C 1.314041 0.575187 2.284546 0.0233
@TREND(1) 0.002458 0.003842 0.639940 0.5229
Nous acceptons l’hypothèse H0 de racine unitaire, nous ne pouvons pas interpréter
les probabilités critiques calculées directement selon les lois de Student. Nous devons
1. En cas de divergence des critères nous retenons la valeur de p minimum des deux critères.
268 ÉCONOMÉTRIE
donc nous référer à la table statistique 7 en fin d’ouvrage : tb∗ = 0,64 < tb0,05 = 3,12
(valeur lue à 5 %, modèle [3]), acceptation de l’hypothèse b = 0. Nous estimons le
modèle [2].
Estimation du modèle [2]
Null Hypothesis: X2 has a unit root
Exogenous: Constant
Lag Length: 3 (Fixed)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic – 2.306282 0.1709
Test critical values: 1% level – 3.460596
5% level – 2.874741
10% level – 2.573883
Augmented Dickey-Fuller Test Equation
Dependent Variable: D(X2)
Sample (adjusted): 5 220
Included observations: 216 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X2(– 1) – 0.067264 0.029165 – 2.306282 0.0221
D(X2(– 1)) – 0.239180 0.068630 – 3.485076 0.0006
D(X2(– 2)) – 0.217876 0.068017 – 3.203270 0.0016
D(X2(– 3)) – 0.174967 0.066968 – 2.612710 0.0096
C 1.347763 0.571966 2.356368 0.0194
Nous acceptons l’hypothèse H0 de racine unitaire, nous ne pouvons pas interpréter
les probabilités critiques calculées directement selon les lois de Student :
tc∗ = 2,35 < tc0,05 = 3,39 (valeur lue à 5 %, modèle [2]), nous acceptons l’hypothèse
c = 0. Il s’agit donc d’un processus DS sans dérive : x2t = x2t−1 + εt . Nous le stationa-
risons par le passage aux différences premières.
b) Analyse des fonctions d’autocorrélation simple et partielle sur la série stationnaire
Éléments d’analyse des séries temporelles 269
Il ne s’agit pas d’une marche au hasard (les probabilités critiques de la Q-Stat sont
toutes très largement inférieures à 0,05), le processus est à mémoire, il existe donc une
représentation dans la classe des processus ARMA.
c) Recherche des ordres p et q de la représentation ARMA
Compte tenu de la forme des corrélogrammes simple et partiel nous sélectionnons
un modèle ARMA(1, 1). Nous constatons que la constante n’est pas significativement
différente de 0, et des essais d’autres représentations concurrentes (ARMA(2, 0) ou
ARMA(0, 2)) indiquent des valeurs des critères d’information (AIC ou SC) supérieures
au modèle retenu.
Dependent Variable: D(X2)
Sample (adjusted): 3 220
Included observations: 218 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
AR(1) 0.437628 0.127029 3.445091 0.0007
MA(1) – 0.743275 0.094329 – 7.879625 0.0000
d) Validation de la représentation
• Tests de Student sur les coefficients
Les coefficients sont tous significativement différents de 0 (probabilités critiques
inférieures à 0,05).
• Analyse des résidus
Corrélogramme du résidu Corrélogramme du résidu au carré
Le corrélogramme du résidu indique qu’il s’agit d’un processus sans mémoire, le
corrélogramme du résidu au carré n’indique aucun terme de significativement différent
de 0 ; les résidus sont donc homoscédastiques. Les résidus sont donc un bruit blanc.
Les résidus sont-ils gaussiens ? La statistique de Jarque-Bera (JB = 5,88) indique
une probabilité critique de 0,052, nous acceptons (de justesse !) l’hypothèse de norma-
lité des résidus.
La représentation est validée, x2t est un processus ARIMA(1, 1, 1) sans constante.
270 ÉCONOMÉTRIE
e) Prévision
La prévision est donnée (E(εt ) = 0 pour t > 220) par :
∆x2t = θ1 × ∆x2t−1 + α1 εt−1
∆x2t = 0,437 × ∆x2t−1 − 0,743εt−1
x2t = x2t−1 + ∆x2t
∆x2,221 = 0,437 × ∆x2,220 − 0,743 × ε220
∆x2,221 = 0,437 × −1,318 − 0,743 × −0,889 = 0,084
x2,221 = x2,220 + ∆x2,221 = 19,61 + 0,084 = 19,69
∆x2,222 = 0,437 × ∆x2,221 − 0,743 × ε221
∆x2,222 = 0,437 × 0,084 − 0,743 × 0 = 0,037
x2,222 = x2,221 + ∆x2,222 = 19,69 + 0,037 = 19,73
∆x2,223 = 0,437 × ∆x2,222 − 0,743 × ε222
∆x2,223 = 0,437 × 0,037 − 0,743 × 0 = 0,016
x2,223 = x2,222 + ∆x2,223 = 19,73 + 0,016 = 19,75
Les résultats sont présentés au tableau 4.
Tableau 4 – Calcul des prévisions du processus ARIMA(1, 1, 1)
t x2t ∆x2t εt = résidus
218 20,438 3,328 2,464
219 20,930 0,492 0,867
220 19,611 – 1,318 – 0,889
221 19,695 0,084 0
222 19,732 0,037 0
223 19,748 0,016 0
3) Analyse du processus x3
Le graphique 4 présente l’évolution du processus x3 et son corrélogramme, à leur
lecture le processus est clairement non stationnaire.
700
600
500
400
300
200
100
0
25 50 75 100 125 150 175 200
X3
Graphique 4 – Évolution et fonction d’autocorrélation simple du processus x3
Éléments d’analyse des séries temporelles 271
a) Stratégie simplifiée de test : tests de Phillips-Perron (choix automatique de la fenêtre
de Newey-West)
Estimation du modèle [3]
Null Hypothesis: X3 has a unit root
Exogenous: Constant, Linear Trend
Bandwidth: 1 (Newey-West using Bartlett kernel)
Adj. t-Stat Prob.*
Phillips-Perron test statistic – 15.03107 0.0000
Test critical values: 1% level – 4.000511
5% level – 3.430477
10% level – 3.138828
Phillips-Perron Test Equation
Dependent Variable: D(X3)
Sample (adjusted): 2 220
Included observations: 219 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X3(- 1) – 1.023098 0.068065 – 15.03108 0.0000
C 10.33495 0.639662 16.15689 0.0000
@TREND(1) 3.065841 0.203980 15.03013 0.0000
Nous refusons l’hypothèse H0 de racine unitaire, nous pouvons donc interpréter
directement les probabilités critiques calculées selon les lois de Student, refus aussi de
l’hypothèse b = 0.
Le processus x3 est un TS (Trend Stationnary), x3t = a0 + a1 t + εt avec
t = 1, 2, ..., n. La bonne méthode de stationnarisation consiste donc à effectuer une
régression sur le temps.
b) Modélisation
Soit la régression de x3 sur une tendance déterministe t = 1, 2, ... , n
Dependent Variable: X3
Method: Least Squares
Included observations: 220
Variable Coefficient Std. Error t-Statistic Prob.
C 7.171985 0.409466 17.51547 0.0000
TENDANCE 2.996632 0.003213 932.7294 0.0000
c) Validation de la représentation
• Tests de Student sur les coefficients
Les coefficients sont tous significativement différents de 0 (probabilités critiques
inférieures à 0,05).
272 ÉCONOMÉTRIE
• Analyse des résidus
Corrélogramme du résidu Corrélogramme du résidu au carré
Le corrélogramme du résidu indique qu’il s’agit d’une marche au hasard, le corré-
logramme du résidu au carré n’indique aucun terme de significativement différent de 0 ;
les résidus sont donc homoscédastiques. Les résidus sont donc un bruit blanc.
Les résidus sont-ils gaussiens ? La statistique de Jarque-Bera (JB = 1,249) indique
une probabilité critique de 0,54, nous acceptons l’hypothèse de normalité des résidus.
La représentation est validée x3t est un processus TS.
d) Prévision
La prévision est donnée par :
x3t = a0 + a1 t + εt avec (E(εt ) = 0) ∀ t
x3t = 7,17 + 2,996 × t
x3,221 = 7,17 + 2,996 × 221 = 669,428
x3,222 = 7,17 + 2,996 × 222 = 672,424
x3,223 = 7,17 + 2,996 × 223 = 675,421
Éléments d’analyse des séries temporelles 273
10. La modélisation VAR
L
a modélisation économétrique classique à plusieurs équations
structurelles (cf. chapitre 8) a connu beaucoup de critiques
(Granger [1969] et Sims [1980]) et de défaillances face à un envi-
ronnement économique très perturbé. Les prévisions élaborées à l’aide
de ces modèles se sont révélées très médiocres. Les critiques principales
formulées à l’encontre de ces modèles structurels concerne la simultanéi-
té des relations et la notion de variable exogène. La représentation1 VAR
(Vector AutoRegressive) – généralisation des modèles autorégressifs (AR)
au cas multivarié (cf. chapitre 9) – apporte une réponse statistique à l’en-
semble de ces critiques. Dans cette représentation, les variables sélec-
tionnées2 en fonction du problème étudié ont toutes, a priori, le même
statut et on s’intéresse alors à des relations purement statistiques.
Nous présentons tout d’abord en section I. la spécification générale
d’un modèle VAR, puis nous abordons les méthodes d’estimation et de
prévision en section II. La dynamique d’un modèle VAR et l’analyse des
chocs sont traitées dans la section III. ; enfin, la section IV est consacrée à
la recherche du sens de la causalité entre les variables.
1. Le terme de représentation convient mieux que le terme de modélisation, car l’économiste ne
spécifie pas des relations économiques en tant que telles.
2. En général celles d’un modèle théorique.
La modélisation VAR 275
I. Représentation d’un modèle VAR
A. Exemple introductif
Soit une représentation VAR dans laquelle on considère deux variables y1t et y2t .
Chacune de ces variables est fonction de ses propres valeurs passées et de
celles de l’autre.
Par exemple le modèle VAR d’un ordre p = 4 , s’écrit :
4
4
y1t = a1 + b1i y1t−i + c1i y2t−i − d1 y2t + ε1t
i=1 i=1
4
4
y2t = a2 + b2i y1t−i + c2i y2t−i − d2 y1t + ε2t
i=1 i=1
Les variables y1t et y2t sont considérées comme étant stationnaires (cf. cha-
pitre 9), les perturbations ε1t et ε2t (les innovations ou les chocs) sont des bruits
blancs de variances constantes σε12 et σε22 et non autocorrélées. Nous pouvons
immédiatement constater l’abondance de paramètres à estimer (ici 20 coeffi-
cients) et les problèmes de perte de degrés de liberté qui en résultent. À la lec-
ture de ce modèle, il apparaît qu’il n’est pas sous forme réduite : en effet, y1t a
un effet immédiat sur y2t et réciproquement y2t a un effet immédiat sur y1t . Ce
système initial est appelé forme structurelle de la représentation VAR. Sous
forme matricielle, ce modèle devient :
4
BYt = A0 + Ai Yt−i + εt [1]
i=1
avec :
1 d1 y1t a b c1i ε1t
B= Yt = A0 = 1 Ai = 1i ε= .
d2 1 y2t a2 b2i c2i ε2t
Pour obtenir un modèle VAR sous forme standard, on multiplie de part de
d’autre dans [1] par B −1 . Le modèle sous forme standard s’écrit :
4
4
y1t = a10 + a1i1 y1t−i + a1i2 y2t−i + ν1t
i=1 i=1
4
4
y2t = a20 + a2i1 y1t−i + a2i2 y2t−i + ν2t
i=1 i=1
Dans cette spécification, les erreurs ν1t et ν2t sont fonction des innovations
ε1t et ε2t ; en effet, puisque ν = B −1 ε , on obtient :
ν1t = (ε1t − d1 ε2t )/(1 − d1 d2 ) et ν2t = (ε2t − d2 ε1t )/(1 − d1 d2 )
276 ÉCONOMÉTRIE
On démontre que :
E(ν1t ) = 0; E(ν2t ) = 0; E(ν1t ν1t−i ) = 0; E(ν2t ν2t−i ) = 0
Les erreurs ont une espérance nulle et sont non autocorrélées.
E(ν1t2 ) = (σε12 + d12 σε22 )/(1 − d1 d2 )2 ; E(ν2t2 ) = (σε22 + d22 σε12 )/(1 − d1 d2 )2
La variance de l’erreur est constante (indépendante du temps).
E(ν1t ν2t ) = −(d2 σε12 + d1 σε22 )/(1 − d1 d2 )2
Si d1 = d2 = 0 , les variables y1t et y2t n’ont pas d’influence synchrone l’une
sur l’autre, les erreurs ν1t et ν2t sont non corrélées. Dans le cas contraire, les
erreurs ν1t et ν2t sont corrélées et donc une variation de l’une de ces erreurs à un
instant donné a un impact sur l’autre.
B. La représentation générale
La généralisation de la représentation VAR à k variables et p décalages (notée
VAR( p) ) s’écrit sous forme matricielle :
Yt = A0 + A1 Yt−1 + A2 Yt−2 + . . . + A p Yt− p + νt
y a0
1,t a1i1 a1i2 . . . a1ik 1 ν1t
y
2,t a2i1 a2i2 k
a2i 0
a2 ν2t
avec Yt =
.. ; Ai =/0 =
..
; A0 = . ; νt = .
. ..
. . .
yk,t aki1 aki2 k
aki ak0
νkt
On note : ν = E(νt νt′ ) , la matrice de dimension (k, k) des variances cova-
riances des erreurs. Cette matrice est bien sûr inconnue.
Cette représentation peut s’écrire à l’aide de l’opérateur retard :
(I − A1 D − A2 D 2 − . . . − A P D P )Yt = A0 + νt ou encore A(D)Yt = A0 + νt
Condition de stationnarité
Un modèle VAR est stationnaire, s’il satisfait les trois conditions classiques :
– E(Yt ) = µ ∀t ;
– Var(Yt ) < ∞ ;
– Cov(Yt ,Yt+k ) = E[(Yt − µ)(Yt+k − µ)] = Ŵk ∀t .
On démontre1 qu’un processus VAR( p) est stationnaire si le polynôme dé-
fini à partir du déterminant : det(I − A1 z − A2 z 2 − . . . − A p z p ) = 0 a ses racines
à l’extérieur du cercle unité du plan complexe.
1. Cf. Hamilton J. D., page 259, 1994.
La modélisation VAR 277
Exercice n° 1
Recherche des conditions de stationnarité d’un modèle VAR
Soit le processus :
y1t 3 0,2 0,7 y1t−1 e1t
= + +
y2t 1 0,3 0,4 y2t−1 e2t
On demande d’étudier les conditions de stationnarité.
Solution
Le déterminant est égal à :
1 0 0,2 0,7 2 z 1 = 1,30
det − z = 1 − 0,6 z − 0,13 z ⇒
0 1 0,3 0,4 z 2 = −5,91
Les deux racines sont en valeur absolue supérieures à 1, le processus est donc sta-
tionnaire.
C. La représentation ARMAX
La représentation précédente peut être généralisée1, par analogie avec les pro-
cessus ARMA( p, q) , à un modèle dont les erreurs sont autocorrélées d’ordre q.
Yt = A0 + A1 Yt−1 + A2 Yt−2 + . . . + A p Yt− p + νt + B1 νt−1 + B2 νt−2 + . . . + Bq νt−q
Il s’agit d’un processus ARMA multivarié noté : ARMAX ou parfois
VARMA.
Les conditions de stationnarité sont analogues à celles d’un processus
ARMA univarié : un processus VAR est toujours inversible, il est stationnaire
lorsque les racines de son polynôme sont à l’extérieur du cercle unité du plan
complexe.
– Un processus VMA est toujours stationnaire. Il est inversible si les racines
de son polynôme retard sont à l’extérieur du cercle unité du plan complexe.
– Les conditions de stationnarité et d’inversibilité d’un ARMAX sont don-
nées par la partie VAR et la partie VMA de l’ARMAX.
1. Il s’agit d’une application au cas multivarié du théorème de décomposition de Wold (1954).
278 ÉCONOMÉTRIE
II. Estimation des paramètres
Les paramètres du processus VAR ne peuvent être estimés que sur des séries
chronologiques stationnaires. Ainsi, après étude des caractéristiques des séries,
soit les séries sont stationnarisées par différence, préalablement à l’estimation
des paramètres dans le cas d’une tendance stochastique, soit il est possible
d’ajouter une composante tendance à la spécification VAR, dans le cas d’une
tendance déterministe.
A. Méthode d’estimation
Dans le cas d’un processus VAR, chacune des équations peut être estimée par
les MCO, indépendamment les unes des autres (ou par une méthode de maxi-
mum de vraisemblance).
Soit le modèle VAR( p) estimé :
0 + A
Yt = A 1 Yt−1 + A
2 Yt−2 + . . . + A
p Yt− p + e
e étant le vecteur de dimension (k,1) des résidus d’estimation e1t , e2t , . . . , ekt .
Et on note : e la matrice des variances covariances estimées des résidus du
modèle.
Les coefficients du processus VAR ne peuvent être estimés qu’à partir de
séries stationnaires. Ainsi, après étude des caractéristiques des chroniques, soit
les séries sont stationnarisées par différence, préalablement à l’estimation des
paramètres dans le cas d’une tendance stochastique, soit il est possible d’ajouter
une composante tendance à la spécification VAR, dans le cas d’une tendance
déterministe.
De même, nous pouvons ajouter à la spécification VAR des variables binaires
afin de corriger un mouvement saisonnier ou une période anormale.
B. Détermination du nombre de retards
Pour déterminer le nombre de retards d’un modèle à retards échelonnés (cf. cha-
pitre 7), nous avons présenté les critères de Akaike et de Schwarz. Dans le cas
de la représentation VAR, ces critères peuvent être utilisés pour déterminer
l’ordre p du modèle. La procédure de sélection de l’ordre de la représentation
consiste à estimer tous les modèles VAR pour un ordre allant de 0 à h (h étant
le retard maximum admissible par la théorie économique ou par les données
La modélisation VAR 279
disponibles). Les fonctions AIC( p) et SC( p) sont calculées de la manière
suivante :
2k 2 p
AIC( p) = Ln det e
+
n
k 2 p Ln(n)
SC( p) = Ln det e
+
n
avec : k = nombre de variables du système ; n = nombre d’observations ;
p = nombre de retards ; e = matrice des variances covariances des résidus du
modèle.
Le retard p qui minimise les critères AIC ou SC est retenu.
C. Prévision
Les coefficients du modèle étant estimés, la prévision peut être calculée en n à
l’horizon d’une période, par exemple pour un VAR(1), de la manière suivante :
n (1) = A
Y 0 + A
1 Yn
À l’horizon de 2 périodes, la prévision est :
n (2) = A
Y 0 + A
1 Y
n (1) = A
0 + A
1 A
0 + A
21 Yn
À l’horizon de 3 périodes, la prévision s’écrit :
n (3) = A
Y 0 + A
1 Y
n (2) = (I + A
1 + A 0 + A
21 ) A 31 Yn
etc.
Lorsque h tend vers l’infini, nous constatons que la prévision tend vers une
i1 −→ 0 si i −→ ∞ .
valeur constante (état stationnaire) puisque A
L’espérance de la matrice de l’erreur de prévision est nulle, sa variance est
donnée par :
e (h) = M0 e M0′ + M1 e M1′ + . . . + Mh−1 e
′
Mh−1 où Mi est calculé par la
formule de récurrence suivante :
min( p,i)
Mi = j Mi− j
A i = 1, 2,. . . et M0 = I
j=1
Ainsi, il vient :
1 ; M2 = A
M1 = A 1 M1 + A2 M0 = A21 + A2 ;
1 M2 + A
M3 = A 2 M1 + A3 M0 = A1 + A
3 1 A
2 + A
2 A
1 + A
3
etc.
La variance de l’erreur de prévision pour chacune des prévisions des k
variables ( σn2 (h)) se lit sur la première diagonale de la matrice e (h) .
L’intervalle de prévision au seuil de (1 − α/2) est donné par :
n (h) ± t α/2 ×
Y σn (h) avec t α/2 valeur de la loi normale.
280 ÉCONOMÉTRIE
Exercice n° 2
fichier C10EX2
Spécification, estimation et prévision d’un modèle VAR
Nous cherchons à modéliser, sous la forme VAR, la demande (y1t ) et les prix (y2t )
d’une matière première. Nous disposons des données trimestrielles CVS et en différences
premières sur 18 ans (tableau 1).
Tableau 1 – Demande et prix CVS et en différences premières (extrait des données)
Date y1t y2t
0001Q1 –146,4 –75,6
0001Q2 19,2 1,8
… … …
0018Q3 19,2 –16,2
0018Q4 50,4 3,6
On demande :
1) de rechercher l’ordre du modèle VAR,
2) d’estimer les paramètres du modèle,
3) de calculer une prévision pour l’année 19 avec son intervalle de confiance à 95 %.
Solution
1) Rechercher l’ordre du modèle VAR
Nous allons utiliser les critères de Akaike et de Schwarz pour des décalages h allant
de 0 à 4. Nous devons donc estimer quatre modèles différents et retenir celui dont les cri-
tères AIC et SC sont les plus faibles.
Estimation du modèle pour h = 1
0 1 2
y1t a a a11 y1t−1 ν1t
= 10 + 11 1 2 +
y2t a2 a21 a21 y2t−1 ν2t
Ou encore :
1
y1t = a10 + a11 2
y1t−1 + a11 y2t−1 + ν1t
y2t = a20 + a21
1 2
y1t−1 + a21 y2t−1 + ν2t
Pour estimer les paramètres de ce modèle, nous pouvons utiliser les MCO équation
par équation.
y1t = 0,00676 × y1t−1 − 0,6125 × y2t−1 + 17,129
y2t = −0,1752 × y1t−1 + 0,2992 × y2t−1 − 12,862
Les deux résidus d’estimation sont alors calculés : e1,t et e2,t ainsi la matrice des
variances covariances des résidus est donnée par :
n n
e12 e1 e2
1 1
1
e = n n
n
e1 e2 e22
1 1
1 106500,16 −47878,12 1500,002 −674,3398
= =
71 −47878,12 85205,25 −674,339 1200,074
La modélisation VAR 281
Attention, certains logiciels (par exemple Eviews à partir de la version 4) estiment
cette matrice des variances covariances en divisant la somme des carrés ou du produit par
le degré de liberté de chaque équation estimée soit :
1 106500,16 −47878,12 1566,18 −704,09
e = =
71 − 2 − 1 −47878,12 85205,25 −704,09 1253,02
Dans toute la suite des calculs nous retenons la méthode 1, soit :
Var(e1t ) = 1 500,002 ; Var(e2t ) = 1 200,074 ; Cov(e1t ,e2t ) = −674,339
1 500,002 −674,339
Soit det
e = −674,339 1 200,074 = 1 345 379 .
Pour p = 1 :
2k 2 p
AIC( p) = Ln det e + = Ln(1 345 379) + (2 × 22 × 1)/71 = 14,28
n
et
k 2 p Ln(n)
SC( p) = Ln det e + = Ln(1 345 379) + (22 × 1 × Ln(71))/71
n
= 14,47
Nous pouvons calculer de la même manière :
AIC(2) = 14,31 ; AIC(3) = 14,39 ; AIC(4) = 14,45
SC(2) = 14,56 ; SC(3) = 14,78 ; SC(4) = 14,97
Le nombre de décalages retenu correspond à la valeur la plus faible des critères
soit : p = 1.
2) Estimation des paramètres
Le modèle VAR(1) estimé s’écrit :
y1t = 0,00676 × y1t−1 − 0,6125 × y2t−1 + 17,1292 + e1t
(0,06) (4,47) (2,87)
R 2 = 0,28 ; n = 71 ; (·) = t de Student
y2t = −0,1752 × y1t−1 + 0,2992 × y2t−1 − 12,862 + e2t
(1,84) (2,44) (2,41)
R 2 = 0,21 ; n = 71 ; (·) = t de Student
3) Prévision
La prévision est calculée en faisant « tourner » le modèle :
y19:1 = 0,0067 × y18:4 − 0,6125 × y18:4 + 17,129
.
y19:1 = −0,1752 × y18:4 + 0,2992 × y18:4 − 12,862
y19:1 = 0,0067 × 50,4 − 0,6125 × 3,6 + 17,129 = 15,3
y19:1 = −0,1752 × 50,4 + 0,2992 × 3,6 − 12,862 = −20,6
y19:2 = 0,0067 × 15,3 − 0,6125 × −20,6 + 17,129 = 29,9
y19:2 = −0,1752 × 15,3 + 0,2992 × −20,6 − 12,862 = −21,7
282 ÉCONOMÉTRIE
y19:3 = 0,0067 × 29,9 − 0,6125 × −21,7 + 17,129 = 30,6
y19:3 = −0,1752 × 29,9 + 0,2992 × −21,7 − 12,862 = −24,6
y19:4 = 0,0067 × 30,6 − 0,6125 × −24,6 + 17,129 = 32,4
y19:4 = −0,1752 × 30,6 + 0,2992 × −24,6 − 12,862 = −25,6
La variance de l’erreur de prévision est donnée par la formule :
e (h) = e M1′ + . . . + Mh−1 e Mh−1
+M1 e
′
où Mi est calculé par la formule
min( p,i)
de récurrence suivante : Mi = j Mi− j i = 1,2,. . . et M0 = I . Les variances se
A
j=1
lisent sur la première diagonale de la matrice e (h) .
Ainsi, il vient : M1 = A 1 ; M2 = A 1 M1 = A 21 ; M3 = A1 M2 = A31 ; etc., car le
modèle est un VAR(1) et donc seul A1 est estimé.
1 500,02 −674,34
Soit à l’horizon h = 1, nous avons e (1) = . La variance de
−674,34 1 200,1
l’erreur de prévision pour y19:1 est égale à 1 500,02 et la variance de l’erreur de prévi-
sion pour y19:1 est égale à 1 200,1. L’intervalle de confiance pour y19:1 est donné
par : 15,3 ± 1,96 × 38,73 = [−60,64 ; 91,17] et pour y19:1 est donné par :
−20,6 ± 1,96 × 34,64 = [−88,52 ; 47,27] .
Soit à l’horizon h = 2, nous avons :
1
+A ′1 , soit :
A
e (2) = e e
1 500,02 −674,34 0,00676 −0,6126 1 500,02 −674,34
e (2) = +
−674,34 1 200,1 −0,1753 0,2992 −674,34 1 200,1
0,00676 −0,1753 1 955,99 −969,88
=
−0,6126 0,2992 −969,88 1 424,37
1
Pour h = 3 : e (3) = e + A ′ 2 2′
e A1 + A1 e A1
1 500,02 −674,34 0,00676 −0,6126 1 500,02 −674,34
e (3) = +
−674,34 1 200,1 −0,1753 0,2992 −674,34 1 200,1
2
0,00676 −0,1753 0,00676 −0,6126 1 500,02 −674,34
+
−0,6126 0,2992 −0,1753 0,2992 −674,34 1 200,1
2
0,00676 −0,1753 2 042,63 −1 043,88
=
−0,6126 0,2992 −1 043,88 1 489,48
1
Pour h = 4 : e (4) = e + A ′ 2 2′ 3 3′
e A1 + A1 eA 1 + A1 e A1
1 500,02 −674,34 0,00676 −0,6126 1 500,02 −674,34
e (4) = +
−674,34 1 200,1 −0,1753 0,2992 −674,34 1 200,1
2
0,00676 −0,1753 0,00676 −0,6126 1 500,02 −674,34
+
−0,6126 0,2992 −0,1753 0,2992 −674,34 1 200,1
La modélisation VAR 283
2 3
0,00676 −0,1753 0,00676 −0,6126 1 500,02 −674,34
+
−0,6126 0,2992 −0,1753 0,2992 −674,34 1 200,1
3
0,00676 −0,1753 2 067,67 −1 064,00
=
−0,6126 0,2992 –1 064,00 1 505,73
IC y19:2 = 29,9 ± 1,96 × 44,22 = [−56,82 ; 116,54]
Ic y19:2 = −21,7 ± 1,96 × 37,74 = [−95,68 ; 52,26]
IC y19:3 = 30,6 ± 1,96 × 45,19 = [−57,95 ; 119,21]
Ic y19:3 = −24,6 ± 1,96 × 38,59 = [−100,23 ; 51,05]
IC y19:4 = 32,4 ± 1,96 × 45,47 = [−56,72 ; 121,52]
Ic y19:4 = −25,6 ± 1,96 × 38,80 = [−101,64 ; 50,46]
III. Dynamique d’un modèle VAR
Les modèles VAR permettent d’analyser les effets de la politique économique,
cela au travers de simulations de chocs aléatoires1 et de la décomposition de la
variance de l’erreur. Cependant, cette analyse s’effectue en postulant la constan-
ce de l’environnement économique « toutes choses étant égales par ailleurs ».
A. Représentation VMA d’un processus VAR
Nous avons vu qu’un modèle AR(1) a une représentation MA(∞) . Par analogie,
nous pouvons démontrer qu’un VAR(1) a une représentation VMA(∞) . Le
modèle sous cette forme va permettre de mesurer l’impact sur les valeurs pré-
sentes d’une variation des innovations (ou des chocs) ν1t et de ν2t .
Soit la représentation VAR( p) stationnaire :
Yt = A0 + A1 Yt−1 + A2 Yt−2 + . . . + A p Yt− p + νt
Sa représentation VMA(∞) est donnée par :
∞
Yt = µ + νt + M1 νt−1 + M2 νt−2 + . . . = µ + Mi νt−i
i=0
avec : µ = (I − A1 − A2 − . . . − A p )−1 × A0
min( p,i )
et Mi = A j Mi − j i = 1,2,. . . et M0 = I
j =1
1. Le terme d’innovation est aussi souvent employé.
284 ÉCONOMÉTRIE
Sous cette forme, la matrice M apparaît comme un « multiplicateur d’im-
pact », c’est-à-dire que c’est au travers de cette matrice qu’un choc se répercute
tout le long du processus. Une variation à un instant donné t de νt affecte toutes
les valeurs suivantes de Yt , l’effet d’un choc (ou d’une innovation) est donc per-
manent et va en s’amortissant.
B. Analyse et orthogonalisation des « chocs »
L’analyse d’un choc consiste à mesurer l’impact de la variation d’une innovation
sur les variables. Prenons l’exemple du modèle estimé de l’exercice 2 :
y1t = 0,00676 ∗ y1t−1 − 0,6125 ∗ y2t−1 + 17,129 + e1t
y2t = −0,1752 ∗ y1t−1 + 0,2992 ∗ y2t−1 − 12,863 + e2t
Une variation à un instant donné de e1t a une conséquence immédiate sur y1t
puis sur y2t+1 et y2t+1 , par exemple s’il se produit en t un choc sur e1t égal à 1,
nous avons l’impact suivant :
y1t 1
En t : =
y2t 0
y1t+1 0,00676 −0,6126 1 0,0067
À la période t + 1 : = =
y2t+1 −0,1753 0,2992 0 −0,175
y1t+2 0,00676 −0,6126 0,0067 0,107
À la période t + 2 : = =
y2t+2 −0,1753 0,2992 −0,175 −0,054
etc.
Les différentes valeurs ainsi calculées constituent la « fonction de réponse
impulsionnelle ». Dans ce schéma, nous faisons l’hypothèse que les résidus e1t et
e2t sont indépendants entre eux. Or, cette hypothèse est rarement vérifiée ; en
effet, nous avons montré en section I., qu’il peut exister une corrélation entre les
erreurs ν1t et de ν2t , cette corrélation pouvant être mesurée à l’aide des résidus
Cov(e1 ,e2 )
d’estimation : ρe1 e2 = .
σe1 × σe2
Cependant si ce coefficient nous renseigne bien sur la liaison contemporaine
entre les deux résidus, il n’indique pas le sens de la causalité. C’est pourquoi,
nous devons faire une hypothèse supplémentaire concernant la relation entre les
erreurs : par exemple, dans l’exercice 2, la réflexion économique laisse présager
qu’une variation du prix (y2t ) a un impact sur la demande (y1t ) . Un choc sur y1t
n’a donc pas d’impact contemporain sur y2t ; en revanche un choc sur y2t a un
impact contemporain (mesuré par le coefficient de corrélation entre les résidus)
sur y1t . Dans cet exemple, le coefficient de corrélation est égal à
Cov(e1 ,e2 )
ρe1 e2 = = −0,503 ; en faisant l’hypothèse que σe1 ≈ σe2 , un choc
σe1 × σe2
aléatoire de 1 sur y2t se traduit par une baisse de –0,503 sur y1t . Le tableau 2
illustre cette dissymétrie des innovations sur les variables.
La modélisation VAR 285
Tableau 2 – Analyse des chocs sur les variables y1t et y2t
avec ν1t = −0,503 × ν2t
t y1t y2t t y1t y2t
1 1,000 0,000 1 –0,530 1,000
2 0,007 –0,175 2 –0,616 0,387
3 0,107 –0,054 3 –0,241 0,224
4 0,034 –0,035 4 –0,139 0,109
5 0,022 –0,016 5 –0,068 0,057
6 0,010 –0,009 6 –0,035 0,029
7 0,005 –0,004 7 –0,018 0,015
8 0,003 –0,002 8 –0,009 0,008
9 0,001 –0,001 9 –0,005 0,004
10 0,001 –0,001 10 –0,002 0,002
11 0,000 0,000 11 –0,001 0,001
12 0,000 0,000 12 –0,001 0,001
Le choix du sens de l’impact est donc très important et conditionne les
valeurs obtenues. Nous pouvons observer que l’effet d’une innovation s’estom-
pe au cours du temps. Cela caractérise un processus VAR stationnaire.
Le graphique 1 présente les deux fonctions de réponses impulsionnelles.
Le problème de la corrélation contemporaine des erreurs et donc de l’impact
d’un choc sur une variable est traité, d’une manière générale, par la recherche
d’une représentation à erreurs orthogonales. Reprenons l’exemple d’un modèle
VAR à deux variables :
y1,t = a1 y1,t−1 + b1 y2,t−1 + ν1,t
y2,t = a2 y1,t−1 + b2 y2,t−1 + ν2,t
avec Var(ν1,t ) = σν21 , Var(ν2,t ) = σν22 et Cov(ν1,t ,ν2,t ) = k =
/ 0.
2
En calculant y2,t − (k/σν1 )y1,t on obtient :
y2,t = k/σν21 y1,t + (a2 − a1 × k/σν21 )y1,t−1 + (b2 − b1 × k/σν21 )y2,t−1 + ν2,t − k/σν21 ν1,t
On pose : νt = ν2,t − k/σν21 ν1,t
Cov(ν1,t ,νt ) = E(ν1,t νt ) = Cov(ν1,t ν2,t ) − k/σν21 E(ν1,t2
2
) = k −k = 0.
Les erreurs (ou innovations) ne sont plus corrélées. L’analyse des chocs
peut donc s’effectuer sur les deux équations suivantes dont les erreurs sont
orthogonales :
y1,t = a1 y1,t−1 + b1 y2,t−1 + ν1,t
y2,t = k/σν21 y1,t + (a2 − a1 × k/σν21 )y1,t−1 + (b2 − b1 × k/σν21 )y2,t−1 + ν2,t − k/σν21 ν1,t
286 ÉCONOMÉTRIE
Nous remarquons que, sous cette forme, nous avons fait apparaître dans la
deuxième équation la causalité instantanée entre y2,t et y1,t telle qu’elle existait
dans le VAR structurel (cf. I. A.). Cependant, la causalité instantanée entre y1,t et
y2,t n’apparaît pas dans la première équation. Dans cette procédure d’orthogona-
lisation, les résidus sont indépendants, nous pouvons faire apparaître soit une
causalité instantanée entre y2,t et y1,t soit une causalité instantanée entre y1,t et
y2,t mais pas les deux à la fois : il s’agit de l’ordre de décomposition.
La généralisation à un modèle VAR à k variables nécessite le recours à des
procédures d’orthogonalisation1 de matrice et s’avère donc complexe. Il
convient de noter que les résultats sont influencés par le choix de l’équation ser-
vant de base à la transformation. Les résultats sont différents si la transformation
affecte y1t à la place de y2t , c’est pourquoi le choix2 de l’ordre des variables
modifie les résultats obtenus.
Graphique 1 – Fonctions de réponses impulsionnelles
1. Cf. Hamilton J. D. page 318, 1994.
2. Les logiciels d’économétrie offrent la possibilité de choisir l’ordre des variables et permettent
ainsi de simuler les différents cas de figure.
La modélisation VAR 287
C. Décomposition de la variance
La décomposition de la variance de l’erreur de prévision a pour objectif de cal-
culer pour chacune des innovations sa contribution à la variance de l’erreur. Par
un technique mathématique1, on peut écrire la variance de l’erreur de prévision
à un horizon h en fonction de la variance de l’erreur attribuée à chacune des
variables ; il suffit ensuite de rapporter chacune de ces variances à la variance
totale pour obtenir son poids relatif en pourcentage.
Reprenons notre modèle VAR(1) à deux variables y1t et y2t , la variance de
l’erreur de prévision pour y1t+h peut s’écrire :
σ y21 (h) = σε21 m 211 (0) + m 211 (1) + . . . + m 211 (h − 1)
+σε22 m 222 (0) + m 222 (1) + . . . + m 222 (h − 1)
où les m ii sont les termes de la matrice M de la section III.A.
À l’horizon h, la décomposition de la variance, en pourcentage, des propres
innovations de y1t sur y1t , est donnée par :
σε21 m 211 (0) + m 211 (1) + . . . + m 211 (h − 1)
.
σ y21 (h)
Et la décomposition de la variance, en pourcentage, des innovations de y1t sur
σε22 m 222 (0) + m 222 (1) + . . . + m 222 (h − 1)
y2t , est donnée par :
σ y21 (h)
L’interprétation des résultats est importante :
– si un choc sur ε1t n’affecte pas la variance de l’erreur de y2t quel que soit
l’horizon de prévision, alors y2t peut être considéré comme exogène car y2t
évolue indépendamment de ε1t ;
– a contrario, si un choc sur ε1t affecte fortement – voire totalement – la
variance de l’erreur de y2t , alors y2t est considéré comme endogène.
Dans la pratique, les résultats ne sont pas aussi marqués mais indiquent la
contribution de chacune des variables à la variance de l’erreur.
D. Choix de l’ordre de décomposition
Il est à noter que le problème de la corrélation contemporaine des erreurs, et
donc de l’impact d’un choc sur une variable, implique un choix de décomposi-
1. La matrice étant toujours définie positive, la décomposition de Cholesky permet de diago-
naliser la matrice des variances covariances de l’erreur de prévision, et ainsi d’identifier les
variances propres à chacune des variables. Nous ne pouvons pas aborder dans le cadre de ce
manuel cette technique, le lecteur peut se référer à Hamilton J. D. (1994) pour tous les complé-
ments mathématiques.
288 ÉCONOMÉTRIE
tion qui fournit des résultats dissymétriques en fonction de l’ordre des variables.
Le problème est plus complexe si le nombre de variables est important.
Prenons l’exemple d’un VAR à 4 variables Y1, Y2, Y3 et Y4.
Si nous choisissons l’ordre de décomposition de Cholesky suivant : Y3 Y2
Y1 Y4, cela entraîne :
– un choc en période 1 sur Y3 (la variable la plus exogène) a un impact sur
l’ensemble des quatre variables ;
– un choc en période 1 sur Y2 a un impact sur Y2, Y3 et Y4, absence de cor-
rélation contemporaine avec Y3 ;
– un choc en période 1 sur Y1 a un impact sur Y1 et Y4, absence de corréla-
tion contemporaine avec Y3 et Y2 ;
– et, enfin, un choc en période 1 sur Y4 (la moins exogène) n’a un impact que
sur elle-même, absence de corrélation contemporaine avec Y3, Y2 et Y1.
Le tableau 3 illustre cet exemple de décomposition et d’analyse des chocs.
Nous ne présentons que les deux premières périodes.
Tableau 3 – Exemple de décomposition Y3, Y2, Y1, Y4
Cholesky Ordering : Y3 Y2 Y1 Y4
Response of Y1 :
Period Y1 Y2 Y3 Y4
1 1.603662 1.022459 1.402923 0.000000
2 – 0.395786 – 0.151091 0.488095 – 0.275476
Response of Y2 :
Period Y1 Y2 Y3 Y4
1 0.000000 5.434671 4.125310 0.000000
2 0.875767 – 1.251545 0.115017 – 0.105811
Response of Y3 :
Period Y1 Y2 Y3 Y4
1 0.000000 0.000000 4.544690 0.000000
2 – 0.241257 – 0.954324 – 1.584595 – 0.476602
Response of Y4 :
Period Y1 Y2 Y3 Y4
1 0.768803 1.686351 2.315711 2.091513
2 – 0.129818 – 1.104756 – 0.927459 – 0.186928
L’ordre de décomposition s’effectue donc de la variable supposée être la plus
exogène vers la variable la moins exogène. Dans le doute, il convient d’effec-
tuer plusieurs combinaisons différentes d’ordre de décomposition et d’analyser
la robustesse des résultats.
La modélisation VAR 289
Exercice n° 3
fichier C10EX2
Analyse d’une fonction de réponse impulsionnelle et décomposition
de la variance
À partir de la représentation VAR(1) estimée à l’exercice 2, on demande de calculer
et d’interpréter les fonctions de réponses impulsionnelles et la décomposition de la
variance des erreurs.
Solution
Les résultats sont issus de Eviews 3 (RATS possède une procédure
« IMPULSE.PRG » permettant elle aussi de calculer tous ces éléments).
Nous considérons qu’une innovation sur y1,t n’influence pas de manière instantanée
y2,t , en revanche une innovation sur y2,t a une influence contemporaine sur y1,t (un choc
sur la variable prix influence la demande mais pas réciproquement).
La matrice des variances covariances des résidus est égale (cf. exercice 2) à
1 500,002 −674,3398
e = .
−674,3398 1 200,074
Calcul des chocs initiaux
L’ordre de décomposition des variables est le suivant Y2 Y1. L’analyse des chocs doit
donc s’effectuer sur les deux équations suivantes dont les résidus sont orthogonalisés
(cf. III. B.) :
y1,t dépend de v1,t = (e1,t − k/σε22 e2,t )
y2,t dépend de v2,t = e2,t
Var(v1,t ) = Var(e1,t − Cov(e1,t ,e2,t )/σε22 e2,t )
2Cov(e1t ,e2t ) [Cov(e1t ,e2t )]2
Var(v1,t ) = Var(e1t ) − Cov(e1t ,e2t ) + × Var(e2t )
Var(e2t ) [Var(e2t )]2
2[Cov(e1t ,e2t )]2 [Cov(e1t ,e2t )]2
Var(v1,t ) = Var(e1t ) − +
Var(e2t ) [Var(e2t )]
Var(v1,t ) = Var(e1t ) − Cov(e1t ,e2t )2 /Var(e2t )
L’amplitude du choc sur y1,t est égale à une fois l’écart type orthogonalisé de v1,t soit
Var(e1t ) − Cov(e1t ,e2t )2 /Var(e2t ) = 1 500,002 − 674,33982 /1 200,074 = 33,48 .
Ce choc n’a pas d’effet instantané sur y2,t .
L’amplitude du choc sur y2,t est égale à une fois l’écart type orthogonalisé :
Or, Var(v2,t ) = Var(e2,t ) = 1 200,074 , le choc sur y2,t est donc égal à 34,62.
Ce choc se répercute instantanément sur y1,t , il est donc égal, après orthogonalisa-
tion, à 34,62 × Cov(e1 ,e2 )/Var(e2,t ) soit 34,62 × −674,3398/1 200,074 = −19,4659.
Une fois les chocs initiaux calculés, nous calculons les fonctions de réponse impul-
sionnelle comme précédemment, les chocs se répercutent ensuite sur les deux processus
en s’amortissant, signe de la stationnarité du processus VAR.
290 ÉCONOMÉTRIE
Fonctions de réponse impulsionnelle à un écart type orthogonalisé (Eviews 3)
Réponse de Y1 : Réponse de Y2 :
Période à un choc sur Y1 à un choc sur Y2 Période à un choc sur Y1 à un choc sur Y2
1 33,48254 –19,46591 1 0,000000 34,64208
2 0,226363 –21,35271 2 –5,868694 13,77894
3 3,596584 –8,585080 3 –1,795947 7,866119
4 1,124479 –4,876681 4 –1,167853 3,858783
5 0,723007 –2,396789 5 –0,546587 2,009549
6 0,339717 –1,247217 6 –0,290298 1,021480
7 0,180128 –0,634172 7 –0,146419 0,524297
8 0,090912 –0,325462 8 –0,075390 0,268057
9 0,046797 –0,166407 9 –0,038496 0,137265
10 0,023898 –0,085211 10 –0,019723 0,070245
Ordre : Y2 Y1 (Y2 est la cause de Y1)
Le graphique 2 présente ces fonctions de réponse impulsionnelles.
Response of Y1 to One S.D. Innnovations Response of Y2 to One S.D. Innnovations
40 40
30
30
20
10 20
0 10
– 10
0
– 20
– 30 – 10
1 2 3 4 5 6 7 8 9 10 1 2 3 4 5 6 7 8 9 10
Y1 Y2 Y1 Y2
Graphique 2 – Fonctions de réponses impulsionnelles
Décomposition de la variance (Eviews 3)
Décomposition de la variance de Y1 : Décomposition de la variance de Y2 :
Période SE Y1 Y2 Période SE Y1 Y2
1 38,72986 74,73859 25,26141 1 34,64208 0,000000 100,0000
2 44,22659 57,31782 42,68218 2 37,74089 2,418013 97,58199
3 45,19547 55,51993 44,48007 3 38,59373 2,528876 97,47112
4 45,47172 54,90856 45,09144 4 38,80374 2,592156 97,40784
5 45,54058 54,76783 45,23217 5 38,85958 2,604496 97,39550
6 45,55892 54,72930 45,27070 6 38,87409 2,608129 97,39187
7 45,56369 54,71940 45,28060 7 38,87790 2,609036 97,39096
8 45,56494 54,71679 45,28321 8 38,87889 2,609278 97,39072
9 45,56527 54,71611 45,28389 9 38,87916 2,609341 97,39066
10 45,56536 54,71593 45,28407 10 38,87922 2,609358 97,39064
Ordre : Y2 Y1 (Y2 est la cause de Y1)
La modélisation VAR 291
La décomposition de la variance indique que la variance de l’erreur de prévision de
y1,t est due à 55 % à ses propres innovations et à 45 % à celles de y2,t . La variance de
l’erreur de prévision de y2,t est due à 2,6 % à y1,t et à 97,4 % à y2,t . Cette dissymétrie
d’effet va être étudiée par l’analyse de la causalité.
Enfin, nous remarquons que ce tableau nous indique les écarts types de l’erreur de pré-
vision pour y1,t et y2,t que nous avions calculés de manière fastidieuse lors de l’exercice 2.
IV. La causalité
Au niveau théorique, la mise en évidence de relations causales entre les
variables économiques fournit des éléments de réflexion propices à une meilleu-
re compréhension des phénomènes économiques. De manière pratique, « the
causal knowledge » est nécessaire à une formulation correcte de la politique
économique. En effet, connaître le sens de la causalité est aussi important que
de mettre en évidence une liaison entre des variable économiques.
A. Causalité au sens de Granger
Granger (1969) a proposé les concepts de causalité et d’exogénéité : la variable
y2t est la cause de y1t , si la prédictibilité1 de y1t est améliorée lorsque l’informa-
tion relative à y2t est incorporée dans l’analyse. Soit le modèle VAR( p) pour
lequel les variables y1t et y2t sont stationnaires :
1 1
y1t a0 a b11 y1t−1 a b21 y1t−2
= + 12 + 22 + ...
y2t b0 a1 b12 y2t−1 a2 b22 y2t−2
1
a b1p y1t− p ε
+ p2 + 1t
a p b2p y2t− p ε2t
Le bloc de variables (y2t−1 ,y2t−2 ,. . . ,y2t− p ) est considéré comme exogène par
rapport au bloc de variables (y1t−1 ,y1t−2 ,. . . ,y1t− p ) si le fait de rajouter le bloc y2t
n’améliore pas significativement la détermination des variables y1t . Ceci consis-
te à effectuer un test de restrictions sur les coefficients des variables y2t de la
représentation VAR (noté RVAR = Restricted VAR). La détermination du retard
p est effectuée par les critères AIC ou SC (cf. II.B). Soit :
• y2t ne cause pas y1t si l’hypothèse suivante est acceptée H0 :
b11 = b21 = . . . = b1p = 0 .
• y1t ne cause pas y2t si l’hypothèse suivante est acceptée H0 :
a12 = a22 = . . . = a p2 = 0 .
Si nous somme amenés à accepter les deux hypothèses que y1t cause y2t et
que y2t cause y1t , on parle de boucle rétroactive « feedback effect ».
1. Le terme de prédictibilité semble préférable au terme de causalité ; en effet, dire que yt cause
xt , signifie seulement qu’il est préférable de prédire xt en connaissant yt que sans le connaître.
292 ÉCONOMÉTRIE
Ces tests peuvent être conduits à l’aide d’un test de Fisher classique (cf. cha-
pitre 3, test de Wald) de nullité des coefficients, équation par équation ou bien
directement par comparaison entre un modèle VAR non contraint (UVAR) et le
modèle VAR contraint (RVAR). On calcule le ratio de vraisemblance suivant :
L ∗ = (n − c) × Ln| RVAR | − Ln| UVAR | qui suit un χ 2 à 2 × p degrés de
liberté avec :
RVAR = matrice des variances covariances des résidus du modèle contraint,
UVAR = matrice des variances covariances des résidus du modèle non contraint,
n = nombre d’observations,
c = nombre de paramètres estimés dans chaque équation du modèle non
contraint.
Si L ∗ > χ 2 lu dans la table, alors on rejette l’hypothèse de validité de la
contrainte.
B. Causalité au sens de Sims
Sims (1980) présente une spécification de test légèrement différente, en consi-
dérant que si les valeurs futures de y1t permettent d’expliquer les valeurs pré-
sentes de y2t , alors y2t est la cause de y1t .
Ceci se traduit par la représentation suivante :
p
p
p
y1t = a10 + a1i1 y1t−i + a1i2 y2t−i + bi2 y2t+i + ε1t
i=1 i=1 i=1
p
p
p
y2t = a20 + a2i1 y1t−i + a2i2 y2t−i + bi1 y1t+i + ε2t
i=1 i=1 i=1
• y1t ne cause pas y2t si l’hypothèse suivante est acceptée H0 :
b12 = b22 = . . . = b2p = 0 .
• y2t ne cause pas y1t si l’hypothèse suivante est acceptée H0 :
b11 = b21 = . . . = b1p = 0 .
Il s’agit là encore d’un test de Fisher classique de nullité de coefficients.
Exercice n° 4
fichier C10EX2
Tests de causalité de Granger et de Sims
On demande, à partir de la représentation VAR(1) estimée lors de l’exercice 2, de
procéder aux tests de Granger et de Sims.
La modélisation VAR 293
Solution
Nous procédons au test de Fisher équation par équation.
– Test de Granger
• H0 : y2t ne cause pas y1t
Nous estimons les modèles suivants :
y1t = 0,006760 ∗ y1t−1 − 0,6125 ∗ y2t−1 + 17,129632 + e1t
R 2 = 0,28 ; n = 71 ; SC RU = 106500,2 (non contraint)
y1t = 0,2359 ∗ y1t−1 + 26,9448 + e1t
R 2 = 0,067 ; n = 71 ; SC R R = 13792,6 (contraint)
(SC R R − SC RU )/c 137924,6 − 106500,2)/1
F∗ = = = 20,064
SC RU/(n − k − 1) 106500,2/(71 − 2 − 1)
c = nombre de restrictions (nombre de coefficients dont on teste la nullité).
0.05
F ∗ > F1;68 ≈ 4 , on rejette l’hypothèse H0, y2t explique significativement la variable
y1t , il y a donc causalité au sens de Granger de y2t vers y1t .
Ou bien :
∗
L = (n − c)(Ln| RV AR | − Ln| U V AR |) = (71 − 1)(14,44 − 14,11) = 23,29
> χ 2 (2) = 5,99 , on rejette l’hypothèse de validité de la contrainte.
• H0 : y1t ne cause pas y2t
y2t = −0,17527 ∗ y1t−1 + 0,29926096 ∗ y2t−1 − 12,862837 + e2t
R 2 = 0,21 ; n = 71 ; SC RU = 85205,25 (non contraint)
y2t = 0,4075 ∗ y2t−1 − 15,391 + e2t
R 2 = 0,168 ; n = 71 ; SC R R = 89452,77 (contraint)
(SC R R − SC RU )/c (89452,77 − 85205,25)/1
F∗ = = = 3,389
SC RU/(n − k − 1) 85205,22/(71 − 2 − 1)
0.05
F ∗ < F1;68 ≈ 4 , on accepte l’hypothèse H0, y1t n’explique pas significativement la
variable y2t , il n’y a donc pas causalité au sens de Granger de y1t vers y2t .
Ou bien :
L ∗ = (n − c)(Ln| RV AR | − Ln| U V AR |) = (71 − 1)(14,17 − 14,11) = 4,52
< χ 2 (2) = 5,99 , on accepte l’hypothèse de validité de la contrainte.
Ce résultat ne doit pas nous surprendre puisque y1t est la variable représentative de la
demande et y2t du prix.
– Test de Sims
• H0 : y1t ne cause pas y2t
Nous estimons les modèles suivants (sur la même période de 78:2 à 95:3) :
y1t = −0,01435 ∗ y1t−1 − 0,579 ∗ y2t−1 − 0,357 ∗ y2t+1 + 8,713 + e1t
R 2 = 0,37 ; n = 70 ; SC RU = 92676,66 (non contraint)
y1t = 0,007654 ∗ y1t−1 − 0,6145 ∗ y2t−1 + 16,714 + e1t
R 2 = 0,28 ; n = 70 ; SC R R = 105952,6 (contraint)
294 ÉCONOMÉTRIE
(105952,6 − 92676,66)/1
F∗ = = 9,45
92676,66/(70 − 3 − 1)
0.05
F ∗ > F1;66 ≈ 4 , on rejette l’hypothèse H0, y2t+1 explique significativement la
variable y1t , il y a donc causalité au sens de Sims de y1t vers y2t .
• H0 : y2t ne cause pas y1t
y2t = −0,0967 ∗ y1t−1 + 0,2259 ∗ y2t−1 − 0,390 ∗ y1t+1 − 3,328 + e2t
R 2 = 0,40 ; n = 70 ; SC RU = 63742,31 (non contraint)
y2t = −0,174 ∗ y1t−1 + 0,297 ∗ y2t−1 − 13,30 + e2t
R 2 = 0,21 ; n = 71 ; SC R R = 84586,73 (contraint)
(84586,73 − 63742,31)/1
F∗ = = 21,58
84586,73/(70 − 3 − 1)
0.05
F ∗ > F1;66 ≈ 4 , on refuse l’hypothèse H0, y1t+1 explique significativement la
variable y2t , il y a donc causalité au sens de Sims de y2t vers y1t .
Nous observons une divergence dans ces tests, en ce qui concerne la causalité de y1t
sur y2t ; le test de Granger nous fait rejeter l’hypothèse de causalité et celui de Sims lais-
se présager d’un lien de causalité de type feedback : les prix de la période suivante
influencent la demande de la période actuelle, s’agit-il d’une anticipation des agents ?
La modélisation VAR 295
11. La cointégration
et le modèle
à correction d’erreur
L
’analyse de la cointégration, présentée par Granger (1983) et Engle
et Granger (1987), est considérée par beaucoup d’économistes
comme un des concepts nouveaux les plus importants dans le
domaine de l’économétrie et de l’analyse de séries temporelles. Dans ce
chapitre, nous abordons en section I. des exemples permettant une intro-
duction au problème de la cointégration. La section II. est consacrée à la
présentation de la cointégration en termes de définition et de spécifica-
tion. Les tests de cointégration ainsi que les méthodologies d’estimation
sont ensuite développés dans le cas à deux variables (section III.) et enfin
(section IV) dans les cas à k variables.
I. Exemples introductifs
– Premier exemple
Soit les variables yt et xt définies de la manière suivante :
y1 = 1 avec comme variable explicative : x1 = 1
y2 = 2 avec comme variable explicative : x2 = 22
…
yn = n avec comme variable explicative : xn = n 2
La tendance de yt est de type linéaire et celle de xt est quadratique.
Le résultat de la régression de yt sur xt (n = 30) conduit à l’estimation suivante :
yt = 5,92 + 0,03xt
(8,5) (19,8)
2
R = 0,94 − DW = 0,057
La cointégration et le modèle à correction d’erreur 297
Les coefficients de régression sont significatifs, la valeur du R 2 est élevée,
cependant il apparaît évident que ce modèle a un pouvoir prédictif très mauvais.
En effet, sur le plan statistique, la statistique de Durbin et Watson (proche de 0)
présage d’une autocorrélation forte des erreurs1.
Ce premier exemple illustre le danger d’interpréter et d’utiliser une régres-
sion entre deux variables affectées de tendances déterministes de degré différent.
Le graphique 1 présente la série brute (tendance linéaire) et la série ajustée par
une tendance quadratique.
Graphique 1 – Régression d’une tendance linéaire
sur une tendance quadratique
– Deuxième exemple
On génère deux processus aléatoires :
yt = yt−1 + ε1t avec εt → N 0; σε21
xt = xt−1 + ε2t avec εt → N 0; σε22
Sur 1 000 régressions, nous obtenons les résultats suivants : 670 sont signi-
ficatives d’après la statistique du t de Student, cependant la statistique de DW
est toujours faible (la moyenne sur les 1 000 régressions est : DW = 0,33 ).
Donc apparemment, ces régressions donnent de bons résultats (hormis la statis-
tique DW ). Mais ces résultats sont purement fortuits : ils découlent de la corré-
lation entre les séries qui sont affectées d’une tendance stochastique. En effet, si
on passe en différences premières (yt = f (xt ) ), plus aucune régression n’est
significative.
yt = yt − yt−1 = ε1t
xt = xt − xt−1 = ε2t
1. Cela souligne l’importance à ne pas oublier d’interpréter la statistique de Durbin et Watson.
298 ÉCONOMÉTRIE
En régressant une série non stationnaire (de type DS) sur une autre série du
même type, on obtient des coefficients significatifs mais avec une statistique
DW proche de 0 . Ce deuxième exemple illustre le risque de régresser entre elles
deux séries affectées d’une tendance stochastique. Il faut donc toujours, au préa-
lable, stationnariser des séries non stationnaires ; dans le cas contraire, il existe
un risque de « régression fallacieuse » (« spurious regression »).
II. Le concept de cointégration
L’analyse de la cointégration permet d’identifier clairement la relation véritable
entre deux variables en recherchant l’existence d’un vecteur de cointégration et
en éliminant son effet, le cas échéant.
A. Propriétés de l’ordre d’intégration d’une série
Une série est intégrée d’ordre d (notée xt → I (d) ), s’il convient de la différen-
cier d fois afin de la stationnariser1.
Soit une série x1t stationnaire et une série x2t intégrée d’ordre 1 :
x1t → I (0)
⇒ x1t + x2t → I (1)
x2t → I (1)
La série yt = x1t + x2t est non stationnaire puisque l’on somme une série
affectée d’une tendance et une série stationnaire.
Soit deux séries x1t et x2t intégrées d’ordre d :
x1t → I (d)
⇒ x1t + x2t → I (?)
x2t → I (d)
La combinaison linéaire α x1t + β x2t → I (?) .
En effet, le résultat dépend des signes des coefficients α , β et de l’existence
d’une dynamique non stationnaire commune.
Examinons un autre cas de figure :
x1t → I (d)
⇒ x1t + x2t → I (?)
x2t → I (d ′ ) d ′ = d
Il s’avère impossible de conclure car on somme deux séries d’ordre d’inté-
gration différent.
1. Cf. le test de Dickey-Fuller du chapitre 9 afin de déterminer l’existence d’une tendance sto-
chastique ou déterministe et de rechercher les ordres d’intégration d’une série.
La cointégration et le modèle à correction d’erreur 299
Soit deux séries affectées d’une tendance :
– dans un premier cas, les deux séries ont une tendance d’évolution constan-
te sur une première période et puis une tendance d’évolution divergente en
une deuxième période, les séries ne sont pas cointégrées (cf. graphique 2) ;
– dans un deuxième cas, les deux séries ont une évolution constante sur toute
la période, les séries sont cointégrées (cf. graphique 3), il existe une évo-
lution de long terme constante entre les chroniques.
Graphique 2 – Les variables xt et z t ne sont pas cointégrées
Graphique 3 – Les variables xt et yt sont cointégrées
300 ÉCONOMÉTRIE
B. Conditions de cointégration
Deux séries xt et yt sont dites cointégrées si les deux conditions sont vérifiées :
– elles sont affectées d’une tendance stochastique de même ordre d’intégra-
tion d ,
– une combinaison linéaire de ces séries permet de se ramener à une série
d’ordre d’intégration inférieur.
Soit :
xt → I (d)
yt → I (d)
tel que α1 xt + α2 yt → I (d − b),
avec d b > 0.
On note : xt , yt → C I (d, b)
où [α1 α2 ] est le vecteur de cointégration.
Dans le cas général à k variables, on a :
x1, t → I (d)
x2, t → I (d)
on note X t = [x1, t x2, t . . . xk, t ]
...
xk, t → I (d)
s’il existe un vecteur de cointégration α = [α1 α2 . . . αk ] de dimension (k, 1) tel
que α X t → I (d − b) , alors les k variables sont cointégrées et le vecteur de coin-
tégration est α . On note que X t → C I (d, b) avec b > 0 .
C. Le modèle à correction d’erreur (ECM)
Examinons le cas particulier suivant : xt , yt → C I (1, 1) et [β, −1] (on normali-
α1
se en posant β = − soit β xt − yt → I (0) ) est le vecteur de cointégration.
α2
Dans ce type de spécification, le fait que les séries soient cointégrées et non sta-
tionnaires soulève un problème d’estimation. La bonne qualité statistique du
modèle ( R 2 élevé et coefficients significatifs) est due au fait que les séries sont
non stationnaires (puisque cointégrées). En régression directe de yt sur xt –
lorsque yt , xt → C I (1, 1) – l’utilisation de ce modèle à des fins prévisionnelles
s’avère désastreuse ; en effet, la relation mise en évidence par cette régression
n’est pas réelle, elle découle simplement d’une relation entre deux tendances1.
Le problème est donc, d’une part de retirer la relation commune de cointé-
gration (la tendance commune), d’autre part, de rechercher la liaison réelle entre
1. Cf. les exemples introductifs sur les problèmes de régressions fallacieuses.
La cointégration et le modèle à correction d’erreur 301
les variables : c’est l’objectif du Modèle à Correction d’Erreur (ECM1). Cette
représentation est à la fois un modèle statique (β1 xt ) et un modèle dynamique
(β2 (yt−1 − β xt−1 )) .
Nous pouvons spécifier la relation : yt = β1 xt + β2 (yt−1 − β xt−1 )
I(0) I(0) I(0)
Autour de la relation de long terme, le modèle à correction d’erreur permet
d’intégrer les fluctuations de court terme. Le coefficient β2 – qui doit être néga-
tif – rend compte d’une force de rappel vers l’équilibre de long terme.
Le graphique 4 illustre la relation de long terme entre xt et yt (yt − βxt = 0),
cette ligne représente l’équilibre de long terme du système ; la zone d’évolution
du système en dehors de l’équilibre (dynamique de court terme) est définie par
l’erreur constatée entre yt−1 et xt−1 .
Graphique 4 – Représentation du modèle à correction d’erreur
III. Cointégration entre deux variables
Le traitement de séries chronologiques longues impose de tester une éventuelle
cointégration entre les variables. En effet, le risque d’estimer des relations
« fallacieuses » et d’interpréter les résultats de manière erronée est très élevé.
Nous allons tout d’abord examiner le cas à deux variables : test de cointégration
et estimation du modèle à correction d’erreur.
1. Nous utilisons l’abréviation anglo-saxonne « Error Correction Model ».
302 ÉCONOMÉTRIE
A. Test de cointégration entre deux variables
Nous reprenons ici l’algorithme en deux étapes de Engle et Granger.
– Étape 1 : tester l’ordre d’intégration des variables
Une condition nécessaire de cointégration est que les séries doivent être inté-
grées de même ordre. Si les séries ne sont pas intégrées de même ordre, elles ne
peuvent pas être cointégrées.
Il convient donc (cf. tests de Dickey-Fuller et Dickey-Fuller Augmenté) de
déterminer très soigneusement le type de tendance déterministe ou stochastique
de chacune des variables, puis l’ordre d’intégration d des chroniques étudiées.
Si les séries statistiques étudiées ne sont pas intégrées de même ordre, la procé-
dure est arrêtée, il n’y a pas de risque de cointégration.
Soit :
xt → I (d) et yt → I (d)
– Étape 2 : estimation de la relation de long terme
Si la condition nécessaire est vérifiée, on estime par les MCO la relation de
long terme entre les variables : yt = a1 xt + a0 + εt .
Pour que la relation de cointégration soit acceptée, le résidu et issu de cette
régression doit être stationnaire : et = yt − a1 x t −
a0 .
La stationnarité du résidu est testée à l’aide des tests DF ou DFA (cf. chapitre 9).
Dans ce cas, nous ne pouvons plus utiliser les tables de Dickey et Fuller. En
effet, le test porte sur les résidus estimés à partir de la relation statique et non
pas sur les « vrais » résidus de la relation de cointégration. MacKinnon (1991)
a donc simulé des tables qui dépendent du nombre d’observations et du nombre
de variables explicatives figurant dans la relation statistique.
Si le résidu est stationnaire nous pouvons alors estimer le modèle à correc-
tion d’erreur.
B. Estimation du modèle à correction d’erreur
Lorsque des séries sont non stationnaires et cointégrées, il convient d’estimer
leurs relations au travers d’un modèle à correction d’erreur (ECM, « Error
Correction Model »). Engle et Granger (1987) ont démontré que toutes les
séries cointégrées peuvent être représentées par un ECM (théorème de la repré-
sentation de Granger).
Nous allons présenter la méthode la plus répandue d’estimation d’un ECM.
Nous nous bornons, ici, au cas d’une seule variable explicative. La généralisa-
tion à k variables est abordée à la section suivante.
La cointégration et le modèle à correction d’erreur 303
Soit les séries yt et xt → I (1) , l’estimation par les MCO de la relation de long
terme indique une stationnarité du résidu. Les séries yt et xt sont donc notées :
CI(1, 1).
Nous pouvons, dès lors, estimer le modèle à correction d’erreur.
Estimation du modèle à correction d’erreur (ECM) en deux étapes
– Étape 1 : estimation par les MCO de la relation de long terme :
yt = xt + et
α+β (ECM) [1]
– Étape 2 : estimation par les MCO de la relation du modèle dynamique
(court terme) :
yt = α1 xt + α2 et−1 + u t α2 < 0 [2]
Le coefficient α2 (force de rappel vers l’équilibre) doit être significativement
négatif ; dans le cas contraire, il convient de rejeter une spécification de type
ECM. En effet, le mécanisme de correction d’erreur (rattrapage qui permet de
tendre vers la relation de long terme) irait alors en sens contraire et s’éloignerait
de la cible de long terme. La procédure en deux étapes conduit à une estimation
convergente des coefficients du modèle et les écarts types des coefficients peu-
vent s’interpréter de manière classique1.
L’estimation d’un modèle à correction d’erreur ne pose donc pas de problè-
me particulier et nécessite simplement le recours à une technique de moindres
carrées ordinaires.
En cas de variables explicatives supplémentaires dont l’hypothèse de cointé-
gration ne peut pas être retenue (comme des variables indicatrices par exemple),
la procédure d’estimation est la même sauf pour l’estimation du modèle [1]
(équation de long terme) dans lequel figurent ces variables explicatives.
Exercice n° 1fichier C11EX1
Test de cointégration et estimation d’un modèle à correction
d’erreur
Soit deux séries statistiques yt et xt dont les observations sont présentées au
tableau 1. On demande d’estimer la relation entre ces deux variables
(yt =
a0 +
a1 xt + et ) en testant une éventuelle cointégration (dans ce cas estimer le
modèle à correction d’erreur).
1. Engle et Granger, 1987.
304 ÉCONOMÉTRIE
Tableau 1 – Valeurs observées de xt et yt (extrait des données)
Obs xt yt
1 0,000 10,890
2 2,851 12,188
… … …
29 6,744 12,347
30 7,270 15,194
Solution
La première étape consiste à étudier les propriétés des deux séries en termes de sta-
tionnarité. Le tableau 2 présente les résultats des tests :
– de Dickey-Fuller (aucun retard n’est significatif dans l’éventualité d’un test de
Dickey-Fuller Augmenté),
– de Phillips-Perron (troncature = 2),
– et de KPSS (troncature = 2).
Ces tests sont présentés au chapitre 9.
Tableau 2 – Résultats des tests de Dickey-Fuller, Phillips-Perron et KPSS
Test Type de Modèle xt en niveau – t statistique yt en niveau – t statistique
Test DF [1] 0,81 0,17
Test DF [2] –0,05 –2,67
Test DF [3] –0,82 –3,05
Test PP [1] 0,88 0,62
Test PP [2] –0,11 –2,60
Test PP [3] –0,80 –2,96
xt en niveau – yt en niveau –
LM statistique LM statistique
Test KPSS [2] 0,53 0,39
Test KPSS [3] 0,22 0,20
La comparaison des tφ̂1 calculés aux t lus (Tables de MacKinnon) ou des LM statis-
tiques aux valeurs critiques indique que les deux séries xt et yt sont non stationnaires en
niveau1. Des tests similaires sur les différentes premières de xt et yt indiquent qu’elles
sont stationnaires, les deux séries étudiées sont I (1), il existe donc un risque de cointé-
gration.
Le test de cointégration est effectué à partir du résidu d’estimation du modèle :
yt = a1 xt + a0 + εt
Soit : yt = 0,55xt + 10,38 + et
(6,3) (41,46)
n = 30 ; R 2 = 0,58 ; (.) = t de Student.
1. Nous rejetons l’hypothèse d’une tendance déterministe.
La cointégration et le modèle à correction d’erreur 305
Nous pouvons vérifier que le résidu est bien stationnaire, il existe donc un risque de
cointégration entre les deux variables.
Test DF Test PP (l = 2)
et Modèle [1] Modèle [2] Modèle [1] Modèle [2]
tφ̂1 –5,39 –5,30 –5,42 –5,31
Nous procédons donc maintenant à l’estimation du modèle à correction d’erreur.
Nous calculons, d’abord, le résidu (provenant du modèle précédent) décalé d’une
période, soit : et−1 = yt−1 − 0,55xt−1 − 10,38
Puis nous estimons (par les MCO) le modèle :
yt = α1 xt + α2 et−1 + u t
yt = 0,610 xt − 1,02 et−1 +
ut
(3,09) (5,22)
n = 29 ; R 2 = 0,60 ; (.) = t de Student.
Le coefficient (terme de rappel) de et−1 est bien significativement négatif, la repré-
sentation à correction d’erreur est validée.
IV. Généralisation à k variables
La littérature économique récente concernant la théorie de l’équilibre démontre
qu’une série macro-économique stationnaire peut être le résultat d’une combi-
naison de variables non stationnaires, d’où l’importance actuelle de l’analyse de
la cointégration à k variables. La généralisation de deux à k variables s’avère
assez complexe du fait du nombre de possibilités de vecteurs de cointégration
possibles.
A. La cointégration entre k variables
Dans un modèle économétrique à k variables explicatives :
yt = β0 + β1 x1t + β2 x2t + . . . + βk xkt + εt
si les variables ( yt et xkt ) sont non stationnaires, I (1) par exemple, il existe alors
un risque de cointégration. En effet, l’existence d’une éventuelle cointégration
implique que les variables doivent être non stationnaires1. Comme dans le cas à
1. Généralement, en économie, les variables sont I (1) ; cependant certaines séries financières
peuvent être de type I (2) .
306 ÉCONOMÉTRIE
deux variables, si une combinaison linéaire de ces variables est stationnaire,
elles sont alors cointégrées. L’estimation par les MCO du modèle permet de cal-
culer le résidu :
0 − β
et = yt − β 1 x1t − . . . − β
k xkt
Si ce résidu est stationnaire, nous acceptons l’hypothèse d’une cointégration
entre les variables. Les tests de Dickey-Fuller de stationnarité sur le résidu doi-
vent s’effectuer à partir des valeurs critiques tabulées par MacKinnon (1991) en
fonction du nombre de variables total du modèle. Le vecteur de cointégration est
donné par : [1, −β0 , −β1 , . . . , −βk ] .
Cependant, le cas multivarié est plus complexe que le cas à deux variables du
fait des possibilités combinatoires de cointégration. En effet si, par exemple, les
variables yt , x1t , x2t et x3t sont cointégrées par paires yt , x1t → C I (1, 1) et x2t ,
x3 → C I (1,1) , leur combinaison linéaire est I (0).
Nous avons : et1 = yt − α1 x1t et et2 = x2t −
α0 − γ0 −
γ1 x3t et par conséquent :
et = et1 + et2 = yt −
α0 −
α1 x1t + x2t −
γ0 −
γ1 x3t → I (0)
Nous obtenons, dans ce cas de figure, un autre vecteur de cointégration pos-
α0 −
sible : [1, − γ0 , −
α1 , 1, −
γ1 ]. D’une manière générale, dans un modèle à une
variable à expliquer et k variables explicatives (soit k + 1 variables au total), il
peut exister k vecteurs de cointégration linéairement indépendants. Le nombre
de vecteurs de cointégration linéairement indépendants est appelé le rang de la
cointégration.
Si les variables sont de même ordre d’intégration – I (1) par exemple –
l’existence d’un seul vecteur de cointégration est possible ; en revanche, si les
séries ne sont pas toutes intégrées du même ordre, nous pouvons être certains
que le vecteur de cointégration n’est pas unique.
De manière pratique, pour tester une éventuelle cointégration entre plusieurs
variables, il convient tout d’abord de la tester sur l’ensemble des k + 1 variables,
puis – en cas de cointégration – de la tester par combinatoire entre les variables.
B. Estimation du modèle à correction d’erreur
La cointégration ayant été révélée par les tests précédents, deux cas de figure
sont à envisager :
– il existe un vecteur unique de cointégration,
– plusieurs vecteurs de cointégration existent.
Si le vecteur de cointégration est unique, nous pouvons employer les
méthodes d’estimation envisagées à la section précédente, par exemple, celle en
deux étapes de Engle et Granger.
La cointégration et le modèle à correction d’erreur 307
– Étape 1 : estimation par les MCO de la relation de long terme et calcul du
résidu :
0 − β
et = yt − β 1 x1t − . . . − β
k xkt
– Étape 2 : estimation par les MCO de la relation du modèle dynamique
(court terme) :
yt = α1 x1t + α2 x2t + . . . + αk xkt + γ1 et−1 + u t
Le coefficient γ1 (force de rappel vers l’équilibre) doit être, comme dans le
cas à une variable explicative, significativement négatif.
Cependant, le plus souvent, le vecteur de cointégration n’est pas unique et la
méthode de Engle-Granger n’est plus valide. En effet, les estimateurs des MCO
ne sont plus consistants quels que soient les vecteurs de cointégration. Nous
devons, dans ce cas, faire appel à la représentation vectorielle à correction d’er-
reur (VECM, « Vector Error Correction Model »).
C. Le modèle à correction d’erreur vectoriel
Examinons au préalable le cas d’un processus VAR(2) à k variables sous forme
matricielle :
Yt = A0 + A1 Yt−1 + A2 Yt−2 + ε
avec :
Yt : vecteur de dimension (k × 1 ) constitué des k variables ( y1t ,y2t . . . ,ykt ) ,
A0 : vecteur de dimension (k × 1 ),
Ai : matrice de dimension (k × k ).
Ce modèle peut s’écrire en différence première :
Yt − Yt−1 = A0 + A1 Yt−1 − Yt−1 + A2 Yt−2 + ε
Yt = A0 + (A1 − I )Yt−1 + A2 Yt−2 + ε [3]
Afin de faire apparaître des différences premières à droite de l’équation, nous
ajoutons et soustrayons A1 Yt−2 − Yt−2 de la manière suivante
Yt = A0 + (A1 − I )Yt−1 + A1 Yt−2 − Yt−2 − A1 Yt−2 + Yt−2 + A2 Yt−2 + ε
Yt = A0 + A1 Yt−1 − Yt−1 + A1 Yt−2 − Yt−2 − A1 Yt−2 + Yt−2 + A2 Yt−2 + ε [4]
Or Yt−1 = Yt−1 − Yt−2 .
En regroupant les termes en Yt−1 et après simplification, on obtient :
Yt = A0 + (A1 − I )Yt−1 + (A1 + A2 − I )Yt−2 + ε [5]
308 ÉCONOMÉTRIE
Cependant, afin de faire figurer les relations de cointégration – qui relient
entre elles les variables en niveau décalées d’une période – nous cherchons à
écrire l’équation [4] en fonction de Yt−1 , soit dans l’équation [3] nous pouvons
ajouter et soustraire A2 Yt−1 et après simplification nous obtenons :
Yt = A0 − A2 Yt−1 + (A1 + A2 − I )Yt−1 + ε [6]
Ou encore :
Yt = A0 + B1 Yt−1 + πYt−1 + ε [7]
avec : A2 = −B1 et π = (A1 + A2 − I ).
Ce résultat peut être généralisé à une représentation VAR(p) à k variables
sous forme matricielle :
Yt = A0 + A1 Yt−1 + A2 Yt−2 + . . . + A p Yt− p + ε
avec :
Yt : vecteur de dimension (k × 1 ) constitué des k variables (y1t ,y2t . . . ,ykt ) ,
A0 : vecteur de dimension (k × 1 ),
Ai : matrice de dimension (k × k ).
Ce modèle peut s’écrire en différences premières de deux manières :
Yt = A0 + (A1 − I )Yt−1 + (A2 + A1 − I )Yt−2 + . . . +
(A p−1 + . . . + A2 + A1 − I )Yt− p+1 + πYt− p + ε
ou encore en fonction de Yt−1 :
Yt = A0 + B1 Yt−1 + B2 Yt−2 + . . . + Bp−1 Yt− p+1 + πYt−1 + ε
p
Les matrices Bi étant des fonctions des matrices Ai et π = Ai − I .
i=1
La matrice π peut s’écrire sous la forme π = αβ ′ où le vecteur α est la force
de rappel vers l’équilibre et β le vecteur dont les éléments sont les coefficients
des relations de long terme des variables. Chaque combinaison linéaire repré-
sente donc une relation de cointégration.
Si tous les éléments de π sont nuls (le rang de la matrice π est égal à 0 et donc
A p−1 + … + A2 + A1 = I ) , alors nous ne pouvons pas retenir une spécification à
correction d’erreur, nous estimons un VAR classique en différences premières
afin d’éliminer les tendances. Si le rang de π est égal à k , cela implique alors que
les variables sont toutes I (0) et le problème de la cointégration ne se pose donc
pas, il convient d’estimer un modèle VAR en niveau.
Si le rang de la matrice π (noté r) est compris entre 1 et k − 1
(1 r k − 1) , alors il existe r relations de cointégration et la représentation
ECM est valide soit :
Yt = A0 + B1 Yt−1 + B2 Yt−2 + . . . + Bp−1 Yt− p+1 + αet−1 + ε
avec et = β ′ Yt.
La cointégration et le modèle à correction d’erreur 309
Exemple de spécification : soit un processus VAR(2) à trois variables y1,t , y2,t et
y3,t et une relation de cointégration, le VECM s’écrit alors :
y1,t = a01 + b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1 + α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 ) + εt1
y2,t = a02 + b12 y1,t−1 + b22 y2,t−1 + b32 y3,t−1 + α 2 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 ) + εt2
y3,t = a03 + b13 y1,t−1 + b23 y2,t−1 + b33 y3,t−1 + α 3 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 ) + εt3
Nous avons normalisé l’équation de cointégration par rapport au coefficient
de y1,t .
Selon les caractéristiques des données traitées, ce processus VAR peut
connaître les variantes suivantes :
– existence d’une constante soit dans la relation de cointégration (β0 ) soit
dans le VAR ( a0i ),
– existence d’une tendance (t = 1,2,. . . ,n ) dans le VAR et/ou dans la rela-
tion de cointégration,
– ou encore intégrer des variables exogènes de type indicatrice pour corriger
d’un mouvement saisonnier.
Sur ce type de modèle, nous ne pouvons pas appliquer la méthode des MCO
car nous avons des problèmes d’identification similaires à ceux évoqués lors du
chapitre 8 concernant les modèles à équations simultanées. Il convient d’em-
ployer une méthode du maximum de vraisemblance1.
D. Tests de relation de cointégration
Pour déterminer le nombre de relations de cointégration, Johansen (1988) pro-
pose deux tests fondés sur les valeurs propres d’une matrice issue d’un calcul
en deux étapes :
Etape 1 : calcul de deux résidus ut et vt
Nous effectuons deux régressions :
Première régression :
0 + A
Yt = A 1 Yt−1 + A
2 Yt−2 + . . . + A
p Yt− p + u t
Deuxième régression :
′ + A
Yt−1 = A ′ Yt−1 + A
′ Yt−2 + . . . + A
′ Yt− p + vt
0 1 2 p
y1,t
y2,t
Avec Yt = . . .
...
yk,t
1. Johansen, 1988.
310 ÉCONOMÉTRIE
Nous avons les mêmes variables explicatives, seule la spécification du bloc
de la variable à expliquer est modifiée.
ut et vt sont donc les matrices des résidus de dimension (k, n) avec k = nombre
de variables, n = nombre d’observations.
Etape 2 : calcul de la matrice permettant le calcul des valeurs propres
Nous calculons quatre matrices des variances-covariances de dimension
(k, k) à partir des résidus ut et vt.
n
uu = (1/n)
u t u ′t
t=1
n
vv = (1/n)
vt vt′
t=1
n
uv = (1/n)
u t vt′
t=1
n
vu = (1/n)
vt u ′t
t=1
Puis nous extrayons les k valeurs propres de la matrice M de dimension k, k
calculée de la manière suivante :
vv
M= −1 −1
vu uu uv
1) Test de la trace
A partir de ces valeurs propres, on calcule une statistique :
k
λtrace = −n Ln (1 − λi ) avec n = nombre d’observations, λi = i ème valeur
i =r +1
propre de la matrice M, k = nombre de variables, r = rang de la matrice.
Cette statistique suit une loi de probabilité (similaire à un χ 2 ) tabulée à
l’aide de simulations par Johansen et Juselius (1990). Ce test de Johansen fonc-
tionne par exclusion d’hypothèses alternatives :
– rang de la matrice π égal 0 (r = 0), soit H0 : r = 0 contre H1 : r > 0 ;
si H0 est refusé, on passe au test suivant1 (si λtrace > à la valeur critique lue
dans la table, on rejette H0) ;
– rang de la matrice π égal 1 (r = 1), soit H0 : r = 1 contre H1 : r > 1 ;
si H0 est refusé, on passe au test suivant ;
– rang de la matrice π égal 2 (r = 2), soit H0 : r = 2 contre H1 : r > 2 ;
si H0 est refusé, on passe au test suivant, etc.
Si, après avoir refusé les différentes hypothèses H0 à la fin de la procédure,
on teste H0 : r = k − 1 contre H1 : r = k et que l’on soit amené à refuser H0,
alors le rang de la matrice est r = k et il n’existe pas de relation de cointégra-
tion car les variables sont toutes I (0).
Les logiciels d’économétrie fournissent directement l’ensemble de ces informa-
tions : la statistique λtrace calculée entre 1 et k ainsi que les valeurs critiques associées.
1. Dans le cas contraire, la procédure est arrêtée, et le rang de la matrice est r = 0 .
La cointégration et le modèle à correction d’erreur 311
Pour mener ce test, Johansen propose cinq spécifications concernant soit les
vecteurs cointégrants soit les séries (le VAR proprement dit) :
Absence de tendance linéaire dans les données (les séries sont toutes DS sans
dérive) :
a) Absence d’une tendance linéaire dans les séries et d’une constante dans les
relations de cointégration (la constante dans la relation de long terme est non
significative).
Exemple : y1,t−1 = b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1
+α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 ) + εt1
b) Absence d’une tendance linéaire dans les séries mais présence d’une constan-
te dans les relations de cointégration (la constante dans la relation de long
terme est significative).
Exemple : y1,t = b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1
+α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 ) + εt1
Présence d’une tendance linéaire dans les données (au moins une série est un
DS avec dérive) :
c) Présence d’une tendance linéaire dans les séries et d’une constante dans les
relations de cointégration.
Ex. : y1,t = a01 + b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1
+α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 ) + εt1
d) Présence d’une tendance linéaire dans les séries et dans les relations de coin-
tégration (au moins une série est un TS).
Ex : y1,t = a01 + b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1
+α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 + ct) + εt1
Présence d’une tendance quadratique dans les données :
e) Présence d’une tendance quadratique dans les séries et d’une tendance linéai-
re dans les relations de cointégration.
Ex : y1,t = a01 + bt + b11 y1,t−1 + b21 y2,t−1 + b31 y3,t−1
+α 1 (y1,t−1 − β2 y2,t−1 − β3 y3,t−1 − β0 + ct) + εt1
Le choix d’une de ces spécifications s’effectue en fonction des données et de la
forme supposée de la tendance (une analyse des propriétés stochastiques des
séries ou un simple examen visuel des graphiques permettent de se déterminer).
Le tableau 3 synthétise le choix de la spécification du VECM en fonction de
la typologie des processus.
312 ÉCONOMÉTRIE
Tableau 3 – Choix de la spécification en fonction du type de processus
Type de processus Spécification
1 2 3 4 5
Tous les processus sont des DS sans dérive X X
Au moins un des processus est un DS avec dérive X
Au moins un des processus est un TS X
Au moins un processus a une tendance quadratique X
2) Test de la valeur propre maximale
Le deuxième test proposé par Johansen est donné par la statistique :
λmax = −nLog(1 − λr+1 ) r = 0,1,2…
Le test s’effectue comme précédemment de manière séquentielle par exclu-
sion d’hypothèses alternatives.
En cas de divergence des deux tests (valeur propre maximum et trace), nous
privilégions le test de la trace dont la puissance est la plus élevée.
E. Test d’exogénéité faible
Le test d’exogénéité faible consiste à vérifier si les variables sont bien endo-
gènes. Ce test porte sur le coefficient α de la force de rappel (s’il existe une seule
relation de cointégration) ou les coefficients α dans le cas de plusieurs relations
de cointégration. Effectuer un test sur α revient à vérifier si la relation de coin-
tégration figure dans toutes les équations du modèle. C’est un test d’exogénéité
faible des différentes variables du système, pour les paramètres d’intérêt donnés
par la relation de long terme de la matrice π = α ′ β , c’est-à-dire β les relations
de cointégration et α les poids de ces relations dans chacune des équations du
système.
Prenons par exemple un VECM à deux relations de cointégration :
y1t y1t−1 α11 α12 y1t−1
β11 β21 β31
y2t = A y2t−1 + α21 α22 y2t−1
β12 β22 β32
y3t y3t−1 α31 α32 y3t−1
Pour tester l’exogénéité de la variable y2t , il convient d’effectuer le test d’hy-
pothèse H0 : α21 = α22 = 0 , si l’hypothèse H0 est acceptée cela signifie que la
force de rappel α n’intervient dans aucune relation de cointégration et donc que
la variable y2t est faiblement exogène. Dans ce cas nous estimons un VECM par-
tiel en imposant la contrainte α21 = α22 = 0 .
La cointégration et le modèle à correction d’erreur 313
Ce test est réalisé par le calcul de la statistique du ratio de vraisemblance du
modèle contraint sous H0 et non contraint.
F. Synthèse de la procédure d’estimation
Nous essayons ici de synthétiser les grandes étapes relatives à l’estimation d’un
modèle VECM.
Étape 1 : Détermination du nombre de retards p du modèle (en niveau ou en
Log) selon les critères AIC ou SC (cf. chapitre 10).
Étape 2 : Estimation de la matrice et test de Johansen permettant de
connaître le nombre de relations de cointégration (les logiciels proposent un cer-
tain nombre de spécifications alternatives, telles que l’existence d’un terme
constant dans la relation de cointégration, contraindre A0 = 0 , l’existence d’une
tendance déterministe, etc.).
Étape 3 : Identification des relations de cointégration, c’est-à-dire des rela-
tions de long terme entre les variables.
Étape 4 : Estimation par la méthode du maximum de vraisemblance du
modèle vectoriel à correction d’erreur et validation à l’aide des tests usuels :
significativité des coefficients1 et vérification que les résidus sont des bruits
blancs (test de Ljung-Box), tests d’exogénéité faible.
Enfin, nous pouvons vérifier que l’estimation par les MCO de la relation de
long terme fournit des résultats à peu près similaires (en termes de significativi-
té et de valeurs estimées des coefficients) à ceux obtenus par la méthode du
maximum de vraisemblance2.
Exercice n° 2fichier C11EX2
Tests de cointégration et estimation d’un modèle vectoriel
à correction d’erreur
Soit trois variables y1t , y2t et y3t observées sur 30 périodes dont les données sont
consignées au tableau 3. On demande de tester une éventuelle cointégration et d’estimer
un modèle VAR ou un modèle vectoriel à correction d’erreur s’il y a lieu.
Solution
– Première étape : détermination du nombre de retards de la représentation VAR en niveau
(la transformation logarithmique ne s’impose pas au vue des données (cf. graphique 5)
1. Évidemment on tolère que quelques coefficients ne soient pas significativement de 0.
2. De manière asymptotique, les deux estimateurs sont équivalents
314 ÉCONOMÉTRIE
Graphique 5 – Représentation de y1t , y2t et y3t
Tableau 4 – Données observées de y1t , y2t et y3t (extrait des données)
OBS y1,t y2,t y3,t
1 20,00 20,00 30,00
2 21,39 17,05 31,40
… … … …
29 26,04 24,61 31,84
30 26,70 23,25 32,22
Le calcul des critères d’information AIC et SC pour des retards allant de 1 à 3 – nous
n’allons pas plus loin compte tenu du faible nombre d’observations – ne pose pas de dif-
ficulté.
AIC(1) = 2,45 ; SC(1) = 2,88
AIC(2) = 1,93 ; SC(2) = 2,78
AIC(3) = 2,04 ; SC(3) = 3,34
Le retard retenu est donc de 2 (minimum des critères AIC et SC), nous allons donc
procéder au test de Johansen sur un VECM(1 ).
– Deuxième étape : Test de Johansen
Nous procédons au test de Johansen sous deux hypothèses :
a) Existence d’une constante dans la relation de long terme et non dans les données
(pas de tendance déterministe), spécification b.
Détaillons ce premier cas.
Premier test : Rang de la matrice π égal 0 (r = 0), soit H0 : r = 0 contre H1 : r > 0.
Les trois valeurs propres de la matrice π, estimée par le maximum de vraisemblan-
ce, sont égales à λ1 = 0,605 ; λ2 = 0,257 ; λ3 = 0.139.
La cointégration et le modèle à correction d’erreur 315
k
Calculons la statistique de Johansen : λtrace = −n Ln (1 − λi ) pour r = 0 :
i=r+1
λtrace = −n × {(Ln (1 − λ1 ) + Ln (1 − λ2 ) + Ln (1 − λ3 ))}
λtrace = −28 × {0,928 + 0,297 + 0,150} = 38,50
Les valeurs critiques sont égales à 34,91 pour un seuil de 5 % et 41,07 pour un seuil
de 1 % ; on rejette donc l’hypothèse H0, le rang de la matrice n’est pas 0 (les séries ne
sont donc pas stationnaires).
Rang de la matrice π égal 1 (r = 1), soit H0 : r = 1 contre H1 : r > 1.
λtrace = −28 × {0,297 + 0,150} = 12,51
Les valeurs critiques sont égales à 19,96 pour un seuil de 5 % et 24,60 pour un seuil
de 1% ; on ne peut pas rejeter l’hypothèse H0 ni à 5 % ni à 1 %, on considère donc que
le rang de la matrice π est égal à 1.
Nous acceptons donc l’hypothèse d’une relation de cointégration.
b) Existence d’une constante dans la relation de long terme et dans les données, spé-
fication c.
Nous vérifions la robustesse de ce résultat sur cette autre spécification (compte tenu
des données, les autres possibilités sont exclues).
Les résultats sont les suivants :
Valeur propre λtrace Seuil critique à 5% Seuil critique à 5%
0,603749 37,38888 29,68 35,65
0,229311 11,46904 15,41 20,04
0,138550 4,175870 3,76 6,65
Là encore, on constate que le rang de la matrice n’est pas 0 (ligne 1), mais qu’en
revanche, on ne peut pas rejeter l’hypothèse H0 ni à 5 % ni à 1 % (ligne 2) dans l’hypo-
thèse d’un rang de la matrice π égal à 1.
Le test de la valeur propre maximale corrobore les résultats précédents :
Hypothesized Max-Eigen 0.05
No. of CE(s) Eigenvalue Statistic Critical Value Prob.**
None * 0.603749 25.91984 21.13162 0.0098
At most 1 0.229311 7.293174 14.26460 0.4550
At most 2 * 0.138550 4.175870 3.841466 0.0410
L’hypothèse d’une seule relation de cointégration est validée.
- Troisième étape : estimation du modèle vectoriel à correction d’erreur
Les deux spécifications précédentes sont estimées avec ou sans constante dans les
données et donc, dans les deux cas, avec une seule relation de cointégration entre y1,t , y2,t
et y3,t .
La première spécification est rejetée du fait que les trois constantes des trois équa-
tions ne sont pas significativement différentes de 0.
316 ÉCONOMÉTRIE
L’estimation finale du VECM sur 28 observations est donc la suivante :
y1,t = −0,85 × (y1,t−1 − 0,87 × y2,t−1 − 0,54 × y3,t−1 + 12,92)
(2,64) (8,9) (7,1) (4,19)
+ 0,77 × y1,t−1 − 0,71 × y2,t−1 − 0,26 × y3,t−1
(2,82) (2,61) (1,07)
y2,t = 0,32 × (y1,t−1 − 0,87 × y2,t−1 − 0,54 × y3,t−1 + 12,92)
(1,18) (8,9) (7,1) (4,19)
+ 0,10 × y1,t−1 − 0,34 × y2,t−1 − 0,08 × y3,t−1
(0,43) (1,44) (0,39)
y3,t = 0,0089 × (y1,t−1 − 0,87 × y2,t−1 0,54 × y3,t−1 + 12,92)
(0,03) (8,9) (7,1) (4,19)
+ 0,53 × y1,t−1 − 0,46 × y2,t−1 − 0,25 × y3,t−1
(2,16) (1,86) (1,13)
Les chiffres entre parenthèses sont les t de Student.
– Quatrième étape : validation de la représentation vectorielle à correction d’erreur
Les coefficients des termes de rappel ont bien le signe attendu (cependant seul le
terme de rappel de l’équation est significatif) et les coefficients de la relation de long
terme sont significatifs.
Le fait que seul le coefficient α1 soit significativement différent de 0, indique que les
variables y2t et y3t sont faiblement exogènes ce qui est confirmé par le test de contrainte
portant sur les coefficients de la force de rappel α1 , α2 et α3 :
Cointegration Restrictions :
A(1,1) = 0 A(2,1) = 0 A(3,1) = 0
Not all cointegrating vectors are identified
LR test for binding restrictions (rank = 1) :
Chi-square(1) : 5,557 Chi-square(1) : 1,275770 Chi-square(1) : 0,001005
Probability : 0,0184 Probability : 0,258687 Probability : 0,974714
Nous acceptons l’hypothèse H0 de nullité pour les coefficients α2 et α3 .
Le VECM partiel est estimé en imposant la contrainte α2 = α3 = 0.
La cointégration et le modèle à correction d’erreur 317
Vector Error Correction Estimates
Sample (adjusted) : 3 30
Included observations : 28 after adjustments
Standard errors in ( ) & t-statistics in [ ]
Cointegration Restrictions :
A(3,1)=0, A(2,1) = 0
Not all cointegrating vectors are identified
LR test for binding restrictions (rank = 1) :
Chi-square(2) 1.558967
Probability 0.458643
Cointegrating Eq : CointEq1
Y1(– 1) 0.997283
Y2(– 1) – 0.797187
Y3(– 1) – 0.555922
C 11.94414
Error Correction : D(Y1) D(Y2) D(Y3)
CointEq1 – 1.187476 0.000000 0.000000
(0.20103) (0.00000) (0.00000)
[– 5.90704] [ NA] [NA]
D(Y1(– 1)) 0.813973 0.139232 0.527616
(0.26543) (0.23701) (0.24591)
[3.06663] [ 0.58745] [2.14553]
D(Y2(– 1)) – 0.715308 – 0.372227 – 0.456821
(0.26279) (0.23465) (0.24346)
[– 2.72203] [– 1.58631] [– 1.87634]
D(Y3(– 1)) – 0.299747 – 0.097043 – 0.244642
(0.23644) (0.21113) (0.21906)
[– 1.26773] [– 0.45964] [– 1.11679]
Quelques coefficients du modèle ne sont pas significatifs, cela était probable et ne
remet pas en cause la validité globale du modèle.
Enfin, les trois résidus issus de chaque équation sont des bruits blancs d’après la
Q-statistique de Ljung-Box :
– première équation : Q(12) = 5,87 (α = 0,92) ⇒ Acceptation de H0 ;
– deuxième équation : Q(12) = 4,60 (α = 0,97) ⇒ Acceptation de H0 ;
– troisième équation : Q(12) = 5,99 (α = 0,92) ⇒ Acceptation de H0 ;
La spécification VECM est donc validée.
318 ÉCONOMÉTRIE
12. Introduction
à l’économétrie
des variables
qualitatives
N
ous avons, lors des chapitres précédents (chapitre 3, partie 5), uti-
lisé des variables explicatives particulières appelées variables
dichotomiques1, dont la caractéristique est de prendre deux
valeurs 0 ou 1. Leurs utilisations ne posent aucun problème en tant que
variable explicative, en revanche lorsqu’elles sont utilisées en tant que
variable à expliquer la méthode des moindres carrés ordinaires est
défaillante.
Dans ce chapitre, qui constitue une simple introduction2 à l’économétrie
des variables qualitatives, nous allons donc aborder, dans une première
partie, la problématique particulière de l’économétrie des variables qua-
litatives et les problèmes rencontrés dans ce type de modélisation. Puis
nous présentons les modèles spécifiques lorsque la variable à expliquer
est binaire tels que : décision d’acheter ou de ne pas acheter un produit,
risque de défaillance de paiement, obtenir un diplôme, .... Il s’agit des
modèles à choix binaires (Probit et Logit).
Puis, dans une troisième partie, nous abordons les modèles à choix mul-
tiples (pour quel candidat voter, quel moyen de transport adopter, ..).
Enfin, la quatrième partie est consacrée aux variables tronquées et cen-
surées.
1. Les termes de variables indicatrices, binaires, muettes, ou « dummy » sont aussi utilisés.
2. Pour des développements, nous recommandons au lecteur de se référer au livre de Thomas A.
« Économétrie des variables qualitatives », Dunod, 2002.
Introduction à l’économétrie des variables qualitatives 319
I. Les problèmes et les conséquences
de la spécification binaire
Le recours à des modèles et des méthodes d’estimation spécifiques lorsque la
variable endogène est qualitative (dichotomique ou à choix multiples) est lié au
fait que le modèle linéaire général ne peut pas s’appliquer dans ce contexte.
Prenons l’exemple d’un modèle de régression simple permettant de relier le
fait d’être, pour un individu i , propriétaire d’un logement à son revenu :
yi = a0 + a1 xi + εi i = 1,...,n [1]
avec :
yi = une variable endogène (variable à expliquer) qui prend les valeurs 1 si l’in-
dividu i est propriétaire de son logement et 0 dans le cas contraire,
xi = une variable exogène (variable explicative) qui représente le revenu en
euros de l’individu i ,
εi = l’erreur de spécification du modèle,
a0 et a1 = les paramètres à estimer.
Ce modèle, appelé aussi modèle à probabilité linéaire, présente les proprié-
tés suivantes.
a) – En faisant l’hypothèse classique de l’espérance de l’erreur nulle :
E(εi ) = 0 , alors E(yi ) = a0 + a1 xi .
b) – La valeur prévue de la variable à expliquer yi peut s’interpréter de la
manière suivante :
Soit Pi = Prob(yi = 1) , d’où Prob(yi = 0) = 1 − Pi
E(yi ) = 1 × Prob(yi = 1) + 0 × Prob(yi = 0) = Pi
Soit : Pi = a0 + a1 xi ∀i , d’où le nom du modèle.
c) – La variable yi ne pouvant prendre que deux valeurs (0 et 1), par voie de
conséquence, l’erreur ne peut donc prendre que deux valeurs :
εi = 1 − (a0 + a1 xi ) avec la probabilité Pi
εi = −(a0 + a1 xi ) avec la probabilité 1 − Pi
320 ÉCONOMÉTRIE
La variance de l’erreur est donnée par :
Var(εi ) = E(εi2 ) = Pi × (valeur de εi si yi = 1)2 + (1 − Pi )× (valeur de εi si
yi = 0)2 .
D’où : Var(εi ) = E(εi2 ) = Pi × (1 − a0 − a1 xi )2 + (1 − Pi ) × (−a0 − a1 xi )2
Or Pi = a0 + a1 xi
Var(εi ) = E(εi2 ) = Pi × (1 − Pi )2 + (1 − Pi ) × (Pi )2 [2]
Soit : Var(εi ) = E(εi2 ) = Pi × (1 − Pi ) [3]
Examinons les problèmes soulevés par l’application d’une méthode des
moindres carrés ordinaires afin d’estimer ce modèle.
a) – Dans l’équation [1], le codage de la variable endogène (0 ou 1) est tota-
lement arbitraire, par exemple si nous prenions un codage sous la forme (0 ou
10) les valeurs estimées des coefficients ak seraient évidemment différentes
(10 × ak ) .
Un examen graphique (cf. graphique 1) de la série à expliquer (yi ) et de la
série ajustée ( ŷi ) illustre parfaitement la non adéquation de l’estimation linéaire
des paramètres par la méthode des moindres carrés.
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
y y ajustée
Graphique 1 – Série brute (yi ) et de la série ajustée ( ŷi )
Introduction à l’économétrie des variables qualitatives 321
b) – Puisque l’erreur ne peut prendre que deux valeurs, elle suit donc une loi
discrète, l’hypothèse de normalité des erreurs n’est donc pas vérifiée.
c) – D’après la relation [3] : E(εi2 ) = Pi × (1 − Pi ) , il existe de fait une hété-
roscédasticité. Cependant nous ne pouvons pas appliquer la méthode des
moindres carrés généralisés car Pi dépend des paramètres a0 et a1 du modèle.
d) – Enfin, nous devons imposer une contrainte au modèle : 0 Pi =
a0 + a1 xi 1 qui peut se révéler non compatible avec les données.
Tous ces éléments indiquent clairement que nous sommes dans l’impossibi-
lité d’utiliser la méthode des moindres carrés ordinaires.
II. Les modèles de choix binaires
Les modèles de choix binaires (ou encore appelés modèles dichotomiques) sont
utilisés dans des secteurs très divers dès que la variable à expliquer ne peut
prendre que deux modalités, par exemple :
– médecine : guérison ou non guérison,
– marketing : achat ou non achat,
– finance : remboursement du prêt ou non remboursement, défaillance d’une
entreprise ou non défaillance,
– science politique : répondre oui ou non à un référendum, voter pour X ou
Y à une élection,
– sociologique : réussir ou rater un examen,
– etc.
Dans un modèle de choix binaire, nous cherchons à modéliser une alterna-
tive ( yi = 0 ou 1) et donc à estimer la probabilité Pi associée à l’événement
(yi = 1) .
A. Le modèle linéaire sur variable latente
Les variables latentes sont une première réponse aux problèmes liés à l’utilisa-
tion des moindres carrés ordinaires dans un modèle dont la variable à expliquer
est binaire.
Qu’est-ce qu’une variable latente ? Il s’agit d’une variable continue non
observable et représentative du phénomène étudié. Par exemple la richesse d’un
individu peut être expliquée par le fait qu’il soit propriétaire ou non de son
appartement.
322 ÉCONOMÉTRIE
On introduit donc la variable latente yi∗ (la richesse) et on suppose que :
1) l’individu i est propriétaire si sa richesse est suffisante, soit yi = 1 si
yi∗ > 0
2) yi∗ est une fonction linéaire des xi , yi∗ = a0 + a1 xi + εi .
La variable à expliquer binaire yi est alors définie par le modèle de décision
suivant :
yi = 1 si yi∗ > 0
yi = 0 si yi∗ 0
Intuitivement, cette règle de décision consiste simplement à supposer que la pro-
portion des (yi = 1) est élevée pour a0 + a1 xi + εi > 0 .
Soit Pi la probabilité que yi∗ > 0 .
Pi = Prob(yi = 1) = Prob(yi∗ > 0) = Prob(a0 + a1 xi + εi > 0)
= Prob(εi > −(a0 + a1 xi ))
Si la distribution de εi est centrée par rapport à la moyenne, nous avons
l’équivalence :
Prob(εi > −(a0 + a1 xi )) = Prob(εi < a0 + a1 xi )
Soit : Pi = Prob(yi = 1) = Prob(εi < a0 + a1 xi )
L’ensemble de ces résultats peut être généralisé dans le cas d’un modèle à
plusieurs variables.
La probabilité Pi dépend ainsi de la distribution du terme de l’erreur εi du
modèle de décision, nous pouvons alors distinguer deux cas :
– le modèle Probit si la fonction de répartition de l’erreur suit une loi nor-
male,
– le modèle Logit si la fonction de répartition de l’erreur suit une loi de type
logistique.
B. Les modèles Probit et Logit
Dans un modèle Probit la fonction de répartition de l’erreur εi est donnée par :
a0 +a1 xi
1 2
Pi = √ e−t /2 dt
−∞ 2π
Il s’agit d’une loi normale centrée et réduite N (0,1) .
La fonction logistique « Logit model » ou encore appelée courbe en « S » est
donnée par l’expression suivante :
Introduction à l’économétrie des variables qualitatives 323
Pi = Prob(yi = 1) = Prob(yi∗ > 0) = Prob(a0 + a1 xi + εi > 0)
= Prob(εi > −(a0 + a1 xi )) = (a0 + a1 xi )
avec (.) la fonction de répartition de la loi logistique.
exp(a0 + a1 xi ) 1
Pi = (a0 + a1 xi ) = =
1 + exp(a0 + a1 xi ) 1 + exp(−(a0 + a1 xi ))
Les propriétés de cette équation sont les suivantes, si α1 > 0 :
Lim Pi −→ 1 et Lim Pi −→ 0 , ce qui assure bien que les valeurs de Pi sont
xi →∞ xi →−∞
comprises entre 0 et 1, comme l’illustre le graphique 2.
1,00
Pi
0,50
0,00
xi
Graphique 2 – La fonction logistique
Nous pouvons observer, après une transformation analogue à celle de l’exer-
cice 2 du chapitre 6, que la fonction Logit s’écrit :
Pi ∗
Pi
Ln = y = a0 + a1 xi + εi avec
i la probabilité relative du
1 − Pi 1 − Pi
choix yi = 1 .
Ces spécifications peuvent être généralisées dans le cas de plusieurs
variables explicatives.
324 ÉCONOMÉTRIE
L’estimation des paramètres des modèles Probit ou Logit est effectuée à l’ai-
de des algorithmes de maximisation d’une fonction log-vraisemblance1. Quels
que soient les modèles retenus (Probit ou Logit) les résultats d’estimation sont
relativement proches, cependant les coefficients estimés ne sont pas directement
comparables.
C. Interprétation des résultats et tests statistiques
Contrairement aux modèles linéaires estimés par la méthode des moindres car-
rés ordinaires pour lesquels les coefficients ont des interprétations économiques
immédiates en termes de propension marginale, les valeurs des coefficients des
modèles ne sont pas directement interprétables. Seuls les signes des coefficients
indiquent si la variable agit positivement ou négativement sur la probabilité Pi.
Cependant, il est possible de calculer les effets marginaux2 afin de connaître
la sensibilité de la variation d’une variable explicative sur la probabilité Pi.
La significativité des coefficients est appréciée à l’aide des ratios appelés « z -
Statistique » car la distribution des rapports du coefficient sur son écart type ne
suit pas une loi de Student, comme dans le modèle linéaire général, mais une loi
normale. Cette z -Statistique s’interprète de manière classique à partir des pro-
babilités critiques et permet la tenue de tous les tests de significativité concer-
nant les coefficients.
Afin de tester l’hypothèse : H0 : a1 = a2 = a3 = . . . = ak = 0 , nous utilisons
le ratio du Log vraisemblance. Soit la statistique suivante :
L R = −2(Ln(L R ) − Ln(L U )) avec L R = valeur de la fonction du Log-
vraisemblance contrainte sous H0 et L U = valeur de la fonction du Log-
vraisemblance non contrainte.
L R suit, sous l’hypothèse nulle H0, une distribution d’un χ 2 à k degrés de
liberté. Si la statistique L R est supérieure au χ 2 lu dans la table pour un seuil
déterminé, généralement de 5 %, alors nous refusons l’hypothèse H0, le modèle
estimé comporte au moins une variable explicative de significative.
Compte tenu de la caractéristique de la variable à expliquer codée en 0 ou 1,
le coefficient de détermination R 2 n’est pas interprétable en termes d’ajustement
du modèle, c’est pourquoi on utilise une statistique appelée le pseudo- R 2 don-
Log(Lu)
née par : R 2 = 1 − .
Log(L R )
1. Cf. Thomas A. « Économétrie des variables qualitatives », Dunod, 2002, pages 56-57.
2. Cf. Thomas A. (2002), pages 60-61.
Introduction à l’économétrie des variables qualitatives 325
Exercice n° 1
fichier C12EX1
Estimation des modèles Probit et Logit binaires explicatifs des fac-
teurs de la réussite en Licence
Nous avons relevé sur un échantillon de 60 étudiants inscrits en dernière année de
Licence d’Économie, les variables suivantes susceptibles d’expliquer la réussite ou
l’échec à l’examen de Licence (variable REUSSITE = 0 si échec, 1 sinon) :
NENFANTS = variable discrète représentant le nombre de frères et soeurs de l’étu-
diant,
NECONO = la note d’économétrie sur 20 obtenue en Licence,
NMICRO = la note de micro-économie sur 20 obtenue en Licence,
GENRE = variable muette, (1 = masculin, 0 = féminin).
Un extrait des données est présenté dans le tableau 1.
Tableau 1 – Extrait de données
OBS REUSSITE NENFANTS NECONO NMICRO GENRE
1 0 2 3,6 0 1
2 0 5 3,8 0 1
… … … … … …
59 1 0 16,2 12 0
60 1 2 17 4 0
On demande :
1) d’estimer un modèle de type Logit permettant de prévoir la probabilité de réussite
d’un étudiant en Licence,
2) de comparer les résultats avec un modèle de type Probit et le modèle linéaire géné-
ral,
3) de donner la probabilité de réussite, à l’aide du modèle Logit estimé, pour un étu-
diant dont les caractéristiques sont les suivantes : NENFANTS = 1 ; NECONO = 12 ;
NMICRO = 13,5 ; GENRE = masculin.
Solution
1) Une première estimation d’un modèle Logit, conduit aux résultats suivants :
326 ÉCONOMÉTRIE
Dependent Variable : REUSSITE
Method: ML – Binary Logit
Included observations: 60
Variable Coefficient Std. Error z-Statistic Prob.
NENFANTS – 0.682523 0.378870 – 1.801470 0.0716
NECONO 0.632062 0.239564 2.638382 0.0083
GENRE – 3.761718 1.437068 – 2.617633 0.0089
NMICRO 0.155322 0.188916 0.822173 0.4110
C – 3.265634 2.020060 –1.616602 0.1060
À la lecture des résultats, nous constatons que :
– la variable NMICRO à une probabilité critique de 0,41, elle n’est donc pas signifi-
cative,
– la variable NENFANTS à une probabilité critique de 0,07, elle est donc faiblement
significative.
Nous procédons à une nouvelle estimation en retirant la variable NMICRO dont le
coefficient n’est pas significativement différent de 0.
Les résultats complets fournis par Eviews sont les suivants :
Dependent Variable : REUSSITE
Method: ML – Binary Logit
Included observations: 60
Variable Coefficient Std. Error z-Statistic Prob.
NENFANTS – 0.746742 0.378942 – 1.970596 0.0488
NECONO 0.695857 0.231789 3.002112 0.0027
GENRE – 3.634605 1.410945 – 2.576008 0.0100
C – 2.859277 1.910377 – 1.496708 0.1345
Mean dependent var 0.516667 S.D. dependent var 0.503939
S.E. of regression 0.287086 Akaike info criterion 0.645890
Sum squared resid 4.615432 Schwarz criterion 0.785512
Log likelihood – 15.37669 Hannan-Quinn criter. 0.700504
Restr. log likelihood – 41.55549 Avg. log likelihood – 0.25627
LR statistic (3 df) 52.35761 McFadden R-squared 0.629972
Probability(LR stat) 2.51E – 11
Obs with Dep=0 29 Total obs 60
Obs with Dep=1 31
Avec : L U = Log likelihood ; L R = Restr. log likelihood ; L R = L R statistic ;
L U /n = Avg. log likelihood. Le critère d’information de Hannan-Quinn permet des
comparaisons entre les modèles (comme les critères de Akaike ou Schwarz) en termes
d’arbitrage : apport d’information lié à l’ajout de variables explicatives et perte de degrés
de liberté. En cas de modèle concurrent, celui ayant le plus faible critère d’information
sera retenu.
Introduction à l’économétrie des variables qualitatives 327
a) Interprétation statistique
Les coefficients sont tous significativement différents de 0, hormis le terme constant.
La statistique de la Log vraisemblance est égale à L R = 52,35 que l’on compare à
0,95
un χ 2 lu dans la table à un seuil de 0,95 % et à 3 degrés de liberté, χ32 = 9,28 < 52,35
−→ rejet de H0.
Le pseudo-R 2 est donné par :
Log(Lu) −15,38
R2 = 1 − =1− = 1 − 0,37 = 0,63
Log(L R ) −41,56
Le modèle est validé sur le plan statistique.
Le logiciel Eviews propose une table permettant d’appréhender les qualités prévi-
sionnelles du modèle sur l’échantillon en comparant la probabilité estimée pour un indi-
vidu i d’être yi = 1(P(Dep = 1)) au seuil arbitraire de 50 % à la valeur observée des
yi = 0 ou 1.
Dependent Variable : REUSSITE
Method: ML – Binary Logit
Included observations: 60
Prediction Evaluation (success cutoff C = 0.5)
Estimated Equation Constant Probability
Dep = 0 Dep = 1 Total Dep = 0 Dep = 1 Total
P(Dep =1) <= C 26 4 30 0 0 0
P(Dep =1) > C 3 27 30 29 31 60
Total 29 31 60 29 31 60
Correct 26 27 53 0 31 31
% Correct 89.66 87.10 88.33 0.00 100.00 51.67
% Incorrect 10.34 12.90 11.67 100.00 0.00 48.33
Total Gain* 89.66 – 12.90 36.67
Percent Gain** 89.66 NA 75.86
Ici, pour les individus (29) pour lesquels yi = 0, le modèle indique que 26 individus
ont une probabilité estimée de réussite inférieure à 50 %. Dans 89,66 % des cas, les
échecs sont donc correctement prévus.
Pour les individus (31) pour lesquels yi = 1, le modèle indique que 27 individus ont
une probabilité estimée supérieure à 50 %. Dans 87,10 % des cas, les réussites sont cor-
rectement prévues.
Le taux d’erreur est donc faible.
b) Interprétation économique
Le modèle s’écrit :
Pi
Ln = −0,75 NENFANTS + 0,70 NECONO −3,63 GENRE − 2,86 + ei
1 − Pi (1,97) (3,00) (2,57)
(.) = z-Statistique
ei = Résidu d’estimation
– Le nombre de frères et soeurs du foyer agit négativement, les étudiants issus de
familles nombreuses ont un taux de réussite plus faible.
– La note d’économétrie est un facteur positif de réussite.
328 ÉCONOMÉTRIE
– Enfin, les étudiants de genre masculin réussissent en général moins bien (signe
négatif) que les étudiants de genre féminin.
2) Estimation d’un modèle Probit et du modèle linéaire général
a) L’estimation d’un modèle Probit conduit aux résultats suivants :
Dependent Variable : REUSSITE
Method: ML – Binary Logit
Included observations: 60
Variable Coefficient Std. Error z-Statistic Prob.
NENFANTS – 0.428197 0.219223 – 1.953247 0.0508
NECONO 0.363148 0.110230 3.294454 0.0010
GENRE – 1.824203 0.650426 – 2.804629 0.0050
C – 1.491466 1.108767 – 1.345157 0.1786
Les valeurs des coefficients sont de même signe mais différentes par rapport au
modèle Logit car la spécification n’est pas la même. Cependant, nous pouvons retrouver,
approximativement, les valeurs estimées du modèle Logit √ en multipliant chacun des
coefficients des variables explicatives par la constante1 π 3 ≈ 1,81.
b) Sans tenir compte des spécificités du modèle à variable à expliquer binaire et en
utilisant une méthode (non appropriée) des moindres carrés avec correction pour hété-
roscédasticité, nous obtenons les résultats suivants :
Dependent Variable : REUSSITE
Method: ML – Binary Logit
Included observations: 60
White Heteroskedasticity–Consistent Standard Errors & Covariance
Variable Coefficient Std. Error t-Statistic Prob.
NENFANTS – 0.078499 0.037854 – 2.073727 0.0427
NECONO 0.066672 0.016580 4.021299 0.0002
GENRE – 0.295568 0.092934 – 3.180407 0.0024
C 0.217243 0.235111 0.924003 0.3594
R-squared 0.611335 F-statistic 29.36094
Durbin-Watson stat 1.741795 Prob(F-statistic) 0.000000
Les coefficients sont affectés du même signe que dans les modèles Probit et Logit,
cependant le graphique des valeurs ajustées (cf. graphique 3) indique que les valeurs sont
parfois négatives ou supérieures à 1 ce qui est évidemment incompatible avec la valeur
d’une probabilité.
1. Une littérature abondante concerne la comparaison entre les modèles Probit et Logit, cf.
Amemiya T., 1981.
Introduction à l’économétrie des variables qualitatives 329
1,4
1,2
0,8
0,6
0,4
0,2
0
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
– 0,2
– 0,4
Série brute Série ajustée Borne1
Graphique 3 – Séries brute et ajustée de la variable binaire « Réussite »
3) Soit les caractéristiques de l’étudiant : NENFANTS = 1 ; NECONO = 12 ;
NMICRO = 13,5 ; GENRE = masculin.
Le modèle Logit estimé (la note de micro-économie ne figurant pas dans le modèle
final, elle n’est pas intégrée dans le calcul, cf. question 1) est le suivant :
Pi
Ln = − 0,75 NENFANTS + 0,70 NECONO − 3,63 GENRE − 2,86 + ei
1 − Pi (1,97) (3,00) (2,57)
P̂i
Ln = −0,75 × 1 + 0,70 × 12 − 3,63 × 1 − 2,86 = 1,109
1 − P̂i
P̂i
= e1,109 = 3,033 −→ P̂i = 3,033/(1 + 3,033) = 0,75
1 − P̂i
La probabilité de réussite de cet étudiant de licence est donc de 75 %.
III. Les modèles à choix multiples
Les modèles à choix multiples sont une généralisation des modèles binaires.
Dans ces modèles la variable à expliquer, qualitative, n’est donc plus binaire (0
ou 1), mais multinomiale (ou polytomique) comme par exemple :
330 ÉCONOMÉTRIE
– le choix lors d’un vote entre quatre candidats,
– la possibilité pour un bachelier de choisir de s’inscrire dans une prépara-
tion aux concours des écoles, à l’université, dans un IUT, dans un BTS,
– appartenir à une classe de revenu,
– etc.
Nous différencions, en fonction du type de la variable à expliquer, les
modèles ordonnés et les modèles non ordonnés.
A. Les modèles Probit et Logit ordonnés
Dans un modèle ordonné, les modalités de la variable à expliquer sont hiérar-
chisées. Elles indiquent l’appartenance de l’individu à une classe ou à une caté-
gorie, par exemple l’appartenance à une tranche de revenu.
Nous pouvons distinguer deux classes de modèles à choix multiples ordon-
nés en fonction de la variable à expliquer qui est issue, soit d’une « discrétisa-
tion » d’une variable continue telle que l’appartenance à une tranche de salaire,
soit directement d’une appartenance à une catégorie (faire du sport : une fois par
semaine, une fois par mois, une fois par an, …).
Comme pour le modèle de choix binaire nous modélisons1 une variable
latente continue :
yi∗ = a0 + a1 xi + εi .
Les valeurs prises par la variable yi correspondent à des intervalles dans les-
quels se trouve yi∗ définissant ainsi le modèle de décision suivant à M + 1 moda-
lités :
yi = 0 si yi∗ c1
∗
yi = 1 si c1 < yi∗ c2
yi = 2 si c2 < yi c3
.. ..
. = .
yi = M si c M < yi∗
Soit Pi la probabilité d’apparition de chaque événement pour l’individu i :
Pi0 = Prob(yi = 0) = (c1 − (a0 + a1 xi ))
Pi1 = Prob(yi = 1) = (c2 − (a0 + a1 xi ) − (c1 − (a0 + a1 xi ))
Pi2 = Prob(yi = 2) = (c3 − (a0 + a1 xi ) − (c2 − (a0 + a1 xi ))
...
Pi M = Prob(yi = M) = 1 − (c M − (a0 + a1 xi ))
1. Afin d’alléger l’écriture nous ne faisons figurer qu’une seule variable explicative, la généralisa-
tion à k variables ne pose aucun problème comme l’illustre l’exercice n°2.
Introduction à l’économétrie des variables qualitatives 331
Avec la fonction de répartition de la loi de probabilité normale ou logis-
M
et
tique (t) = et Pi = 1
1 + et i=0
Comme pour le modèle de choix binaire, le recours à une fonction de répar-
tition normale, permet de définir un modèle de type Probit et une fonction de
répartition de type logistique permet de définir un modèle Logit. L’estimation de
tous les paramètres, les coefficients de régression ( ai ) et les valeurs des seuils
(ci ) des modèles ordonnés (Probit ou Logit) est effectuée à l’aide des algo-
rithmes de maximisation d’une fonction de Log-vraisemblance définie par les
Pi j .
Les valeurs des coefficients des modèles ne sont pas directement interpré-
tables en termes de propension marginale, seuls les signes des coefficients indi-
quent si la variable agit positivement ou négativement sur la variable latente.
Les résultats d’estimation s’apprécient de la même manière que pour les
modèles de choix binaires :
– la significativité des coefficients à l’aide des ratios z -Statistique,
– la significativité globale de l’ajustement (l’hypothèse : H0 : a1 = a2 = a3
= . . . = ak = 0) par la statistique L R = −2(Ln(L R ) − Ln(L U )) qui suit,
sous l’hypothèse nulle H0, une distribution d’un χ 2 à k degrés de liberté.
Log(Lu)
Le pseudo- R 2 est donné par : R 2 = 1 − .
Log(L R )
Exercice n° 2
fichier C12EX2
Estimation d’un modèle à choix multiples de prévision des ventes
La société Télé-Ventes (ventes par téléphone lors d’une émission à la télévision)
désire estimer le niveau des ventes par article pour chaque émission afin de dimension-
ner la charge de l’entrepôt et prévoir ainsi le nombre d’équipes.
L’émission est diffusée tous les jours sauf le dimanche. Les ventes sont réparties en
trois classes : faible, moyenne, forte.
L’objectif est d’estimer un modèle permettant de prévoir à quelle classe de vente
(faible, moyenne, forte) appartient un article présenté lors d’une émission. Pour ce faire,
on dispose des informations suivantes sur 82 émissions passées :
VENTES : classe de l’article (faible = 0, moyenne = 1, forte = 2 ),
WE : variable indicatrice du type de jour de diffusion de l’émission (1 les jours de
semaine, 0 le samedi),
EXPO : temps d’exposition du produit en minutes,
REDUC : % de réduction proposé sur le prix,
DIRECT = variable indicatrice d’émission enregistrée (0 pas direct, 1 direct).
Un extrait des données est présenté dans le tableau 2.
332 ÉCONOMÉTRIE
Tableau 2 – Extrait de données
Obs VENTES WE EXPO REDUC DIRECT
1 0 1 3,5 0,20 0
2 1 0 3,5 0,20 0
… … … … … …
81 0 1 7 0 0
82 0 1 3,5 0 0
1) On demande d’estimer un modèle Logit multinomial permettant de prévoir la classe
de vente d’un article à partir des facteurs explicatifs proposés.
2) D’effectuer une prévision pour un article présenté lors d’une émission en différé dif-
fusée en semaine dont le temps d’exposition est de 7 minutes et sans réduction.
Solution
1) Une première estimation à l’aide d’un modèle de type Logit conduit au résultat
suivant :
Dependent Variable : VENTES
Method: ML – Ordered Logit (Quadratic hill climbing)
Included observations: 82 after adjusting endpoints
Coefficient Std. Error z-Statistic Prob.
DIRECT 0.226809 1.325269 0.171142 0.8641
EXPO 0.644804 0.150121 4.295228 0.0000
REDUC 8.922215 2.759073 3.233772 0.0012
WE – 1.395159 0.512093 – 2.724426 0.0064
Nous constatons que la variable DIRECT dont le coefficient est affecté d’une proba-
bilité critique de 0,86 n’est pas significative (les téléspectateurs ne sont pas sensibles aux
émissions diffusées en direct), elle est donc retirée du modèle. La nouvelle estimation est
alors la suivante.
Dependent Variable : VENTES
Method: ML – Ordered Logit (Quadratic hill climbing)
Included observations: 82 after adjusting endpoints
Coefficient Std. Error z-Statistic Prob.
EXPO 0.641023 0.148189 4.325700 0.0000
REDUC 8.982926 2.735164 3.284237 0.0010
WE – 1.377785 0.500824 – 2.751038 0.0059
Limit Points
LIMIT_1:C(4) 3.679581 0.994565 3.699689 0.0002
LIMIT_2:C(5) 6.170926 1.174856 5.252497 0.0000
Akaike info criterion 1.605306 Schwarz criterion 1.752057
Log likelihood – 60.81754 Hannan-Quinn criter. 1.664224
Restr. log likelihood – 79.48219 Avg. log likelihood – 0.74167
LR statistic (3 df) 37.32930 LR index (Pseudo-R2) 0.234828
Probability(LR stat) 3.92E-08
Introduction à l’économétrie des variables qualitatives 333
a) Interprétation statistique
Les coefficients sont maintenant tous significativement différents de 0 (probabilités
critiques inférieures à 0,05).
La statistique de la Log vraisemblance est égale à L R = 37,33 0,95
que l’on compare à un
χ 2 lu dans la table à un seuil de 0,95 % et à 3 degrés de liberté, χ32 < 37,33 −→ rejet
de H0.
Le modèle est donc validé sur le plan statistique.
b) Interprétation économique
La durée d’exposition et le pourcentage de réduction agissent positivement sur les
ventes.
Une émission diffusée un jour de semaine engendre moins de ventes qu’une émis-
sion diffusée le samedi.
Les seuils c1 et c2 sont respectivement de 3,679 et 6,170.
Les signes des coefficients sont conformes à l’intuition économique.
Le logiciel Eviews propose une table permettant d’appréhender les qualités prévi-
sionnelles du modèle sur l’échantillon :
Dependent Variable : VENTES
Method: ML – Ordered Logit (Quadratic hill climbing)
Included observations: 82 after adjusting endpoints
Prediction table for ordored dependent variable
Count of obs Sum of all
Value Count with Max Prob Error Probabilities Error
0 44 47 –3 44.381 – 0.381
1 27 31 –4 26.834 0.166
2 11 4 7 10.785 0.215
À la lecture des résultats, nous constatons que les qualités prévisionnelles de ce
modèle sont satisfaisantes car le taux d’erreur est assez faible pour les ventes de niveau
0 et 1. En revanche, pour les ventes de niveau 2 (forte) nous constatons que sur 11 ventes
réalisées, le modèle en a prévues correctement seulement 4.
Enfin pour chaque individu Eviews indique :
VENTES_0_0 = la probabilité associée à la modalité 0,
VENTES_1_0 = la probabilité associée à la modalité 1,
VENTES_2_0 = la probabilité associée à la modalité 2,
I_VENTES_0 = la réalisation de l’estimation de la variable latente.
Un exemple est donné1 pour les cinq premières ventes :
1. Un exemple de calcul est détaillé lors de la réponse à la question 2.
334 ÉCONOMÉTRIE
obs VENTES VENTES_0_0 VENTES_1_0 VENTES_2_0 I_VENTES_0
1 0 0.7342647 0.2366418 0.0290935 2.663212
2 1 0.4106169 0.4831615 0.1062216 4.040996
3 0 0.4106169 0.4831615 0.1062216 4.040996
4 2 0.4106169 0.4831615 0.1062216 4.040996
5 1 0.7342647 0.2366418 0.0290935 2.663212
2) Nous calculons l’estimation de la variable latente correspondante aux caractéristiques
de l’émission avec EXPO = 7, REDUC = 0 et WE = 1 :
y ∗ = 0,641 × EXPO + 8,982 × REDUC − 1,377 × WE
y ∗ = 0,641 × 7 + 8,982 × 0 − 1,377 × 1 = 3,109
Puis nous calculons les probabilités :
P1 = Prob(yi = 0) = (c1 − xi â) = (3,679 − 3,109)
0,57
e
= (0,57) = = 0,639
1 + e0,57
P2 = Prob(yi = 1) = (c2 − xi â) − (c1 − xi â) = (6,17 − 3,109) − 0,639
3,06
e
P2 = (3,06) − 0,639 = − 0,639 = 0,955 − 0,639 = 0,31
1 + e3,06
P3 = Prob(yi = 2) = 1 − (6,17 − 3,109) = 1 − 0,955 = 0,045
Soit les résultats suivants :
VENTES = 0 VENTES = 1 VENTES = 2
Pi 0,639 0,316 0,045
Les ventes de l’émission prévue ont 64% de probabilité d’appartenir à la classe 0 de
faible vente.
B. Le modèle de choix multiples non ordonné :
le Logit multinomial
Dans les modèles non ordonnés la variable à expliquer représente les possibili-
tés de choix d’un individu parmi M + 1 possibilités et donc ses préférences,
c’est pourquoi on les dénomme aussi modèle à utilités aléatoires.
Soit l’utilité1 de l’individu i pour la possibilité j ( j = 0,1,...,M) :
Ui j = a0 + a1 xi + εi
1. Afin d’alléger l’écriture nous ne faisons figurer qu’une seule variable explicative, la généralisa-
tion à k variables ne pose aucun problème.
Introduction à l’économétrie des variables qualitatives 335
La décision yi = j est retenue si Ui j = Max(Ui0 ,Ui1 ,. . . ,Ui M ) .
La loi des utilités peut être normale (Probit multinomial) ou log-normale
(Logit multinomial).
Dans le cas le plus fréquent d’un modèle Logit multinomial à M + 1 moda-
lités, la probabilité du choix j pour l’individu i est donnée1 par :
exp(xi′ a j ) 1
Prob(yi = j) = M
= M
exp(xi′ ak ) 1+ exp(xi′ (ak − a j )
k=0 k=0
k=
/j
Avec xi le vecteur des caractéristiques de l’individu i et a j le vecteur carac-
téristique de la modalité j .
Dans un modèle Logit multinomial, la probabilité d’apparition de la j ème
modalité dépend de la différence ak − a j , nous pouvons donc poser sans restric-
tion a0 = 0.
Par exemple, prenons le cas d’un individu i qui a trois choix ( M = 2 ), les
probabilités s’écrivent :
1
Prob(yi = 0) =
1 + exp(x (a1 − a0 )) + exp(xi′ (a2 − a0 ))
′
i
1
Prob(yi = 1) =
1 + exp(xi′ (a0 − a1 )) + exp(xi′ (a2 − a1 ))
1
Prob(yi = 2) =
1 + exp(xi′ (a0 − a2 )) + exp(xi′ (a1 − a2 ))
2
Or, par construction Pi = 1 et comme nous avons posé la contrainte
i=0
a0 = 0 , nous pouvons estimer les deux paramètres a1 et a2 qui s’interprètent
comme étant des écarts par rapport au paramètre a0.
Une autre caractéristique fondamentale du Logit multinomial réside dans la
propriété d’indépendance – par rapport aux autres événements – du rapport des
deux probabilités associées à deux possibilités j et k :
Prob(yi = j) exp(xi a j )
= = exp(xi (a j − ak ))
Prob(yi = k) exp(xi ak )
Ce rapport est indépendant des possibilités autres que j et k , cette hypothèse
s’appelle l’indépendance des alternatives non pertinentes « Independance of
1. Cf. Thomas A. (2002), pages 92-93.
336 ÉCONOMÉTRIE
Irrelevant Alternative ». Cette propriété est vérifiée1 si le fait de changer l’en-
semble des choix (par exemple ajouter une possibilité) ne modifie pas les ratios
de chances.
L’estimation des paramètres du modèle est effectuée à l’aide des algorithmes
de maximisation de la fonction log-vraisemblance. Les valeurs des coefficients
ne sont pas directement interprétables en termes de propension marginale, seuls
les signes des coefficients indiquent si la variable agit positivement ou négati-
vement sur la probabilité relative de choisir j plutôt que 0.
Les résultats d’estimation s’apprécient de la même manière que pour les
autres modèles :
– la significativité des coefficients à l’aide des ratios z -Statistique,
– la significativité globale de l’ajustement (l’hypothèse : H0 : a1 = a2 = a3
= . . . = ak = 0) par la statistique L R = −2(Ln(L R ) − Ln(L U )) qui suit,
sous l’hypothèse nulle H0, une distribution d’un χ 2 à k degrés de liberté.
Log(Lu)
Le pseudo- R 2 est donné par : R 2 = 1 − .
Log(L R )
IV. Les modèles à variable dépendante
limitée : le modèle Tobit
Dans les modèles à variable dépendante limitée (« limited dependent variable
models ») les valeurs de la variable à expliquer continue ne sont observables que
sur un intervalle donné. Par exemple :
– La demande d’un produit n’est connue (les ventes observées) que si le
magasin possède ce produit en stock, au-delà la demande non satisfaite (les
ventes perdues) est inconnue.
– Le salaire d’un jeune diplômé n’est observable que si il travaille (salaire
> 0 ).
– Lors d’une enquête sur les dépenses relatives à l’achat de biens d’équipe-
ment, seules les dépenses des ménages ayant effectivement acheté un bien
d’équipement sont prises en compte.
– etc.
Le recours à l’économétrie des variables qualitatives se justifie par l’estima-
tion de la probabilité que la variable à expliquer se trouve à l’intérieur de l’in-
tervalle pour lequel elle est observable. Ces modèles, appelés modèle Tobit par
référence à J. Tobin2, ont connu beaucoup d’extensions, nous pouvons citer :
1. Cf. Thomas A. (2002), pages 101-103.
2. Tobin J. (1958).
Introduction à l’économétrie des variables qualitatives 337
– le modèle censuré et le modèle tronqué (modèle Tobit simple) qui font
seuls l’objet d’une présentation dans le cadre de ce manuel,
– le modèle de sélection (modèle Tobit généralisé),
– le modèle avec censure et sélection.
A. Le modèle Tobit simple :
modèle de régression tronqué ou censuré
Définitions préliminaires :
– Une distribution est tronquée si les valeurs de la variable à expliquer et des
variables explicatives ne sont pas observables lorsque les valeurs de la
variable à expliquer dépassent un intervalle.
– Une distribution est censurée si seules les valeurs de la variable à expliquer
ne sont pas connues lorsqu’elles sortent d’un intervalle.
Soit une variable latente yi∗ – donc non systématiquement observable – et des
variables explicatives xi , le modèle s’écrit de manière classique comme dans le
cas des modèles à choix discrets : yi∗ = xi a + εi avec :
xi la matrice des valeurs des variables explicatives,
a les coefficients du modèle,
εi le terme d’erreur avec εi −→ (N (0,σε2 ) et donc yi∗ −→ N (xi a,σε2 ) .
Les valeurs observées de la variable explicative yi sont données par :
yi = yi∗ si yi∗ > 0
yi = 0 si yi∗ 0
Lorsque les valeurs de yi∗ sont nulles ou négatives, yi est égale à 0 mais l’on
connaît néanmoins les valeurs des variables explicatives. Les données dans ce
type de modèle sont dites censurées à gauche, yi suit alors une loi normale cen-
surée.
Comme pour les moindres carrés ordinaires :
E(yi∗ ) = xi a mais E(yi /yi > 0) =
/ xi a et E(yi ) =
/ xi a .
En effet, calculons l’espérance de yi dans le cas d’un modèle censuré à
gauche, non pas à 0, mais à une valeur seuil égale à c1 , le modèle s’écrit :
yi = yi∗ si yi∗ > c1
yi = c1 si yi∗ c1
y ∗ = xi a + εi avec εi −→ N (0,σε2 ) .
338 ÉCONOMÉTRIE
L’espérance a pour expression :
E(yi ) = Prob(yi = c1 ) × E(yi /yi = c1 ) + Prob(yi > c1 ) × E(yi /yi > c1 )
Soit la fonction de répartition de la loi de probabilité des erreurs (norma-
le ou logistique) et φ la fonction de densité associée. Nous avons :
yi∗ − xi a c1 − xi a c1 − xi a
Prob(yi = c1 ) = Prob(yi∗ c1 ) = Prob =
σ σ σ
1 ci − xi a c1 − xi a
Prob(yi > c1 ) = Prob(yi = y1∗ ) = φ =1−
σ σ σ
E(yi /yi = c1 ) = c1
∗ ∗
φ[(c1 − xi a)/σ ]
E(yi /yi > c1 ) = E(yi /yi > c1 ) = xi a + σ =
/ xi a
1 − [(c1 − xi a)/σ ]
Soit :
c1 − xi a c1 − xi a
E(yi ) = × c1 + 1 −
σ σ
[4]
φ[(c1 − xi a)/σ ]
× xi a + σ =
/ xi a
1 − [(c1 − xi a)/σ ]
Le recours à la méthode des moindres carrés n’est donc pas possible.
Le modèle de Tobit peut alors s’écrire de la manière suivante.
En posant ŷi∗ = x â le modèle estimé de la variable latente et en effectuant les
termes du deuxième membre de [4] et après simplification, nous obtenons l’écri-
ture suivante :
yi = c1 × ((c1 − ŷi∗ )/σ ) + (1 − ((c1 − ŷi∗ )/σ ) > 0)
[5]
× ( ŷi∗ × (1 − ((c1 − ŷi∗ )/σ )) + σ × (φ((c1 − ŷi∗ )/σ )))
Plus généralement, et par extension, il est possible de formaliser un modèle
de Tobit avec censure à gauche et censure à droite tel que :
yi = c1 si yi∗ c1
yi = yi∗ si c1 < yi∗ c2
yi = c2 si c2 < yi∗
Avec c1 et c2 deux valeurs numériques qui représentent les seuils de censure,
l’une de ces valeurs peut être égale à ∞ , si il n’existe pas de seuil à droite ou à
gauche.
Dans le cas particulier où c1 = 0 et c2 = ∞ , nous retrouvons le modèle cano-
nique de Tobit.
Introduction à l’économétrie des variables qualitatives 339
Le modèle de Tobit à deux seuils s’écrit à l’aide d’une démonstration ana-
logue à la précédente :
ŷi∗ = x â
yi = c1 × ((c1 − ŷi∗ )/σ ) + c2 × (1 − ((c2 − ŷi∗ )/σ ))
+ ( ((c2 − ŷi∗ )/σ ) − ((c1 − ŷi∗ )/σ ) > 0)
[6]
× ( ŷi∗ ∗ ( ((c2 − ŷi∗ )/σ ) − ((c1 − ŷi∗ )/σ )) + σ
× (−φ((c2 − ŷi∗ )/σ ) + φ((c1 − ŷi∗ )/σ )))
B. Estimation et interprétation des résultats
La méthode des moindres carrés ordinaires n’est pas adaptée du fait de l’appa-
rition fréquente, dans les observations de la variable à expliquer, des valeurs
seuils. L’estimation des paramètres ( a et σ ) du modèle est effectuée à l’aide d’un
algorithme de maximisation de la fonction de la Log-vraisemblance.
Les résultats d’estimation s’apprécient directement par la significativité des
coefficients à l’aide des ratios appelés z -Statistique.
Les valeurs des coefficients du modèle estimé sont directement interprétables
en termes de propension marginale sur yi∗ , du fait de la continuité dans l’inter-
valle des seuils de la variable à expliquer.
Exercice n° 3
fichier C12EX3
Prévision de la demande d’électricité pour un fournisseur à capacité
limitée
Dans le cadre de l’ouverture du marché de l’électricité à destination des industriels,
un fournisseur d’électricité, qui n’est pas l’opérateur historique, propose de l’énergie
électrique à bas prix dans la limite de ses capacités fixées à 3 000 mégawatts : la deman-
de supérieure à ce seuil ne peut donc pas être servie.
Au-delà de ses capacités les clients sont délestés et sont donc dans l’obligation de
basculer vers une autre source. La demande (yt ) exprimée en mégawatts à la période t
est fonction de trois facteurs explicatifs :
x1t = indicateur d’écart de prix par rapport à la concurrence en t, la valeur indique
le % de réduction, pour le jour considéré, accordé par l’opérateur historique (si 0 pas de
réduction de prix),
x2t = nombre de clients industriels alimentés en t,
x3t = variable indicatrice signalant les jours particuliers à forte consommation tels
que le lendemain de jour férié, …
340 ÉCONOMÉTRIE
Soit les données quotidiennes sur 60 jours (cf. un extrait dans le tableau 3) dont cet
opérateur dispose.
Tableau 3 – Extrait de données
Jour y x1 x2 x3
1 2717 0 61 0
2 2126 0 32 0
… … … … …
59 2683 0,1 61 0
60 3000 0 79 0
61 1 98 1
62 0 60 0
On demande :
1) d’estimer un modèle Logit permettant de prévoir la demande quotidienne à partir des
facteurs explicatifs proposés et de commenter les résultats ;
2) de comparer les résultats avec l’estimation par la méthode, non adaptée, des moindres
carrés ordinaires ;
3) d’effectuer une prévision pour les jours 61 et 62 sachant que :
x1,61 = 1 ; x2,61 = 98 ; x3,61 = 1 et x1,62 = 0 ; x2,62 = 60 ; x3,62 = 0.
Solution
1) La consommation est censurée car les valeurs de la variable à expliquer (la demande)
ne sont pas connues lorsqu’elles sortent de l’intervalle [0 ; 3 000] puisque au-delà de
3 000, la demande ne peut être satisfaite.
Figure 1 – Fenêtre de paramétrage pour un modèle Tobit (logiciel Eviews)
Introduction à l’économétrie des variables qualitatives 341
Pour estimer le modèle Tobit, le logiciel Eviews (cf. figure 1) permet de paramétrer
les seuils de censure à gauche (c1 = 0) et à droite (c2 = 3 000) et de choisir la distribu-
tion de l’erreur (ici normale). Nous ne sélectionnons donc pas l’option distribution tron-
quée puisque la distribution est censurée.
Les résultats d’estimation sont les suivants :
Dependent Variable : Y
Method: ML – Censored Normal (TOBIT) (Quadratic hill climbing)
Included observations: 60 after adjustments
Left censoring (value) series: 0
Right censoring (value) series: 3000
Coefficient Std. Error z-Statistic Prob.
X1 – 27.69316 7.582649 – 3.652175 0.0003
X2 20.50361 0.480937 42.63261 0.0000
X3 186.2357 34.88046 5.339256 0.0000
C 1473.642 23.60984 62.41642 0.0000
Error Distribution
SCALE: SIG 47.41983 4.617038 10.27062 0.0000
R-squared 0.981952 Mean dependant var 2542.667
S.E. of regression 46.09561 Akaike info criterion 9.355239
Sum squared resid 116864.3 Schwarz criterion 9.529768
Log likelihood – 275.6572 Hannan-Quinn criter 9.423507
Avg. log likelihood – 4.594286
Left censored obs 0 Right censored obs 8
Uncensored obs 52 Total obs 60
a) Interprétation statistique
Les coefficients sont tous significativement différents de 0 (les probabilités critiques
des coefficients sont toutes inférieures à 0,05), le modèle est validé sur le plan statistique.
Eviews indique, sur l’avant dernière ligne, le nombre de données censurées : 0 à
gauche et 8 à droite.
b) Interprétation économique
– L’indicateur d’écart de prix agit négativement sur la demande : en cas de réduction
tarifaire de la concurrence, la demande diminue.
– Le nombre de clients connectés au réseau et la variable muette « type de jour » ont
un effet positif sur la demande.
– La variable d’échelle (estimateur de σ) est égale à 47,41.
Les coefficients ont bien le signe attendu, le modèle est validé sur le plan économique.
Le modèle Tobit s’écrit d’après [6] :
ŷt∗ = −27,69 × x1t + 20,50 × x2t + 186,23 × x3t + 1473,64
342 ÉCONOMÉTRIE
yt = 0 × ((0 − ŷt∗ )/47,41) + 3000 × (1 − ((3000 − ŷt∗ )/47,41))
+ ( ((3000 − ŷt∗ )/47,41) − ((0 − ŷt∗ )/47,41) > 0)
× ( ŷt∗ × ( ((3000 − ŷt∗ )/47,41) − ((0 − ŷt∗ )/47,41))
+ 47,41 × (−φ((3000 − ŷt∗ )/47,41) + φ((0 − ŷt∗ )/47,41)))
avec la fonction de répartition de la loi normale et φ la fonction de densité associée.
Les graphiques (cf. graphique 4) de la série brute et de la série ajustée présentent la qua-
lité de l’ajustement : les valeurs sont limitées par le seuil maximum, soit 3 000 mégawatts.
3300
3000
2700
2400
2100
1800
1500
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58
Demande Demande ajustée
Graphique 4 – Séries brute et ajustée de la variable (yt ) demande (Modèle Tobit)
2) L’application de la méthode des moindres carrés ordinaires conduit aux résultats sui-
vants :
Dependent Variable : Y
Method: Least Squares
Included observations: 60 after adjustments
Variable Coefficient Std. Error t-Statistic Prob.
X1 – 31.95356 11.44578 – 2.791732 0.0072
X2 17.83772 0.659615 27.04260 0.0000
X3 156.0019 60.45055 2.580653 0.0125
C 1594.516 34.80522 45.81254 0.0000
R-squared 0.941213 F-statistic 298.8649
Sum squared resid 380662.1 Prob(F-statistic) 0.000000
Les coefficients du modèle, tous significativement différents de 0, sont biaisés. Nous
constatons que les valeurs estimées des coefficients sont légèrement différentes, bien que
de même signe, de celles des valeurs estimées à l’aide du modèle Tobit.
Introduction à l’économétrie des variables qualitatives 343
Les graphiques (cf. graphique 5) de la série brute et de la série ajustée indiquent que
l’utilisation de la méthode des MCO peut fournir des valeurs estimées parfois supérieures
à 3 000 mégawatts ce qui est techniquement impossible.
3300
3000
2700
2400
2100
1800
1500
1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58
Demande Demande ajustée
Graphique 5 – Séries brute et ajustée de la variable (yt )
demande (Méthode MCO)
3) Le calcul de la prévision pour les jours 61 et 62 est directement effectué par applica-
tion du modèle Tobit estimé.
Sachant que :
x1,61 = 1 ; x2,61 = 98 ; x3,61 = 1 et x1,62 = 0 ; x2,62 = 60 ; x3,62 = 0.
La prévision pour le jour 61 est donnée par :
∗
y61 = −27,69 × 1 + 20,50 × 98 + 186,23 × 1 + 1473,64 = 3641,53
∗
y61 > c2 −→ y61 = c2 = 3 000
La prévision pour le jour 62 est donnée par :
∗
y62 = −27,69 × 0 + 20,50 × 60 + 186,23 × 0 + 1473,64 = 2703,85
∗ ∗
c1 < y62 < c2 −→ y62 = y62 = 2703,85
Le calcul de la prévision à l’aide du modèle estimé par la méthode des MCO conduit
à des résultats légèrement différents comme l’illustre le tableau 4.
Tableau 4 – Comparaison des prévisions par le modèle Tobit
et par la méthode des MCO
Jour Modèle Tobit MCO
61 3000 3544,63
62 2703,86 2687,26
344 ÉCONOMÉTRIE