0% ont trouvé ce document utile (0 vote)
32 vues171 pages

Hasbnclic 708

Transféré par

hichemboutalby
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
32 vues171 pages

Hasbnclic 708

Transféré par

hichemboutalby
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Econométrie de la Finance

Florian Ielpo1

24 février 2008

1
Dexia Group, 7/11 Quai André Citroën, 75015 Paris, Centre d’Economie de la Sorbonne
- Antenne de Cachan, Avenue du Président Wilson, 94230 Cachan. E-mail : [Link]@clf-
[Link]
2
Table des matières

0.1 Introduction de la deuxième édition . . . . . . . . . . . . . . . . . . . . 7


0.2 Introduction de la première édition . . . . . . . . . . . . . . . . . . . . . 7

1 Rappels de mathématiques et probabilité 11


1.1 Des variables aléatoires et des hommes . . . . . . . . . . . . . . . . . . . 11
1.1.1 L’univers... et au dela . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.2 A chacun sa tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3 Probabilités... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.4 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.5 Les moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.6 Distribution, fonction de répartition et densité . . . . . . . . . . 15
1.1.7 Loi conditionnelle et lemme des espérances itérées . . . . . . . . 16
1.1.8 Fonction génératrice des moments et fonction caractéristique . . 17
1.2 Le petit monde tres fermé des convergences . . . . . . . . . . . . . . . . 18
1.2.1 Convergence en probabilité et presque sure . . . . . . . . . . . . 18
1.2.2 Convergence en distribution et TCL . . . . . . . . . . . . . . . . 19
1.3 Vous reprendrez bien un petit peu de calcul matriciel ? . . . . . . . . . . 19

2 Retour sur le modèle linéaire : cas univarié et multivarié 21


2.1 Le modèle de régression linéaire simple . . . . . . . . . . . . . . . . . . . 21
2.1.1 Les hypothèses du modèle linéaire simple . . . . . . . . . . . . . 22
2.1.2 Les moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Quelques tests liés aux MCO . . . . . . . . . . . . . . . . . . . . 27
[Link] Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 27
[Link] Test de Student . . . . . . . . . . . . . . . . . . . . . . 28
[Link] Test de Durbin et Watson . . . . . . . . . . . . . . . . . 28
[Link] Les tests d’adéquation des résidus . . . . . . . . . . . . 29
2.2 Retour sur le maximum de vraisemblance . . . . . . . . . . . . . . . . . 30
2.2.1 Le principe du maximum de vraisemblance . . . . . . . . . . . . 31
2.2.2 Propriétés du maximum de vraisemblance . . . . . . . . . . . . . 33
2.2.3 EMV du modèle gaussien standard . . . . . . . . . . . . . . . . . 33
2.2.4 Les tests liés à la vraisemblance . . . . . . . . . . . . . . . . . . . 35
2.3 Prévision à partir du modèle linéraire multiple . . . . . . . . . . . . . . 36
2.4 Une calibration simple du CAPM . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 L’estimation de la relation du MEDAF par MCO . . . . . . . . . 37
2.4.2 Lien de l’estimateur MCO avec le beta financier . . . . . . . . . 38
2.4.3 Estimation de la SML . . . . . . . . . . . . . . . . . . . . . . . . 39

3
4 TABLE DES MATIÈRES

2.4.4 Calcul des alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . 39


2.4.5 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.6 Code pour le CAPM . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Extensions du modèle de base 43


3.1 Modèle de régression non linéaire . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Les modèles à système d’équations . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Estimation par moindres carrés généralisés et quasi-généralisés . 47
3.2.2 MCO contre MCG et MCQG . . . . . . . . . . . . . . . . . . . . 49
3.2.3 Estimation de systèmes d’équation par maximum de vraisemblance 50
3.2.4 Retour sur l’estimation du MEDAF : implémentation des MCQG 50

4 Optimisation de fonctions à plusieurs variables par algorithme 55


4.1 Pour commencer... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Les méthodes du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Quelques généralités pour commencer... . . . . . . . . . . . . . . 58
4.2.2 La méthode de la plus grande pente . . . . . . . . . . . . . . . . 59
4.2.3 La méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . 60
4.2.4 Méthode du score et matrice BHHH . . . . . . . . . . . . . . . . 63
4.3 Estimations par algorithme aléatoire . . . . . . . . . . . . . . . . . . . . 64
4.3.1 Faire jouer le hasard . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simulé . . . 66

5 Introduction aux modèles de séries temporelles 69


5.1 Qu’est-ce qu’une série temporelle ? . . . . . . . . . . . . . . . . . . . . . 69
5.2 Les modèles ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 Au commencement : le bruit blanc . . . . . . . . . . . . . . . . . 70
5.2.2 Les modèles ARMA de base . . . . . . . . . . . . . . . . . . . . . 71
5.2.3 L’opérateur retard . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.4 Manipulation les processus ARMA avec L . . . . . . . . . . . . . 72
5.2.5 AR(1) et MA(∞) par recursion . . . . . . . . . . . . . . . . . . . 73
5.2.6 AR(1) et MA(∞) avec L . . . . . . . . . . . . . . . . . . . . . . 73
5.2.7 Résumé des manipulations possibles de l’opérateur retard . . . . 73
5.2.8 La fonction d’autocorrélation . . . . . . . . . . . . . . . . . . . . 74
[Link] Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 74
[Link] ACF des modèles MA(q) . . . . . . . . . . . . . . . . . 74
[Link].1 Bruit blanc . . . . . . . . . . . . . . . . . . . . 74
[Link].2 MA(1) . . . . . . . . . . . . . . . . . . . . . . 74
5.2.9 ACF des modèles AR(p) . . . . . . . . . . . . . . . . . . . . . . . 75
5.2.10 La fonction d’autocorrélation partielle . . . . . . . . . . . . . . . 76
5.2.11 Estimation et test des ACF et PACF . . . . . . . . . . . . . . . . 77
[Link] Fonction d’Autocorrélation . . . . . . . . . . . . . . . . 77
[Link] Fonction d’autocorrélation partielle . . . . . . . . . . . 79
5.2.12 Stationnarité des processus et théorème de Wold . . . . . . . . . 80
5.2.13 Estimation des processus ARMA . . . . . . . . . . . . . . . . . . 85
[Link] Estimation d’un AR(1) . . . . . . . . . . . . . . . . . . 85
[Link] Estimation d’un AR(p) . . . . . . . . . . . . . . . . . . 87
[Link] Estimation d’un MA(1) . . . . . . . . . . . . . . . . . . 88
TABLE DES MATIÈRES 5

[Link] Estimation d’un MA(q) . . . . . . . . . . . . . . . . . . 93


[Link] Estimation d’un ARMA(p,q) . . . . . . . . . . . . . . . 94
5.2.14 Critères de sélection de l’ordre des processus ARMA . . . . . . . 95
[Link] Tests sur les résidus . . . . . . . . . . . . . . . . . . . . 95
5.2.15 Tests sur les résidus ARMA . . . . . . . . . . . . . . . . . . . . . 97
[Link] Tests sur les résidus . . . . . . . . . . . . . . . . . . . . 98
5.2.16 La prévision à l’aide des modèles ARMA . . . . . . . . . . . . . 99
5.2.17 A vrai dire... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.18 Quelques applications de modèles ARMA . . . . . . . . . . . . . 102
[Link] Modélisation de l’inflation . . . . . . . . . . . . . . . . . 102
[Link] Modélisation du taux cible de la BCE . . . . . . . . . . 105
[Link] Modélisation de la volatilité implicite d’options sur DAX 107
5.3 Les modèles ARCH-GARCH . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.1 Présentation des faits stylisés en finance . . . . . . . . . . . . . . 112
5.3.2 Quelques mesures préliminaires de la variance . . . . . . . . . . . 113
[Link] La mesure high-low . . . . . . . . . . . . . . . . . . . . 113
[Link] Le carré des rendements comme mesure de variance . . 114
5.3.3 Présentation des modèles ARCH-GARCH . . . . . . . . . . . . . 116
[Link] Pour commencer... . . . . . . . . . . . . . . . . . . . . . 116
[Link] Introduction aux modèles ARCH-GARCH . . . . . . . 118
[Link].1 La cas d’un ARCH(1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 118
[Link].2 Les modèles ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
[Link].3 Leptokurticité des processus ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
[Link].4 Quid de l’asymétrie ?
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
[Link] Les modèles GARCH . . . . . . . . . . . . . . . . . . . 123
[Link].1 Le cas d’un GARCH(1,1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
[Link].2 Les processus GARCH(p,q)
. . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.3.4 Inférence des modèles ARCH-GARCH . . . . . . . . . . . . . . . 125
[Link] Le cas d’un ARCH(1) . . . . . . . . . . . . . . . . . . . 125
[Link] Le cas d’un GARCH(1,1) . . . . . . . . . . . . . . . . . 128
5.3.5 Premières Applications . . . . . . . . . . . . . . . . . . . . . . . 129
[Link] Etude de la volatilité sous-jacente de l’indice DAX . . . 129
[Link] Formule de Black Scholes avec processus GARCH : ver-
sion ad-hoc . . . . . . . . . . . . . . . . . . . . . . . . . 132
[Link] Prévision de la volatilité et ses usages . . . . . . . . . . 133
[Link].1 La VaR
. . . . . . . . . . . . . . . . . . . . . . . . . . 135
[Link].2 Calcul de la VaR à l’aide de modèles GARCH 137
[Link].2.1 VaR dans le cas univarié
. . . . . . . . . . . . . . . . . . . . . . 138
6 TABLE DES MATIÈRES

[Link].2.2 VaR dans le cas bivarié : VaR par simu-


lation
. . . . . . . . . . . . . . . . . . . . . . 141
5.3.6 Bestiaire des GARCH . . . . . . . . . . . . . . . . . . . . . . . . 144
[Link] GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . 145
[Link] GARCH intégrés . . . . . . . . . . . . . . . . . . . . . . 148
[Link] GARCH asymétriques . . . . . . . . . . . . . . . . . . . 152
[Link] Modèle GARCH de Heston . . . . . . . . . . . . . . . . 154
5.3.7 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . 156
[Link] Le modèle EGARCH . . . . . . . . . . . . . . . . . . . 156
[Link] Les modèles à volatilité stochastique . . . . . . . . . . . 157

6 Boite à outils statistiques 159


6.1 Méthodes non-paramétriques et application . . . . . . . . . . . . . . . . 159
6.1.1 Introduction aux méthodes non paramétriques . . . . . . . . . . 159
6.1.2 Estimateurs à noyau . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.2 Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 Analyse en composante principales . . . . . . . . . . . . . . . . . 162
6.2.2 Applications : les facteurs de la courbe des taux . . . . . . . . . 166

Bibliographie 171
Introductions

”S o if you do not accept the Gaussian distribution (i.e. if you have some ethics) AND do not
”value” options in a axiomatized top-down fashion (i.e. only price them as some informed and
temporary guess), then YOU ARE NOT USING THE BLACK SCHOLES FORMULA, but one
of the modifications of the one started by Bachelier (the latest contributer being Ed Thorp’s).
They did not ground their formula in the Gaussian.”
Nassim Nicholas Taleb1

0.1 Introduction de la deuxième édition


Voici donc la deuxième année que j’enseigne ce cours, et de nombreuses choses ont
changé dans ma compréhension de la finance et de l’économétrie. Ces changements ont
mené à un remaniement complet du présent polycopier et à l’apparition de TD associés
à ce cours.

– Un chap de rappels, référence.


– Praise to Cochrane et Singleton. Ajout des GMM.
– Chapitre sur les tests d’hypothèse, peut etre
– Chapitre sur les ARMA/GARCH : modelling the first two moments + asymétrie.
– Chapitre spécial GMM sur un modèle d’équilibre tiré du livre sur les GMM ou de
Cochrane.
– ACP et multivarié.
– Calibration d’un modèle à vol stochastique ou d’un CIR par fonction caractéristique.

A ceci s’ajoute le mémoire à rendre.

0.2 Introduction de la première édition


Ce cours s’inscrit dans le prolongement de l’U.V. MF 231 [Statistiques I : inférence et
estimation]. Il a pour but de présenter certains approfondissements autour des princi-
paux thèmes de l’économétrie financière.

Il s’agit dans un premier temps de revenir sur le modèle linéaire gaussien, dans sa ver-
sion univariée et multivariée. On présentera quelques questions simples liées à l’inférence
statistique de ces modèles ainsi qu’à l’usage qui peut en être fait : expliquer la dynam-
qiue des séries économiques/financières et permettre la mise en oeuvre de prévisions
1
[Link]

7
8 TABLE DES MATIÈRES

encadrées par des intervalles de confiance.

Il s’agit ensuite de présenter la base de la théorie des séries temporelles : modèle ARMA,
GARCH et modèles à facteurs. Là encore, la principale motivation sera l’inférence ef-
ficace ainsi que la prévision.

La philosophie de ce cours se veut naturellement pratique : par la compréhension des


modélisations et de l’inférence, il s’agit de permettre la mise en oeuvre de ces modèles
dans le cadre d’activités de marché sur la base de n’importe quel logiciel de program-
mation. Une fois la programmation des procédures d’estimation comprise, il est relati-
vement simple de mettre en place des estimations sous n’importe quel environnement.
Il sera proposé tout au long de ce cours des exemples de code R permettant de réaliser
les estimations proposées. R est certainement l’un des meilleurs logiciels de statistique
disponibles sur le marché actuellement. Il s’agit d’un logiciel open-source : il est gra-
tuitement téléchargeable sur le site de ses développeurs2 . Le site fourni une séries de
manuels permettant une prise en main rapide et efficace du logiciel : il est conseillé
de se procurer Paradis (2005) ainsi Faraway (2002) sur le site (section manual puis
contributed documentation).

Ces notes de cours s’appuient sur un certain nombre d’ouvrages de statistiques bien
connus ainsi que sur d’autres notes de cours, qui seront citées à chaque fois. Nous y
renvoyons un lecteur soucieux de dépasser le niveau de cette introduction. La partie
consacrée au modèle linéaire gaussien est grandement inspirée de Greene (2002). La par-
tie consacrée à l’étude des séries temporelles est principalement inspirée de Cochrane
(2005).

La lecture de ces notes de cours ce nécessitent pas de connaissance mathématiques


étendue : les seules connaissances nécessaires sont des connaissances de base en algèbre
matricielle ainsi qu’en analyse (dérivée et formule de Taylor pour la partie consacrée à
l’optimimsation). Quand des éléments plus poussés sont nécessaires, ils sont en général
rappelé avant utilisation. Dans cette mesure, ce cours tente de se suffire à lui-même et ne
requiere pas de lectures annexes. A chaque fois que cela est nécessaire, le lecteur soucieux
d’approfondissements qui sont jugés inutiles à ce niveau est renvoyé à un certain nombre
de références, citées en annexes. La plupart des références fournies sont par ailleurs
des références gratuitement disponibles sur internet : un nombre croissant de profes-
seurs/cherheurs proposent leurs notes de cours sur internet. Les liens sont généralement
fournis sur la page web de mes enseignements ([Link]/ielpo). Ces
notes de cours ne sont bien entendu pas développées intégralement en cours : le chapitre
1 est notamment laissé de coté lors mes interventions. Il s’agit davantage de rappels
que d’éléments développés en cours. Il en va de même de certains passage du chapitre
2 : les élèves sont censés connaitre un certain nombre de résultats tirés de l’économétrie
basique (mco). Ces éléments prennent la forme de rapides rappels en cours : il est
nécessaire de combler d’éventuelles lacunes par une lecture plus approfondies des pas-
sages évoqués.

Enfin, ces notes de cours sont certainement entachées d’inexactitudes ou d’erreurs.


2
[Link]
0.2. INTRODUCTION DE LA PREMIÈRE ÉDITION 9

Celles-ci sont entièrement miennes : tout commentaires/signalement d’erreurs sont bien


évidement les bienvenus. La qualité de ce polycopier ira croissante au fil des ans :
l’amélioration est naturellement un processus lent, lié aux réactions des élèves ainsi qu’à
la croissance de mes propres connaissances en statistiques et en économétrie. J’espère
ainsi que ces modestes notes de cours seront un jour suffisament propres et documentées
pour fournir in fine un manuel de base suffisament rigoureux pour servir de base aux
élèves de l’ESILV.
10 TABLE DES MATIÈRES
Chapitre 1

Rappels de mathématiques et
probabilité

Cette première partie a pour but de revenir sur un certain nombre de concepts et
techniques nécessaires pour comprendre et implémenter les différentes méthodes de
l’économétrie de la finance. Il s’agit principalement de revenir sur un certain nombre
de concepts de probabilités dans un premier temps (définition d’une variable aléatoire,
de ses moments et des distributions qu’il est possible de lui affecter). Il sera ensuite
question de revenir sur les concepts de convergence (presque sure, en probabilité et
en loi), afin d’introduire la Loi des Grands Nombres (LGN hereafter) et le Théorème
Central Limite (TCL). Enfin, on finira par quelques éléments de calculs matriciel.

1.1 Des variables aléatoires et des hommes


1.1.1 L’univers... et au dela
Soit Ω = {ω1 , ω2 , ..., ωn } un espace fini d’états, représentant les différents états possibles
de la nature à un instant donné. On appelle cet espace l’univers des possibles. Cet es-
pace est fini : il n’existe qu’un nombre limité d’état atteignable par le cours du monde
(du moins dans notre façon de le concevoir). Chaque événement qu’il est possible de
voir se réaliser ωi est appelé événement élémentaire. Ces événements élémentaires sont
incompatibles deux à deux. Tout sous-ensemble de Ω est également appelé événement :
il s’agit d’un événement composé. On note par exemple A = {ω2 , ω3 , ω10 }, un sous
ensemble d’événement de Ω. Il s’agit d’un événement composé et A ⊂ Ω.

1.1.2 A chacun sa tribu


Parmi l’ensemble des sous-ensemble P(Ω), on s’interesse seulement à ceux qui sont
dotés d’une certaine structure.

Définition 1.1.1 (Notion de tribu). On dit qu’une partie A de P(Ω) est une tribu si
et seulement si elle vérifie les trois propriétés suivantes :
1. Ω ∈ A.

11
12 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

2. Pour toute partie A de A, A ∈ A.


3. Pour toute famille dénombrable (Ai )i∈I de A alors ∪i∈I Ai est aussi un élément
de A.
En pratique, le concept de tribu est essentiel en finance : il permet de rendre compte
de la façon dont l’information s’organise au fur et à mesure que le s’écoule. Il existe
d’autres dénominations pour les tribu : σ-algèbre ou filtration (une filtration est une
sigma-algèbre). Le concept de filtration est utilisé courament dans le cadre de modèle
stochastiques, tel que celui de Black and Scholes (1973). Un développement remar-
quable sur ce point peut être trouvé dans Münk (2004). On reviendra sur ce point une
fois que l’on sera revenu sur les espaces probabilisés.

Les exemples les plus courants de sigma-algèbre sont :

– A = { , Ω} est la tribu grossiere.


– A = { , A, A, Ω} où A est une partie de Ω, est la tribu de Bernouilli.
– A = P(Ω) est la tribu complète ou triviale.

Globalement, deux types de tribu peuvent nous interesser :

– A0 la tribu engendrée la famille des singletons {ω} de Ω. Cette tribu est utile lors de
la détermination d’une loi de probabilité.
– La tribu complète P(Ω).

Dans le cas où Ω est fini ou infini dénombrable (ce qui sera toujours le cas dans ce qui
suit), alors ces deux tribus sont identiques.
Définition 1.1.2 (Espace probabilisable). Le couple (Ω, A) est appelé espace probabi-
lisable. Dans le cas où Ω est fini dénombrable, A = P(Ω).

1.1.3 Probabilités...
Maintenant que l’on a défini la structure de l’univers dans lequel se déroule l’expérience
aléatoire qui nous intéresse, reste à donner une forme au hasard. C’est ce qu’on appelle
probabiliser l’espace probabilisable. Il s’agit simplement de définir la probabilité qu’un
événement A ∈ A survienne.
Définition 1.1.3 (Probabilité). P est une probabilité définie sur l’espace probabilisable
(Ω, A) si et seulement si P est une application de A vers R qui vérifie les propriétés
suivantes :
1. 0 ≤ P (A) ≤ 1, ∀A ∈ A.
2. P (Ω) = 1 (Axiome de normalisation).
3. Pour toute famille finie (Ai )0≤i≤n d’événements de A, deux à deux incompatibles,
on a :
n n
!
[ X
P Ai = P (Ai )
i=1 i=1

(Axiome de simple additivité).


1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 13

4. Pour toute famille dénombrable (Ai )i∈N d’événements de A, deux à deux incom-
patibles, on a :

∞ ∞
!
[ X
P Ai = P (Ai )
i=1 i=1

(Axiome de σ-additivité).

Le nombre réel du second membre est la somme de la série de terme général P (Ai ).
Dans la mesure où les termes de cette série sont positifs et que la probabilité de l’union
de n Ai est majorée par 1, cette série est toujours convergente.

Définition 1.1.4. L’espace (Ω, A, P ) est appelé espace probabilisé.

Ajoutons les deux définitions suivantes :

Définition 1.1.5. On sait que P (Ω) = 1, mais on peut trouver des événements A 6= Ω
et tels que P (A) = 1. On dit que ces événements sont quasi-certains ou presque sûrs.
On sait que P ( ) = 0, mais on peut trouver des événements A 6= et tels que P (A) =
0. On dit que ces événements sont quasi-impossibles ou négligeables.

Définition 1.1.6. Deux distributions P et P 0 sont dites équivalentes si elles ont les
mêmes négligeables.

Définition 1.1.7 (Espace probabilisé). Le couple (Ω, A, P ) est appelé espace probabi-
lisé.

Notons finalement que la donnée d’une probabilité P sur un espace probabilisable est
équivalent à la donnée d’une distribution de probabilité sur Ω.

1.1.4 Variables aléatoires


Avec l’ensemble des éléments précédents en tête, il est alors possible de tourner notre
attention vers ce qui fera l’objet de ce cours : les variables aléatoires.

Définition 1.1.8. Toute application X telle que :

X:Ω→R

est appelée variable aléatoire, ou plus précisement variable aléatoire réelle.

Il est possible de généraliser le concept de variable aléatoire à celui de vecteur aléatoire :


il s’agit d’une application quelconque de Ω dans Rk . On définit alors la distribution
jointe du vecteur, au lieu de définir la distribution d’une seule variable aléatoire. Notons
que l’on note généralement X cette variable aléatoire et {x1 , x2 , ..., xn } n réalisations
de cette variable aléatoire.
14 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.1.5 Les moments


Avant de s’interesser à la distribution d’une variable aléatoire, il existe d’autres quan-
tités utiles à connaitre : les moments.
Définition 1.1.9. Le moment d’ordre k d’une variable aléatoire X est la quantité
h i Z
E Xk = xk fx (x)dx

Le moment centré d’ordre k peut se calculer comme suit :


h i Z
E (X − E[X]) = k
(x − E[x])k fx (x)dx

où fx est la densité de probabilité de la variable aléatoire X. Cette densité est telle
que :
Z i+
P (i− < X < i+ ) = f (x)dx (1.1)
i−

On reviendra plus tard sur la définition d’une densité. Le moment d’ordre 1 est l’espérance :
Z
E [X] = xfx (x)dx (1.2)

Le moment centré d’ordre 2 est la variance :


Z
V[X] = E (X − E[X]) = (x − E[x])2 fx (x)dx
2
 
(1.3)

La variance mesure l’étalement de la distribution autour de l’espérance. En finance,


c’est donc un indicateur de risque - risque de perdre autant que risque de gagner.

Le moment d’ordre 3 normé est la skewness ou coefficient d’asymétrie :


E (X − E[X])3
 
Sk[X] = (1.4)
E [(X − E[X])2 ]3/2
Elle mesure l’asymétrie à gauche (négative) ou à droite (positive) d’une distribution.
Enfin, le moment centré et normé d’ordre 4 est la kurtosis :
E (X − E[X])4
 
Ku[X] = (1.5)
E [(X − E[X])2 ]4/2
Elle mesure l’épaisseur des queues de distribution, et donc la possibilité de surve-
nance d’événements dits extrêmes. Ces quatre moments fournissent une information
considérable sur la forme de la distribution d’une variable aléatoire. Il est également
possible de calculer des moments entre variables aléatoires, ou d’un vecteur aléatoire.

La covariance est une mesure de dépendance entre deux variables aléatoires. Soit deux
variables aléatoires X et Y :
Z Z
Cov(X, Y ) = (x − E[x]) (y − E[y]) f (x, y)dx, dy (1.6)
X(ω) Y (ω)
1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 15

où f (x, y) est la densité de la loi jointe de X et Y . Elle mesure la chance qu’on deux
séries d’évoluer de concert. Il est aisé d’interpréter son signe, mais pas son amplitude.
En normant la covariance par le produit des écart-types de X et Y , on obtient une
mesure dont il est aisé d’interpréter la valeur : le coefficient de corrélation. Il se calcule
comme suit :
Cov(X, Y )
ρ(X, Y ) = (1.7)
σX σY
ρ(X, Y ) ∈ [−1; 1], ce qui rend son interprétation aisée.

1.1.6 Distribution, fonction de répartition et densité


Ces moments n’apportent cependant qu’une information partielle sur les distributions
des variables aléatoires. Celles ci sont complement définies par la distributions de proba-
bilités. On ne revient pas ici sur les probabilités attachées à des univers fini (cas discret) :
il ne sera ici question uniquement des univers infini dénombrables. Les distributions de
variables aléatoires dans ce cadre sont approchées par la fonction de répartition et la
densité des distributions.
Définition 1.1.10 (Fonction de répartition). Soit X une variable aléatoire définie
sur l’espace probabilisé (Ω, A, P ). La fonction de répartition notée F de cette variable
aléatoire X est la fonction de R dans R définie par :

∀a ∈ R, F (a) = P (X ≤ a)

Une fonction de répartition a les caractéristiques suivantes :


1. F est monotone croissante sur R.
2. F est une fonction continue à droite en tout point de R.
3. limx→−∞ F (x) = 0 et limx→∞ F (x) = 1
Définition 1.1.11. Une fonction f est une densité de probabilité si et seulement si
elle possède les trois propriétés suivantes :
1. f est positive sur R.
2. f est continue sur R, sauf peut être sur un ensemble fini de points D.
R∞
3. −∞ f (x)dx = 1.
Notons qu’une densité n’est pas une probabilité : les conditions précédentes ne stipulent
par exemple pas que f (x) ∈ [0; 1], mais que f (x) est positive et que l’intégrale sur
l’univers est égale à 1. En revanche, la densité est liée à la distribution par la fonction
de répartition, dans la mesure où :
Z a
P (X ≤ a) = F (a) = f (x)dx,
−∞

où f est une densité de X. En effet, tout autre fonction g de R dans R, qui coincide
avec f sauf sur un ensemble fini de points de R est aussi une densité de probabilité de X.

On ne propose pas revue des principales distributions, dans la mesure où il est aisé de
trouver ces informations sur Wikipédia.
16 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.1.7 Loi conditionnelle et lemme des espérances itérées


Un aspect particulièrement important des distributions est la différence entre une distir-
bution non conditionnelle et conditionnelle. Très classiquement, on présente rapidement
le cas discret avant de passer au cas continu.

Supposons que l’on ait affaire à un groupe d’individu composé d’hommes et de femmes,
de bons et de mauvais élèves. On peut s’interesser à la probabilité de tirer au hasard un
bon éléve au sein de cette population, mais on peut aussi s’intéresser au fait de tirer un
bon éléve parmi les hommes. Il s’agit ici de la probabilité de tirer un bon éléve, sachant
que l’on tire parmi les hommes. On parle dans ce cas de probabilité conditionnelle. On
note :

P (X = {tirer un bon éléve}|il s’agit d’un homme)

La règle de Bayes permet de faire le lien entre les probabilités conditionnelles et non
conditionnelles :
T
P (A B)
Définition 1.1.12 (Probabilité conditionnelle). P (A|B) = P (B) .

P (B|A)∗P (A)
Définition 1.1.13 (Règle de Bayes). P (A|B) = P (B)

Dans le cas continu, il est possible d’obtenir une densité conditionnelle. Soit un couple
de variables aléatoires (X, Y ) définies sur un espace probabilisé (Ω, A, P ). Alors la
densité de X sachant Y s’écrit :
fX,Y
fX|Y =
fY
A ceci s’ajoute une propriété importante : la loi des espérances itérées.

Définition 1.1.14 (Espérances itérées). Soit une variable aléatoire X sur un espace
probabilisé. Alors sont espérance peut être calculée comme suit :

E[X] = EY [E[X|Y ]] (1.8)

où Y est une autre variable aléatoire par rapport à laquelle on conditionne.

Ceci vient du fait que :


Z ∞
E[X] = xf (x)dx (1.9)
Z−∞
∞ Z ∞
= x fX,Y (x, y)dydx (1.10)
−∞ ∞
Z ∞ Z ∞
= x fX|Y (x)fY (y)dydx (1.11)
−∞ ∞
Z ∞ Z ∞
= fY (y) xfX|Y (x)dxdy (1.12)
−∞ ∞
= EY [E[X|Y ]] (1.13)

Ajoutons un petit théorème très utile : le théorème de changement de variable.


1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 17

Théorème 1.1.1. Soit une variable aléatoire continue X, ayant fX (.) pour densité et
soit le support de X suivant :
X = {x|fX (x) ≥ 0} (1.14)
Si h(.) est une fonction dérivable et strictement monotone de domaine X et d’image
U, alors U = h(X) a pour densité :
dx
fU (u) = fX (h−1 (u)) , ∀u ∈ U (1.15)
du
= 0 sinon (1.16)

1.1.8 Fonction génératrice des moments et fonction caractéristique


Une autre façon de caractériser les distributions est d’utiliser la fonction caractéristique
et/ou la fonction génératrice des moments.
Définition 1.1.15. La fonction caractéristique d’une variable aléatoire X est la fonc-
tion suivante :
γ(t) = E[eitX ] (1.17)
= E[cos(tX)] + iE[sin(tX)] (1.18)
Cette fonction est existe toujours. Elle caractérise entièrement la distribution de X, ce
qui en fait une contrepartie aux densités. Il sera ainsi possible de travailler à la fois en
terme de densité ou de fonction caractéristique. De plus, il existe un lien entre ces deux
fonctions :
Proposition 1.1.1. Soit X une variable aléatoire de densité fX (.). Alors :
Z ∞
fX (x) = e−itx γ(t)dt (1.19)
−∞
Notons ensuite que si X et Y sont deux variables aléatoires indépendantes, i.e. telles
que fX,Y = fX fY , alors E[eit(Y +X) ] = γX (t)γY (t).

Exercice : déterminer la fonction caractéristique d’une loi normale.

Il existe enfin une version réelle de cette fonction caractéristique que l’on appelle fonc-
tion génératrice des moments.
Définition 1.1.16. La fonction caractéristique d’une variable aléatoire X est la fonc-
tion suivante :
φ(t) = E[etX ] (1.20)
On l’appelle fonction génératrice des moments du fait de la propriété suivante :
Proposition 1.1.2. Soit une variable aléatoire X de fonction génératrice des moments
φ(t). Alors on a :
∂ k φ(t)
E[X k ] = (1.21)
∂tk t=0
Exercice : déterminer les deux premiers moments d’une loi normale à partir de la
fonction génératrice des moments..
18 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.2 Le petit monde tres fermé des convergences


Cette section a pour but de présenter un certain nombre de rappels (appels ?) concer-
nant les différents types de convergence probabilistes. L’idée est ici de fournir les princi-
pales intuitions nécessaire à l’établissement des différentes versions de la loi des grands
nombres ainsi que du théorème central limite.

1.2.1 Convergence en probabilité et presque sure


Définition 1.2.1 (Convergence en probabilité). La variable aléatoire Xn converge en
probabilité vers une constante c si
lim P (|Xn − c| > ) = 0, ∀ > 0. (1.22)
n→∞
On note plimXn = c.
Définition 1.2.2 (Convergence presque sure). Soit (Xn )n≥1 une suite de variables
aléatoires et X une v.a. définies sur le même espace probabilisé (Ω, A, P ). On dit que
Xn converge presque sûrement vers X si l’ensemble des ω tels que Xn (ω) converge vers
X(ω) a pour probabilité 1. On note :
p.s.
Xn → X. (1.23)
La différence entre ces deux convergences est que la convergence presque sure implique
une convergence ω par ω, sauf pour une poignée de ω qui sont négligeables. La conver-
gence presque sure implique naturellement la convergence en probabilité (correspond
au cas où i = n).

La convergence en probabilité permet d’établir différentes versions de la loi faible des


grands nombres.
Théorème 1.2.1 (Loi faible des grands nombres de Khinchine). Si x1 , x2 , ..., xn est
un échantillon aléatoire de n réalisations i.i.d. issu d’une distribution de moyenne finie
E[xi ] = µ, ∀i, alors :
n
1X
plim xi = µ (1.24)
n
i=1
Ce théorème est particulièrement important, dans la mesure où il permet l’estimation
des moments d’une distribution, pourvu que les conditions d’applicabilité du théorème
soient respectées. Une version plus forte de ce théorème existe également, utilisant une
convergence p.s. :
Théorème 1.2.2 (Loi forte des grands nombres de Kolmogorov). Si x1 , x2 , ..., xn est
un échantillon aléatoire de n réalisations indépendantes tel que E[Xi ] = µi < ∞ et
σi2
V[Xi ] = σi2 < ∞ et ∞
P
i=1 i2 < ∞ lorsque n → ∞ alors
n n
1X 1 X p.s.
xi − µi → 0 (1.25)
n n
i=1 i=1

Définition 1.2.3 (Estimateur convergent/cohérent). Un estimateur θ̂n d’un paramètre


θ est un estimateur convergent ssi
plimθ̂n = θ (1.26)
1.3. VOUS REPRENDREZ BIEN UN PETIT PEU DE CALCUL MATRICIEL ? 19

1.2.2 Convergence en distribution et TCL


Définition 1.2.4 (Convergence en distribution). On dit qu’une suite de variables
aléatoires Xn converge en loi vers une variable aléatoire X, si la suite {Fn (x)} converge
en tout point x où F est continue. On écrit alors :
L
Xn −→ X (1.27)

Théorème 1.2.3 (Théorème central limite). Soit (Xi )i∈N une suite de variables aléatoires
indépendantes et identiquement distribuées, avec ∀i, E[Xi ] = m, V[Xi ] = σ 2 . On a
alors :
1 Pn
n i=1 Xi − m L
σ −→ N (0, 1) (1.28)

n

1.3 Vous reprendrez bien un petit peu de calcul matri-


ciel ?
Pour terminer cette section introductive, voici quelques rappels de calcul matriciel. On
rappelle qu’une matrice M M(n × p) est matrice telle que :
 
m1,1 m1,2 . . . m1,p
 m2,1 . . . . . . m2,p 
M = . (1.29)
 
.. .. .. 
 .. . . . 
mn,1 mn,2 . . . mn,p

Une matrice carrée est telle que n = p. Une matrice symétrique est une matrice carrée
telle que mi,j = mj,i , ∀i 6= j.

Le rang (colonne) d’une matrice M(n×p) est le nombre maximum de colonnes qui sont
linéairement indépendantes les unes des autres. En notant r(A) le rang d’une matrice
A qui soit une M(n × p), il vient naturellement que :

r(A) ≤ min(n, p). (1.30)

Une matrice carré d’ordre n est non singulière si son rang est égal à n (par exemple
une matrice diagonale).

Définition 1.3.1 (Matrice inverse). Soit A une matrice carrée d’ordre n. Son inverse,
notée A−1 si elle existe, est la matrice de même dimension telle que :

AA−1 = A−1 A = I, (1.31)

où I est la matrice identité.

Si la matrice A−1 existe, alors on dit que la matrice A est inversible. Cette matrice
existe si et seulement si la matrice A est plein rang, autrement dit si la matrice A est
non singulière.
20 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

Dans ce qui suit, on suppose acquit les éléments suivants : la somme de deux matrices,
le produit de deux matrices, la trace d’une matrice ainsi que le déterminant d’une ma-
trice. On rappelle en revanche différentes opérations de différenciation de matrices.

Soit le produit matriciel suivant :

y = Ax (1.32)

avec A une matrice n × p et x une matrice colonne n × 1. Si A ne dépend pas de x,


alors on a :
∂y
= A. (1.33)
∂x
Soit le produit matriciel suivant :

y = xT A (1.34)

alors on a :
∂y
= AT . (1.35)
∂x
Soit maintenant :

y = xT Ax (1.36)

avec A une matrice p × p et x une matrice colonne de taille p. Alors, on a :


∂y
= xT (A + AT ). (1.37)
∂x
Si A est symétrique, alors :
∂y
= 2xT A. (1.38)
∂x
Chapitre 2

Retour sur le modèle linéaire :


cas univarié et multivarié

On présente dans ce qui suit :

– Quelques rappels sur le modèle de régression linéaire multiple : spécification, inférence


et test.
– Le modèles à équation multiples : spécification, inférence et tests.

2.1 Le modèle de régression linéaire simple


Le modèle de régression linéraire multiple étudie la relation entre une variable dépendante
et une ou plusieurs variables indépendantes. Sa forme est alors :

y = f (x1 , x2 , ..., xn ) +  (2.1)


= x1 β1 + x2 β2 + ... + xn βn +  (2.2)

On dit que y est la variable expliquée ou endogène et {x1 , x2 , ..., xn } sont les variables
explicatives ou exogènes.  est une perturbation aléatoire : il vient perturber une re-
lation qui, sans lui, resterait stable. Ce terme reçoit de nombreuses dénominations,
selon les champs d’application de l’économétrie ainsi que les séries étudiées. Quelques
exemples : il est possible de qualifier les  de bruit (artefact statistique qui ne comporte
pas d’information particulière), d’erreur de mesure (erreur sur la compréhension de y
que permet de le modèle), de choc exogène (un choc qui ne transite pas par les variables
du modèle)...
Afin d’estimer cette relation, on utilise un échantillon de l’ensemble des variables. On
note yi la ième valeur de l’échantillon des y et xi,j la ième valeur de l’échantillon de la
jème variable. La valeur observée de yi est alors la somme de deux composantes : l’une
déterministe (les xi,j , ∀j) et l’autre aléatoire, i .

yi = β1 xi,1 + β2 xi,2 + ... + βn xi,n + i (2.3)

L’objectif est d’estimer les paramètres inconnus du modèle, d’utiliser les données pour
étudier la validité de certaines propositions théoriques, et éventuellement de former une

21
22CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

prévision de y. On s’appuie dans cette démarche sur un corpus statistique bien connu :
les estimateurs du maximum de vraisemblance.

2.1.1 Les hypothèses du modèle linéaire simple


Le modèle linéaire simple s’appuie sur un nombre important d’hypothèses que l’on
précise ici.

H 1 (Linéarité). La relation entre y et les xj est linéaire.

H 2 (Plein rang). Il n’existe pas de relation linéaire entre les variables indépendantes.
Si X est la matrice des observations, on aura notamment X 0 X de plein rang, et donc
inversible.

H 3 (Exogéneité des variables indépendantes). E[i |xi,1 , xi,2 , ..., xi,n ] = 0. L’espérance
de la perturbation conditionnellement aux variables exogènes est nulle : les variables
exogènes n’apportent plus aucune information sur la perturbation.

H 4 (Homoscédasticité et absence d’autocorrélation). V[] = σ 2 est stable au cours du


temps. E[i j ] = 0, ∀i 6= j, autrement dit la corrélation entre i et j est nulle.

H 5 (Données générées de manière exogène). Les observations de {x1 , x2 , ..., xn } peuvent


être un mélange de constantes et de variables aléatoires. Les processus ayant généré ces
données sont indépendants de  (il s’agit d’une extension de H3.

H 6 (Distribution normale). La perturbation suit une loi normale, en générale centrée


et variance constante.

Une fois ces hypothèses mises à jour, on revient sur l’écriture du modèle. On preferera
travailler avec des matrices, plutôt qu’avec un indiçage couteux en place et en patience
(la mienne). Mieux, la plupart des logiciels de statistique/économétrie ont le bon goût
de fonctionner également en matriciel. Cette démarche simplifie grandement les calculs,
comme on le verra par la suite.
Soit x:k le vecteur colonne de T observations de la variable xk , k = 1, .., n. Soit X un
matrice MT,n constituée par la concaténation des différents vecteurs colonnes. Dans la
plupart des cas, la première colonne de X est constituée par un vecteur colonne unitaire
(1, 1, ..., 1)0 , de façon à ce que β1 soit la constante du modèle.
Sur la base de ces éléments, il est possible de réécrire 2.2 sous forme matricielle :

X β 0 + |{z}
y = |{z}  (2.4)
|{z} |{z}
MT,1 MT,n Mn,1 MT,1

On notera ici que β est le vecteur ligne des paramètres :

β = (β1 , β2 , ..., βn ) (2.5)

Quelques remarques générales sur les hypothèse citées plus haut :


2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 23

– L’hypothèse de linéarité (H1) implique également l’additivité du terme d’erreur.

– L’hypothèse H2 rappelle qu’il ne peut exister de relation linéaire entre les variables
explicatives. X est une matrice MT,n : elle doit donc être de rang n, i.e. de plein
rang colonne. Deux conditions sont à remplir pour cela :
– une condition d’identification : il est nécessaire de disposer de n observations au
moins ;
– la non-colinéarité entre vecteurs colonne.
Rajoutons également qu’au moins un régresseur doit varier (et par conséquent être
non constant). Dans le cas contraire, la condition de plein rang n’est pas vérfiée (deux
colonnes sont identiques à une constante mutliplicative près).

– La nullité de l’espérance conditionnelle des  implique également la nullité de l’espérance


non conditionnelle. Ceci se montre très simplement en conditionnant proprement :

E[] = Ex [E[|x1 , x2 , ...xn ]] (2.6)


= Ex [0] (2.7)
=0 (2.8)

L’hypothèse de nullité de l’espérance des erreurs n’est pas une hypothèse contraigante
(voir Greene (2002), page 15).

– Hypothèse H4 : la variance des erreurs est constante. On parle d’homoscédasticité.


Dans le cas où elle varie selon les observations, on parle d’hétéroscédasticité. En
ajoutant l’hypothèse d’absence d’autocorrélation, on a alors :

 
E[1 1 |X] E[1 2 |X] ... E[1 n |X]
 E[2 1 |X] E[2 2 |X] ... E[2 n |X] 
E[0 |X] =  (2.9)
 
.. .. .. .. 
 . . . . 
E[n 1 |X] E[n 2 |X] ... E[n n |X]
 2 
σ 0 ... 0
 0 σ 2 ... 0 
= . (2.10)
 
. .. .. .. 
 . . . . 
0 0 ... σ 2
 
1 0 ... 0
 0 1 ... 0 
= σ2  . . . .  (2.11)
 
.
 . . . . . . .
0 0 ... 1
= σ2I (2.12)

Ceci résume l’hypothèse H4 : la matrice de variance/covariance des perturbations


est une matrice bloc diagonal, avec diag(E[0 |X]) = σ 2 . Comme précédement, il
est possible d’utiliser l’expression de la variance conditionnelle des erreurs, afin d’en
inférer la variance non conditionnelle (formule de décomposition de la variance) :
24CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

V[] = E[V[|X]] + V[E[|X]] (2.13)


2
=σ I (2.14)
Notons finalement que les perturbations satisfaisant à la fois l’hypothèse d’absence
d’autocorrélation et d’homoscédasticité sont parfois appelées perturbations sphériques.

– Notons enfin que les perturbations sont supposées suivre une loi normale d’espérance
nulle et de variance égale à σ 2 I. Il s’agit d’une hypothèse bien fondée étant donné la
structure de  (les perturbations sont formées d’une suite de chocs, de même loi et
de mêmes moments 1 et 2 : le théorème central limit s’applique sans restriction).

2.1.2 Les moindres carrés


Les paramètres de la relation y = Xβ 0 + sont à estimer. Les moindres carrés ordinaires
forment une méthode simple et très utilisée, même si elle n’est pas toujours la meilleure.
Dans ce qui suit, on cherche β,b un estimateur de β, la vraie valeur. Cet estimateur se
doit de vérifier un certain nombre de bonnes propriétés que l’on détaillera par la suite.
Dans ce qui suit, on appellera b les erreurs produites par le modèle estimé. La méthode
des MCO se propose de minimiser l’erreur quadratique produite par le modèle.
Le programme résolu pour les MCO est alors le suivant :

M in (Y − X βb0 )2 (2.15)
La résolution est simple. Il suffit de dériver l’expression à minimiser par rapport à β et
de chercher la valeur de β (unique avec nos conditions) l’annulant :

2X 0 (Y − X βb0 ) = 0 (2.16)
⇔X 0 Y = X 0 X βb0 (2.17)
⇔βb0 = (X 0 X)−1 X 0 Y (2.18)
L’estimateur des paramètres du modèle par la méthode MCO est alors :

βb0 = (X 0 X)−1 X 0 Y (2.19)


Il est alors possible de montrer que cet estimateur est sans biais et de calculer sa
variance :

– E[βb0 ] = E[(X 0 X)−1 X 0 Y ] = (X 0 X)−1 X 0 Xβ + E[(X 0 X)−1 X 0 ] = β


– V[βb0 ] = V[(X 0 X)−1 X 0 Y ] = V[(X 0 X)−1 X 0 ] = (X 0 X)−1 σ

La distribution de l’estimateur est par conséquent la suivante :

βb0 ∼ N (β 0 , (X 0 X)−1 σ 2 ) (2.20)


Le fait de connaitre cette distribution permet d’élaborer un certain nombre de tests.

On ajoute le théorème suivant :


2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 25

Théorème 2.1.1 (Régression orthogonale). Si les variables dans une régression mut-
liple ne sont pas corrélées (autrement dit, si elles sont orthogonales), alors les esti-
mations obtenues sont les mêmes que celles obtenues dans les regressions individuelles
simples.

Ce théorème est d’une importance capitale : lorsque la condition de non colinéarité


entre variables explicatives est vérifiée, il est alors identique de procéder à l’estimation
des paramètres les uns à la suite des autres ou d’un seul bloc. Ceci mène naturellement
au théorème de Frisch-Waugh. On l’illustre comme suit :

Supposons que la régression à mener implique deux sous-ensembles de variables :

y = Xβ 0 +  = X1 β10 + X2 β20 +  (2.21)

Quelle est alors la solution pour β2 ? Les équations normales (i.e. l’équation obtenue
après dérivation de l’erreur quadratique telle qu’elle est définie par le modèle) sont alors
les suivantes :

X10 X1 X10 X2 β10 X10 y


    
= (2.22)
X20 X1 X20 X2 β20 X20 y

Ce problème peut être résolu de deux façons possibles : soit en utilisant les règles
connues sur les matrices partionnées, soit en développant l’expression matricielle.

Rappel 1. Pour la matrice partitionnée de type 2 × 2, on a l’inverse partitionnée


suivante :

A−1 −1
−A−1
   
A11 A12 11 (I + A12 F2 A21 A11 11 A12 F2
= −1 (2.23)
A21 A22 −F2 A21 A11 F2

Avec :

F2 = (A22 − A21 A−1


11 A12 )
−1
(2.24)
F1 = (A11 − A12 A−1
22 A21 )
−1
(2.25)

Quelle que soit la méthode, on a le résultat suivant :

β10 = (X10 X1 )−1 X10 y − (X10 X1 )−1 X10 X2 β2 (2.26)


= (X10 X1 )−1 X10 (y − X2 β2 ) (2.27)

Ce premier résultat est un début d’illustration du théorème de Firsch-Waugh : l’estima-


tion de β1 peut donc se faire, non sur y, mais sur y net de l’information sur y contenue
dans X2 . En effet, y − X2 β2 est le résidus de la regression de y sur X2 . On note y2 ce
résidus. En utilisant ce résultat, et en remplaçant dans la seconde équation, on trouve :
26CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

X20 X1 (X10 X1 )−1 X10 y2 + X20 X2 β20 = X20 y (2.28)


⇔β20 = (X20 X2 )−1 (X20 y − X20 X1 (X10 X1 )−1 X10 y2 ) (2.29)
⇔β20 = (X20 X2 )−1 X20 (y − X1 (X10 X1 )−1 X10 y2 ) (2.30)

X1 (X10 X1 )−1 X10 = P1 : il s’agit du projecteur dans l’espace des X1 . Il s’agit d’une
matrice symétrique et idempotente [i.e. P 2 = P ]. On remarque :

y = X1 β10 +  (2.31)
= X1 (X10 X1 )−1 X10 y + (2.32)
= P1 y +  (2.33)
⇔ y −  = P1 y (2.34)

La formule suivante fournit donc l’expression de β10 par estimation itérative :

β20 = (X20 X2 )−1 X20 (y − P1 y2 ) (2.35)

L’intuition de ces différents calculs est la suivante : il est identique de procéder à la


régression de y sur X, ou de partitionner X entre X1 et X2 , puis de regresser de façon
iterative y sur X1 et X2 . Ceci est résumé dans les théorème suivant :

Théorème 2.1.2 (Théorème de Frisch-Waugh modifié). Dans la régression linéaire des


moindres carrés du vecteur y sur deux ensembles de variables X1 et X2 , le sous-vecteur
des coefficients β20 est obtenu en régressant y − P1 y2 sur X2 .

Théorème 2.1.3 (Théorème de Frisch-Waugh). Dans la régression linéaire des moindres


carrés du vecteur y sur deux ensembles de variables X1 et X2 , le sous-vecteur des co-
efficients β20 est obtenu lorsque les résidus de la regression de y sur X1 sont régressés
sur l’ensemble des résidus de la régression de chaque colonne de X2 sur X1 .

Ajoutons un dernier théorème, dont on trouvera la démonstration dans Crépon (2005)


ainsi qu’un peu plus d’explicitations : le théorème de Gauss-Markov. Il s’agit simplement
d’un théorème d’optimalité des estimateurs MCO (optimalité du point de vue de la
variance des estimateurs).

Théorème 2.1.4 (Gauss Markov). Sous les hypothèses du modèle linéaire, l’estima-
teur des moindres carrés ordinaire d’un modèle linéaire est optimal dans la classe des
estimateurs sans biais, conditionnellement aux régresseurs.

2.1.3 Analyse de la variance


Une fois l’estimation accomplie, on dispose de paramètres estimés ainsi que de résidus
- les erreurs produites par le modèle, en principe minimales. On est alors en mesure de
déterminer par une analyse de la variance la part de la variance de Y qui se trouve
expliquée par le modèle. On construit ainsi un R2 , ou coefficient de détermination,
explicitant l’idée précédente. La formule est la suivante :
2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 27

SCE
R2 = (2.36)
SCT
SCT − SCR
= (2.37)
SCT
Pn
− Ȳ )2 − ni=1 (Yi − Ybi )2
P
i=1 (Yi P
= n 2
(2.38)
i=1 (Yi − Ȳi )

Dans le précédent calcul, SCT représente la somme des carrés totaux, SCR, la somme
des carrés résiduels et SCE, la différence entre les deux, c’est à dire la somme des
carrés expliqués. Ȳ est la moyenne empirique de Y . Le R2 se définit donc comme le
rapport de la somme des carrés expliqués sur la somme des carrés totaux. L’idée est en
fait de décomposer la variance de Y en une variance expliquée par le modèle estimé et
une variance qui n’a pas pu être expliquée. Naturellement, plus R2 est grand et plus -
en principe - le modèle peut être soupçonné d’être explicatif de la variable endogène.
Cet indicateur, par construction est toujours compris entre 0 et 1. Ainsi plus le R2 est
proche de 1 (de 0) et plus (moins) le modèle est explicatif de Y .
Une mise en garde s’impose ici : dans une regression multiple, le R2 augmente natu-
rellement lorsqu’une variable supplémentaire (vérifiant certaines conditions qui ne sont
pas détaillées ici) est ajoutée. Ceci signifie donc que l’intoduction d’un grand nombre
de variable peut naturellement conduire à obtenir un R2 important, quand bien même
le pouvoir explicatif du modèle est médiocre.

2.1.4 Quelques tests liés aux MCO


On présente rapidement les tests les plus connus utiles lors de la mise en oeuvre d’esti-
mations basées sur les MCO : test de Fisher, test de Student, test de Durbin et Watson
et tests d’adéquation.

[Link] Test de Fisher


Dans le modèle linéaire simple - et à fortiori dans un modèle MCO - le R2 est utilisé dans
le cadre du test de Fisher. Il s’agit d’un test de nullité des paramètres du modèle. L’idée
est la suivante : on fait l’hypothèse que l’ensemble des paramètres β ont une valeur égale
à 0 et on compare la vraisemblance de cette hypothèse à l’hypothèse alternative dans
le cadre de laquelle les paramètres ont la valeur obtenue après estimation. On retient
naturellement l’hypothèse la plus vraisemblable - sur la base d’un test statistique.

La statistique de test est la suivante :

R2 N − P − 1
Ftest = ∼ F (P, N − P − 1) (2.39)
1 − R2 P

Si la valeur de la statistique de test est supérieure au quantile de la loi de Fisher, on


rejète l’hypothèse de nullité de l’ensemble des paramètres - autrement dit, le modèle a
de bonne chances d’accroitre notre connaissance de Y .
28CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

[Link] Test de Student


Une fois l’ensemble des paramètres testés, il peut être intéressant de tester les pa-
ramètres les uns après les autres. Pour cela, on utilise un test de Student. Là encore,
on fait l’hypothèse initiale que le paramètre αi est nul et on compare cette hypothèse
à l’alternative de αi = αbi . Dans le cas d’un modèle avec bruits gaussiens, on connait la
distribution des estimateurs MCO :

βb0 ∼ N (β, (X 0 X)−1 σ 2 ) (2.40)

On en déduit aisément :

βb
p ∼ Tn−p−1 (2.41)
(X 0 X)−1 σ

Pour n − p − 1 grand (supérieur à 30), on a Tn−p−1 → N (0, 1). Là encore, lorsque la
valeur de la statistique de test est supérieure à la valeur critique pour un niveau de
risque défini, on rejette l’hypothèse nulle de nullité du coefficient du paramètre. Ainsi,
si le quantile de la loi de Student à 95% et n − p − 1 degrés de liberté est plus petit que
la valeur de la statistique calculée ( √ 0β −1 ), on est conduit à rejeter l’hypothèse
b
(X X) σ
de nullité du paramètre. Le paramètre est alors significativement différent de 0. En
pratique, on compare la valeur de cette statistique à 2 : il s’agit de la valeur la plus
courante du quantile d’une loi de Student. La règle est donc : si la valeur de la statistique
calculée est inférieure à 2, alors αi = 0 ; dans le cas contraire, αi = αbi . L’intuition est
donc : on conduit un test de Student pour être bien sûr que la valeur estimée par MCO
soit bien différente de 0. Il s’agit de vérifier la qualité de l’estimation.

Nota Bene : 1. Intuitivement, plus la variance des résidus σ est importante (autrement
dit, moins le modèle semble être explicatif du comportement de Y ) et plus l’erreur
possible lors de l’estimation des paramètres est potentiellement importante.

[Link] Test de Durbin et Watson


Une autre problème peut affecter les résidus : la présence d’autocorrélation entre les
erreurs. Le résidu spécifié dans le modèle est un bruit blanc : il s’agit d’une innovation
pure. Une hypothèse du modèle qui n’apparait pas en première lecture est la suivante :
E[i i−1 ] = 0. Dans le cas contraire, la loi des erreurs n’est pas celle spécifiée et les
estimations simples par MCO ne sont pas bonnes. Durbin et Watson ont proposé un
test astucieux, bâti sur une mesure de distance entre les erreurs en i et en i − 1 :

Pn
i − b
i=1 (b i−1 )2
d= Pn 2 (2.42)
i=1 bi

Cette statistique peut s’exprimer approximativement en fonction du coefficient d’auto-


corrélation des résidus ρ :
2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 29

d ∼ 2(1 − ρ) (2.43)

Cette intuition simplifie grandement la lecture du test :

– Si ρ est nul (pas d’autocorrélation), alors d se situe au voisinage de 2.


– Si ρ est égal à 1 (autocorrélation positive), alors d se situe au voisinage de 0.
– Si ρ est égal à -1 (autocorrélation négative), alors d se situe au voisinage de 4.

Dans les deux derniers cas, l’estimation par les moindres carrés ordinaires n’est pas sa-
tisfaisante. Il est alors nécessaire de développer des méthodes plus avancées permettant
d’intégrer l’existence de cette autocorrélation.

[Link] Les tests d’adéquation des résidus

L’hypothèse de normalité des résidus est à confirmer à l’aide de différents tests. On


présente ici deux d’entre eux : le test de Jarque et Berra ainsi que les qqplots.

Le test de Jarque et Berra

Le test utilise les estimateurs empiriques de la kurtosis et de la skewness, ainsi que


leur distribution afin de juger de la normalité d’une variable aléatoire. L’estimateur
empirique du moment centré d’ordre k est le suivant :

T
1X
µk = (Xi − X̄)k (2.44)
T
i=1

La skweness s’estime donc par µ3 /µ32 et la kurtosis par µ4 /µ22 . La statistique de Jarque
et Berra vaut donc :

T 2 T
s= Sk + (Ku − 3)2 → χ2 (2) (2.45)
6 24

Le qqplot

Le qqplot compare quantiles empiriques et quantiles théoriques d’une loi donnée. Il


permet de se faire une idée de l’adéquation éventuelle de nos données à une loi pa-
ramétrique particulière.

Tests d’adéquation paramétrique

Il est également possible de procéder à un test d’adéquation des résidus à une loi
paramétrique quelconque. On se reportera au chapitre 1 pour la méthodologie.
30CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.2 Retour sur le maximum de vraisemblance


Il est possible de retrouver l’ensemble des résultats obtenus jusqu’à maintenant sur la
base d’une approche utilisant le maximum de vraisemblance. On rappelle ici les bases
de la méthode ainsi que son application au modèle linéaire multivarié gaussien.
La fonction de densité de probabilité d’une variable aléatoire y conditionnellement à
un ensemble de paramètres θ est noté f (y, θ). Cette fonction identifie le processus
générant les données qui sous-tend l’échantillon de données, et, en même temps, fournit
une description mathématique des données que le processus génère. La densité jointe de
n observations indépendantes et distribuées de façon identique (i.i.d.) de ce processus
est le produit des densités individuelles :

n
Y
f (y1 , ..., yn |θ) = f (yi |θ) = L(θ, y) (2.46)
i=1

Cette densité jointe est la fonction de vraisemblance, définie comme une fonction du
vecteur de paramètres inconnus (θ), où y indique les données observées (qui ne sont
donc pas une inconnue). On remarque que l’on note la densité jointe comme une fonc-
tion des données conditionnellement aux paramètres alors que, lorsque l’on forme la
fonction de vraisemblance, on note cette fonction en sens inverse, comme une fonction
de paramètres conditionnellement aux données observées. Dans ce qui suit, on suppose
que les paramètres sont constants et inconnus : l’enjeux de la méthode est d’exploi-
ter l’information disponible dans l’échantillon afin d’en inférer une valeur probable des
paramètres.
Il est généralement plus simple de travailler avec le logarithme de la fonction de vrai-
semblance :

n
X
lnL(θ|y) = lnf (yi |θ) (2.47)
i=1

On parle dans ce cas de log-vraisemblance. Ajoutons qu’il est courant de travailler sur
la densité d’un processus conditionnellement à un autre processus. C’est du moins ce
qui se passe dans le modèle linéraire : les erreurs sont bien i.i.d., ce qui fait que y|x est
aussi un processus iid. Soit le modèle linéaire gaussien suivant :

y = Xβ 0 +  (2.48)
⇔yi = β1 + β2 x1,i + ... + βp xp−1,i + i (2.49)

On suppose que les perturbations sont gaussiennes : conditionnellement à x:,i , yi est


distribué normalement, moyenne µi = x:,i β 0 et de variance σ 2 . Cela signifie que les
variables aléatoires observées ne sont pas i.i.d. : elles sont de moyenne différentes. Tou-
tefois, les observations sont conditionnelement indépendantes, permettant de travailler
sur la vraisemblance conditionnelle. Dans notre cas, elle a la forme suivante :
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 31

n
X
lnL(θ|y,X) = lnf (yi |Xi , θ) (2.50)
i=1
n 
(yi − x:,i β 0 )2

1X 2
=− lnσ + ln(2π) + (2.51)
2 σ2
i=1
n 
1 X (yi − x:,i β 0 )2

1 2
= − nlnσ − nln(2π) − (2.52)
2 2 σ2
i=1

La méthode du maximum de vraisemblance propose de déterminer θb de façon à ce


que la log-vraisemblance soit maximale. Cependant, avant d’exposer la méthode, il est
nécessaire de vérifier que cette estimation est réalisable/possible : il s’agit d’étudier ce
que l’on appelle les conditions d’identification.
Définition 2.2.1 (Identification). Le vecteur de paramètres θ est identifié (i.e. suscep-
tible d’être estimé) si, pour n’importe quel autre vecteur de paramètre θ∗ tel que θ 6= θ∗ ,
on a pour les données y : L(θ∗ |y) 6= L(θ|y).
Il est parfois impossible d’obtenir une valeur unique pour le paramètre θ, rendant toute
estimation par maximum de vraisemblance impossible.

2.2.1 Le principe du maximum de vraisemblance


Le principe du maximum de vraisemblance fournit un moyen de choisir un estima-
teur asymptotiquement efficient (cf. chapitre 1) pour un paramètre ou un ensemble
de paramètres. Il est aisé d’illustrer la logique de cette technique dans le cas d’une
distribution discrète.
On considère un échantillon aléatoire de 10 observations tirées d’une distribution de
Poisson : 5,0,1,1,0,3,2,3,4,1. La densité de chaque obersvation est alors :

e−θ θyi
f (yi |θ) = (2.53)
yi !
Puisque les observations sont i.i.d., leur densité jointe, qui est la vraisemblance de cet
échantillon, est :

1 P1
Y e−10θ θ i=1 0yi e−10θ θ20
f (y1 , ..., y1 0|θ) = 0f (yi |θ) = Q1 = (2.54)
i=1 0yi !
207, 360
i=1

Ce dernier résultat donne la probabilité d’observer cet échantillon particulier, en sup-


posant qu’une distribution de Poisson de paramètre encore inconnu θ, a généré les
données. Quelle est alors la valeur de θ qui rendrait cet échantillon plus probable ?
La réponse est fournie par la méthode du maximum de vraisemblance : il s’agit de la
valeur qui rend la vraisemblance maximum, i.e. la probabilité jointe la plus importante
possible. C’est ce qu’on représent en figure (2.2.1).
Sur la figure, on remarque que la vraisemblance a un mode unique pour θ = 2, qui est
l’estimation du maximum de vraisemblance ou EMV de θ.
32CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

Fig. 2.1 – Représentation graphique du maximum de vraisemblance

On considère la maximisation de L(θ|y) par rapport à θ. Puisque la fonction loga-


rithme croı̂t de manière monotone et qu’elle est plus simple à utiliser, on maximise
généralement lnL(θ|y) à la place. Dans notre exemple :

n
X n
X
lnL(θ|y) = −nθ + lnθ yi − ln(yi !) (2.55)
i=1 i=1
n
∂lnL(θ|y) 1 X
= −n + yi = 0 ⇔ θ̂EM V = ȳn (2.56)
∂θ θ
i=1

Ainsi, afin de déterminer la maximum de vraisemblance, il ”suffit” de dériver la log-


vraisemblance par rapport à θ et de l’annuler (comme on le fait très classiquement pour
un fonction à une variable). Dans le cas d’une loi de Poisson, on trouve un EMV pour
θ égal à la moyenne empirique. Ceci n’est pas vraiment surprenant, dans la mesure où
si X ∼ P (λ), alors E[X] = λ.
Annuler la dérivé première ne suffit cependant pas à s’assurer qu’il s’agit d’un maxi-
mum : encore faut il prouver qu’en ce point (le prétendant au titre de maximum), la
dérivée seconde est négative (fonction concave). En général, la vraisemblance est na-
turellement strictement concave, ce qui fait que la solution de la dérivée première est
toujours un maximum.
La référence à la probabilité d’observer un échantillon donné n’est pas exacte dans une
distribution continue, puisqu’un échantillon particulier à un probabilité d’être observé
nulle. La principe reste néanmoins le même. Les valeurs des paramètres qui maximisent
L(θ|y) ou son logarithme sont les estimations du maximum de vraisemblance, notées θ̂.
Puisque le logarithme est une fonction monotone, les valeurs qui maximisent L(θ|y) sont
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 33

les mêmes que celles qui maximisent lnL(θ|y). La condition nécessaire pour maximiser
lnL(θ|y) est :

∂lnL(θ|y)
=0 (2.57)
∂θ
Il s’agit de l’équation de vraisemblance. Le résultat général est que l’EMV est une racine
de l’équation de vraisemblance. L’application aux paramètres du processus générant les
données d’une variable aléatoire discrète suggèrent que le maximum de vraisemblance
est une bonne utilisation des données. Cette intuition reste à généraliser dans ce qui
suit.

2.2.2 Propriétés du maximum de vraisemblance


On introduit dans ce qui suit quelques défintions et propriétés qui ne sont pas démontrées.
On lira les preuves avec profit dans Greene (2002).

Définition 2.2.2 (Efficience asymptotique). Un estimateur est asymptotiquement effi-


cient s’il est convergent, distribué normalement asymptotiquement et s’il a une matrice
de covariances asymptotiques qui n’est pas plus grande que celle de n’importe quel autre
estimateur convergent distribué normalement asymptotiquement.

Proposition 2.2.1 (Propriétés d’un EMV). 1. Convergence : θEM V → θ0 (conver-


gence en probabilité), où θ0 est la vraie valeur du paramètre.
h i
∂ 2 lnL
2. Normalité asymptotique : θEM V ∼ N θ0 , {I(θ0 )}−1 , où I(θ0 ) = −E[ ∂θ 0 ∂θ
0 ].
0

3. Efficience asymptotique : θEM V est asymptotiquement efficient et atteint la borne


inférieure de Frechet-Darmois-Cramer-Rao des estimateurs convergents.
4. Invariance : l’estimateur du maximum de vraisemblance de γ0 = c(θ0 ) est c(θEM V )
si c(θ0 ) est une fonction continue et continuellement différenciable.

Ces propriétés reposent principalement sur les conditions de régularités, principalement


au nombre de trois, que le lecteur trouvera (avec la démonstration des propriétés du
maximum de vraisemblance) dans Greene (2002) (page 457 et suivantes). Il s’agit prin-
cipalement d’être en présence d’une vraisemblance triplement continument dérivables,
avec les dérivées d’ordre un et deux appartenant à L1 et celle d’ordre majorable par une
fonction appartenant à L1 . Il s’agit ici de simples rappels de résultats statistiques de
base, nous laisserons le soin au lecteur d’aller faire les lectures adéquates pour remédier
à la maigre présentation qui en est faite.

2.2.3 EMV du modèle gaussien standard


On rappelle que le modèle de régression linéaire standard est :

yi = xi β 0 + i (2.58)

La vraisemblance d’un processus gaussien x de n observations s’écrit naturellement :


34CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

n  2
n 1X xi − µ
lnL(θ|x) = −nln(σ) − ln(2π) − (2.59)
2 2 σ
i=1

Dans le cas de , on a :

n
n 1 X   i 2
lnL(θ|x) = −nln(σ) − ln(2π) − (2.60)
2 2 σ
i=1

Il est alors nécessaire de savoir passer de la loi de  à celle de y, lorsque l’on a spécifié
le modèle. Pour cela, on utilise un changement de variable qui est rappelé ici :
Proposition 2.2.2 (Changement de variable). Si x est une variable aléatoire de fonc-
tion de répartition fx (.) et si y = g(x), alors la densité de y s’exprime comme suit :

fy (y) = fx (g −1 (y))|g −10 (y)| (2.61)

Cette proposition sera particulièrement importante pour l’analyse des séries temporelles
(troisième partie de cet opus). Ici, la transformation de  à y est  = y − Xβ 0 , donc la
∂
jacobienne (matrice des dérivées premières) est égale à l’unité ( ∂y = 1). On en déduit
naturellement la vraisemblance associée à y :

n 2
yi − xi β 0

n 1X
lnL(θ|x) = −nln(σ) − ln(2π) − (2.62)
2 2 σ
i=1

Les conditions nécessaires (équations normales ou de la vraisemblance) sont alors :

1 Pn
" #
∂lnL xi (y − xi β 0 )
   
∂β σ2 i=1 P 0
∂lnL = n
(y −x β 0 )2 = (2.63)
∂σ − 2σn2 + 12 i=1 σi4 i 0

On en déduit aisément, en passant en forme matricielle :

βEM V = (X 0 X)−1 X 0 y (2.64)


0 
σ2 = (2.65)
n
On retrouve l’estimateur MCO du modèle de régression linéaire. Dernier calcul, la borne
de Cramer-Rao : on calcule tout d’abord pour cela la matrice des dérivées secondes du
maximum de vraisemblance, puis en on prend l’espérance. Les calculs sont les suivants :

Pn Pn
∂ 2 lnL ∂ 2 lnL x2i
" # " #
i=1 xi i
∂β∂β 0 ∂β∂σ −P i=1
σ2
− σ 4n
∂ 2 lnL ∂ 2 lnL = n P 2 (2.66)
i=1 xi i n i=1 i
∂σ∂β 0 ∂σ∂σ − σ4 2σ 4
− σ6

L’espérance de la précédente matrice fournit alors la matrice d’information de Fisher :


2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 35

X0X
 
σ2
0
I(θ) = n (2.67)
0 2σ 4

D’où la matrice de variance/covariance des estimateurs :

σ 2 (X 0 X)−1
 
−1 0
V[θ] = I(θ) = 2σ 4 (2.68)
0 n

Estimateurs du maximum de vraisemblance et des moindres carrés coincident en tout


point1 . Par conséquent, l’estimateur MCO hérite de toutes les bonnes propriétés asymp-
totiques souhaitables des estimateurs du maximum de vraisemblance.

2.2.4 Les tests liés à la vraisemblance


L’un des avantages de procéder à des estimations par maximum de vraisemblance est
que l’on peut par la suite en procéder à un certain nombre de tests simples. Trois de ces
tests sont généralement développés : le test de Wald, le test du ratiode vraisemblance
et enfin le test du multiplicateur de Lagrange. On ne présentera ici que celui dont
l’implémentation est immédiate une fois les estimations EMV produites : le test du
ratio de vraisemblance. Pour les autres, voir Greene (2002), pages 479 et suivantes.
Lors de l’estimation d’un modèle donné, il est possible de devoir opérer un choix sur le
nombre de variables à utiliser pour un modèle donné. Soit θ les paramètres du modèle
incluant le maximum de paramètres (dit modèle non contraint) et θ− les paramètres
d’un modèle dit contraint, i.e. excluant volontairement certaines variables. Le test du
ratio de vraisemblance propose une statistique simple afin de discriminer entre modèle
contraint et non contraint. Soit lnL(θ|y) la log-vraisemblance associée à θ et lnL(θ− |y)
celle associée θ− . La statistique est alors égale à :

LR = −2[lnL(θ− ) − lnL(θ)] (2.69)

On parle de rapport de vraisemblance car il s’agit en fait de calculer le rapport de


vraisemblance, dont on prend ensuite le logarithme : ceci explique que l’on ait une
différence. Cette statistique a sous H0 (θ− est une paramétrisation plus raisonnable
que θ)la distribution asymptotique suivante :

LR → χ2 (J) (2.70)

Où J est le nombre de contraite pesant sur les paramètres θ.


1
A peu de choses pret en fait, dans la mesure où l’estimateur des moindres carrés de la variance
des erreurs est corrigés dans sa version MCO des degrés de libertés. Un estimateur du maximum de
vraisemblance n’est jamais corrigé. Là encore, voir Greene (2002), chapitre 17.
36CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.3 Prévision à partir du modèle linéraire multiple


Une fois un modèle robuste dégagé des précédentes estimations, il est possible de passer
à la prédiction des valeurs de y à partir de celle de x. On suppose que l’on souhaite
prédire la valeur de y 0 associée au regresseur x0 . Cette valeur est :

y 0 = x0 β 0 + 0 (2.71)
Par le théorème de Gauss Markov, on a :

E[y 0 |x0 ] = ŷ 0 = x0 β 0 (2.72)


est l’estimateur sans biais de variance minimale de E[y 0 |x0 ]. L’erreur de prévision est
alors :

e0 = y 0 − ŷ 0 (2.73)
= x0 (β 0 − β̂ 0 ) + 0 (2.74)

Où β est la vraie valeur du paramètre et β̂ son estimateur. On en déduit alors aisément
la variance de la prédiction :

V[e0 |X, x0 ] = V[x0 (β 0 − β̂ 0 )|X, x0 ] + σ 2 (2.75)


= x0 V[β̂ 0 |X, x0 ]x00 + σ 2 (2.76)
0 2 0 −1 00 2
= x σ (X X) x + σ (2.77)
 
1
= σ 2 1 + + x̃0 (X̃ 0 X̃)−1 x̃00 (2.78)
n
La dernière équation est obtenue dans le cas où le modèle contient un terme constante.
On note alors à l’aide d’un tilde la matrice des données dont on a supprimé la première
colonne contenant le terme constant. Ce résultat montre que l’intervalle dépend du
rapport entre une version approchée de la variance de x0 et X. Plus x0 a une variance
approchée importante, et plus la prévision sera incertaine.
Il est alors possible d’inférer un intervalle de confiance pour la prédiction (voir le cha-
pitre 1 sur la construction d’un intervalle de confiance pour la moyenne) :

 q 
0 0 0
ICα = ŷ ± tα/2 V[e |X, x ]
b (2.79)

Afin de déterminer la qualité d’une prévision, on utilise en général les deux statistiques
suivantes :

s
1 X
RM SE = (yi − ŷi )2 (2.80)
n0
i
1 X
M AE = 0 |yi − ŷi | (2.81)
n
i
2.4. UNE CALIBRATION SIMPLE DU CAPM 37

On parle de Root Mean Square Error et de Mean Absolute Error. n0 désigne le nombre
de périodes de prévisions.

2.4 Une calibration simple du CAPM


Suite à l’ensemble de ces éléments théoriques, on propose dans ce qui suit un exemple
simple de calibration du CAPM. Cette méthode repose, comme nous le verrons, sur
l’hypothèse principale selon laquelle les prix sont des martingales. On montre que le
beta coincide exactement avec l’estimateur des moindres carrés ordinaires. On procède
de même pour estimer le alpha, après avoir estimer la Security Market Line (SML).
Enfin, on montre qu’il est aisé d’obtenir le R2 du modèle, sur la base du calcul du beta.

2.4.1 L’estimation de la relation du MEDAF par MCO


On cherche à calibrer un modèle de la forme :
ri = rf + βi (rm − rf ) (2.82)
Une approche classique en économétrie pour résoudre ce type de problème revient à
se donner , une erreur d’estimation, puis à chercher à minimiser cette erreur. On fait
apparaitre  comme suit dans la précédente relation :
ri = rf + βi (rm − rf ) +  (2.83)
Il s’agit bien d’une erreur : si rf + βi (rm − rf ) correspond à l’approximation (ou es-
timation) de la rentabilité du titre i, celle ci n’est pas parfaite.  est précisement la
différence entre le vrai ri et son estimation, que l’on peut noter r̂i . On a donc :
 = ri − r̂i (2.84)
= ri − rf + βi (rm − rf ) (2.85)
Ceci est vrai d’après la relation précédente (équation 2.83). La méthode des moindres
carrés ordinaires vise à déterminer une valeur pour β (que l’on ne connait pour l’instant
pas), qui rende la somme des erreurs au carrés la plus petite possible. L’idée est donc
de trouver un beta qui permette de rendre l’erreur la plus petite possible, autrement
dit, qui rende le modèle le meilleur possible.

On cherche donc à minimiser la somme des erreurs commises pour chacune des obser-
vations de la rentabilité du titre i, élevées au carré. On cherche donc :
X
M in 2i (2.86)
X
⇔ (ri − rf − β(rm − rf ))2 (2.87)
Pour trouver un minimum sur une fonction convexe, il suffit d’égaler la dérivée à 0. Ici,
on :
∂SSR(β) X
= (rm − rf )(ri − rf − βi (rm − rf )) (2.88)
∂β
X
= β(rm − rf )2 − (ri − rf )(rm − rf ) (2.89)
X X
= β(rm − rf )2 − (ri − rf )(rm − rf ) (2.90)
38CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

En égalant la dérivée à 0, il vient :


X X
β(rm − rf )2 − (ri − rf )(rm − rf ) = 0 (2.91)
X X
⇔ β(rm − rf )2 = (ri − rf )(rm − rf ) (2.92)
P
(ri − rf )(rm − rf )
⇔β = (2.93)
(rm − rf )2
P

En notant r̃i et r̃m les rentabilités du titre i ainsi que du marché dont on a retrancher
le taux sans risque, il vient une écriture simple de l’estimateur des MCO, qui peut se
réécrire de façon matricielle aisément :
P
r̃i r̃m
β= P (2.94)
(r̃m )2
En notant Ri la matrice n×1 contenant les n observations de rentabilités du titre (dont
on a retranché le taux sans risque) i et Rm de même taille, celle contenant celles du
marché, il est alors possible de réécrire ces sommes de façon matricielle (faire les calculs
pour s’en convaincre) :
T
β = (Rm Rm )−1 RmT Ri (2.95)
Cet estimateur est l’estimateur MCO de β. On admettra qu’il possède la distribution
suivante :
T
βb ∼ N (β, (Rm Rm )−1 σ2 ) (2.96)
σ2 est la variance du terme d’erreur et β la vraie valeur du paramètre à estimer. On
est ainsi en mesure de construire un test de Student permettant de tester sur l’estima-
tion de β est différente de 0 avec une probabilité importante. On se borne ici à fournir
la méthodologie générale permettant de construire ce test : il s’agit pour nous d’une
recette de cuisine financière dont les fondements ne sont pas démontrés.

β̂
Pour conduire ce test, il suffit de comparer à 1,96 (le quantile à 95% d’une loi
V[β̂]
normale). Si la valeur est supérieure, alors β̂ 6= 0.

2.4.2 Lien de l’estimateur MCO avec le beta financier


On a vu que le beta financier pouvait être estimer par :
cov(ri , rm )
β= 2
(2.97)
σm
au terme de la démonstration de Sharpe. Il est facile de démontrer que l’estimateur
MCO et cette expression du beta coincident exactement, à la condition que les prix
soient martingale. Quelle est la contrepartie empirique de la covariance et de la va-
riance ? En remplaçant dans l’expression précedentes les moments par leur estimation,
il vient :
1 P
n (ri − E[ri ])(rm − E[rm ])
β= 1 P (2.98)
n (rm − E[rm ])2
P
(ri − E[ri ])(rm − E[rm ])
= P (2.99)
(rm − E[rm ])2
2.4. UNE CALIBRATION SIMPLE DU CAPM 39

Dans le cas où les prix sont martingale, on sait que :


E[Pt ] = Pt−1 (2.100)
⇔E[Pt − Pt−1 ] = 0 (2.101)
 
Pt − Pt−1
⇔E =0 (2.102)
Pt−1
⇔E[rt ] = 0 (2.103)
Ainsi, l’ensemble des actifs doivent avoir une espérance de rentabilité nulle si le marché
est martingale. L’introduction de la nullité des espérances de rendement permet de
retrouver (à rf pret), la formule des MCO :
P
ri rm
β= P 2 (2.104)
rm

2.4.3 Estimation de la SML


Une fois l’ensemble des β des titres estimés, il est possible d’estimer la SML. Là encore
le recours aux MCO permet d’obtenir des résultats simples. On cherche à estimer une
relation du type :
E[ri ] = αβi (2.105)
L’estimateur MCO est alors le suivant :
P
β i µi
α̂ = P 2 (2.106)
βi
On propose à la fin de ce chapitre une fonction R permettant de réaliser ces estimations.
La figure 2.2 est le résultat de cette fonction.

2.4.4 Calcul des alpha


Il est possible d’estimer les surrentabilités eventuelles dégagées par le marché : les
alpha. Il s’agit simplement d’introduire une constante dans le modèle du CAPM et de
l’estimer par MCO. On note Ri la matrice consituée de deux colonnes : l’une comportant
exclusivement des 1 et l’autre l’ensemble des observations des ri . On fait de même pour
Rm . On est alors en mesure d’utiliser là encore la formule des MCO pour estimer le
beta et le alpha en un seul coup.

2.4.5 Le R2
Le R2 ou coefficient de détermination est une mesure de la qualité globale du modèle
proposé. Il s’agit du rapport entre la variance de l’estimation de l’on donne du modèle
et la variance de la variable expliquée. Il s’agit donc du rapport :
V[βi rm ]
R2 = (2.107)
V[ri ]
Dans le cas du MEDAF, il est aisé de calculer ce R2 à partir du β :
βi2 σm2
R2 = = ρi,m (2.108)
σi2
On aboutit donc à une expression simple de ce R2 .
40CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.4.6 Code pour le CAPM


################################################################################
# Estimation et test du CAPM #
################################################################################

# Dans ce programme, on estime les beta du CAPM par MCO. On teste l’existence de
# alpha. Enfin, on estime la SML par MCO.

capm<-function(x,Rf){
# Formattage de la base de données
x=[Link](x)
[Link]=x
x=x-Rf
SP=cbind(matrix(1,nrow(x),1),x[,1])
titres=x[,2:ncol(x)]
xx=solve(t(SP)%*%SP)
theta=xx%*%(t(SP)%*%titres)
res=titres-SP%*%theta
[Link]=apply(res,2,var)
test=cbind(diag(xx)[1]*[Link]([Link]),diag(xx)[2]*[Link]([Link]))
test=sqrt(test)
test=t(theta)/test
ptest=pnorm(test)

#Calcul de la SML

[Link]=t(theta)[,2]
[Link]=[Link](apply([Link][,2:ncol([Link])],2,mean))
pente=sum([Link]*[Link])/sum([Link]^2)
[Link]=([Link])
[Link]=[Link]*pente

par(bg="lightyellow")
plot([Link],[Link],type="l",col="red",ylab="Rentabilité",xlab="Beta",
main="Estimation de la SML")
lines([Link],[Link],type="p",col="blue")

# Calcul des R2

R2=[Link]([Link]^2)*var(SP[,2])/apply(titres,2,var)
return(list(theta=theta, R2=R2, test=test, ptest=ptest))
}
2.4. UNE CALIBRATION SIMPLE DU CAPM 41

Estimation de la SML


0.020


● ●
0.018


● ●


0.016


Rentabilité

● ●

● ●
0.014



● ●
● ●
0.012


0.010



0.6 0.8 1.0 1.2 1.4

Beta

Fig. 2.2 – Security Market Line


42CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ
Chapitre 3

Extensions du modèle de base

On propose dans ce qui suit quelques extensions du modèle linéraire standard : les
modèles non linéaires et les modèles à équations multiples. L’exposé s’appuie à la fois sur
Greene (2002) et Davidson and MacKinnon (1993). Il est à noter qu’il existe une version
française de ce dernier ouvrage librement accessible sur le site de Russel Davidson
(voir l’url fournie en bibliographie). Il s’agit d’une introduction succinte : tout lecteur
soucieux de dépasser ce stade se reportera avec profit aux deux références qui sont
fournies plus haut.

3.1 Modèle de régression non linéaire


On se contente ici de présenter le modèle de régression non linéaire dans le cas univarié :
il est aisé de généraliser les résultats présentés ici au cas multivarié. Classiquement, un
modèle non linéaire s’exprime sous forme fonctionnelle comme suit :

y = x(β) +  (3.1)

avec x(β) une forme fonctionnelle liant les variables exogènes x et le vecteur des pa-
ramètres β.  est une perturbation i.i.d. de moyenne nulle et de variance égale à σ 2 .
La fonction scalaire x(β) est une fonction de regression (non linéaire) qui détermine
l’espérance de y conditionnellement à β et à x. Ici encore, un modèle de régression non
linéaire doit être identifié si l’on désire obtenir des estimations uniques des paramètres.
Classiquement, l’estimation peut se faire par moindres carrés. La fonction objectif est
alors :

n
X
M in (yi − xi (β))2 (3.2)
i=1

Dans le cas multivarié, ceci s’écrit matriciellement comme suit :

M in (y − x(β))0 (y − x(β)) (3.3)

43
44 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

où y désigne une matrice M(n × 1) composé des différentes valeurs de yi et x(β) une
matrice M(n × p) composé des n fonctions de regression xi (β), i = 1, ...p. Cette somme
des carrés peut être explicité comme suit :

M in y 0 y − 2y 0 x(β) + x(β)0 x(β) (3.4)

En dérivant cette expression par rapport à β et en l’annulant, il vient :

∂x(β) 0 ∂x(β) 0
−2y +2 x(β) = 0 (3.5)
∂β ∂β

Ceci est équivalent à :

∂x(β) 0
(y − x(β)) = 0 (3.6)
∂β

On retrouve ici la condition d’orthogonalité entre les résidus et la dérivée des régresseurs,
une version modifiée de la condition d’orthogonalité entre regresseurs et résidus dans le
cas MCO. Le problème est qu’il n’existe pas formule analytique permettant d’obtenir
l’expression des estimateurs comme dans le cas MCO : il est alors nécessaire d’utiliser
des algorithmes d’optimisation permettant de trouver le minimum du programme men-
tionné plus haut. Nous reviendrons sur ces algorithme plus loin : il seront également
utiles pour l’estimation des modèles de séries temporelles.
Un dernier point reste à noter dans ce bref exposé des moindres carrés non linéaires :
les conditions de premier ordre sont nécessaire, mais pas suffisante pour garantir le fait
que β̂ soit un minimum. Il peut exister plusieurs valeurs de β qui vérifient les conditions
de premier ordre, mais qui soient des minima lcaux, des points stationnaires ou même
des maxima locaux. En définitive, rien ne garantit que la fonction à minimiser soit
globalement convexe, i.e. :

∂ 2 SSR(β)
Hij (β) = (3.7)
∂βi βj

soit définie positive en β.

Rappel 2. Une matrice M M(n×n) est dite définie positive si ∀x, une matrice colonne
composée de n éléments réels on a :

x0 M x > 0 (3.8)

Une autre façon de prouver le caractère défini positif d’une matrice est de montrer
que l’ensemble de ses valeurs propres est strictement positif. Enfin, si l’ensemble des
sous matrices d’une matrice carré admet un déterminant positif, alors cette matrice est
définie positive. Il s’agit de la généralisation matricielle de la postivité d’un scalaire.
Une matrice définie négative est une matrice dont l’opposé est définie positive.
3.1. MODÈLE DE RÉGRESSION NON LINÉAIRE 45

Cette condition n’est assurée que pour quelques cas particuliers, dont les MCO :

∂ 2 SSR(β)
Hij (β) = = −x0 x (3.9)
∂βi βj
Il est aisé de prouver d’après ce qui vient d’être rappelé que cette matrice est bien
définie positive.
Terminon enfin par une courte discussion des conditions d’identification de ce type
de modèle. On distingue deux srotes d’identification, l’identification locale et l’iden-
tification globale. Les estimation des moindres carrés non linéaire ne seront identifiés
localement qu’à la condition que pour tout modification infinitésimale de β̂, la valeur
de la fonction objectif s’élève. Ceci revient à supposer que la matrice hessienne est
strictement convexe en β, de sorte que :

SSR(β̂) < SSR(β̂ + δ) (3.10)

Pour une petite variation δ. Cette condition est analogue au caractère défini positif
de la matrice hessienne. La stricte convexité implique que SSR(β) soit incurvée dans
toutes les directions ; aucun plat n’est autorisé quelle que soit la direction. Si SSR(β)
était plate dans une direction donnée au voisinage de β̂, il serait possible de s’éloigner
de β̂ dans cette direction, sans jamais modifier la valeur de la somme des résidus au
carré (du fait des conditions du premier ordre). Par conséquent, β̂ ne sera pas l’unique
estimateur des moindres carrés non linéaires.
L’identification locale n’est cependant pas suffisante. Une condition plus générale est
l’identification globale :

SSR(β̂) < SSR(β∗), ∀β̂ 6= β∗ (3.11)

Il s’agit d’une simple reformulation de la condition d’identification établit au précédent


chapitre : l’estimateur doit être unique. Remarquons que même si un modèle est identifié
localement, il est toujours possible qu’ily ait deux (ou davantage) estimations distinctes
garantissant une même valeur minimale de la fonction objectif. A titre d’exemple :

y = βγ + γ 2 xt +  (3.12)

ˆ γ̂) minimise la fonction objectif des MCO pour ce


Il apparait clairement que si (beta,
ˆ ˆ
modèle, (−beta, −γ) en fera autant. Donc le modèle est globalement non identifié par
quelque ensemble de données que ce soit, bien que les conditions du premier et second
ordre soient remplies.
Dans la pratique, notons qu’il est également possible qu’un modèle non linéaire puisse
être linéarisé au moyen d’un passage au logarithme, notamment dans le cas de modèles
multiplicatifs. L’exemple le plus courant est la fonction de production de type Cobb-
Douglas :

y = AK β1 Lβ2  (3.13)
46 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

qui redevient un modèle linéaire dans le cas où l’on passe au log :

y = ln(A) + β1 ln(K) + β2 ln(L) + ln() (3.14)

En paramétrisant  de façon à ce qu’il suive une loi log-normale, on retrouve  ∼ N (σ 2 ).


Ceci évite d’avoir recours à des procédures d’estimation complexes et consommatrices
de temps.

3.2 Les modèles à système d’équations


On introduit brièvement une méthode économétrique utile pour l’un des principaux
modèles financiers (le MEDAF ou CAPM ) : les systèmes d’équations de regression. Là
encore, le lecteur se reportera avec profit à
Les modèles décrits dans les chapitres précédents peuvent s’appliquer à des groupes de
variables. Dans ce cas, on examine les modèles de manière jointe. L’un des principaux
exemple pour l’économétrie de la finance est le MEDAF. Ce type de modélisation
procède comme suit :

y1 = X1 β10 + 1 (3.15)
y2 = X2 β20 + 2 (3.16)
... (3.17)
0
ym = Xm βm + m (3.18)

lorsque l’on dispose de m équations et de n observations. On se bornera ici à l’étude


d’un cas particulier de ces régressions : le modèle SUR (seemingly unrelated regressions
ou modèle de régressions apparament indépendantes). Le modèle se présente comme
suit :

yi = Xi βi0 + i , i = 1, ..., m (3.19)


 = [1 , ..., m ] (3.20)
E[|X1 , ..., Xm ] = 0 (3.21)
0
E[ |X1 , ..., Xm ] = Σ (3.22)

On suppose que n observations sont utilisées pour l’estimation des paramètres des m
équations. Chaque équation a Km régresseurs, pour un total de K = m
P
K
i=1 j . On pose
T > Ki . On suppose que les perturbations ne sont pas corrélées entre observations. En
conséquence,

E[it js |X1 , ..., Xm ] = σij , si t = s, 0 sinon (3.23)

La structure de perturbation est donc :

E[0i j |X1 , ..., Xm ] = σij In (3.24)


3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 47

D’où on en déduit naturellement :

 
σ11 In σ12 In ... σ1m In
 σ21 In σ22 In ... σ2m In 
E[0 |X1 , ..., Xm ] = Ω =   = Σ ⊗ In (3.25)
 
..
 . 
σm1 In σm2 In ... σmm In

Chaque équation est une régression classique. Les paramètres peuvent donc être estimés
de manière convergent par la méthode MCO. La régression généralisée s’applique aux
données dites empilées :

 
y11  
 ..  β1,1
 . 
    β1,2 
 y1n  X1 0n,k2 ... 0n,km

 ..


.
 
 y21   0n,k X2 ... 0n,km  
1  
 ..  =  .. β1,k1 (3.26)
  
.. ..  
 .   . . ... . 
 β2,1


 
 y2n  0n,k 0 n,k ... Xm

..

1 2  
.
 
 ..   
 . 
βm,km
ymn
 
1,1
 1,2 
 
 .. 
 . 
 
 1,n 
+ (3.27)

 2,1 
 
 .. 
 . 
m,n

Il est alors possible de réécrire ce modèle de façon matricielle :

Y = Xβ 0 +  (3.28)

Où Y est une matrice M(n×m, 1), X une matrice M(n×m, K), β 0 une matrice M(K, 1)
et  une matrice M(n × m, 1). Une fois ce travail préliminaire accompli, tournons nous
vers l’estimation de ce type de modèle.
A ce stade plusieurs stratégies d’inférence sont envisageables. On montre dans ce qui suit
que l’estimation par maximum de vraisemblance ou par Moindres Carrés Généralisés
(MCG), comme dans le cas simple des MCO, coincident exactement. On s’intéresse
finalement au cas où Σ est bloc diagonal.

3.2.1 Estimation par moindres carrés généralisés et quasi-généralisés


Quelques rappels sur les MCG et MCQG sont ici nécessaires. L’estimation efficace de
β dans le modèle de régression généralisé requiert Σ. On suppose pour commencer que
Σ est une matrice connues, symétrique et définie positive. Il arrive que ce soit le cas,
48 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

mais le plus souvent il est nécessaire de procéder à l’estimation de Σ avant de mettre


en oeuvre la méthode (on parle alors de moindres carrés quasi généralisés).
L’idée de base consiste à minimiser la somme des carrés des résidus, pondérés par
la variance des résidus. Cette somme est appelée mesure de Mahalanobis (utile pour
l’analyse en terme de vraisemblance). Les MCG se propose de déterminer un estimateur
qui minimise cette distance.

M in(Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.29)


Où Ω−1 = Σ−1 ⊗ In . En développant l’expression, il vient :

(Y 0 − βX 0 )Σ−1 ⊗ In (Y − Xβ 0 ) (3.30)
0 −1 0 −1 0 −1 0 0 −1 0
=Y Σ ⊗ In Y − βX Σ ⊗ In Y − Y Σ ⊗ In Xβ + βX Σ ⊗ In Xβ (3.31)
En dérivant la précédente expression, on obtient :

− 2X 0 Σ−1 ⊗ In Y + X 0 Σ−1 ⊗ In β 0 = 0 (3.32)


0 −1 0 0 −1
⇔(X Σ ⊗ In X)β = X Σ ⊗ In Y (3.33)
0 0 −1 −1 0 −1
⇔β = (X Σ ⊗ In X) XΣ ⊗ In Y (3.34)
On obtient ainsi l’expression de l’estimateur des MCG. On obtient bien un de bonne β0
dimension : M(K, 1). Il est à noté que ⊗ est le produit Kronecker. On en rappelle
brièvement les propriétés :
Définition 3.2.1 (Produit de Kronecker). Soit A une matrice M(m × n) constituée
d’éléments [aij ]. Soit B une matrice M(p × q). Alors on a le produit de Kronecker
suivant :
 
a11 B a12 B ...
A ⊗ B =  a21 B ... ...  (3.35)
... ... amn B
Il s’agit donc d’une matrice M((m × p) × (n × q))
Proposition 3.2.1 (Produit de Kronecker). On a les propriétés suivantes :
– (A ⊗ B)(C ⊗ D) = AC ⊗ BD
– (A ⊗ B)0 = A0 ⊗ B 0
– A ⊗ (B + C) = A ⊗ B + A ⊗ C
– (B + C) ⊗ A = B ⊗ A + C ⊗ A
– A ⊗ (B ⊗ C) = (A ⊗ B) ⊗ C
La matrice de covariance asymptotique de l’estimateur des MCQ est la matrice inverse
dans la précédente équation. On rappelle quelques propriétés des estimateurs MCG.
On détail le précédent résultat de façon s’en convaincre pleinement. En notant σ ij la
contrepartie de σij dans Σ−1 , il vient :
 11 0 −1
σ X1 X1 σ 12 X10 X2 ... σ 1m X10 Xm  Pm 1j 0 
 σ 21 X 0 X1 22 0 2m 0 j=1 σ X1 yj
2 σ X2 X2 ... σ X2 Xm   
..
β0 =   (3.36)
 
.. .. .. ..   .
 . . . .  Pm mj 0
σ m1 Xm 0 X m2 X 0 X mm X 0 X j=1 σ Xm yj
1 σ m 2 ... σ m m
3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 49

Il est aisé de s’en convaincre sur un exemple de faible dimensions, par exemple pour
m = 2, K = 2. Autre remarque : en spécifiant Σ = σIm , on retrouve exactement
l’estimateur des moindres carrés. On détaille quelques propriétés des estimateurs MCG :

Proposition 3.2.2 (Estimateur sans biais). L’estimateur MCG est un estimateur sans
biais de β.

Proposition 3.2.3 (Estimateur efficace). L’estimateur MCG est un estimateur efficace


de β.

Proposition 3.2.4 (Gauss Markov). L’estimateur MCG β̂ est l’estimateur linéaire


sans biais de variance minimale pour la régression généralisée. Il s’agit du théorème de
Aitken[1935], et d’une généralisation de Gauss Markov.

Pour finir, on a supposé que jusque ici que Σ était connue. Ceci n’est généralement pas
le cas. On procède donc à une estimation préliminaire de Σ : les résidus des moindres
carrés peuvent être utilisées pour estimer la matrice de variance-covariance des résidus.
En note ˆ les résidus des MCO, l’estimation de Σ est alors :

1 0
Σ̂ = ˆ ˆ (3.37)
n

On parle alors d’estimateur des moindres carrés quasi-généralisés pour β̂ estimé par
MCG, une fois l’estimation de Σ accomplie. Les propriétés asymptotiques de l’estima-
teur MCQG ne proviennent pas de l’estimateur sans biais de Σ ; seule la convergence
est nécessaire. L’estimateur a les mêmes propriétés que l’estimateur MCG.

3.2.2 MCO contre MCG et MCQG


L’estimateur MCG diffère bien évidemment de l’estimateur MCO. Pour l’instant, les
équations sont seulement liées par leurs perturbations, d’où le terme de régressions
apparament indépendantes. Il est alors nécessaire de s’interroger sur le gain d’efficacité
provenant de l’estimateur MCO à la place de l’estimateur MCG. L’estimateur MCO
est ici un estimateur équation par équation, laissant de coté l’écriture fastidieuse du
modèle MCG. On détaille quelques cas particuliers :

– Si les équations sont indépendantes - i.e. si σij = 0, i 6= j - alors il n’y a aucun


avantage à utiliser les MCG pour estimer le système d’équation. En effet, les MCG
reviennent aux MCO équation par équation.

– Si les équations ont les mêmes variables explicatives, alors MCO et MCG sont iden-
tiques.

– Si les regresseurs dans un bloc d’équations sont un sous-ensemble des regresseurs


dans d’un autre , alors MCG n’apporte aucun gain d’efficacité par rapport aux MCO
dans l’estimation de l’ensemble de l’ensemble plus petit d’équation ; ainsi MCO et
MCG sont de nouveau identiques.
50 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

3.2.3 Estimation de systèmes d’équation par maximum de vraisem-


blance
Il est possible, comme pour le cas des MCO, d’estimer le modèle par maximum de
vraisemblance. On rappelle qu’une loi gaussienne multivariée se note comme suit :
 
m 1 1
f (X1 , ..., Xm ) = (2π)− 2 |Ω|− 2 exp − (Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.38)
2

Sur la base des notations introduites plus haut, la vraisemblance concentrée du modèle
SURE s’écrit :
n 1
lnL = − ln(|Ω|) − (Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.39)
2 2
En dérivant par rapport à β 0 , il vient :

X 0 Ω−1 (Y − Xβ 0 ) = 0 (3.40)
0 −1 0 −1 0
⇔X Ω Y =XΩ Xβ (3.41)
0 0 −1 −1 0 −1
⇔β = (X Ω X) XΩ Y (3.42)

On retrouve bien l’estimateur des MCG : celui profite donc de l’ensemble des propriétés
des estimateurs du maximum, developpées plus haut. L’estimateur de la variance se
déduit des propriétés suivantes :

Proposition 3.2.5 (Dérivation matricielle 1). Soit A une matrice carrée, inversible et
de déterminant positif. Alors :

∂ln(|A|)
= (A0 )−1 (3.43)
A
Proposition 3.2.6 (Dérivation matricielle 2).

−ln(|A|) = −ln(|A−1 |)−1 = log(|A−1 |) (3.44)

Une fois que l’on connait ces propriétés, il est aisé de voir que :
∂lnL n 1
−1
= Ω − (Y − Xβ 0 )(Y − Xβ 0 )0 (3.45)
∂Ω 2 2
En égalisant la dernière dérivée à 0, il vient :
1 0
Ω=  (3.46)
n
où  = Y − Xβ 0 . On retrouve bien un estimateur habituel de la variance.

3.2.4 Retour sur l’estimation du MEDAF : implémentation des MCQG


On se propose de calibrer le MEDAF à l’aide des Moindres Carrés Quasi Généralisés.
Comme exposé plus haut, il est tout d’abord nécessaire d’obtenir une estimation de
la matrice de covariance des résidus. On utilise pour cela la matrice des résidus issus
des estimations produites par les moindres carrés dans la fonction capm.R, fournies
3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 51

précédement. Il est ensuite nécessaire de réécrire le système d’équation sous la forme


présentée plus haut : la nouvelle matrice des variables explicatives doit être de la forme
M(n × m, m × 2), dans la mesure où l’on a ici uniquement deux variables explicatives
pour l’ensemble des équations du systèmes (la constante et l’index de marché).

On commence donc par réécrire l’ensemble des matrices de façon appropriée. Avec
l’estimation de Σ, on fournit une estimation de Ω :

Ω = Σ ⊗ In (3.47)

Il ne reste alors plus qu’à estimer la matrice β, qui comporte (si tout se passe bien)
n × m éléments en colonne. L’estimateur βb est alors :

βb = (X T Ω−1 X)−1 (X T Ω−1 Y ) (3.48)

La fonction capm.R a été complétée pour prendre en compte l’estimation par MCQG : le
code est fournit ci-après. Une mise en garde s’impose : le calcul de Ω conduit à construire
une matrice aux dimensions imposantes. Il est par conséquent possible que de nombreux
PC ne puisse pas permettre l’estimation par MCQG d’un système d’équations où m est
grand. Dans notre cas, pour 30 titres et 250 dates, la matrice Ω est de taille 7500×7500 :
elle comporte donc... 56 250 000 éléments ! Il est par conséquent nécessaire de disposer
d’une mémoire vive... très importante.

Les resultats retournés par la procédure sont fournis dans la table 3.2.4 et comparés à
ceux obtenus par MCO. Le constat principal est la suivant : les MCQG n’apporte rien
en comparaison des MCO lors de l’estimation du CAPM. Ceci tient à la matrice de
variance-covariance des erreurs MCO qui est une matrice diagonale presque surement.
Pour tester la valeur d’une corrélation ρ, on rappelle que la statistique de test est :
√ ρ
Tρ = n − 2p (3.49)
1 − ρ2

Cette statistique suit, sous H0 : ρ = 0, une loi de student à n − 2 degrés de liberté (où
n est le nombre de données disponibles). On compare donc Tρ à 1,96, comme on l’a fait
pour les tests de Student.

Finalement, ceci ne sert qu’à montrer que dans de nombreux cas pour lesquels la struc-
ture de corrélation se réduit aux simples variances, il n’est pas nécessairement utile de
recourir aux MCG/MCQG : les MCO suffisent amplement. Pour refaire ces estimations
vous-mêmes, il suffit d’ajouter à la fonction capm.R les quelques lignes qui suivent, ainsi
que de modifier return, comme c’est ici le cas :

# Calcul de l’estimateur des MCQG


# Mise en forme des données
[Link]=matrix(titres,length(titres),1)
n=nrow(titres)
[Link]=matrix(0,length(titres),2*ncol(titres))
52 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

for (i in 1:ncol(titres)){
[Link][(n*(i-1)+1):(i*n),(2*(i-1)+1):(2*i)]=SP
}
# Calcul de la matrice de variance covariance des résidus MCO
[Link]=var(res)
omega=solve(kronecker([Link],diag(1,nrow(titres),nrow(titres))))
# Estimation des paramètres
[Link]=t(solve(t([Link])%*%omega%*%[Link])%*%(t([Link])%*%omega%*%[Link]))
return(list(theta=theta, R2=R2, test=test, ptest=ptest, [Link]=[Link]))
Alcoa AT.T Boeing Caterpilar Chevron [Link] Disney DuPont [Link]
MCO alpha 0.003024439 -0.01330993 0.004927275 -0.001995679 -0.006321155 -0.001599203 0.0084873 0.001150471 -0.01899075
beta 1.029791342 0.74692300 1.143201992 1.054370309 0.840468354 0.802655308 1.1226112 1.016821780 0.59013381
MCQG alpha 0.003024439 -0.01330993 0.004927275 -0.001995679 -0.006321155 -0.001599203 0.0084873 0.001150471 -0.01899075
beta 1.029791 0.746923 1.143202 1.054370 0.8404684 0.8026553 1.122611 1.016822 0.5901338

Tab. 3.1 – Estimations du CAPM par MCQG


3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS
53
54 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE
Chapitre 4

Optimisation de fonctions à
plusieurs variables par algorithme

On présente dans ce qui suit quelques bases nécessaires à l’approximation numérique de


fonctions de plusieurs variables. Comme on l’a vu dans la partie consacrée aux modèles
non linéaires, il arrive (assez souvent) lorsque l’on cherche à maximiser une vraisem-
blance ou des SSR qu’il n’existe pas de forme analytique pour les estimateurs. Il est
alors nécessaire d’approximer ce maximum de façon numérique, i.e. déterminer une va-
leur approchée des paramètres assurant que la vraisemblance soit maximale.

Ne le cachons pas, proposer ce type de chapitre n’est pas monnaie courante : rares sont
les cours de statistique à insister sur de tels aspects computationnels. Je suis intime-
ment convaincu que de trop nombreux économètres ne programment pas leurs propres
procédures d’estimation, et ceci est extrêment dommageable. Des générations d’élèves
sont formés dans l’idée que l’économétrie se fait simplement en lançant des procédures
SAS ou pire : Eviews. Il existe un certain illétrisme économétrique parmis beaucoup
d’élèves : il est possible de programmer ses propres procédures d’estimation (notamment
en R) et ce sans faire d’efforts incroyables. Je propose dans ce qui suit les principales
intuitions nécessaires à la programmation de fonction permettant d’optimiser un fonc-
tion de p variables. Bien évidemment, on ne propose ici pas l’ombre d’une preuve des
méthodes proposées : il s’agit bien plutôt d’une chapitre de cuisine économétrique. Il
existe de nombreuses références proposant les preuves de ce qui va suivre, mais je doute
qu’un élève de M1 en tire un quelconque profit.

Les différentes recettes proposées ont été tirées pelle-melle de : Harvey (1990), Des-
champs (2004) Quinn (2001) et Greene (2002). Notez que ce chapitre du Green est li-
brement téléchargeable sur le site de Pearson Education (et en Français !)1 . On propose
trois types de méthodes : une première approche intuitive vise à déterminer graphique-
ment (méthode de recherche par quadrillage) les fonctions de un ou deux variables. Ce
type de méthode laisse ensuite la place à l’ensemble des méthodes basées sur le gra-
dient : plus grande pente, Newton Raphson, méthode du score et BHHH. Ces méthodes
se heurtent cependant aux problèmes liées aux multimodalités du maximum de vrai-
semblance : les méthodes de type recuit simulé sont brièvement présentées.
1
[Link]

55
56CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

4.1 Pour commencer...


Dans ce qui va suivre, on s’intéresse à un problème très simple : soit {x1 , x2 , ..., xn }
un échantillon que l’on suppose tiré d’une loi normale de paramètres inconnus. On
souhait déterminer les estimateurs du maximum de vraisemblance de ces paramètres.
[Ce problème se traite aisément sans tout ce qui va suivre, mais autant prendre un
problème simple pour introduire des éléments plus complexes.] La vraisemblance as-
sociée à l’échantillon est :
n
(  )
1 xi − m 2

Y 1
L= √ exp − (4.1)
2πσ 2 σ
i=1

La log-vraisemblance associée est naturellement :


n  2
n 1X xi − m
lnL = − ln(2π) − nln(σ) − (4.2)
2 2 σ
i=1

On cherche à présent à déterminer les paramètres θ = (m, σ) qui maximisent cette


expression. La première idée que l’on peut proposer est de représenter cette vraisem-
blance en deux dimensions en fonction d’un grid ou quadrillage. On détermine une
valeur minimum ainsi qu’une valeur maximum pour l’ensemble des valeurs que m peut
prendre. On fait de même pour σ. Ceci nous fournit alors un damier composé des deux
grid ainsi formés (les deux supports de nos paramètres). L’idée est alors de calculer la
log-vraisemblance associée à l’ensemble des points d’intersection des lignes composant
le damier. L’algorithme à coder pour déterminer le maximum de vraisemblance est
alors :

1. Déterminer le support des paramètres


2. Pour chaque valeur de ce support (une boucle for par paramètre), on calcule la
log-vraisemblance
3. On entamme ensuite une nouvelle boucle (possibilité de la combiner avec la
précédente) pour déterminer le max sur les logvraisemblance pour le support.
4. On récupère finalement la valeur des paramètres garantissant cette valeur maxi-
male de la log-vraisemblance.

C’est ce qui est fait par le code suivant (à ceci pret que la fonction proposée représente
également la logvraisemblance en 3D).

grid<-function(x,n){
mu<-seq(1,3,length=n)
sigma<-seq(1,3,length=n)
T=nrow(x);
lnL=matrix(0,n,n);
for (i in 1:n){
for (j in 1:n){
mm2=sum((x-mu[i])^2);
4.1. POUR COMMENCER... 57

lnL[i,j]=-T*log(sigma[j])-1/2*(mm2/(sigma[j]^2));
}}
persp(mu,sigma,lnL, theta = 50, phi = 30, expand = 0.5, col = "lightblue");
max=min(lnL);
for (i in 1:n){
for (j in 1:n){
if(max<lnL[i,j]){max=lnL[i,j]; indexi=i;indexj=j}
}}
mumax=mu[indexi];
sigmamax=sigma[indexj];
return(list(mu=mu,sigma=sigma,lnL=lnL,sol=cbind(max,mumax,sigmamax)))
}

On obtient alors les graphiques présentés en figure 4.1 et 4.2, en utilisant les fonction
persp et contour de R. On en déduit alors l’estimation de nos paramètres. L’idée est
essentiellement de se construire une représentation mentale de ce qu’est une vraisem-
blance (ça existe !), avant de passer à des méthodes plus avancées.

Logvraisemblance en 3D
lnL

a
u

m
sig

Fig. 4.1 – Log-vraisemblance en 3D


58CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Logvraisemblance en courbes de niveau

3.0
2.5
2.0
1.5
1.0

1.0 1.5 2.0 2.5 3.0

Fig. 4.2 – Log-vraisemblance en 2D

4.2 Les méthodes du gradient


Les méthodes les plus utilisées en économétrie/statistique sont généralement basées
sur un calcul approché du gradient [matrice des dérivées premières de la fonction à
maximiser]. Il existe différentes méthodes, qui ont chacune leurs qualités et défauts. On
les présente ici de façon très pratique : il s’agit de permettre une programmation aisée
de ces méthodes de maximisation.

4.2.1 Quelques généralités pour commencer...


L’ensemble des méthodes ci-après partent toutes plus ou moins du même point de
départ. On cherche à déterminer le θ optimal, i.e. l’ensemble des paramètres qui maxi-
mise une fonction f (θ). On part d’un point initial noté θ0 , si possible le plus proche des
vraies valeurs de θ∗ (les paramètres optimaux). On cherche ensuite à modifier la valeur
des ces paramètres selon une certain pas λt et une certaine direction ∆t , de façon à
former une suite de valeur θt qui converge vers la vraie valeur de θ∗ . La chaı̂ne des θt
est alors formée de la façon suivante :

θt+1 = θt + λt ∆t (4.3)
4.2. LES MÉTHODES DU GRADIENT 59

Tout l’art de la maximisation vient alors du fait de spécifier λt et ∆t de façon optimale,


i.e. :

– de façon à ce que l’algorithme aboutisse effectivement à la valeur optimale (une valeur


approchée du moins),
– et de façon à ce qu’on l’atteigne ce point le plus vite possible, c’est à dire :
1. que l’algorithme nécessite le moins de calculs complexes possibles,
2. que l’algorithme consomme le moins de ressource machine possible.

On développe ici quelques méthodes bien connues : méthode de la plus grande pente,
méthode de Newton Raphson et méthode du score par BHHH. L’ensemble de ces
méthodes sont dires méthodes du gradient dans la mesure où ∆t est systématiquement
de la forme :

∆ t = W t Gt (4.4)

où Wt est une matrice définie positive et G le gradient de f :


 
∂f
G= (4.5)
∂θ

4.2.2 La méthode de la plus grande pente


Il s’agit de la méthode la plus simple. On utilise G, le gradient de f , comme direction :
on a donc Wt = I et ∆t = Gt . On dirige ainsi l’estimateur du côté de la plus grande
pente, i.e. de la plus grande dérivée. On montre que le pas optimal est alors de la forme :

−G0 G
λt = (4.6)
G0t Ht Gt

où H est la matrice hessienne, i.e. la matrice des dérivées secondes de f . On a donc :

∂2f
H= (4.7)
∂θ∂θ0
Ainsi l’itération de la plus grande pente est alors :

G0 G
θt+1 = θt − Gt (4.8)
G0t Ht Gt

En supposant que l’on a p paramètres à estimer, θ est alors une M(p, 1), G est également
une M(p, 1) et H est une M(p, p). On vérifie donc que les dimensions des matrices cor-
respondent bien.

L’algorithme est des plus simples à programmer :

1. Etablir un θ0
2. Déterminer G0 et H0
3. Déterminer ∆t et λt
60CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

Le code R est fourni ici :

steep<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
check=matrix(0,2,1)
i=1;
while(sum(G^2)>0.0000001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=[Link]((t(G)%*%G)/(t(G)%*%H%*%G))*G;
i=i+1
}
return(list(theta=theta,check=check))
}

Ici, on a fixé  à 0.0000001, de façon arbitraire. On illustre les résultats de cette méthode
sur notre problème initial de vraisemblance gaussienne en figure 4.3. On a fixé volon-
tairement θ0 loin de la vraie valeur des paramètres : on observe une certain nombre de
sauts, même si on trouve au final la bonne valeur approchée des paramètres.

Deux mises en gardes cependant :

– Le calcul des dérivées secondes peut être long et pénible.


– D’autre part, si θt est loin de la vraie valeur du maximum, il est possible que Ht ne
soit pas définie négative, et que l’algorithme diverge.

4.2.3 La méthode de Newton-Raphson


Il s’agit d’une méthode classique d’optimisation numérique. L’origine de la méthode
est la suivante : supposons que l’on veuille trouver x̂ ∈ Rk qui maximise la fonction
f : Rk → R, qui est deux fois continuement dérivable. Il est possible de donner le
développement de Taylor suivant de la fonction f :
1
f (x + h) ≈ f (x) + G0 h + h0 Hh (4.9)
2
4.2. LES MÉTHODES DU GRADIENT 61

Convergence méthode de la plus grande pente

1000
0
d$ch[1, ]

−1000
−2000

0 10 20 30 40

Index

Fig. 4.3 – Convergence de la méthode de la plus grande pente

avec les notations précédentes pour G et H. Ceci implique naturellement que :


∂f (x + h)
= G + Hh (4.10)
∂h
La condition de premier ordre pour un maximum est alors :

0 = G + Hh (4.11)
−1
⇔h = −H G (4.12)

En d’autres termes, la direction optimale pour optimiser f (retour sur notre problème)
est de choisir θt+1 tel que :

θt+1 = θt − H−1 G (4.13)

On notera qu’avec Newton-Raphson, on a : λt = 1∀t. Là encore, la programmation de


ce type d’algorithme est très simple :

1. Etablir un θ0
2. Déterminer G0 et H0
3. Déterminer ∆t et λt
4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

newton<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
62CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=theta-solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}

On applique également cette méthode à notre problème, en partant encore d’un point
éloigné du véritable maximum. Là, l’algorithme de Newton Raphson diverge et aboutit
à la solution m = −1182571474 et σ = −168165462, soit des valeurs abhérantes. Ceci
est représenté sur la figure 4.4.

Convergence méthode de Newton Raphson


0.0 e+00
−4.0e+08
d$ch[1, ]

−8.0e+08
−1.2e+09

5 10 15 20

Index

Fig. 4.4 – Convergence de la méthode de Newton Raphson

Cette méthode converge cependant dans de nombreux cas. Si la fonction est quadra-
tique, elle atteint l’optimum en une itération depuis n’importe quel point de départ.
Si la fonction est globalement concave, cette méthode reste probablement la meilleure.
Elle est particulièrement adaptée à l’estimation du maximum de vraisemblance.
4.2. LES MÉTHODES DU GRADIENT 63

4.2.4 Méthode du score et matrice BHHH


Il n’est parfois pas possible ou simplement trop couteux de calculer la matrice hessienne
directement. On la remplace alors par un estimateur, en s’appuyant sur la propriété
bien connue :
 2   
∂ lnL ∂lnL ∂lnL
−E =E (4.14)
∂θ∂θ0 ∂θ ∂θ0
Là encore, il peut être parfois plus simple d’approximer cette espérance à l’aide de
l’estimateur BHHH (Berndt et al. (1974)) :
n
X
−H = G0 G (4.15)
i=1

Le calcul de θt+1 se fait alors comme suit :


θt+1 = θt + BHHHt−1 Gt (4.16)
L’algorithme est alors :

1. Etablir un θ0
2. Déterminer G0 et BHHH0
3. Déterminer ∆t et λt
4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

Dans notre cas, le code R peut être écrit comme suit :

HHH<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
BHHH=cbind((x-theta[1,1])/(theta[2,1]^2),-1/theta[2,1]+((x-theta[1,1])^2)/(theta[2,1]^3
H=(t(BHHH)%*%BHHH);
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}
64CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

On présente en figure 4.5 une application de ce code à notre problème. La convergence


est rapide, et l’algorithme fonction (quasiment) toujours (du moins pour les essais que
j’ai fait). Mieux, la matrice BHHH −1 fournit à l’optimum une estimation de la variance
des estimateurs (i.e. de l’inverse de la matrice d’information de Fisher).

Convergence méthode de scoring BHHH


15
10
d$ch[1, ]

5
0

2 4 6 8 10 12 14

Index

Fig. 4.5 – Convergence de la méthode de scoring par BHHH

4.3 Estimations par algorithme aléatoire


Une autre façon de voir les choses est de compter sur le hasard : lorsque le nombre de
paramètres est grand, il n’est pas possible d’utiliser la méthode du quadrillage. Pire,
dans un tel cas, il est rarement aisé de s’assurer de la globale concavité de f . L’exis-
tence de maximum locaux met en danger les estimations. Une solution peut être de
lancer des algorithmes de type gradient en partant de différents points de départ. Il
est également possible d’utiliser des méthodes de type recuit simulé, telles que l’al-
gorithme de Métropolis-Hastings. Encore une fois, on en fournit ici une présentation
de type ”cuisine économétrique”. Le lecteur soucieux d’aller plus loin est renvoyé aux
références cités dans la partie consacrée à ces méthodes.

4.3.1 Faire jouer le hasard


L’idée de ce type de méthode est de remplacer un grid search par une recherche d’op-
timum aléatoire. Au lieu de construire une suite de paramètre de façon déterministe
(type méthode du gradient), on rend cette suite aléatoire. On a donc :

θt+1 = θt + t (4.17)

où t est tiré d’une loi particulière (uniforme, normale...). A ce stade, θt+1 n’est pas
encore le paramètre retenu à l’itération t + 1. A chaque itération, on compare la
∗ . On conserve le paramètre qui rend la log-
log-vraisemblance associée à θt et à θt+1
vraisemblance maximale. Il s’agit donc d’un algorithme itératif : il est nécessaire de
4.3. ESTIMATIONS PAR ALGORITHME ALÉATOIRE 65

déterminer un critère d’arrêt pour l’algorithme. Deux possibilités : il est possible de


fixer un nombre d’itérations ex ante, ou de d’utiliser un critère de type gradient, comme
il en a été question dans les méthodes précédentes.
L’algorithme est donc :

1. Choisir θ0
2. Tirer autant de  que de paramètres
3. Déterminer θ1
4. Comparer lnL(θ0 ) et lnL(θ1 )
5. Conserver le θi rendant la log-vraisemblance maximale
6. Recommencer la boucle

Le code R dans le cadre de notre problème est le suivant :

random<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){
for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)/2}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew}
cat(i,"\n")
thetachain=cbind(thetachain,theta)
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}
Appliqué à notre problème, ce code fournit une estimation correcte de nos paramètres.
En partant d’un point éloigné de maximum, l’algorithme converge cependant lentement.
C’est ce qu’on observe sur la figure 4.6.
Il est possible de converger plus rapidement, en effectuant des saut dans les paramètres
plus importants. Cependant, ce faisant, on diminue également la probabilité de trouver
un point qui maximise la vraisemblance. Notons que l’algorithme s’alourdit considérablement
en présence d’un grand nombre de paramètres. En effet, on travaille à chaque itération
autour du voisinage du dernier maximum trouvé par l’algorithme : un voisinage à n
paramètres est bien plus grand qu’un voisinage à deux paramètres. Pour finir, il est
possible de coupler les méthodes basées sur le gradient (définissant la direction) avec un
algorithme construit pour générer des nombres positifs aléatoirement : on génère alors
une taille de pas aléatoire. L’idéal est de générer au début de l’algorithme des taille de
pas importantes, et de diminuer ces tailles au fur et à mesure de l’algorithme. Ceci est
d’ailleurs proche de ce qu’on appelle la température dans l’Algorithme de Métropolis
Hastings.
66CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Chroniques des estimateurs avec algorithme itératif

100
80
d$thetach[1, ]

60
40
20
0

0 200 400 600 800 1000

Index

Fig. 4.6 – Convergence de la méthode aléatoire

4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simulé


On présente ici rapidement une façon de résoudre des problèmes de maximisation en
présence de maxima locaux et d’un unique maximum global. On utilise pour cela l’al-
gorithme de Métropolis Hastings. Cet algorithme a été introduit par Metropolis et al.
(1953) pour minimiser un critère sur un espace d’états fini de grande taille. Cette
présentation est inspirée de Robert (1996) et Duflo (1996).

Soit une fonction f à maximiser en θ. La fonction f est souvent appelée fonction


d’énergie, dans le cadre de cette méthode. On part de θ0 et on fixe un paramètre
T dit de température : ce paramètre va déterminer la probabilité d’échapper à un
maximum local au fur et à mesure des itération. On détermine θt+1 de la même façon
que précédement :


θt+1 = θt + t (4.18)

Ce qui change par rapport à la précédente méthode est le mode de selection entre θt+1
et θt . On compare la log-vraisemblance associée à chacun d’eux :
∗ ) > lnL(θ ), alors on retient θ
– si lnL(θt+1 ∗
t t+1 = θt+1 .

– sinon, on ne rejette pas nécessairement θt+1 . On l’accepte avec une probabilité de
0lnL(θ∗ )−lnL(θ )
la forme : min(exp(− 1
T ), 1). Dans la pratique, on procède à un tirage
d’une loi uniforme, puis on compare ce tirage avec le précédent calcul. Si le tirage est
∗ , sinon, on conserve θ . La température T du système permet
inférieur, on choisit θt+1 t
d’augmenter cette probabilité d’accepter θt+1∗ . En général, il s’agit d’une fonction du

nombre d’itérations de l’algorithme.

L’algorithme est alors le suivant :


4.3. ESTIMATIONS PAR ALGORITHME ALÉATOIRE 67

1. Déterminer θ0
2. Tirer  et déterminer θ1∗
3. Comparaison de la lnL associée aux deux paramètres
4. Si lnL(θ1∗ ) > lnL(θ0 ) ⇒ θ1 = θ1∗
5. Sinon : on tire u selon une loi uniforme.
lnL(θ1∗ )−lnL(θ0 )
6. On calcule min(exp(− T ), 1) et on compare à u
lnL(θ1∗ )−lnL(θ0 )
7. Si u < min(exp(− T ), 1), alors θ1 = θ1∗ .
8. Sinon θ1 = θ0
9. On recommence la boucle...

Le code R peut être le suivant :

randommh<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){thetanew[2,1]=-1;
while(thetanew[2,1]<0.1){for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)}}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew; cat("-","\n")}
if (logv(x,thetanew)$lnL<logv(x,theta)$lnL){u=runif(1);
if(u<min(exp((logv(x,thetanew)$lnL-logv(x,theta)$lnL))*exp(1+i^(1/100)),1)){theta=theta
}
cat(i,"\n")
thetachain=cbind(thetachain,theta);
plot(thetachain[1,],type="l",col="blue")
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}

Il existe des façons bien plus complexe de contrôler la température du système que celle
proposée ici qui est déterministe. Graphiquement, sur un problème aussi simple que le
notre, il n’y a pas grande différence entre la précédente méthode et celle-ci (cf. figure
4.7).
68CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Méthode MH pour convergence


50
40
thetachain[1, ]

30
20
10

0 200 400 600 800 1000

Index

Fig. 4.7 – Convergence de la méthode MH


Chapitre 5

Introduction aux modèles de


séries temporelles

5.1 Qu’est-ce qu’une série temporelle ?


La plupart des donnés macroéconomiques et financières prennent la forme de séries
temporelles, un jeu d’observations répétées d’une même variable, telle que le PIB ou le
rendement d’un titre donné. Dans ce qui suit, on note un série temporelle de la façon
suivante :

{x1 , x2 , ..., xT } ou {xt }, t = 1, 2, ..., T (5.1)

xt est appelé variable aléatoire. En principe, il n’existe pas ou peu de différence entre
les séries temporelles et l’économétrie, sinon que les variables sont indicées par t plutôt
que par i. Par exemple, si yt est généré par :

yt = βxt + t , E[t |xt ] = 0 (5.2)

alors une estimation par MCO permet d’obtenir des estimateurs consistants, de la même
façon que dans le cas classique (i.e. indexé par i).

Le terme de séries temporelles est utilisé de façon interchangeable pour désigner à la


fois un échantillon de données {xt } et un modèle probabiliste pour cet échantillon. Un
exemple de modèle probabiliste peut être le suivant :

xt = t , t ∼ i.i.d.N (0, σ) (5.3)

Heureusement pour nous, il est très rare que des séries temporelles soient i.i.d. (indépendantes
et identiquement distribuées) : il s’agit précisement de ce qui les rend intéressantes. Le
PIB en donnée trimestrielle constitue un bon exemple de cette dépendance temporelle :
en général, quand le PIB est anormalement haut en t (i.e. au-dessus de sa moyenne
historique ou non-conditionnelle), il y a de très fortes chances pour que la prochaine
valeur de ce même PIB soit elle aussi anormalement haute.

L’idée est donc de parvenir à caractériser la loi jointe de {..., xt−1 , xt , xt+1 , ...}. Evi-
dement, il serait interessant de mettre en oeuvre des méthodes non paramétriques

69
70CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

(histogrammes, kernels...) afin d’embrasser toute la dépendance existante. Le problème


est que les séries temporelles - du moins les séries économiques - sont souvent réduites
à (au plus) 300 à 400 points. Il n’en va pas de même des séries financières, qui peuvent
être plus conséquente (centaines de milliers de points) : cependant, la forme de la
dépendance sur ce type d’actif est tout sauf stable. D’où le recours à des procédures
paramétriques, cadre infiniment plus souple, aisé et agréable à manier. Là encore, le
marketing est essentiel.

Dans ce qui suit, on présente deux classes de modèles : l’une s’attachant à modéliser la
moyenne conditionnelle des processus (les modèles ARM A) et l’autre s’intéressant à la
modélisation de la variance conditionnelle (les modèles ARCH − GARCH).

5.2 Les modèles ARMA


5.2.1 Au commencement : le bruit blanc
Le fondement de l’ensemble des méthodes de séries temporelles est le bruit blanc (white
noise), que l’on note dans ce qui suit t . Dans un cas général, on a :

t ∼ i.i.d.N (0, σ ) (5.4)

Cette formulation a trois implications :


– E[t ] = E[t |t−1 , t−2 , ...] = E[t |toute l’information disponible en date t − 1]
– E[t t−j ] = Cov[t t−j ] = 0
– var[t ] = var[t |t−1 , t−2 , ...] = var[t |toute l’information disponible en date t − 1] =
σ2

Les premières et deuxième propriétés supposent l’absence d’une corrélation sérielle


ou d’une prédictibilité quelconques. La troisième propriété stipule l’homoscédasticité
conditionnelle du processus bruit blanc. Ces propriétés seront peu à peu relachées au
fur et à mesure des modèles évoqués ci-après.

En lui-même, t est un processus plutôt ennuyeux : si t atteint une valeur surpre-


nament haute, t+1 ne sera pas nécessairement plus élevé. Il ne s’agit donc pas d’un
processus persistant, alors que la plupart des séries chronologiques présentent ce type
de persistance.

Notons néanmoins que la théorie financière repose néanmoins sur une hypothèse proche
du bruit blanc. Le modèle de Black-Scholes repose sur l’hypothèse d’une diffusion sui-
vant un brownien géométrique pour le prix des actifs. On rappelle que si St est le cours
du sous-jacent dans le modèle de Black-Scholes, alors sa diffusion est de la forme :

dSt = µSt dt + σSt dWt (5.5)

où Wt est un mouvement brownien standard. En applicant la formule d’Îto, on parvient


à déterminer une expression intégrale permettant d’obtenir la dynamique des prix :
σ2
dlog(St ) = (µ − )dt + σdWt (5.6)
2
5.2. LES MODÈLES ARMA 71

On en déduit aisément :
Z t+1 t+1 t+1
σ2
Z Z
dlog(Ss ) = (µ − )ds + σdWs (5.7)
t t 2 t
2
 
St+1 σ
⇔log =µ− + σ(Wt+1 − Wt ) (5.8)
St 2

Sachant que (Wt+1 − Wt ) ∼ N (0, 1) (l’intervalle de temps est l’unité), on retrouve donc
bien un processus pour les rendements qui est à peu de choses pret un bruit blanc.
La seule différence entre les deux processus tient au drift obtenu après application de
la formule d’Îto. Malheureusement, le cours des actifs est rarement bruit blanc, ce qui
ne va pas sans poser quelques problèmes lors de l’utilisation de la formule de Black
et Scholes. Elle constitue néanmoins un benchmark intéressant pour l’évaluation des
options.

La discrétisation de la diffusion a été accomplie ici rapidement et sans précautions :


nous reviendrons plus loin sur la discrétisation des diffusions, en rappellant la méthode
d’Euler. Cette maigre digression a uniquement pour but de mettre à jour quelques
liens évidents entre l’analyse des séries temporelles ... et la finance. Tournons nous tout
d’abord vers l’analyse des premiers modèles de séries temporelles : les processus ARMA.

5.2.2 Les modèles ARMA de base


La plupart du temps, on étudie une classe de modèles créés par combinaisons linéaires
de bruits blancs. Ces modèles sont les suivants :

AR(1) : xt = φxt−1 + t (5.9)


MA(1) : xt = θt−1 + t (5.10)
AR(p) : xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + t (5.11)
MA(q) : xt = θ1 t−1 + θ2 t−2 + ... + θq t−q + t (5.12)
ARMA(p,q) : xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + θ1 t−1 + θ2 t−2 + ... + θq t−q + t
(5.13)

Comme on peut le constater, il s’agit à chaque fois d’une recette à base de bruits blancs
passés et de valeurs de départ pour xt . L’ensemble de ces modèles ont une moyenne
nulle, et sont utilisés pour représenter l’écart des séries à leur moyenne. Par exemple,
si une série {xt } a une moyenne égale à x̄ et suit un processus AR(1), alors :

(xt − x̄) = φ(xt−1 − x̄) + t (5.14)

est équivalent à :

xt = (1 − φ)x̄ + φxt−1 + t (5.15)


⇔xt = c + φxt−1 + t (5.16)

Ainsi, la constante c absorbe l’effet moyen. On travaille dans ce qui suit principalement
à l’aide de modèle excluant la constante : elle est aisément estimable.
72CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.3 L’opérateur retard


Il est aisé de représenter et de manipuler les processus ARMA en utilisant l’opérateur
retard L. Cet opérateur retarde les données d’une unité de temps :

Lxt = xt−1 (5.17)

De façon plus formelle, l’opérateur retard est un opérateur qui produit une nouvelle série
de donnée (retardée) à partir d’une série {xt }. A partir de cette définition sommaire,
il est aisé de voir que :

L2 xt = LLxt = Lxt−1 = xt−2 (5.18)

On a donc :

Lj xt = xt−j L−j xt = xt+j (5.19)

Il est également possible de définir des polynomes de l’opérateur retard. On a alors :

a(L)xt = (α0 L0 + α1 L1 + α2 L2 + ... + αp Lp )xt = α0 xt + α1 xt−1 + α2 xt−2 + ... + αp xt−p


(5.20)

En utilisant ces notations, il est alors possible de réécrire des modèles ARMA comme
suit :

AR(1) : (1 − φL)xt = t (5.21)


MA(1) : xt = (1 + θL)t (5.22)
1 2 p
AR(p) : (1 − φ1 L − φ2 L − ... − φp L )xt = t (5.23)
MA(q) : xt = (1 + θ1 L1 + θ2 L2 + ... + θp Lp )t (5.24)
ARMA(p,q) : (1 − φ1 L − φ2 L − ... − φp L )xt = (1 + θ1 L + θ2 L + ... + θp Lp )t
1 2 p 1 2

(5.25)

ou plus simplement :

AR : a(L)xt = t (5.26)
MA : xt = b(L)t (5.27)
ARMA(p,q) : a(L)xt = b(L)t (5.28)

5.2.4 Manipulation les processus ARMA avec L


Un modèle ARMA n’est pas unique. La loi jointe de {x0 , x1 , ..., xn } peut être modélisée
par différents processus ARMA. Il est cependant important d’avoir toujours en tête :

– une représentation à l’aide d’un polynome retard le plus petit possible est toujours
plus aisé ;
– les modèles AR sont les plus aisés à estimer par MCO ;
– les MA représentent xt en fonction de variables indépendantes : dans de nombreux
cas, ceci facilitera les calculs de variance et de covariance, comme on le verra plus loin.
5.2. LES MODÈLES ARMA 73

5.2.5 AR(1) et MA(∞) par recursion


Il est possible dans de nombreux cas de fournir une représentation MA(∞) à partir
d’un AR(1). Ceci se montre aisément comme suit :
xt = φxt−1 + t (5.29)
2
⇔xt = φ(φxt−2 + t−1 ) + t = φ xt−2 + φt−1 + t (5.30)
⇔xt = φk xt−k + φk−1 t−k+1 + ... + φ2 t−2 + φt−1 + t (5.31)
Ainsi, à la condition que |φ| < 1, on peut écrire :

X
xt = φj t−j (5.32)
j=0

Ainsi un AR(1) peut être exprimé comme MA(∞).

5.2.6 AR(1) et MA(∞) avec L


Les manipulations proposées plus haut sont plus aisées en utilisant le polynome retard :
(1 − φL)xt = t (5.33)
−1
⇔xt = (1 − φL) t (5.34)
Quel sens peut on donner à (1−φL)−1 ? Une façon d’expliciter les choses est la suivante :
(1 − z)−1 = 1 + z + z 2 + z 3 + ..., pour |z| < 1 (5.35)
Ceci peut être prouvé en utilisant un développement de Taylor. Ce développement, en
supposant que |φ| < 1 implique |φL| < 1 suggère la chose suivante :

X
xt = (1 − φL)−1 t = (1 + φL + φ2 L2 + ...)t = φj t−j (5.36)
j=0

On retrouve donc le résultat précédent. On a supposé que |φL| < 1. Tous les processus
ARMA n’ont pas de représentation inversible (on parle d’inversibilité des processus ou
de processus inversible) de xt en fonction du passé de t .

Il est possible d’étendre les résultats, en montrant sous quelle condition un AR(p) peut
admettre une représentation MA(∞). Les calculs sont cependant un peu plus longs et
fastidieux. Un lecteur intéressé lira avec intérêt Cochrane (2005), page 14 et suivantes.

5.2.7 Résumé des manipulations possibles de l’opérateur retard


Les règles de calcul pour L sont les suivantes :
– a(L)b(L) = (a0 + a1 L + ...)(b0 + b1 L + ...) = a0 b0 + (a0 b1 + b0 a1 )L + ...
– a(L)b(L) = b(L)a(L)
– a(L)2 = a(L)a(L)
Il existe d’autres règles de calculs, développée dans Cochrane (2005), page 17. [Les
ajouter un jour ?]
74CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.8 La fonction d’autocorrélation


[Link] Définitions
La fonction d’autocovariance d’une série xt est définie par :

γj = cov(xt , xt−j ) = E[xt − E[xt ]][xt−j − E[xt−j ]] (5.37)

Dans un cas où E[xt ] = 0, ∀t, alors γj = cov(xt , xt−j ) = E[xt xt−j ]. On a de plus
γ0 = V[xt ].
On en déduit aisément l’expression du coefficient de corrélation :
γj γj
ρj = = (5.38)
γ0 V[xt ]

Remarque 1 (Autocorrélation et ARMA). Les processus ARMA sont construits de


façon à fournir une modélisation de la loi jointe de {x1 , ...xn }. Les fonctions d’au-
tocorrélation et d’autocovariance sont un moyen intéressant de caractériser cette loi
jointe : la correlation entre xt et xt−j est un moyen intéressant (mais imparfait) de
mesurer notamment la persistance d’une série. Si on observe une valeur importante
pour xt−j , on sera capable de dire si la valeur en xt sera plus ou moins importante elle
aussi.

[Link] ACF des modèles MA(q)


[Link].1 Bruit blanc Un bruit blanc t ∼ iidN (0, σ2 ) a les caractéristiques sui-
vantes :

γ0 = σ2 (5.39)
γj = 0, ∀j 6= 0 (5.40)
ρ0 = 1 (5.41)
ρj = 0, ∀j 6= 0 (5.42)

[Link].2 MA(1) Le modèle s’écrit : xt = θt−1 + t . On a les propriétés suivantes :

γ0 = V[xt ] = V[t + θt−1 ] = (1 + θ2 )σ2 (5.43)


γ1 = E[xt xt−1 ] = E[(t + θt−1 )(t−1 + θt−2 )] = θσ2 (5.44)
γ2 = E[xt xt−2 ] = E[(t + θt−1 )(t−2 + θt−3 )] = 0 (5.45)
γj = 0, ∀j ≥ 2 (5.46)

L’autocorrélation se déduit des précédents calculs :


θ
ρ1 = (5.47)
1 + θ2
ρi = 0, ∀i > 1 (5.48)

On observe ainsi que les autocorrélations d’un MA(1) s’annulent à partir de l’ordre 1.
C’est ce qu’on observe sur les figure 5.2. Notons que la figure 5.1 présente l’allure d’un
processus bruit blanc, MA(1), AR(1) et ARMA(1,1).
5.2. LES MODÈLES ARMA 75

Le cas d’un MA(2) se traite aisément de la même façon. Le modèle s’écrit :

xt = θ1 t−1 + θ2 t−2 + t (5.49)

Comme précédement, les covariances se déterminent comme suit :

γ0 = V[xt ] = V[θ1 t−1 + θ2 t−2 + t ] = (1 + θ12 + θ22 )σ2 (5.50)


γ1 = E[xt xt−1 ] = E[(t + θ1 t−1 + θ2 t−2 )(t−1 + θ1 t−2 + θ2 t−3 )] = (θ1 + θ1 θ2 )σ2
(5.51)
γ2 = E[xt xt−2 ] = E[(t + θ1 t−1 + θ2 t−2 )(t−2 + θ1 t−3 + θ2 t−4 )] = θ2 σ2 (5.52)
γi = 0, ∀i > 3 (5.53)

On en déduit la fonction d’autocorrélation suivante :

ρ0 = 1 (5.54)
θ1 + θ1 θ 2
ρ1 = (5.55)
1 + θ12 + θ22
θ2
ρ2 = (5.56)
1 + θ12 + θ22
ρi = 0, ∀i > 2 (5.57)

On déduit aisément les autocorrélations d’un processus MA(q). Le modèle s’écrit :


q
X
xt = θ(L)t = (θi Li )t (5.58)
i=0

On a alors :
q q
" # !
X X
i
γ0 = V[xt ] = V (θi L )t = θj2 σ2 (5.59)
i=0 i=0
q q q
" #
X X X
i i
γk = E[xt xt−k ] = E (θi L )t (θi L )t−k = θi θi+k σ2 , ∀k ≤ q (5.60)
i=0 i=0 i=0
γk = 0, ∀k > q (5.61)

Remarque 2. Il y a une leçon importante à retenir de tout ceci : les calculs de co-
variance pour les processus MA est simple dans la mesure où les termes en E[j k ]
deviennent rapidement nuls quand j et k sont éloignés. Il n’en va pas de même des
processus AR.

5.2.9 ACF des modèles AR(p)


Il existe deux façons de calculer l’ACF d’un processus AR(p). La première d’entre elles
est de travailler sur la représentation MA(∞) d’un processus AR(p). En utilisant les
formules obtenues plus haut, il est aisé de montrer qu’avec un modèle de la forme :

X
−1
(1 − φL)xt = t ⇒ xt = (1 − φL) t = φi t−i (5.62)
i=0
76CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On obtient des covariances de la forme :



!
X
2i 1
γ0 = φ σ2 = σ 2 ; ρ0 = 1 (5.63)
1 − φ2 x
i=0
∞ ∞
! !
X
i i+1 2
X φ
γ1 = φφ σ = φ φ φ σ2 =
i i
σ 2 ; ρ1 = φ (5.64)
1 − φ2 x
i=0 i=0

En continuant ainsi, on trouve :

φk
γk = σ 2 , ρk = φk (5.65)
1 − φ2 
L’autre façon de retrouver ces résultats est de travailler directement sur xt , sans utiliser
l’astuce de l’inversion. Pour le même modèle AR(1) que précédement, on a :

γ1 = E[xt xt−1 ] = E[(φxt−1 + t )xt−1 ] = φσx2 , ρ = φ (5.66)


2
γ2 = E[xt xt−2 ] = E[(φ xt−2 + φt−1 + t )xt−1 ] = φ2 σx2 , ρ =φ 2
(5.67)
... (5.68)
γk = E[xt xt−k ] = E[(φk xt−k + t + . . .)xt−k ] = φk σx2 , ρ = φk (5.69)
(5.70)

Ainsi l’ACF d’un modèle AR est général un mélange entre une sinusoide et une expo-
nentielle, selon les signes de coefficient du modèle AR. Si les signes sont négatifs, les
autocorrélations paires seront positives, et celles impaires seront négatives. Quoi qu’il
arrive, |φ| < 1, d’où limk→0 φk = 0. Une décroissance relativement lente vers zéro se
traduit par un convergence en forme d’exponentiele de l’ACF vers 0.

5.2.10 La fonction d’autocorrélation partielle


Définition 5.2.1 (Autocorrélation partielle). L’autocorrélation partielle d’ordre k désigne
la corrélation entre xt et xt−k obtenue lorsque l’influence des variables xt−k−i , i < k a
été retirée.
Une définition plus formelle est la suivante :
Définition 5.2.2 (Définition plus formelle). L’autocorrélation partielle d’ordre k d’un
processus (xt )t∈Z , de moyenne m, notée p(k) est définie par le dernier coefficient de la
projection linéaire de xt+1 sur ces k précédentes valeurs. ∀k ∈ Z :

xt+1 − m = c1 (xt − m) + c2 (xt−1 − m) + ... + ck−1 (xt−k − m) + p(k)(xt−k+1 − m)


(5.71)

ou de façon équivalente par :


   −1    −1  
c1 γ0 γ1 . . . γk−1 γ1 1 ρ1 . . . ρk−1 ρ1
 c2   γ1 γ0 . . . γk−2   γ2   ρ1 1 . . . ρk−2   ρ2 
 ..  =  .. =
         
.. .. ..   .. .. .. .. ..   .. 
 .   . . . .   .   . . . .   . 
pk γk−1 γk−2 . . . γ0 γk ρk−1 ρk−2 ... 1 ρk
(5.72)
5.2. LES MODÈLES ARMA 77

Ceci tient donc pour m = 0. Dans un tel cas, p(k) ∈ [−1; 1]. On ajoute la propriété
suivante :

Proposition 5.2.1. De façon générale, la fonction d’autocorrélation partielle d’un


processus (xt )t∈Z satisfait la relation :

|Pk∗ |
p(k) = (5.73)
|Pk |
avec
 
1 ρ1 . . . ρk−1
 ρ1 1 . . . ρk−2 
Pk =  (5.74)
 
.. .. .. .. 
 . . . . 
ρk−1 ... ... 1

et
 
1 ρ1 . . . ρ1
 ρ1 1 . . . ρ2 
Pk =  (5.75)
 
.. .. .. .. 
 . . . . 
ρk−1 . . . . . . ρk

L’idée est donc de caractériser la dépendance entre les différents retards en éliminant
l’impact à chaque fois des retards intermédiaires. La solution la plus simple consiste a
utilisée la définition avancée plus haut utilisant les moindres carrés de façon itérative,
pour les différents ordres de l’autocorrélation partielle. On en déduit (intuitivement)
que la PACF d’un AR(p) devrait être égale à 0 pour les autocorrélations partielles d’un
ordre supérieur à p.

Sans en faire la preuve formelle, on retrouve (théoriquement) dans le cas d’un processus
MA(q) un fonction d’autocorrélation partielle qui est un mélange d’une fonction expo-
nentielle et d’une sinusoı̈de. Il s’agit donc d’un cas symétrique de l’ACF pour les AR(p).

5.2.11 Estimation et test des ACF et PACF


Il est essentiel de pouvoir disposer d’une ACF et d’une PACF estimées correctement.
On fournit ici l’estimateur empirique ainsi que la région de confiance pour une hy-
pothèse nulle de nullité de la corrélation et de la corrélation partielle.

[Link] Fonction d’Autocorrélation


L’estimation d’une fonction d’autocorrélation par la biais de son estimateur empirique,
grace à la loi des grands nombres. Pour un processus non centré, de moyenne m, on a :

Cov[xt , xt−k ] = E[(xt − m)(xt−k − m)] (5.76)


78CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Son estimateur est alors :


N
1 X
Cov[xt , xt−k ] =
d (xt − x̄)(xt−k − x̄) (5.77)
N
t=k+1

où x̄ est la moyenne empirique. L’estimateur de l’autocorrélation ρk est alors :

Cov[x
d t , xt−k ]
ρ̂k = (5.78)
Cov[x
d t , xt ]

D’après le théorème central limite, la variable centrée tρk suit une loi normale centrée
réduite :
ρ̂k − ρk L
tρk = p → N (O, 1) (5.79)
V[ρ̂k ]

où V[ρ̂k ] désigne la variance de l’estimateur. Elle est égale à :


K
1 X
V[ρˆk ] = ρ̂2i , avec K < k (5.80)
N −k
i=−K

Par symétrie de la fonction d’autocorrélation, on a :


K
!
1 X
2
V[ρˆk ] = 1+2 ρ̂i , avec K < k (5.81)
N −k
i=1

On en déduit aisément la région de confiance pour une hypothèse nulle ρk = 0 :


p
IC = [±1.96 × V[ρˆk ]] (5.82)

On fournit un exemple de code R permettant de calculer cette fonction d’autocorrélation


ainsi que les bornes du test :

autocorrel<-function(x,lag,series){
# This function computes the ACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
#Computation of the correlations from lag 1 to lag "lag"
correl=t(data[,1])%*%data[,1]
for (i in 1:lag){
correl=cbind(correl,t(data[,1])%*%data[,(i+1)])
}
5.2. LES MODÈLES ARMA 79

correl=t([Link](correl))
#Normalization to obtain the ACF
correl=correl/correl[1,1]
#Computation of the variance of the estimates
variance=matrix(1/N,nrow(correl),1)
for (i in 1:lag){variance[(i+1),1]=1/N*(1+2*sum(correl[1:i,1]^2))}
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*sqrt(variance);
intervalledown=-1.96*sqrt(variance);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}

[Link] Fonction d’autocorrélation partielle


On a suffisament dévelopé d’éléments relatifs à l’estimation des PACF. Pour déterminer
la variance de l’estimateur, plusieurs stratégies sont possibles. Dans le cas d’un AR(p),
les coefficients p̂(k), k > p sont distribués selon une loi normale de moyenne nulle et de
variance :
1
V[p̂(k)] = , ∀k > p (5.83)
T
Une autre façon de traiter le problème consiste à déterminer de façon itérative les va-
riances des estimateurs MCO permettant d’obtenir les coefficients de corrélation par-
tielle. La méthode fonctionne quel que soit le modèle sous-jacent. C’est qui est proposé
dans le code suivant :

pautocorrel<-function(x,lag,series){
# This function computes the PACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
80CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

#Computation of the partial autocorrelations from lag 1 to lag "lag"


correl=matrix(0,lag,1)
var1=matrix(0,lag,1)
for (i in 1:lag){
X=data[,2:(i+1)]; Y=data[,1];
coeff=solve(t(X)%*%X)%*%(t(X)%*%Y)
res=sqrt(var(Y-X%*%coeff));
correl[i,1]=coeff[nrow(coeff),1];
var2=solve(t(X)%*%X);
var1[i,1]=res*sqrt(var2[nrow(var2),ncol(var2)])
}
correl=t([Link](correl))
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*(var1);
intervalledown=-1.96*(var1);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
correl=t(correl)
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}

5.2.12 Stationnarité des processus et théorème de Wold


Avant de passer à l’estimation des processus ARMA, il est important de revenir sur
certains aspects de ces processus. Il n’a été question jusqu’ici que d’une présentation
relativement intuitive des processus ARMA, sans avoir souligné le fait que ces pro-
cessus sont stationnaires par hypothèse. On distingue généralement deux formes de
stationnarité : forte (stricte) ou faible. Soit xt un processus temporel aléatoire :

Définition 5.2.3 (Stationnarité stricte). Le processus xt est dit strictement station-


naire si quel que soit ti et ti +h la suite {xt1 , ..., xtn } a la même loi que {xt1 +h , ..., xtn +h }, ∀h.

Dans la pratique, on se limite généralement à supposer la stationnarité faible, qui se


définit comme suit :

Définition 5.2.4 (Stationnarité faible). Le processus xt est dit stationnaire au second


ordre si les trois conditions suivantes sont satisfaites :

− ∀t ∈ N, E[x2t ] < ∞ (5.84)


− ∀t ∈ N, E[xt ] = m (5.85)
2
− ∀(t, h) ∈ Z , Cov[(xt+h − m)(xt − m)] = γh , indépendant de t (5.86)
5.2. LES MODÈLES ARMA 81

L’idée derrière tout ceci est de travailler sur des processus dont la moyenne et la variance
sont constante au cours du temps. Notez que si la loi du processus est gaussienne, il y
a équivalence entre les deux définitions de la stationnarité. Détaillons les conditions :
la première de ces conditions suppose l’existence ou la convergence du moment d’ordre
2 (la variance pour un processus centré) ; les deux conditions suivantes supposent que
l’espérance et la covariance du processus sont constantes au cours du temps. Il n’y a
donc ni rupture dans la moyenne, ni rupture dans la structure de dépendance au cours
du temps.

Dernier point dans cet errata théorique, le théorème de Wold est le théorème fonda-
mental de l’analyse des séries temporelles stationnaires.

Théorème 5.2.1 (Théorème de Wold). Tout processus stationnaire d’ordre deux (xt )
peut être représenté sous la forme :

X
xt = ψj t−j + κt (5.87)
j=0
P∞
où les paramètres ψj satisfont ψ0 = 1, ψj ∈ R∀j ∈ N∗ et 2
j=0 ψj < ∞ et où t est un
bruit blanc i.i.d..

On dit que la somme des chocs passés correspond à la composante linéaire stochastique
de xt . Le terme κt désigne la composante linéaire déterministe telle que Cov[κt , t ] =
0, ∀j ∈ Z. Il s’agit par conséquent d’une formalisation de ce qui a été déjà été dit sur
la transformation d’un processus AR en un MA(∞). On n’en fournit pas la preuve.
Bruit blanc AR(1)

2
4

1
2

0
ar

wn
0

−1
−2

−2
−4
0 50 100 150 200 250 300 0 50 100 150 200 250 300

Index Time

MA(1) ARMA(1,1)

3
4

2
1
2

0
0

ma
arma

−1
−2

−3
−4

0 50 100 150 200 250 300 0 50 100 150 200 250 300
82CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Time Time

Fig. 5.1 – Chroniques de processus


Bruit blanc AR(1)

0.8
0.8

ACF
ACF

0.4
0.4
5.2. LES MODÈLES ARMA

0.0
0.0
0 5 10 15 20 0 5 10 15 20

Lag Lag

MA(1) ARMA(1,1)

1.0
0.8

0.6

ACF
ACF
0.4

0.2
0.0

−0.2
0 5 10 15 20 0 5 10 15 20
83

Lag Lag

Fig. 5.2 – Chroniques de processus


Bruit blanc AR(1)

0.8

0.10
0.6
0.4

0.00

Partial ACF
Partial ACF
0.2
0.0

−0.10
5 10 15 20 5 10 15 20

Lag Lag

MA(1) ARMA(1,1)

0.8

0.1
0.6

0.0
0.4

−0.1
0.2

Partial ACF
Partial ACF

−0.3
−0.2

5 10 15 20 5 10 15 20
84CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Lag Lag

Fig. 5.3 – Chroniques de processus


5.2. LES MODÈLES ARMA 85

5.2.13 Estimation des processus ARMA


Il existe différentes méthodes pour estimer les processus ARMA. Les processus AR
s’estiment notamment par la méthode de Yule Walker, qui n’est pas présentée ici :
la méthode devient très vite complexe lorsque l’on ajoute une composante MA dans
le processus. On se bornera à présenter l’estimation par maximum de vraisemblance
(conditionnelle) des processus AR,MA et enfin ARMA.

L’estimation par maximum de vraisemblance requiert un background théorique qui


n’est pas présenté ici : la preuve de l’efficience des estimateurs du maximum de vraisem-
blance est notamment développé dans Harvey (1990)[chapitre 3]. Une autre référence
bien connue sur la question est Hamilton (1994). Le lecteur soucieux de revenir sur le
détail de ces preuves s’y reportera.

On présente rapidement les principes généraux de l’estimation par maximum de vrai-


semblance des modèles MA, AR et ARMA.

[Link] Estimation d’un AR(1)


L’estimation par maximum de vraisemblance dans le cas d’un AR(1) est légèrement
plus complexe que dans le cas d’un modèle linéaire gaussien, tel qu’il en a été question
dans le chapitre 2 de cet opus. Ceci tient au fait que le processus AR(1) non conditionnel
n’est pas i.i.d. On rappelle qu’un modèle AR(1) est de la forme :

xt = φxt−1 + t , t ∼ N (0, σ ) (5.88)

Il est aisé de montrer que les moments conditionnels et non-conditionnels ne coincident


pas, notamment lorsque le processus xt n’est pas centré. Soit le modèle AR(1) suivant :

xt = µ + φxt−1 + t , t ∼ N (0, σ ) (5.89)

Il suffit pour montrer cette divergence de calculer l’espérance conditionnelle et non


conditionnelle et de faire de même pour la variance. Pour déterminer l’espérance non
conditionnelle, il est utile de recourir à la représentation MA(∞) du processus AR(1).
Ceci est possible si |φ| < 1. On a alors :

xt = (1 − φL)−1 (µ + t ) (5.90)
2
= µ + t + φ(µ + t−1 ) + φ (µ + t−2 ) + ... (5.91)

X ∞
X
=µ φi + φi t−i (5.92)
i=0 i=0

µ X
= + φi t−i (5.93)
1−φ
i=0

En prenant l’espérance de la précédente expression, on obtient :


µ
E[xt ] = (5.94)
1−φ
86CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Dans le cas où le processus est centré, on obtient :

E[xt ] = 0 (5.95)

ce qui n’est bien sur pas surprenant. L’espérance conditionnelle à xt−1 est différente de
cette dernière expression :

E[xt |xt−1 ] = φxt−1 6= 0 (5.96)

Ainsi conditionellement à xt−1 , l’espérance d’un AR(1) est différente de l’espérance non
conditionnelle. Il est possible de dérouler les mêmes calculs pour la variance condition-
nelle et non conditionnelle :

µ X
V[xt ] = V[ + φi t−i ] (5.97)
1−φ
i=0
σ2
= (5.98)
1 − φ2

V[xt |xt−1 ] = V[µ + φxt−1 + t ] (5.99)


= σ2 (5.100)

Là encore, les moments conditionnels et non conditionnels ne coincident pas. L’estima-
tion de ce type de processus nécessite de travailler non plus sur la vraisemblance mais
sur la vraisemblance non-conditionnelle. Harvey (1990) en rappelle le principe général :
dans le cas de la vraisemblance non conditionnelle avec observations i.i.d., il est pos-
sible d’écrire la loi jointe du processus comme le produit des lois pour chacune des
observations, du fait de la propriété d’indépendance des observations. Ici, on travaille
en relachant cette hypothèse. On utilise alors le fait que conditionnellement à l’obser-
vation du passé, les observations sont i.i.d.. Pour se faire, on applique la règle de Bayes
rappelée dans le chapitre 1, de façon à reproduire la décomposition proposée dans le
cas de la vraisemblance. Dans le cas où l’on dispose de trois observations {x1 , x2 , x3 } il
est alors possible d’écrire :

f (x1 , x2 , x3 ) = f (x1 )f (x2 |x1 )f (x3 |x2 , x1 ) (5.101)

On en déduit alors la logvraisemblance :

lnL = ln(f (x1 )) + ln(f (x2 |x1 )) + ln(f (x3 |x2 , x1 )) (5.102)

Il est alors possible d’estimer les paramètres en utilisant les méthodes proposées au
chapitre 4. On présente la méthode dans le cadre d’un modèle AR(1). Si t ∼ N (0, σ 2 ),
alors, en utilisant les calculs précédents des moments conditionnels, le processus xt =
xt−1 + t suit une loi normale d’espérance conditionnelle φxt−1 et de variance σ2 . Sa
log-vraisemblance s’écrit alors comme suit :
n
n−1 1 X
lnL(x, φ, σ2 ) = − ln(2π) − (n − 1)ln(σ) − 2 (xt − φxt−1 )2 + ln(f (x1 ))
2 2σ
t=2
(5.103)
5.2. LES MODÈLES ARMA 87

Dans la plupart des cas, on néglige le terme ln(f (x1 )) : dans le cas d’échantillons
importants, son influence est minime. Ceci peut se réécrire sous forme concentrée et
matricielle :
1
lnL(x, φ, σ2 ) = −(n − 1)ln(σ ) − 2 (Xt − φXt−1 )0 (Xt − φXt−1 ) (5.104)
2σ
où Xt et Xt−1 sont des matrices M(n − 1 × 1) contenant les observations du processus
(xt )t∈Z . Les équations normales sont alors :
∂lnL 1 0
= 2 Xt−1 (Xt − φXt−1 ) = 0 (5.105)
∂φ σ
∂lnL n−1 1
=− + 3 (Xt − φXt−1 )0 (Xt − φXt−1 ) = 0 (5.106)
∂σ σ σ
(5.107)
Ce système admet la solution suivante :
0
θ = (Xt−1 Xt−1 )−1 Xt−1
0
Xt (5.108)
r
1 0
σ =  t (5.109)
n−1 t
On retrouve donc exactement la même solution que dans le cas des MCO. Tout ce qui
a été dit précédement sur ces estimateurs est donc valable : on n’y reviendra pas.

[Link] Estimation d’un AR(p)


La généralisation au cas d’un AR(p) se fait aisément une fois la précédente étape en
tête. Soit le processus AR(p) suivant :
p
X
xt = φi xt−i + t (5.110)
i=1

utilisant les mêmes conditions que celles évoquées précédement. Conditionnellement à


l’information passée, la loi de ce processus est la suivante :
Xp
xt |xt−1 , xt−2 , ..., xt−p ∼ N( φi xt−i , σ2 ) (5.111)
i=1

Tout ceci se réécrit naturellement sous forme matricielle :


xt = Xt−1:t−p Φ0 + t (5.112)
0
xt |Xt−1:t−p ∼ N (Xt−1:t−p Φ , σ2 ) (5.113)

où Φ est la matrice M(1 × p) des p coefficients à estimer et Xt−1:t−p est la matrice
M(n − p × p) des séries de données retardées.
Il est alors aisé de déterminer la log-vraisemblance conditionnelle et de retrouver les
estimateurs du maximum de vraisemblance, qui, là encore, coincident avec ceux des
MCO :
1
lnL(x, Φ, σ2 ) = −(n − 1)ln(σ ) − 2 (Xt − Xt−1:t−p Φ0 )0 (Xt − Xt−1:t−p Φ0 ) (5.114)
2σ
88CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Les équations normales sont alors :


∂lnL 1
= 2 Xt−1:t−p 0 (Xt − Xt−1:t−p Φ0 ) = 0 (5.115)
∂φ σ
∂lnL n−1 1
=− + 3 (Xt − Xt−1:t−p Φ0 )0 (Xt − Xt−1:t−p Φ0 ) = 0 (5.116)
∂σ σ σ
(5.117)

Les estimateurs sont alors :

θ = (Xt−1:t−p 0 Xt−1:t−p )−1 Xt−1:t−p 0 Xt (5.118)


r
1 0
σ =  t (5.119)
n−1 t
On retrouve donc bien les estimateurs MCO du modèle. Les processus AR sont ainsi
très simple à estimer : il ”suffit” de regresser xt sur son passé par MCO pour obtenir des
estimateurs sans biais et efficaces. L’estimation des MA est bien plus complexe comme
nous allons le voir.

[Link] Estimation d’un MA(1)


La difficulté de l’estimation d’un MA(1) tient au fait que l’on observe pas directement
les résidus passés : il n’est pas possible de regresser xt sur t−1 car ce dernier n’est pas
directement observé. Il est alors nécessaire de procéder de façon itérative pour parvenir
à écrire la vraisemblance. Soit le processus MA(1) suivant :

xt = θxt−1 + t , t ∼ N (0, σ2 ) (5.120)

On commence comme précédement par constater que les moments d’ordre 1 et 2 condi-
tionnels et non conditionnels ne sont pas les mêmes :

E[xt |t−1 ] = θt−1 (5.121)


E[xt ] = 0 (5.122)
V[xt |t−1 ] = σ2 (5.123)
V[xt ] = σ2 (1 2
+θ ) (5.124)

Là encore les moments conditionnels et non conditionnels ne coincident pas. On rai-
sonnera là encore en terme de vraisemblance conditionnelle. On sait que :

xt |t−1 ∼ N (θt−1 , σ2 ) (5.125)

La vraisemblance conditionnelle s’écrit donc :


n
n−1 1 X
lnL(x, θ, σ2 ) =− 2
ln(2π) − (n − 1)ln(σ ) − 2 (xt − θt−1 )2 + ln(f (x1 ))
2 2σ
t=2
(5.126)
La encore, on ne tient pas compte de ln(f (x1 )). Le problème est alors le suivant : il
n’est pas possible de calculer la vraisemblance directement. Il est nécessaire pour un
theta∗ donné de calculer les résidus de façon récursive. L’algorithme serait par exemple :
5.2. LES MODÈLES ARMA 89

1. On connait x2 . On est alors en mesure de calculer 2 = x1 − θ1 . Il suffit de


donner une valeur de départ à 1 pour pouvoir débuter l’algorithme. La solution
généralement considérée est de choisir 1 = E[t ] = 0 ⇔ ˆ2 = x2 .
2. Une fois que l’on connait epsilon2 , il est possible de calculer 3 = x3 − θ2 ...
3. Et ainsi de suite : on parvient à déterminer l’ensemble des valeurs de t pour θ
fixé ex ante.
On comprend bien qu’il n’est pas possible d’appliquer une méthode standard (i.e. MCO)
d’estimation. Il est nécessaire d’avoir recours aux méthodes présentées au chapitre 4.
On présente à titre d’exemple un code permettant de simuler un processus MA(1), ainsi
qu’un code permettant d’estimer les paramètres de ce modèle.

[Link]<-function(n,theta){
epsilon=[Link](rnorm(n));
x=matrix(0,n,1);
for (i in 2:n){
x[i,1]=theta*epsilon[(i-1),1]+epsilon[i,1]
}
x[1,1]=epsilon[1,1]
return(list(x=x))
}

[Link]<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
epsilon=matrix(0,n,1);
while(sum(G^2)>0.0001){
for (i in 2:n){epsilon[i,1]=x[i,1]-theta[1,1]*epsilon[i-1,1]}
BHHH=cbind((1/theta[2,1])*epsilon[1:(n-1),1]*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])
,-1/theta[2,1]+(1/theta[2,1]^3)*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
plot(check[1,],type="l",col="blue",ylim=c(min(check),max(check)))
lines(check[2,],col="red")
return(list(theta=theta,check=check))
}

L’utilisation de ce code permet d’obtenir des estimations de processus MA(1). Le gra-


phique [Link] présente la chronique d’un processus MA(1) simulé. Le graphe [Link]
représente les ACF et PACF de ce processus, en utilisant le code fournit plus haut.
90CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Enfin, la figure [Link] fournit la trajectoire pour différents points de départ des pa-
ramètres estimés.

Partial Autocorrelation Function Autocorrelation Function

1.0
0.05

0.8
0.00

0.6
MA(1) simulé

MA(1) simulé
−0.05

0.4
−0.10

0.2
0.0
−0.15

−0.2

5 10 15 20 5 10 15 20

Lag Lag

Fig. 5.4 – ACF et PACF du processus MA(1) simulé


MA(1) simulé

3
2
1
5.2. LES MODÈLES ARMA

x
0
−1
−2
−3
0 200 400 600 800 1000

Index

Fig. 5.5 – Trajectoire d’un processus MA(1)


91
2.0

1.0
1.5

0.6
1.0

check[1, ]
check[1, ]
0.5

0.2
0.0

−0.2
5 10 15 0 10 20 30 40 50 60

Index Index

1.0
1.0
0.6

0.5

check[1, ]
check[1, ]
0.2

0.0
−0.2

−0.5
0 50 100 150 1 2 3 4 5 6 7
92CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Index Index

Fig. 5.6 – trajectoire des estimateurs pour différentes valeurs de départ


5.2. LES MODÈLES ARMA 93

[Link] Estimation d’un MA(q)


On généralise ce qui vient d’être dit dans le cas d’un MA(1) au cas d’un MA(q), comme
on l’ai fait pour les AR(p). Le modèle s’écrit :
q
X
xt = θi t−i + t , t ∼ N (0, σ2 ) (5.127)
i=1

Là encore les t ne sont pas observables : il est nécessaire de procéder à leur estimation
à Θ = {θ1 , ..., θp } fixé. Il est alors possible d’écrire la vraisemblance associée à Θ ainsi
qu’aux observations. On détermine les t comme suit :

1. On suppose que les i pour i = {1, ..., q} sont nuls (espérance du processus bruit
blanc).
2. On détermine alors q+1 = xq+1 .
3. On peut alors déterminer q+2 = xq+2 − θ1 q+1 .
4. Puis q+3 = xq+3 − θ1 q+2 + θ2 q+1 .
5. On poursuit ainsi jusqu’à 2q+1 = x2q+1 − qi=1 θi 2q − i.
P

6. On poursuit ensuit l’algorithme jusqu’à ce qu’on l’on


Pq obtenue l’intégralité de la
chronique des t en utilisant la formule : t = xt − i=1 θi t−i .

Une fois ceci fait, il est aisé de calculer la vraisemblance puis de la maximiser en utilisant
les méthodes proposées au chapitre 4. La loi conditionnelle de xt est :
Xq
xt |t−1 , ..., t−q ∼ N( θi t−i , σ2 ) (5.128)
i=1

On en déduit la vraisemblance du modèle :


n
1 (xt − qi=1 θi t−i )2
P
Y 1
L(Θ, x) = √ exp{− } (5.129)
2πσ 2 σ2
i=q+1

La log-vraisemblance est alors :


n 
1 X (xt − qi=1 θi t−i )2
P 
n−q
lnL(Θ, x) = − ln(2π) − (n − q)ln(σ) − (5.130)
2 2 σ2
i=q+1

On en déduit alors les équations normales :


n
t−k (xt − qi=1 θi t−i )
P
∂lnL X
= (5.131)
∂θk σ2
i=q+1
n q
!2
∂lnL n−q 1 X X
=− + 3 xt − θi t−i (5.132)
∂σ σ σ
i=q+1 i=1

Là encore, pour maximiser la vraisemblance, il suffit de mettre en oeuvre l’une des
méthodes présentées au cours du chapitre 4. On préfèrera naturellement utiliser des
méthodes de type scoring qui ont le bon gout de converger à tous les coups (en théorie).
L’utilisation de la matrice BHHH simplifie considérablement le calcul de la matrice
d’information de Fisher.
94CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Remarque 3 (Espérance et variances conditionnelles). On remarque qu’au cours des


calculs des espérances et des variances conditionnelles qui ont été menés on observe que
pour un processus AR ou MA, l’espérance conditionnelle varie au cours du temps, alors
que la variance conditionnelle, elle, ne change pas. C’est en relachant cette dernière
hypothèse que l’on passera au modèles GARCH dans la section suivante. Quoi qu’il en
soit, les espérances et variances non conditionnelles sont toujours constantes au cours
du temps : les processus MA et AR sont des processus stationnaires au second ordre.
Ceci n’est donc pas surprenant.

[Link] Estimation d’un ARMA(p,q)


On termine cette section consacrée à l’estimation des ARMA par une méthode d’esti-
mation pour les modèles ARMA(p,q). On présente les moments conditionnels et non
conditionnels, la loi conditionnelle ainsi que la vraisemblance d’un tel modèle, accom-
pagnée de ses équations normales.

Un modèle ARMA(p,q) s’écrit comme suit :


p
X q
X
xt = xt−i + t−i + t (5.133)
i=1 i=1

Il est aisé de retrouver l’ensemble des moments :


p
X q
X
E[xt |xt−1 , ..., xt−p , t−1 , ..., t−q ] = xt−i + t−i (5.134)
i=1 i=1
E[xt ] = 0, il existe plusieurs façons de le montrer ! (5.135)
V[xt |xt−1 , ..., xt−p , t−1 , ..., t−q ] = σ2 (5.136)
σ2 qi=1 θi2
P
V[xt ] = (5.137)
1 − pi=1 φ2i
P

On en déduit la loi de xt conditionnellement au passé des observations :

Xp q
X
xt |xt−1 , ..., xt−p , t−1 , ..., t−q ∼ N( xt−i + t−i , σ2 ) (5.138)
i=1 i=1

Là encore, la difficulté tient au calcul des t−i liés à l’introduction d’une composante
MA(q). L’algorithme peut être de la forme :

1. On fixe t = 0, t ∈ (1, max(p, q)).


2. Puis, à partir de t = max(p, q) + 1 et à {θ1 , ..., θq , φ1 , ..., φp } fixés, on détermine
t de la façon suivante :
p
X q
X
t = xt − xt−i + t−i (5.139)
i=1 i=1

3. on répète la procédure jusqu’à l’obtention de l’ensemble de la chronique des t .


5.2. LES MODÈLES ARMA 95

La log vraisemblance concentrée du processus est alors :


n
(xt − pi=1 φi xt−i + qi=1 θi t−i )2
P P
1 X
lnL = −(n − max(p, q))ln(σ ) −
2 σ2
t=max(p,q)+1
(5.140)

Les équations normales sont alors :


n
t−k (xt − pi=1 φi xt−i − qi=1 θi t−i )
P P
∂lnL X
= (5.141)
∂θk σ2
i=max(p,q)+1
n p q
!2
∂lnL n − max(p, q) 1 X X X
=− + 3 xt − φi xt−i − θi t−i (5.142)
∂σ σ σ
i=max(p,q)+1 i=1 i=1

Il suffit alors d’appliquer les méthodes présentées au chapitre 4 pour obtenir une esti-
mation des paramètres. Le code à developper est bien entendu plus complexe que ce
qui a été développé jusqu’ici. Les concepteurs de R proposent par défaut une fonction
permettant d’estimer les paramètres d’un modèle ARMA. Il s’agit de la fonction arima
qui utilise la synthaxe suivante1 :

arima(x, order = c(0, 0, 0),


seasonal = list(order = c(0, 0, 0), period = NA),
xreg = NULL, [Link] = TRUE, [Link] = TRUE,
fixed = NULL, init = NULL, method = c("CSS-ML", "ML", "CSS"),
[Link], [Link] = list(), kappa = 1e6)

[Ajouter un code généraliste qui permet d’estimer un ARMA(p,q), un jour... du cou-


rage...]

5.2.14 Critères de sélection de l’ordre des processus ARMA


Une fois les estimations conduites, deux questions restent à traiter : 1. les estimations
violent-elles les hypothèses du modèle ? 2. quel ordre retenir pour p et q ? Il est à noter
que la méthode de Box et Jenkins visant à retenir p et q au vu des ACF et PACF n’est
plus utilisée. Au mieux, il s’agit d’un guide dans la sélection des p et q maximaux à
tester.

[Link] Tests sur les résidus


Le premier élément à vérifier est que les résidus ne violent pas les hypothèses du modèle.
De façon générale, on vérifie la valeur moyenne des résidus, leur autocorrélation, la sta-
bilité de la variance ainsi que leur normalité. Il est à noter que si les résidus ne sont pas
normaux, mais que l’estimation a été conduite en utilisant une hypothèse de normalité
des résidus, les estimations des paramètres du modèle reste bonne. Il s’agit en fait d’une
estimation par pseudo-maximum de vraisemblance, introduite pas Gourieroux, Mon-
fort et Trognon dans deux articles fameux d’Econometrica. L’estimation par BHHH
1
Il est toujours possible d’obtenir de l’aide sur une fonction, en tapant help(nom de la fontion)"
96CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

de la matrice d’information de Fisher est particulièrement appropriée à ce cas. Cette


approche sera très utile pour l’estimation des processus GARCH.

Test de nullité des résidus

Lorsque le processus est bien estimé, les résidus entre valeurs estimées et réelles par
le modèle doivent se comporter comme un bruit blanc. L’une des hypothèses de bruit
blanc est que l’espérance des résidus (et la moyenne empirique par conséquent) est
nulle. Si le processus (t ) est i.i.d., on doit alors :
n
1X
¯t = ˆt → 0 (5.143)
n
t=1

On se réfère au chapitre 1 où un test de nullité de la moyenne est développé. La


statistique de test est alors (sous H0 : ¯t = 0) :
¯t
√ ∼ Tn−1 (5.144)
σˆ / n
La loi de Student convergent rapidement vers une loi normale centrée réduite. Ainsi, il
est possible de calculer la statistique de test et de la comparer à 2 pour obtenir un test
à 95% de la nullité de la moyenne. Il est également possible de construire un intervalle
de confiance autour de la moyenne en utilisant la loi de cette statistique :
σˆ
IC95% = [¯t ± tn−1 √ t ] (5.145)
n
Test d’autocorrélation des résidus

Les processus ARMA peuvent être vu comme une façon de stationnariser les séries,
abus de langage pour désigner le fait que l’on se débarrasse de la corrélation existant
dans les séries. Il est donc nécessaire de tester l’existence d’autocorrélation dans les
résidus. Si ce test conduit au constat que les résidus sont corrélés, c’est certainement
que le modèle est mal spécifié. Il existe différents tests d’autocorrélation :

– Test de Durbin et Watson : ce test a déjà été brievement présenté au chapitre 2. On


n’y revient pas ici.
– Etude des ACF et PACF : si le modèle est bien spécifié, l’ensemble des autocorrélations
simples et partielles doivent être nulles.
– Cette dernière étude est complétée par l’étude de la statistique dite du ”porte-
manteau”. Ce test repose sur l’idée que la FAC d’un bruit blanc ne doit pas réveler
d’autocorrélations non nulles. En pratique ce test présente deux variantes :

– Test de Box et Pierce : l’idée de ce test est simple. Il est basé sur une somme des
carrés de autocorrélations pour un horizon allant de 1 à K. La statistique est la
suivante :
K
X
QBP = n ρ2k → χ2K−p−q (5.146)
k=1
5.2. LES MODÈLES ARMA 97

L’hypothèse H0 est ici : ρ1 = ... = ρK = 0 contre H1 : ∃j ∈ [1, K], ρj 6= 0. Il suffit


de comparer la valeur de la statistique de test au quantile de la loi du χ2 .
– Test de Ljung-Box : l’hypothèse nulle du test est H0 : ρj = 0, ∀j < K. On construit
la statistique de test suivante :
K
X ρ2k
QK = n(n − 2) → χ2K−p−q (5.147)
n−k
k=1

Là encore, il suffit de déterminer la valeur de la statistique et de la comparer au


quantile d’une loi du χ2 .

5.2.15 Tests sur les résidus ARMA


Dans la mesure où l’estimation suppose que les résidus sont gaussiens, il est souvent
conseillé de mener un certain nombre de tests afin de vérifier leur gaussiannité dans les
faits. On utilise en général des tests simples (tests d’adéquation ou test de Kolmogorov)
afin de s’en assurer.

On rappelle ici le test de Jarque et Berra explicité plus haut. Celui-ci repose sur deux
statistiques connues pour la loi normale. La première est la skewness ou coefficient
d’asymétrie. Son expression est :

E[(X − E[X])3 ]
Sk = 3 (5.148)
σX

Cette statistique est une mesure de l’asymétrie de la distribution, i.e. de la façon dont
la densité s’étale de part et d’autre de son espérance. Dans le cas d’une loi normale,
cette statistique vaut 0 : la loi est parfaitement centrée.

La seconde statistique sur laquelle s’appuie le test de Jarque et Berra est la kurtosis
ou coefficient d’applatissement. Cette statistique mesure l’applatissement des queues
de distribution : plus celles-ci sont épaisses et moins le processus a de chances d’être
gaussien. Un loi normale a théoriquement une kurtosis égale à 3. On mesure cet index
à l’aide de la statistique suivante :

E[(X − E[X])4 ]
Ku = 4 (5.149)
σX

La statistique de Jarque et Berra est en fait une mesure de la distance de chacune de


ces statistiques aux résultats théoriques connus pour la loi normale. Elle est néanmoins
pondérée par les écarts types des lois asymptotiques des estimateurs de la skewness et
de la kurtosis :
T T
JB = (Sk − 0)2 + (Ku − 3)3 (5.150)
6 24
où T est le nombre d’observation. Cette statistique a pour distribution asymptotique
une loi du chi-deux à 2 degrés de liberté.
98CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Attention cependant à la philosophie de la démarche : on ne vérifie pas l’adéquation à


une loi gaussienne afin de s’assurer de la justesse des estimations. Depuis Gourieroux
et alii (1984), on sait qu’à partir du moment où l’estimation est conduite en supposant
que les innovations ((t )t∈Z ) suivent une loi appartenant à la famille des lois expo-
nentielles (dont la loi normale fait partie), les estimateurs utilisés dans le cadre d’une
démarche basée sur le maximum de vraisemblance sont des estimateurs consistents !
Finalement, peut importe la loi, pourvu qu’il ne subsiste ni autocorrélation des erreurs,
ni hétéroscédasticité (la variance n’est pas constante au cours du temps), alors les es-
timateurs du maximum de vraisemblance utilisant la gaussiannité des innovations sont
convergents.

La méthode d’estimation utilisant une loi des erreurs possiblement différente de la vraie
loi de celle-ci, mais appartenant à la famille des lois exponentielles est appelée Pseudo
Maximum de Vraisemblance. L’estimation de la matrice de variance covariance des esti-
mateurs peut naturellement se faire en utilisant la matrice BHHH présentée au chapitre
précédent. Il s’agit d’une méthode particulièrement utile pour l’estimation des proces-
sus ARCH/GARCH que l’on verra par la suite.

[Link] Tests sur les résidus


Avant de passer à la prévision, il convient néanmoins de s’interroger sur la méthodologie
permettant de sélectionner l’ordre p et q des processus. Plusieurs méthodologies sont
applicables, et reste plus complémentaires que substituables.

1. La première démarche est celle exposée plus haut et fut la démarche fondatrice
de ces modèles, telles qu’elle fut proposée par Box et Jenkins. Il s’agit simplement
de sélectionner les ordres pour le processus AR et le processus MA au vu des au-
tocorrélogrammes du processus utilisé pour l’estimation. Il s’agit simplement du
prolongement naturel de ce qui a été dit lors de l’introduction du présent chapitre.
L’étude de l’ACF permet de sélectionner l’ordre du processus MA et l’étude la
PACF permet de sélectionner l’ordre du processus AR. Cependant, comme il l’a
été mentionné plus haut, un processus AR(1) présente une ACF avec une forte
persistance, ce qui n’est dû qu’à la ”contagion” de l’autoregressivité sur les er-
reurs du processus. Autrement dit, un AR(1) présente certes une ACF qui décroit
lentement, mais il s’agit simplement d’une persistance née de l’unique retard de
l’AR(1), perceptible sur la PACF. Moralité : si cette méthode fournie un point
de départ, elle est loin d’être suffisante.

2. Une seconde approche possible, dans le prolongement de la précédente, consiste


à utiliser les statistiques de student des estimations par maximum de vraisem-
blance (estimées généralement par approximation BHHH ou forme analytique)
pour juger de la significativité des paramètres associés à chacun des retards. Pour
un paramètre φi donné, le test est de la forme :

φ̂i − φ
∼ N (0, 1) (5.151)
σφ
5.2. LES MODÈLES ARMA 99

Ce type de test a déjà fait l’objet de développements lors de l’exposé des méthodes
du maximum de vraisemblance.

3. La dernière méthode s’appuie sur des statistiques composés à partir de la log-


vraisemblance, permettant de juger de la distance entre la loi du modèle estimé
et celle du processus. On parle de critères d’information pour manifester ce der-
nier trait associé à ces statistiques. On en détaille quelques unes :

– Le critère d’Akaike (AIC) : le meilleur des modèles ARMA est celui qui minimise
la statistique :
AIC(p, q) = T log(σ2 ) + 2(p + q) (5.152)
– Le critère bayésien (BIC) : le meilleur des modèles ARMA est celui qui minimise
la statistique :
 
2 p+q
BIC(p, q) =T log(σ ) − (n − p − q)log 1 − (5.153)
T
2
 
−1 σx
+ (p + q)log(T ) + log (p + q) (5.154)
σ2 − 1
– Le critère de Hanan et Quinn : le meilleur des modèles ARMA est celui qui
minimise la statistique :
 
2 log(T )
HQ(p, q) = T log(σ ) + (p + q)log (5.155)
T
Au final, lors de l’estimation de processus ARMA, l’ensemble de ces critères sont à
utiliser pour l’estimation des ordres p et q : on commence en général par l’étude de
l’ACF et de la PACF pour se faire un ordre d’idée sur le processus latent. On définit
en général un ordre maximum pour p et q, puis on procède de façon descendante : on
élimine progressivement (on parle d’approche stepwise) les paramètres non significatifs,
tout en conservant un oeil sur les critères d’information.

5.2.16 La prévision à l’aide des modèles ARMA


Le principal avantage des modèles ARMA tient au fait qu’il permettent de fournir des
prévisions pour des échéances éloignées (du moins pour une échéance plus éloignée dans
le temps que la prochaine date). Comme dans le cas des modèles linéaires présentés plus
haut, la prévision se fait en utilisant l’espérance : en supposant que l’on se situe à une
date t, la prévision du processus (xt )t∈Z est obtenue comme sa projection dans l’espace
engendré par le passé de ce processus et de ses erreurs.

Plus simplement, dans le cas d’un processus AR(1) :


xt = φxt−1 + t , t ∼ N (0, σ2 ) (5.156)
sa prévision à la date t + 1 sera :
x̂t+1 = E[xt+1 |xt ] (5.157)
= φxt (5.158)
100CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Les prévisions suivantes s’obtiennent de façon récursives. Par exemple pour t + 2 :


x̂t+2 = E[xt+2 |xt ] (5.159)
= φE[xt+1 |xt ] (5.160)
= φ2 xt (5.161)
D’une façon plus générale, une prévision à l’ordre k pour un processus AR(1) s’obtient
de la façon suivante :
x̂t+k = φk xt (5.162)
On remarque évidement que pour un k suffisament grand, on a :
x̂t+k → 0 (5.163)
qui est la moyenne non conditionnelle du processus. Autrement dit, pour un ordre k
élevé, le modèle AR(1) se contente de fournir comme prévision la moyenne (historique)
du processus.

La simplicité de ces processus les a rendu très attrayants : il est possible de prévoir
n’importe quelle série autoregressive pour un ordre important, à partir de la seule
connaissance de son passé. Dans le cas d’un AR, l’estimation se fait très simplement,
par MCO. On montre encore qu’il est aisé d’obtenir un intervalle de confiance pour la
prévision, en utilisant le théorème de Wold.

Si le processus étudié est stationnaire, alors il admet une représentation MA(∞) de la


forme :

X
xt = φi t−i , avec φ0 = 1 (5.164)
i=0

en faisant abstraction de la composante déterministe. La prévision précédente peut


aussi être obtenue de la façon suivante :
x̂t+1 = E[xt+1 |xt , ..., x0 ] (5.165)
= E[xt+1 |t , ..., 0 ] (5.166)

X
= φi t+1−i (5.167)
i=1

La précédente égalité est obtenue en remarquant que :



X
xt+1 = φi t+1i (5.168)
i=0

X
= t+1 + φi t+1i (5.169)
i=1

D’une façon plus générale, on a :



X
x̂t+k = φi t−i (5.170)
i=k
5.2. LES MODÈLES ARMA 101

On en déduis l’erreur de prévision :



X ∞
X
xt+k − x̂t+k = φi t+k−i − φi t+k−i (5.171)
i=0 i=k
k−1
X
= φi t+k−i (5.172)
i=0

On en déduis sans problème la variance des erreurs de prévision :


k−1
X
V[xt+k − x̂t+k ] = φ2i σ2 (5.173)
i=0

Première remarque : non, le théorème de Wold ne sert pas à rien. Il permet de déterminer
l’intervalle de confiance de la prévision simplement en s’appuyant sur la représentation
MA des processus stationnaires. Deuxième remarque : l’erreur de prévision va gran-
dissante au fur et à mesure que l’on s’éloigne de la date t. Troisème remarque : il
est toujours possible d’obtenir cet intervalle de confiance en estimant un modèle MA
avec un ordre important afin d’obtenir les φi nécessaire à l’estimation de l’intervalle de
confiance.

D’après ce qui vient d’être dit, il est évident qu’il est possible de construire un intervalle
de confiance de la forme :
k−1
" #
X
ICα = x̂t+k ± tα/2 φ2i σ2 (5.174)
i=0

Ceci tient naturellement au fait que la loi asymptotique de l’estimateur du maximum


de vraisemblance est gaussienne (cf. chapitres précédents). On a donc naturellement :
x̂ − xt+k
qt+k
Pk−1 2 2 → N (0, 1) (5.175)
i=0 φi σ

où xt+k est la vraie valeur du processus à la date t + k.

5.2.17 A vrai dire...


Arrivé à ce stade, il est évident que la clef du succès des modèles de séries temporelles
univariés et linéaires réside dans leur simplicité et l’interprétation des résultats fournis.

Malheureusement, qui dit simplicité dit également pauvreté de la prévision. Les modèles
ARMA sont incapables de percevoir un retournement de tendance, puisqu’on ne fait
que multiplier la tendance actuelle. Pour remédier à ceci, des modèles à seuil ont été
introduits. Il en sera question plus tard lors d’une simple application. Pire, les mouve-
ments de prix, de rentabilité ou bien encore les évolutions des chiffres de l’économie sont
le résultats d’une mutlitude de chocs, de dépendances conditionnnelles entre séries...
Bref, xt ne contient certainement pas assez d’information pour parvenir à construire
une prévision robuste de son avenir ! Là encore, pour remédier à ceci, des modèles mul-
tivariés ont été introduits. On traitera de ces modèles dans la section consacrée à la
prise en compte des liens entre variables macroéconomiques.
102CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.18 Quelques applications de modèles ARMA

[Link] Modélisation de l’inflation

L’inflation est l’une des variables macroéconomiques les plus suivies par les marchés,
et notamment les marchés de taux. La raison à cela est simple : il s’agit d’une variable
suivie par les Banques Centrales afin d’établir leur politique. On parle d’instrument de
la politique monétaire : les Banques Centrales sont censées réagir par une montée des
taux à tout accroissement de l’inflation, de façon mécanique. En réalité, la véritable
variable cible des banquiers centraux est l’inflation qu’il anticipent à moyen terme.
Celle-ci n’est malheureusement pas mesurable : on a recourt en France et en Europe à
L’Indice des Prix à la Consommation ou IPC pour mesurer cette inflation.

La mesure d’inflation suivie par les Banques Centrales est en réalité le glissement men-
suel de l’indice des prix à la consommation. En notant Pt l’indice des prix à la consom-
mation en date t, le glissement mensuel se note comme suit :

Pt − Pt−12
πt = (5.176)
Pt−12

La chronique de l’inflation est présentée en figure 5.7. Sa trajectoire ressemble furieu-


sement à une marche aléatoire : on s’attend à trouver un modèle de type AR, avec un
premier paramètre proche de 1.

IPC Européen depuis 1997


3.0
Indice des prix à la consommation

2.5
2.0
1.5
1.0

1998 2000 2002 2004 2006

Time

Fig. 5.7 – IPC européen depuis 1997

Cette intuition est confirmée par l’étude des ACF/PACF qui exhibent naturellement
une persistance importante, pour des ordres de retard eux-mêmes importants. Ces gra-
phiques sont représentés en figure 5.8.

Finalement, l’estimation du modèle ARMA optimal conduit aux paramètres suivants :


5.2. LES MODÈLES ARMA 103

ACF de l'IPC PACF de l'IPC

1.0

0.8
0.8

0.6
0.6

Partial ACF

0.4
ACF

0.4

0.2
0.2

0.0
0.0

−0.2
−0.2

0.0 0.5 1.0 1.5 0.5 1.0 1.5

Lag Lag

Fig. 5.8 – ACF et PACF de l’IPC européen

ar1 ma1 intercept


Estimation 0,89 0,23 1,92
Ecart type 0,04 0,11 0,19
T-stat 19,96 2,15 10,06

Conclusion de cette courte étude : l’indice des prix à la consommation semble se com-
porter comme une marche aléatoire. La meilleure prévision de l’inflation de demain
devrait ainsi être celle d’aujourd’hui. En oubliant la composante ma1, et en posant
φ = 1, on a alors :

πt = πt+1 + t (5.177)

On a donc très naturellement :

E[πt+h |It ] = πt (5.178)

où It est l’information disponible à la date t. Il s’agit d’un fait qui commence à être
bien connu dans le monde de l’économie monétaire.

Dernier point de remarque : il est possible d’interpréter le paramètre de la composante


MA comme un paramètre de retour à la moyenne/autoexcitation de l’inflation. On
remarque tout d’abord que l’on a approximativement :

t−1 = πt−1 − (µ + φπt−2 ) (5.179)

Le paramètre associé à la composante MA est positif : l’inflation a ainsi tendance à


se surexciter. Si l’inflation s’écarte de sa moyenne de long terme (ici 1,92%), elle aura
tendance à rester au dessus de cette moyenne pour quelques périodes.

Notons enfin que la constante du modèle correspond à la cible d’inflation de la BCE.


La figure 5.9 présente une prévision tirée du modèle ARMA estimé.
104CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Prévision à l'horizon d'un an

3.0
2.5
2.0
IPC

1.5
1.0

1998 2000 2002 2004 2006

Time

Fig. 5.9 – Prévision de l’IPC européen

Quoiqu’il en soit, il n’est pas certain que l’inflation soit tout à fait une marche aléatoire
pour ce qui est de la zone euro depuis 2000. En effet, on remarque visuellement que
la moyenne pour la période 1997-2000 ne semble pas être la même que celle pour la
période 2000-2006 (cf figure 5.7). Confirmons cette intuition : étudions la structure de
la série de l’IPC depuis 2000. La série est présentée en figure 5.10.

Zoom depuis 2000


3.0
2.5
IPC

2.0

2001 2002 2003 2004 2005 2006

Time

Fig. 5.10 – Zoom sur l’IPC depuis 2000

Etudions les ACF/PACF de la série sur la figure 5.11.


Elle semble assez différente de celle étudiée pour le même processus, avec une fenetre
de temps plus large. La série semble se rapprocher d’une série nettement moins proche
de la marche aléatoire : il s’agit simplement d’un AR(2), générant dans l’ACF un com-
portement de mélange entre sinusoide et exponentielle. L’estimation d’un AR(2) sur la
série confirme les résultats :
5.2. LES MODÈLES ARMA 105

ACF IPC PACF IPC

1.0

0.6
0.8

0.4
0.6

Partial ACF

0.2
0.4
ACF

0.2

0.0
0.0

−0.2
−0.2

0.0 0.5 1.0 1.5 0.2 0.4 0.6 0.8 1.0 1.2 1.4

Lag Lag

Fig. 5.11 – ACF et PACF de l’IPC depuis 2000

ar1 ma1 intercept


Estimation 0,8808 -0,3499 2,2105
Ecart type 0,1123 0,1121 0,048
T-stat 7,84 -3,12 46,05

Finalement, les résultats obtenus sont réellements différents des précédents : l’inflation
moyenne est plus importante que dans le cas précédent et le modèle est globalement un
modèle autoregressif qui n’est plus marche aléatoire (le terme en AR(2) vient ”corriger”
l’importance du 0,88. Au final, notre petite estimation souligne que la zone euro est ac-
tuellement dans un régime inflationniste plus important que son régime de long terme.
Ceci est certainement dû à l’effet Balassa-Samuelson : lors de la formation d’unions
monétaires, un effet rattrapage par le haut du niveau des prix se produit. L’intégration
de nouveaux pays à bas niveau de vie conduit à chaque fois à l’accroissement du niveau
général des prix en Europe (il s’agit d’un index prix en glissement annuel).

La figure 5.12 présente la prévision associée au modèle.

[Link] Modélisation du taux cible de la BCE


Le taux directeur de la Banque Centrale Européenne est défini chaque mois lors de la
réunion du conseil des gouverneurs. Ce taux constitue une cible permettant de guider le
taux court (journalier) sur les marchés obligataires européens. La plupart des modèles
de taux font de la politique monétaire le premier facteur de la courbe des taux : la
compréhension du processus latent au taux cible est essentiel pour la gestion obliga-
taire. Est-il possible d’utiliser les modèles ARMA à cette fin ?

La figure 5.13 présente l’évolution (sur une base mensuelle) de ces taux depuis 2000.
Premier constat : il existe un nombre important de dates pour lesquelles le taux ne
change pas. En notant rt le taux cible à la date t, il existe de nombreuses dates pour
lesquelles on a :

rt = rt−1 (5.180)
106CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Prévision à l'horizon d'un an


3.0
2.5
IPC

2.0

2001 2002 2003 2004 2005 2006 2007

Time

Fig. 5.12 – Prévision de l’IPC

Evolution des taux BCE depuis 2000


4.5
4.0
Taux BCE

3.5
3.0
2.5
2.0

0 20 40 60 80

temps

Fig. 5.13 – Chronique des taux BCE depuis 2000


5.2. LES MODÈLES ARMA 107

Ceci risque bel-et-bien de faire apparaitre une correlation persistante dans l’ACF du
processus. On observe ceci en figure 5.14. En effet, on observe tout d’abord un phénomène
de contagion évident entre les différentes dates sur l’ACF qui décroit lentement vers
0. Au contraire, la PACF admet un unique pic, proche de 1, suggérant que l’on peut
écrire pour le taux BCE un modèle de la forme :

rt = φrt−1 + t (5.181)

avec φ proche de 1. Dans le cas où φ = 1, on retrouverai naturellement une marche


aléatoire pour le taux BCE : le processus ne serait ainsi pas stationnaire. Faisons l’hy-
pothèse que tel n’est pas le cas. Deux stratégies sont alors implémentables :

– Il est tout d’abord possible d’estimer un modèle MA avec un lag important. Ceci
signifierai que chaque taux BCE peut s’écrire comme la somme des chocs passés sur
ces taux (une sorte de représentation MA(∞) d’un processus AR(1). Après estima-
tion, un modèle MA(15) semble convenir : il minimise le critère BIC. Les coefficients
estimés sont les suivantes :

Estimations T-stats
ma1 0,9115 6,80731889
ma2 0,8645 3,92954545
ma3 1,0792 5,96902655
ma4 1,4888 7,61145194
ma5 1,5917 6,49408405
ma6 1,783 4,97766611
ma7 1,5166 5,9732178
ma8 1,5969 6,67600334
ma9 1,6871 5,59568823
ma10 1,3082 4,19698428
ma11 0,9441 4,30506156
ma12 0,6917 3,56546392
ma13 1,0329 4,61116071
ma14 0,7159 3,71124935
ma15 0,2105 1,72258592
Constante 2,9544 12,8788143

– La seconde stratégie, qui est la plus naturelle, consiste à estimer un AR(1), tout
en se doutant que les taux suivent probablement un processus proche de la marche
aléatoire. L’estimation d’un simple AR(1) donne des résultats similaires au MA(15).
Les estimations sont :

AR(1) Constante
Estimations 0,9772 2,8363
T-stats 59,5853659 5,11229272

[Link] Modélisation de la volatilité implicite d’options sur DAX


Parmi les processus connus pour être autoregressifs, les processus de volatilité présentent
des comportements modélisables à l’aide de processus ARMA. Nous verrons plus loin
108CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ACF des taux BCE PACF des taux BCE

1.0
1.0

0.8
0.8

0.6
0.6

Partial ACF

0.4
ACF

0.4

0.2
0.2

0.0
0.0

−0.2
−0.2

0 5 10 15 5 10 15

Lag Lag

Fig. 5.14 – ACF et PACF des taux BCE depuis 2000

une raison à cette situation.

On présente en figure 5.15 les prix black scholes calibrés sur volatilité historique, im-
plicite globale et implicite locale.

Prix BS
100
80
60
option

40
20
0

0 50 100 150

Index

Fig. 5.15 – Prix BS d’une option sur DAX de strike 5000

La volatitilé implicite extraite en inversant numériquement la formule de BS présente


la dynamique présentée en figure 5.16.
L’étude de l’ACF/PACF de la série des volatilités implicites ainsi obtenues permet de
se convaincre de l’existence de pattern ARMA dans la série (cf. figure 5.17).
L’estimation d’un modèle ARMA permet de conclure à un modèle ARMA(1,1) dont
les estimations sont fournies dans le tableau suivant :
5.2. LES MODÈLES ARMA 109

Processus de volatilité implicite


0.008
0.006
[Link]

0.004
0.002
0.000

0 50 100 150

Index

Fig. 5.16 – Volatilité implicite

Series 1 Series [Link]


1.0

0.6
0.8
0.6

0.4
Partial ACF
ACF

0.4

0.2
0.2

0.0
0.0

0 5 10 15 20 5 10 15 20

Lag Lag

Fig. 5.17 – ACF de la volatilité implicite


110CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ar1 ma1 intercept


Estimation 0,9169 -0,5431 0,0072
Ecart type 0,0483 0,1042 0,0002
T-stat 18,9834 -5,2121 36,0000

La non constance de la volatilité a des implications particulières pour la gestion de


portefeuille d’option, au nombre desquelles la courverture. La simple couverture d’un
portefeuille de sous-jacent à l’aide du vega traditionnel pose problème : la couverture
est statique alors que la volatilité, elle, est dynamique. On proposera l’utilisation des
modèles ARCH/GARCH pour permettre de prendre cet élément en compte.

Poussons tout de même l’analyse un peu plus loin. Les prix d’options génèrent en général
ce que l’on appelle un smile : la volatilité est une fonction non linéaire du strike. On
représente cette surface de volatilité en figure 5.18.

Volatilité implicite
sg[100
:120, 1
:8]
Tim
e to
ma
tur
ity

ik e
Str

Fig. 5.18 – Surface de volatilité implicite

Une piste d’explication possible pour rendre compte de cette relation est d’étudier les
composantes AR et MA de chacune des volatilité implicites. C’est ce qu’on représente
en figures 5.19 et figures 5.20 : on retrouve une relation non linéaire entre strike et
composante.
5.2. LES MODÈLES ARMA 111

Composante ar en fonction du strike


0.96
0.94
0.92
ar(1)

0.90
0.88
0.86

4000 4200 4400 4600 4800 5000

Fig. 5.19 – Relation entre strike et composante AR

Composante ma en fonction du strike


−0.3
−0.4
ma(1)

−0.5
−0.6
−0.7

4000 4200 4400 4600 4800 5000

Fig. 5.20 – Relation entre strike et composante MA


112CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.3 Les modèles ARCH-GARCH


L’ensemble des notes qui suivent visent à introduire un certain nombre de concepts
simples relatifs à la modélisation de la volatilité en finance. Il s’agit d’une problématique
essentielle, pour de nombreux champs d’étude de la finance contemporaine. Le simple
fait que la gestion de portefeuille s’appuie le plus souvent sur des algorithme espérance-
variance souligne l’importance de la construction d’indicateurs de variance correcte-
ment spécifiés. La gestion des options s’appuie également sur une étude rigoureuse de
l’évolution de la variance.

Ces dix dernières années furent l’occasion de développements importants, conduisant


à une appréhension plus claire et dans un même temps plus complexe de ce qu’est
réellement la variance du rendement d’un actif. Le lecteur soucieux d’accroitre sa culture
dans ce domaine (au delà de ces maigres notes) lira avec intérêt Poon (2005), Gourie-
roux (1992), Gourieroux and Jasiak (2001) et Wang (2003). Une revue de littérature
en français tournant autour des applications des modèles de volatilité appliqués aux
options est disponible dans Aboura (2005).

La suite du cours est constuite de la façon suivante : on s’attarde dans un premier


temps sur quelques faits stylisés en finance ainsi que sur la mesure de la volatilité des
rendements. Puis, dans un second temps, on présente simplement les modèles dédiés à
la volatilité historique des titres (modèles ARCH-GARCH). Ceci est suivi d’un retour
sur l’inférence et la prédiction de la variance sur la base d’un modèle GARCH, avant
de conclure cette section par l’étude des modèles de Duan et de Heston et Nandi visant
à évaluer des actifs contingent sur la base d’un processus de variance GARCH.

5.3.1 Présentation des faits stylisés en finance


Les séries financières présentent un certain nombre de traits caractéristiques qu’il est
nécessaire de souligner avant de passer à leur modélisation. Ces principaux faits sont
les suivants (on suit ici ce qui en est dit dans Poon (2005)[page 7-8] :

1. Les rendements ne sont pas autocorrélés, ce qui semble confirmer l’hypothèse


faible d’efficience des marchés financiers.
2. Les autocorrélations du carré et de la valeur absolue des rendements sont signifi-
catives et décroissent lentement vers 0.
3. On remarque qu’en général, la suppression des valeurs extrêmes d’une série de
rendements accroit la significativité de l’autocorrélation des rendements élévés au
carré ou pris en valeur absolue.
4. L’autocorrélation la plus forte touche les valeurs absolues des rendements : celles
relatives aux rendements élevés à une puissance quelconque sont moindres, mais
significatives. Il s’agit de l’effet de Taylor, d’après Taylor (1986).
5. L’asymétrie de la volatilité : en général, la volatilité d’un actif s’accroit lorsque le
rendements qui précèdent sont négatifs. On parle dans ce cas d’effet levier.
6. Rentabilité et volatilité pour une classe d’actif semble évoluer de pair.
5.3. LES MODÈLES ARCH-GARCH 113

7. La volatilité d’un actif manifeste en général des périodes de de volatilité impor-


tante et d’autres périodes de volatilité faibles (correspondant à ce qu’on appelle
des bear and bull market.

Cette liste est bien évidement non exhaustive. Elle a cependant le mérite de mettre en
lumière le fait que dès lors que l’on souhaite s’extraire des standards de la finance (la
marche aléatoire des théories de l’efficience et de l’évaluation d’option), il est nécessaire
de considérer l’ensemble de ces propriétés avec beaucoup d’attention.

Dans la suite de cette section, on considère un certain nombre de modèles visant à


prendre en compte (d’un point de vue purement statistique) certains de ces faits sty-
lisés de la finance.

5.3.2 Quelques mesures préliminaires de la variance


Par essence, la volatilité est un phénomène inobservable : un actif vanille (une action
par exemple) n’est cotée qu’à l’aide de son prix. Il est alors nécessaire de construire
un certain nombre de statistiques permettant de juger de la volatilité des rendements :
celle-ci, pourtant essentielle à tout modèle financier, ne s’observe pas naturellement. Il
est à noter que certaines classes d’actifs sont cotés en volatilité implicite (pour certaines
classes d’options) et qu’il existe des index de volatilité pour certains marchés : Poon
(2005) consacre ainsi son avant dernier chapitre à quelques précisions relatives au Vix,
un indice de volatilité compilé par le Chicago Board of Option Exchange. Il s’agit d’un
indice visant à capturer la volatilité du S&P 500, et à permettre un prévision de la
volatilité future de ce même indice de marché. Le mode de calcul est simple : il s’agit
d’une moyenne pondérée de la volatilité implicite des contrats d’options sur S&P500
(contre S&P100 pour son prédécesseur, le Vxo) qui présentent la spécificité d’être out
of the money. Ce nouvel index de volatilité commença a être publié en 2003 (l’ancien
fut lancé en 1993).

Le fait que ce type d’index connaissent un succès évident ne fait que souligner le besoin
qu’on les marchés financiers de disposer d’intruments de mesure de la volatilité. Ce
index est l’une des tentatives d’établissement de ces mesures et semblent relativement
robuste (cf. revue de littérature de Poon (2005)). Il ne s’agit pas de la seule façon de
faire : on propose ici deux autres tentatives plus ou moins intéressantes : l’index high-
low et le carré des rendements.

[Link] La mesure high-low


La mesure high-low de la volatilité constitue une méthode simple et relativement robuste
de mesure la volatilité : high et low désignent naturellement le plus haut et le plus bas du
cours d’un titre sur une journée de cotation. Là encore, on suppose que les rendements
sont gaussiens : on mesure la volatilité journalière à l’aide de l’estimateur suivant :

(lnHt − lnLt )2
σt2 = (5.182)
4ln2
114CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Cet estimateur est celui proposé par Bollen and Inder (2002) dans le cadre de rendement
suivant un brownien géométrique. Il s’agit d’une application d’une mesure initiallement
proposée par Parkinson (1980). Garman and Klass (1980) propose une amélioration de
la mesure de Parkinson qui prend la forme suivante :
Ht 2 pt 2
   
2
σt = 0.5 ln − 0.39 ln (5.183)
Lt pt−1
Ces estimateurs de la volatilité sont assez sensibles aux valeurs extremes, c’est à dire
aux rendements anormalement importants (qu’il s’agissent de rendement négatifs ou
positifs). L’importance de la probabilité d’occurence des événements extrèmes rend le
processus effectivement suivi par les rendements incompatibles avec la loi normale. Dans
cette mesure, les mesures H-L constitue une approximation intéressante de la variance
des rendements.

Notons finalement que ces indices H-L modélisent d’une certaine façon la variance
conditionnelle du processus des rendements : celle-ci change chaque jour. Il n’est par
conséquent pas question d’utiliser ces résultats pour modéliser la variance de l’ensemble
de la série des rendements d’un titre donnée, ce qui n’aurait de toute façon pas grand
sens.

Mesure High−Low sur S&P500


0.030
Mesure High−Low

0.015
0.000

1995 2000 2005

Time

Carré des rendements sur S&P500


Carré des rendements

0.000 0.002 0.004

1995 2000 2005

Time

Index VIX
VIX measure

0.03
0.01

1995 2000 2005

Time

Fig. 5.21 – Différentes mesures de la volatilité appliquées au S&P 500

[Link] Le carré des rendements comme mesure de variance


Avant l’introduction de larges banques de données contenant des données intraday, de
nombreux chercheurs se sont penchés sur l’utilisation d’un certain nombre de mesures
5.3. LES MODÈLES ARCH-GARCH 115

0.8 Autocorrélations de High Low


ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Autocorrélations des rendements au carré


0.8
ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Autocorrélations du VIX
0.8
ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Fig. 5.22 – ACF des différentes mesures de la volatilité appliquées au S&P 500

de la volatilité des rendements sur la base de données journalières. Par exemple, Lopez
(2001) propose le modèle suivant pour les rendements :

rt = µ + σt t (5.184)

avec t ∼ N (0, 1). On a alors :

E[rt2 |Ft−1 ] = σt2 (5.185)

Dans ce cas, le carré des rendements (en négligeant le drift) permet de mesurer la
volatilité de ces mêmes rendements. Cependant, 2t suit naturellement une loi du χ2 à
σ2
un degré de liberté, dont la médiane est 0,455 : il s’en suit que 2t est inférieur à 2t
dans plus de la moitié des cas. En effet, on a :

σt2 σt2
   
2 2 2
P rt < = P σt t < (5.186)
2 2
 
2 1
= P t < (5.187)
2
= 0.52 (5.188)

Autrement dit, le carré des rendements (en l’absence de drift) est un estimateur sans
biais de la variance des rendements. Cependant, dans plus de la moitié des cas, il sous-
estime la variance des résidus. Ce résultat semble s’affaiblir lorsqu’on utilise le carré
des rendements toutes les 5 minutes plutot que le carré des rendements journaliers.
116CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.3.3 Présentation des modèles ARCH-GARCH


Les processus ARCH visent également à rendre compte du fait que la variance condi-
tionnelle n’est pas constante et proposent une façon de l’estimer basée sur le carré des
rendements. D’après ce qui vient d’être dit, on traitera cette classe de modèle avec
méfiance : il est possible que la volatilité soit non constante au cours du temps, mais
qu’un modèle ARCH - ou leur généralisation GARCH - ne captent pas cet effet, voire
concluent dans certains cas à l’absence de dépendance temporelle dans les rendements.

On présente dans ce qui suit les modèles ARCH et GARCH ainsi que leurs principales
propriétés.

[Link] Pour commencer...


On a modélisé jusqu’à présent l’espérance conditionnelle dans le cadre de modèles
linéaires simples (les modèles ARMA). Ces modèles ne sont guères applicables en fi-
nance car :

– La théorie financière repose sur la martingalité des prix : l’autocorrélation entre le


rendement à la date t et à la date t − 1 est une abhération financière, qui disparait
peu à peu des rendements, à mesure que les marchés se liquéfient. Certains marchés
comme les commodities (IPE BRENT par exemple) continuent d’exhiber de l’auto-
corrélation dans les rendements.
– Ces modèles reposent sur l’hypothèse de constance de la variance conditionnelle : dans
les séries financières, la volatilité est généralement une fonction du temps. Il suffit
d’étudier le processus de volatilité implicite d’une option pour se rendre compte de
sa dépendance temporelle. C’est ce qu’on a observé à la fin de la section précédente.

Une façon simple d’illustrer les dangers liés à l’utilisation des rendements au carré pour
mesurer la volatilité consiste à simuler un AR(1) et à représenter le carré du processus,
en le confrontant à une série financière. L’illusion est parfaite : on aurait presque l’im-
pression que les deux séries sont issues du même processus. C’est ce qu’on observe sur
la figure 5.23.

Enfin, on est également à la recherche de modèles statistiques pour les rendements qui
permettent de générer de la leptokurticité, i.e. des distributions à queues épaisses. On
remarque en général que les séries financières présentent une kurtosis supérieure à 3,
signifiant simplement que les queues de distribution de ces séries sont en général plus
épaisses que celles de la loi normale.

Ce dernier fait a des implications importantes en terme de Risk Management, notam-


ment au travers du calcul très simple de la Value at Risk. La VaR est simplement le
quantile de la loi des rendements à x% : il suffit de calculer ce quantile pour différents x
et sur différentes lois pour se rendre compte de l’importance des queues de distribution.
Le tableau 5.1 propose trois type de lois : la loi normale, qui n’est ni leptokutique, ni
asymétrique ; la loi de Student qui est leptokutique, mais symétrique ; la loi de Laplace
qui dans ce cas précis est à la fois leptokurtique et asymétrique (la queue basse est plus
5.3. LES MODÈLES ARCH-GARCH 117

Rendements du DAX au carré

4 e−04
carré

0 e+00

0 50 100 150

Temps

ARMA au carré
12
8
carré

4
0

0 50 100 150

Temps

Fig. 5.23 – Rendements au carré et erreurs de mesure

0% 5% 10% 50% 90% 95% 100%


Loi normale -2,95 -1,62 -1,25 0,01 1,31 1,69 3,16
Loi de Student -4,26 -1,76 -1,37 0,02 1,30 1,75 4,73
Loi Laplace -13,89 -4,18 -3,15 0,08 1,79 2,42 5,27

Tab. 5.1 – Quantiles de différentes loi de moyenne nulle

épaisse que la queue haute). Les densités empiriques de ces trois lois sont présentées
en figure 5.24. La VaR calculée pour différents seuils permet de se faire une idée plus
précise des risques liés à calculer une VaR sur une hypothèse de gaussiannité des ren-
dements, quand ceux-ci admettent des queues épaisses et/ou asymétriques.

La table 5.2 fournit une autre illustration de ces propriétés des séries financières : on
présente espérance, écart type (volatilité), skewness et kurtosis des rendements de l’in-
dice DAX ainsi que de divers call européens de strike différents, ayant tous le DAX
pour sous-jacent. On remarque tout à fait l’existence de queues épaisses ainsi que d’une
asymétrie.

Espérance Variance Skewness Kurtosis


DAX 0,001 0,007 -0,394 3,924
Option strike 4800 -0,001 0,173 -0,19 3,485
Option strike 4600 0,003 0,124 -0,131 3,599
Option strike 4400 0,004 0,09 -0,149 3,95
Option strike 4000 0,003 0,052 -0,268 4,241

Tab. 5.2 – Statistiques des rendements


118CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Notons pour terminer cette section fourre-tout que ce qui vient d’être dit n’a pas que des
implications pour le risk-management, mais aussi pour l’asset pricing. A peu de choses
pret, comme le souligne très justement Cochrane (2002), le prix d’un actif est toujours
et partout une espérance sous loi risque neutre actualisée. Dans le cas où les rendements
sont gaussiens, la formule de Black Scholes semble tenir et est largement utilisée dans
de nombreux domaines, dont les options sur action et les produits de taux. Cependant,
l’existence des faits styliés qui viennent d’être mis en avant peut conduire à d’impor-
tantes erreurs de pricing : le modèle BS avec rendements GARCH introduit par Duan
et par Heston et Nandi semble conduire à des prix d’option plus proche de la réalité que
les prix BS standards. Ceci a d’importantes implications en terme d’asset management.

Densités
0.5
0.4
0.3
Density

0.2
0.1
0.0

−15 −10 −5 0 5 10

N = 1000 Bandwidth = 0.348

Fig. 5.24 – Densité de la loi de Laplace (rouge), normale (bleu) et Student (vert)

[Link] Introduction aux modèles ARCH-GARCH


[Link].1 La cas d’un ARCH(1)
Les modèles furent initiallement proposés par Engle (1982) et Bollerslev (1986), Tim
Bollerslev étant le thésard de Robert Engle. Le premier modèle fut celui de Engle,
et visait à obtenir une modélisation de la variance conditionnelle de l’inflation (en
glissement mensuel) de la Grande Bretagne. Un modèle ARCH(1) est de la forme :
 √
xt = ht t
(5.189)
ht = ω0 + ω1 x2t−1
avec t ∼ N (0, 1). ht représente la variance conditionnelle du processus xt . Les moments
conditionnels sont les suivants :
p
E[xt |ht ] = E[ ht t |ht ] (5.190)
p
= ht E[t |ht ] (5.191)
=0 (5.192)
5.3. LES MODÈLES ARCH-GARCH 119

Il s’agit donc encore de processus applicables à des séries préalablement centrées, comme
dans le cas des ARMA. Notons que les séries des rendements sont théoriquement na-
turellement centrées : il s’agit simplement d’une conséquence de la martingalité des prix.

La variance conditionnelle n’a plus rien à voir avec celle des ARMA :
p
V[xt |ht ] = V[ ht t |ht ] (5.193)
= ht V[t |ht ] (5.194)
= ht E[2t |ht ] (5.195)
| {z }
=1 par hypothèse

= ht (5.196)

Ainsi, contrairement aux modèles ARMA, la variance conditionnelle d’un processus


ARCH n’est pas constante au cours du temps. C’est ce qui fait tout l’intérêt de ces
processus, notamment pour les séries financières. Gardons cependant à l’esprit que ces
modèles s’appuie sur une mesure de la variance proche de x2t . En effet, on a :

E[x2t |ht ] = E[ht 2t |ht ] = ht (5.197)

Ceci tient simplement au fait que xt soit naturellement un processus centré. Si ces
modèles semblent d’un abord pratiques, il n’en reste pas moins qu’il produisent natu-
rellement des erreurs de mesure sur la volatilité.

Le calcul des moments non conditionnels permet de déterminer quelques conditions à


remplir afin de s’assurer de la stationnarité du processus. On détermine l’espérance à
l’aide de la loi des espérances itérées :

E[xt ] = E[E[xt |ht ]] (5.198)


= E[0] (5.199)
=0 (5.200)

Pour ce qui de la variance, il est possible de procéder par récurrence. Utilisons tout
d’abord la loi de la décomposition de la variance :

V[xt ] = E[V[xt |ht ]] + V[E[xt |ht ]] (5.201)


= E[ht ] + 0 (5.202)

On en déduit alors l’équation suivante :

V[xt ] = E[ht ] (5.203)


= E[ω0 + ω1 x2t−1 ] (5.204)
= ω0 + ω1 E[x2t−1 ] (5.205)
= ω0 + ω1 V[xt−1 ] (5.206)

On obtient ainsi une formule de récurrence permettant de déterminer la variance non


conditionnelle du processus. Il suffit, pour y parvenir, d’itérer la formule n fois, puis,
120CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

comme dans le cas des ARMA, de passer à la limite. On sait que :


V[xt ] = ω0 + ω1 V[xt−1 ] (5.207)
V[xt−1 ] = ω0 + ω1 V[xt−2 ] (5.208)
V[xt−2 ] = ω0 + ω1 V[xt−3 ] (5.209)
D’où :
V[xt ] = ω0 + ω1 (ω0 + ω1 (ω0 + ω1 V[xt−3 ])) (5.210)
= ω0 (1 + ω1 + ω12 ) + ω13 V[xt−3 ] (5.211)
D’où la formule générale :
n
!
X
V[xt ] = ω0 1+ ω1i + ω1n+1 V[xt−(n+1) ] (5.212)
i=1
n
!
X
= ω0 ω1i + ω1n+1 V[xt−(n+1) ] (5.213)
i=0

D’où si |ω1 | < 1, on a, lorsque n → ∞ :


ω0
V[xt ] = (5.214)
1 − ω1
Cette dernière condition est nécessaire pour assurer l’existence de la variance, c’est à
dire :
V[xt ] < ∞ (5.215)
Cette condition est nécessaire pour obtenir un processus stationnaire (variance finie et
indépendante du temps). Il est nécessaire d’imposer une seconde condition : la variance
conditionnelle et non conditionnelle doivent être naturellement positives (la variance
est le carré de l’écart type). La positivité de la variance conditionelle implique naturel-
lement que :
ω0 > 0 (5.216)
ω1 > 0 (5.217)
Ces deux conditions impliquent naturellement que la variance non conditionnelle, dotée
de la condition |ω1 | < 1, soit positive. Remarquons finalement que, dans le cadre d’un
processus ARCH, la variance conditionnelle ne coincide pas avec la variance non condi-
tionnelle, ce qui est précisément ce que nous recherchions.

Ultime propriété d’un processus ARCH(1), il est possible de montrer que le carré du
processus admet une représentation AR(1). On suit ici ce qui en est dit dans Poon
(2005)[Chapitre 4]. Notons νt la différence entre x2t et ht . On a alors :
ht = ω0 + ω1 x2t−1 (5.218)
⇔x2t − νt = ω0 + ω1 x2t−1 (5.219)
⇔x2t = ω0 + ω1 x2t−1 + νt (5.220)
On retrouve ainsi un processus AR(1) sur les carrés des résidus. Ceci a plusieurs impli-
cations pratiques :
5.3. LES MODÈLES ARCH-GARCH 121

– D’une part, un processus ARCH(1) ne semble pas saisir de façon adéquate les proces-
sus de volatilité financière : on a vu lors des applications des processus ARMA que
la volatilité de certains actifs semble présenter une structure plus proche des ARMA
(retour à la moyenne en cas de choc importants) que des AR. Il sera donc nécessaire
de complexifier légèrement la chose, afin d’accomoder cette caractéristique empirique.

– Seconde implications pratique, l’identification d’un ARCH(1) ne doit pas poser de


problème, si l’on s’appuie sur ce qui a été dit plus haut au sujet des AR : il suffit
d’étudier les fonctions d’autocorrélations simple et partielle pour se faire une idée de
l’ordre du processus à retenir. On étudiera ceci au cours des applications empiriques
proposées plus loin.

[Link].2 Les modèles ARCH(p)


Ce qui vient d’être dit au sujet des ARCH(1) peut se généraliser aisément au cas des
processus ARCH(p). Un processus ARCH(p) est un processus xt qui est de la forme :
p
xt = ht t (5.221)
p
X
ht = ω0 + ω1,i x2t−i (5.222)
i=1

avec  ∼ N (O, 1).

Comme précécement, on fournit les moments conditionnels :

E[xt |xt−1 ] = 0 (5.223)


V[xt |xt−1 ] = ht (5.224)

Conditionnellement à l’information disponible à la date t, un processus GARCH est


un processus de moyenne (conditionnelle) nulle et de variance égale à ht . Qu’en est il
des moments non-conditionnels ? L’espérance ne pose pas de problème, à la condition
d’utiliser la loi des espérances itérées :

E[xt ] = 0 (5.225)

Pour ce qui est la variance, il est ici nécessaire de déterminer, comme précédement,
une formule de récurrence pour parvenir finalement à exprimer la variance en passant
àP
la limite. On ne refait pas ici les calculs : on se contente de fournir le résultat. Si
| pi=1 ω1,i | < 1, alors la variance du processus existe et est de la forme :
ω
V[xt ] = Pp0 (5.226)
1− i=1 ω1,i

[Link].3 Leptokurticité des processus ARCH(p)


Une propriété essentielle des processus ARCH est qu’ils génèrent des séries leptokur-
tiques. Il s’agit d’une propriété intéressante dans la mesure où conditionnellement, un
processus ARCH est gaussien ! Ceci signifie qu’il n’est pas forcément nécessaire d’aller
chercher des lois complexes ou méconnues pour rendre compte de la leptokurticité des
122CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

séries.

Il suffit donc de prouver que la kurtosis d’un processus ARCH est supérieure à 3. La
preuve est simplissime et s’appuie sur le lemme de Jensen.

Rappel 3. Soit f (x) une fonction convexe en x. On a alors :

E [f (x)] > f (E[x]) (5.227)

La preuve d’établit comme suit, en se souvenant que f (x) = x2 est bien convexe : soit
xt un processus ARCH(p) donné. Sa kurtosis est alors :

E[x4t ]
Ku (x) = (5.228)
E[x2t ]2

car xt est un processus centré. En appliquant le lemme des espérances itérées au


numérateur, il vient :

E[x4t ] = E E[x4t |xt−1 ]


 
(5.229)
= E E[h2t 4t |xt−1 ]
 
(5.230)
= E h2t E[4t |xt−1 ]
 
(5.231)
= E 3h2t
 
(5.232)
= 3E h2t
 
(5.233)

Cette dernière égalité tient au fait que t suit une N (0, 1) donc la kurtosis est égale à 3.
Dans la mesure où sa variance est égale à 1, constatons simplement que le dénominateur
de la kurtosis est toujours égal à 1 pour une N (0, 1). D’où le résultat proposé. En
utilisant Jensen, on a alors :

E[x4t ] = 3E h2t > 3E [ht ]2


 
(5.234)

La preuve s’achève en remarquant que :

E[x2t ]2 = E[ht 2t ]2 (5.235)


2
= E E[ht 2t |xt−1 ]

(5.236)
2
= E ht E[2t |xt−1 ]

(5.237)
2
= E [ht ] (5.238)

En réinjectant ceci dans l’expression de la kurtosis, on prouve finalement :

E[x4t ] E [ht ]2
Ku (x) = > 3 =3 (5.239)
E[x2t ]2 E [ht ]2

CQFD.
5.3. LES MODÈLES ARCH-GARCH 123

[Link].4 Quid de l’asymétrie ?


Les processus ARCH seraient parfaitement adaptés à la finance si ils étaient de plus
capable de générer de l’asymétrie. On mesure d’ordinaire l’asymétrie à l’aide de la
skweness :
E[x3t ]
Sk = (5.240)
V[xt ]3/2

Ceci est bien évidement vrai dans le cas où les séries sont centrées, comme c’est le
cas pour les processus ARCH. Pour montrer que les processus GARCH ne sont pas
asymétriques, il suffit de montrer que le numérateur est nul dans le cas d’un ARCH(p) :

E[x3t ] = E[E[x3t |xt−1 , xt−2 , ...]] (5.241)


3/2
= E[E[ht 3t |xt−1 , xt−2 , ...]] (5.242)
3/2
= E[ht E[3t |xt−1 , xt−2 , ...]] (5.243)
3/2
= E[ht × 0] (5.244)
=0 (5.245)

Non, les processus ARCH ne permettent pas de prendre en compte tous les faits stylisés
de la finance : seule la leptokurticité est prise en compte.

[Link] Les modèles GARCH


Les modèles GARCH forment un légère complexification des modèles ARCH : on ajoute
au processus de la variance les q valeurs passées de la variance, telle qu’elle est estimée
par le modèle.

[Link].1 Le cas d’un GARCH(1,1)


Un modèle GARCH(1,1) s’écrit de la façon suivante :
p
xt = ht t (5.246)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.247)

où t ∼ N (0, 1). Comme précédement, on donne les moments conditionnels, à partir des-
quels on fournira finalement les moments non conditionnels par itération. L’espérance
conditionnelle du processus est la suivante :

E[xt |Ft ] = 0 (5.248)

où Ft est la filtration engendrée par les valeurs passées de xt , de x2t et de ht . La variance
conditionnelle est alors :
p
V[xt |Ft ] = V[ ht t |Ft ] (5.249)
p
= ht V[t |Ft ] (5.250)
= ht (5.251)
124CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ht étant Ft mesurable. On détermine à présent les deux premiers moments conditionnels


du processus. L’espérance s’obtient simplement à partir de la loi des espérances itérées :

E[xt ] = E[E[xt |Ft ]] (5.252)


=0 (5.253)

Pour ce qui est de la variance non conditionnelle, on procède comme précédement, par
itération. On sait que :

E[x2t ] = E[ht ] (5.254)


= E[ω0 + ω1 x2t−1 + ω2 ht−1 ] (5.255)
= ω0 + ω1 E[x2t−1 ] + ω2 E[ht−1 ] (5.256)

Or, on sait que E[x2t−1 ] = E[ht−1 ]. On peut donc réécrire la précédente égalité de la
façon suivante :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.257)

Comme précédement, on écrit cette formule de récurrence pour différents ordres :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.258)


E[x2t−1 ] = ω0 + (ω1 + ω2 )E[x2t−2 ] (5.259)
E[x2t−2 ] = ω0 + (ω1 + ω2 )E[x2t−3 ] (5.260)

On trouve donc une formule de récurrence à l’ordre n suivante :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.261)


= ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )E[x2t−3 ])) (5.262)
= ω0 + (ω1 + ω2 )ω0 + (ω1 + ω2 )2 ω0 + (ω1 + ω2 )3 E[x2t−3 ] (5.263)

d’où pour n itération, on a la formule suivante :

E[x2t ] = ω0 [1 + (ω1 + ω2 ) + (ω1 + ω2 )2 + ...] + (ω1 + ω2 )n E[x2t−n ] (5.264)


n−1
X
= ω0 (ω1 + ω2 )i + (ω1 + ω2 )n E[x2t−n ] (5.265)
i=0

Comme précédement, à la condition que |ω1 + ω2 | < 1, la série engendrée admet une
limite (la variance existe) conduit à :
ω0
E[x2t ] = (5.266)
1 − (ω1 + ω2 )

La positivité de la variance est assurée si ω0 est du même signe que 1 − (ω1 + ω2 ).

On retrouve les mêmes propriétés de leptokurticité que pour les processus ARCH. On
le montre de la même façon que précédement, en utilisant le lemme de Jensen. En
5.3. LES MODÈLES ARCH-GARCH 125

travaillant avec le quatrième moment du processus, il vient :

E[x4t ] = E[E[x4t |ht ]] (5.267)


= E[E[h2t 4t |ht ]] (5.268)
= E[h2t E[4t |ht ]] (5.269)
= E[3h2t ] (5.270)
= 3E[h2t ] ≥ 3E[ht ]2 (5.271)

En divisant la dernière inégalité par E[ht ]2 , on retrouve la kurtosis à gauche, et le


résultat souhaité à droite. On a alors :
E[x4t ]
≥3 (5.272)
E[ht ]2

Si les GARCH sont à même de générer de la leptokurticité, ils sont en revanche incapable
de générer de l’asymétrie. On le montre de la même façon que précédement, en utilisant
la loi des espérances itérées :
p
E[x3t ] = E[( ht t )3 ] (5.273)
p 3
= E[ ht E[3t |ht ]] (5.274)
p 3
= E[ ht × 0] (5.275)
=0 (5.276)

[Link].2 Les processus GARCH(p,q)


Un processus GARCH(p,q) se note de la façon suivante :
p
xt = ht t (5.277)
p
X q
X
h t = ω0 + αi x2t−i + (5.278)
i=1 i=1

avec t ∼ N (0, 1). Cette généralisation des GARCH(1,1) ne sera pas utilisée par la
suite : le lecteur soucieux d’aller jusqu’au bout des calculs pourra appliquer ce qui a
été fait précédement pour les ARCH(p).

5.3.4 Inférence des modèles ARCH-GARCH


[Link] Le cas d’un ARCH(1)
Comme précédement (pour les processus ARMA), on montre ici quelques rudiments
nécessaires à l’estimation des ARCH(1). Il est essentiel de présenter les méthodes d’es-
timations, et de ne pas s’en remettre au fait que les logiciels de statistiques permettent
une implémentation des ARCH sans connaissances particulières : l’interprétation des
résultats ou la compréhension même des problèmes de convergence des estimateurs
n’ont rien de trivial, comme de trop nombreux utilisateurs le pensent.
126CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Sur le plan technique, l’estimation des ARCH n’est guère plus complexe que les ARMA :
là encore, le processus xt n’est pas i.i.d. et il est nécessaire de travailler conditionnel-
lement au passé de xt et de ht , afin d’obtenir un processus i.i.d.. On connait les mo-
ments conditionnels d’un processus ARCH : celui-ci est conditionnellement gaussien,
d’espérance nulle et de variance égale à ht . Le problème ici, comme dans le cas des
MA, est que la variance est ”inobservable” : on a besoin des paramètres du proces-
sus ARCH pour obtenir la variance conditionnelle du processus. Comme précédement,
la seule façon d’estimer ce type de processus est d’écrire la log-vraisemblance, puis
de déterminer l’ensemble des dérivées dont on a besoin pour l’implémentation des
méthodes numériques décrites au chapitre 5.

La loi conditionnelle de xt conduit à la vraisemblance suivante :


x2
 
1
Li = √ exp − t (5.279)
2πht 2ht
La vraisemblance s’obtient en faisant le produit des différents Li :
n
x2t
 
Y 1
L= √ exp − (5.280)
2πht 2ht
i=1

et la log-vraisemblance concentrée est alors :


n n
1X 1 X x2t
lnL = − log(ht ) − (5.281)
2 2 ht
i=1 i=1

La méthode de Newton-Raphson s’appuie sur les dérivées premières qui s’obtiennent


comme suit, pour un paramètre θ donné :
n
∂lnL 1 X ∂ht /∂θ ∂ht x2t
=− − (5.282)
∂θ 2 ht ∂θ h2t
i=1
n
x2t
 
1 X ∂ht 1
=− 1− (5.283)
2 ∂θ ht ht
i=1

x2
En remarquant dans le précédent réarrangement que htt = 2t , on trouve alors qu’à
l’optimum, le score est nul. On rappelle que le score est l’espérance de la dérivée de la
log-vraisemblance. En effet, on a, d’après ce qui vient d’être dit :
 2
x
E t = E[2t ] = 1 (5.284)
ht
Afin d’obtenir les dérivées de la log-vraisemblance, il ne reste qu’à obtenir les dérivées
de la variance conditionnelle par rapport à chacun des paramètres. Elles se calculent
aisément :
∂ht
=1 (5.285)
∂ω0
∂ht
= x2t−1 (5.286)
∂ω1
5.3. LES MODÈLES ARCH-GARCH 127

On trouve donc finalement les dérivées de la log-vraisemblance suivantes :


n
x2t
 
∂lnL 1X 1
=− 1− (5.287)
∂ω0 2 ht ht
i=1
n
1 X x2t−1 x2
 
∂lnL
=− 1− t (5.288)
∂θ 2 ht ht
i=1

On est alors en mesure de mettre en oeuvre ce qui a été présenté dans le cadre du cha-
pitre 5 : l’estimation se fait généralement par Newton-Raphson, en utilisant la matrice
BHHH comme approximation de la variance de l’estimateur des paramètres. Il est ce-
pendant nécessaire d’en dire un peu plus : on a fait l’hypothèse que l’erreur du modèle
(t )suivait une loi normale. Qu’en est il si tel n’est pas le cas ? Greene (2002)[Cha-
pitre 11] revient sur les implications de cette hypothèse : comme on l’a déjà précisé
précédement, l’estimation par maximum de vraisemblance conditionel avec bruit gaus-
sien conduit à l’obtention d’estimateurs consistent (i.e. qui converge presque surement
vers les vraies valeurs des paramètres). Dans ce cas, on parle de Pseudo Maximum de
Vraisemblance. Gourieroux et al. (1984) remarquent cependant que l’estimation de la
matrice de variance/covariance des estimateurs par l’inverse de la matrice d’information
de Fisher n’est pas bonne. Il est nécessaire d’uiliser l’approximation suivante :

V[θ] = H −1 F H −1 (5.289)

avec :
∂ 2 lnL
 
H = −E (5.290)
∂θ∂θT
 
∂lnL ∂lnL
F =E (5.291)
∂θ ∂θT
On remarque que la matrice 2 × 2 F est l’estimateur BHHH présenté au chapitre 5.
La matrice F est en général très simple à calculer, puisque prise en espérance. Il suffit
pour cela de déterminer les dérivées secondes de la log-vraisemblance. Dans le cas d’un
ARCH(1), les calculs conduisent généralement aux résultats suivants :
n
∂ 2 lnL
 2 
1X 1 xt
=− 2 −1 (5.292)
∂ω02 2
i=1 t
h2 ht
n
∂ 2 lnL 1 X x2t−1 x2t
 
=− 2 −1 (5.293)
∂ω0 ∂ω1 2
i=1
h2t ht
n
∂ 2 lnL 1 X x4t−1 x2t
 
=− 2 −1 (5.294)
∂∂ω12 2
i=1
h2t ht

On ne calcule que l’une des dérivées croisées, dans la mesure où le lemme de Monge
s’applique sans problème. En prenant l’espérance de ces dernières dérivées, et en re-
x2
marquant encore une fois que E[ htt ] = 1, on obtient la matrice F :
 
x2
− 21 ni=1 h12 − 21 ni=1 ht2
P P
F =  1 Pn x2t t 
x4 (5.295)
− 2 i=1 ht2 − 21 ni=1 ht2
P
t t
128CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On sait de plus calculer la matrice BHHH à partir des dérivées premières : on est alors
en mesure d’estimer un modèle ARCH sans trop de difficulté. Dans la réalité (et dans
R), l’estimation ne passe pas par Newton Raphson, mais par une méthode plus complexe
garantissant de meilleurs résultats : la méthode BFGS. Celle-ci n’est pas développée ici.

[Link] Le cas d’un GARCH(1,1)


Tout ce qui vient d’être dit précédement au sujet de l’estimation des ARCH s’applique
de la même façon aux modèles GARCH. La vraisemblance conditionnelle s’écrit encore
une fois en constatant que la loi conditionnelle de xt sachant ht est connue :

xt |ht ∼ N (0, ht ) (5.296)

Il s’agit donc du même point de départ qu’on modèle ARCH(1). L’estimation d’un
modèle GARCH(1,1) nécessite cependant le calcul d’une dérivée première supplémentaire :

∂ht
= ht−1 (5.297)
∂ω2
On obtient alors les dérivées de la vraisemblance suivantes :
n
x2t
 
∂lnL 1X 1
=− 1− (5.298)
∂ω0 2 ht ht
i=1
n
1 X x2t−1 x2
 
∂lnL
=− 1− t (5.299)
∂ω1 2 ht ht
i=1
n
x2
 
∂lnL 1 X ht−1
=− 1− t (5.300)
∂ω2 2 ht ht
i=1

On laisse à titre d’exercice le calcul des dérivées secondes. On renvoie à VonSachs and
VanBellegem (2002) pour plus de précisions au sujet de l’estimation des GARCH. On
propose le code R suivant, stricte application de ce qui vient d’être dit : il s’agit d’un
code permettant d’estimer un GARCH(1,1) par Newton Raphson, avec matrice BHHH.

[Link]<-function(theta,x){
G=matrix(1,3,1)
n=nrow(x)
check=theta
j=1;
while(sum(G^2)>0.0001){
# Computation of sigma2
sigma2=matrix(theta[1,1],n,1);
for (i in 2:n){sigma2[i,1]=theta[1,1]+theta[2,1]*sigma2[(i-1),1]+theta[3,1]*x[(i-1),1]^2}
comp=[Link]((x^2-sigma2)/sigma2^2);
BHHH=cbind(comp[2:n,1],comp[2:n,1]*sigma2[1:(n-1),1],comp[2:n,1]*x[1:(n-1),1]^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
5.3. LES MODÈLES ARCH-GARCH 129

G[3,1]=sum(BHHH[,3]);
cat(j,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
j=j+1
}
var=sqrt(diag(solve(H)));
test=theta/var
return(list(theta=theta,check=check, test=test))
}

5.3.5 Premières Applications


Avant de se lancer dans des applications plus complexes utilisant quelques raffinements
des modèles GARCH, on présente une application simple, visant à estimer un modèle
GARCH sur les rentabilités mensuelles de l’indice DAX.

[Link] Etude de la volatilité sous-jacente de l’indice DAX

La figure 5.25 présente l’évolution de la rentabilité journlières du DAX depuis 2000,


avec ses ACF et PACF. On remarque les quelques faits stylisés présentés plus haut :
existence d’agrégats de volatilité et faiblesse de l’autocorrélation dans les rendements.
Ce dernier point appelle à commentaire : l’existence d’une légère autocorrélation est en
général le fait des séries longues. Celle-ci disparait aisément à mesure que l’on réduit la
taille de l’échantillon et/ou que l’on utilise des données plus récentes. Quoiqu’il arrive,
les prix des actifs sont en général martingale, et rien d’autre.

On étudie naturellement les ACF et PACF des rendements élevés au carré sur la fi-
gure 5.26. On remarque ce qui a été dit plus haut : l’autocorrélation dans les rende-
ments au carré décroit lentement et la PACF admet quelques valeurs significativement
différentes de 0. Ceci suggère naturellement l’estimation d’un modèle GARCH avec un
ordre faible. On choisit ici délibérément un GARCH(1,1), en utilisant la fonction R
fournie précédement.

La table [Link] fournit les estimations d’un modèle GARCH(1,1) sur nos données. On
remarque l’ensemble des paramètres est significatif à 95%. La figure 5.27 présente les
résidus du modèle GARCH. On rappelle que les résidus d’un GARCH sont données
par √xht et non par l’écart entre le modèle et les résidus. On constate que ces résidus
t
ne présentent presque plus de phénomènes de cluster de volatilité. En revanche l’étude
de la PACF et de l’ACF du carré des résidus (figure 5.28) conclue naturellement à
l’insuffisance de l’ordre du GARCH choisit : il subsiste encore de la corrélation.

La figure 5.29 fournit l’évolution de la variance conditionnelle du DAX : encore une


fois, la volatilité est une composante inobservable et les modèles GARCH constituent
une approxiamtion permettant de la mettre à jour.
130CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Rendements du DAX depuis 2000


Rendements DAX

0.05
−0.05

2000 2001 2002 2003 2004 2005 2006

Time

ACF des rendements du DAX


0.8
ACF

0.4
0.0

0.00 0.02 0.04 0.06 0.08 0.10 0.12

Lag

PACF des rendements du DAX


Partial ACF

0.05
−0.05

0.00 0.02 0.04 0.06 0.08 0.10 0.12

Lag

Fig. 5.25 – Rendements du DAX depuis 2000 : chronique, ACF et PACF

ACF des rendements du DAX au carré


0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

PACF des rendements du DAX au carré


0.15
Partial ACF

0.05
−0.05

0 5 10 15 20 25 30

Lag

Fig. 5.26 – ACF et PACF des rendements du DAX élevés au carré


5.3. LES MODÈLES ARCH-GARCH 131

rend

● ● ●
0.05

● ●●
● ● ●
● ● ●
●● ● ●●
●●● ●● ●
●●●● ●● ● ● ● ● ● ● ●
●●
● ● ● ● ●● ●● ●●●●● ● ●●●●● ●
●● ●● ● ●● ● ●
● ●●●● ● ● ●●● ● ● ●●
●● ●● ●● ● ● ● ●● ● ●●●● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●●● ●

●●● ● ●● ●
Series

●●● ●●●● ●● ●● ● ●●● ●●● ● ●● ●●●●● ● ●● ●●● ●● ● ●●



●●
●●●●●●
●● ●● ●●
●● ●●●● ●

●●●

●●● ●
●●●●●● ●●●●● ●
●●●●● ●
●●●
●● ● ●● ●

●●●●● ●● ●●●● ●●●
●● ●
●●

●●● ●●●●●
● ●● ●●
●●
● ●●●
●●
●●● ●
●●●● ●

●● ● ● ●●●
● ●●
●● ● ● ●● ●
● ● ● ●
●●●
● ●● ● ●●●●
● ●●● ● ●●●
● ● ● ●● ●●●

●●●
●●●
● ●


●●●●●
●●●
● ●
●●

●●●

● ●

●●






●●●●
●●
●●●

●●
●●●
●●

●● ●●●
●●
●●





●●




●●

●●●

●●
● ●

●●
●●●
●●
● ●
●●
●●



● ●


●● ●●●


● ●

●●





●●
●● ●●

●●






●●●●

● ●
●●


●●● ●●● ●
●●
● ●● ●
●●

●●●●●●●
●●
● ●●●

●●



●●

●●●

●●




●●
●●

●●●


●●

●●●



●●

●●

●●

●●
●●
●●
●●

●●
●●




●●●●



●●●
●●
●●●



●●


●●
●●




●●





●●
●●
●●●

●●●

●●










●●
●●

●●
● ●

●●

●●



●●●●


●●
●●


●●

●●

●●
●●



●●


●●







●●

●●
●●

●●






●●










●●














● ●


●●


●●
●●●
●●




●●
● ●






●●


●●
●●











●●
●●●


●●
●●









●●

●●




●●


● ●
● ●● ●●
●●


●●●






●●
●●

●●
●●●●

●●●
●●


●●

●●
●●

●●







● ●●●
●●●●
●●






●●
●●●
●●●

●●

●●


●●●●●●





●●
●●●●

●●

●●

●●●
●●●



●● ●
● ●
●● ● ●



●●●●
●●●●
●● ●
●●●●

●●●

●●●


●●●●

●●







●●


● ●


●●
● ●
●●●
●●●

●●

● ● ●
● ●
●●●●

●●
●●
●●
● ●
●●●
●●●●●
●●
●●●●


●●
●●●
●●●

●●●



●●

●●●
●●
●●●

● ●●


●●
●●
● ●●
●●●


●●
●●
●●

●●



●●


●●




●●


















●●●●
●●●
●●●●


● ●●●●


●●
●●
●●●


●●●

●●


● ●
●●

●●●

●●●●
●●
●●
● ●



●●

●●






●●●

●●●●●● ●

● ●
●●

● ● ●
●●

●●
●●
●●●
●●



● ●●
● ●●
●● ● ●
●●● ●
● ●● ●
● ● ● ● ●● ●
● ● ●● ●
● ● ●●
●●●● ● ● ● ● ●
●● ●

●●●● ● ●


●●●
●●●●
●● ● ●
●●
●●●●●●
●●●

●● ● ●
●●
● ●●
●●
●●
●●●
● ●●● ●●●●


●● ●●●● ● ● ●● ● ●
● ● ●●● ●● ●●
● ● ● ●● ●



● ●● ●● ● ● ●● ● ●
●● ●● ●●●●● ● ●● ●
● ● ● ●●● ● ● ● ●●
● ●● ●● ● ● ●
−0.05

● ●● ● ● ●●●● ● ● ●
●● ● ● ● ●
●● ●

● ● ●●●
● ●


0 500 1000 1500

Index

Residuals

● ● ● ●
● ● ● ● ●● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ● ●● ●● ● ●●● ● ●
●● ●● ● ● ●●● ●●
2

● ●● ● ●●● ● ● ● ● ●●● ● ● ● ● ●● ●
●●● ● ●● ● ●● ●● ● ●● ● ● ●● ●●● ●●
●●●●● ●●
● ●● ● ● ● ●
●●● ●● ●● ●● ● ●
● ●● ●●● ● ●
● ● ●●● ● ●●
●●●

●●● ●
●● ● ●
●●● ● ● ● ●● ● ●● ● ● ● ●● ●●● ●●●
●● ●●●● ●● ●
●●●●●●● ●● ● ●● ●● ●●●●● ● ●● ● ●●●●●●● ● ●●
●●●●●
● ●● ● ●●● ●● ●
●●
●●●●

●● ●●
● ●●●
●●● ●
● ● ●●
●● ●
● ● ●● ● ●●
● ● ●
● ●●
●●
●● ●● ●●
●● ● ●●● ● ● ● ●●●●
● ● ● ●● ● ●

● ●●
●●●
● ●●●● ●
● ●●
●●●

●●
●● ●●
●●
●●



● ●● ●●
● ● ●● ● ●
● ● ●
● ●●●●
● ●● ●●● ● ●●
●●●●● ●●●

● ● ●● ● ●● ●●
● ●●


● ●
● ● ● ● ●● ●
● ●●● ●
●●●
● ●●● ●
●●● ●● ●● ● ●●● ●
● ●●
●●●●● ●
●●● ●●● ●●
●● ●

●● ●●●● ●
●● ● ●● ● ●●●
● ● ●● ●●
●●● ● ●●
● ● ●●● ● ●●● ●●
●● ●●●●● ●
●● ●●●● ● ●●
●●●●●
● ● ● ● ●
●● ●
● ● ●
● ● ● ●●●
●●●
●● ● ● ● ●● ● ● ● ● ● ● ●●● ● ●● ● ●● ● ●●
● ● ●● ●● ●●● ● ●●●
Series


●●
●●
● ● ●●●

● ●
●●
●●

●●●● ●
●●●●
● ●
● ● ●●
● ● ● ●
●●●
●●●
●● ●
● ●●●●● ●●● ● ●● ●
● ●●
● ●●● ● ● ●●
●●● ● ● ●●
●●●
●●
●●● ●
●●
● ●●●●●●
● ● ●●●●●
● ●
●●
● ●●
●●●●●
●●●
● ●●●● ●
●●● ●●● ●● ●

● ● ●●
●●●●
●●
●●●● ●
●●●●●

●●
● ●
●●
●●
●●
●●●
●●
● ●
●● ●●
● ● ● ●●●● ● ● ●● ● ● ● ● ● ●● ● ●● ● ●
● ● ●●● ● ● ● ● ● ● ●●● ● ●
● ●
● ● ● ●● ● ●●● ●
●●
● ● ● ● ●●●
● ●

● ●
● ●●● ●
●● ●●● ●
●● ●●●
0

●●●● ● ●● ●●●● ●
●●● ●●● ● ●
●● ●●● ●
●● ● ●● ● ●
● ●● ●● ●
● ●●●●● ● ● ● ●●● ●● ●●●● ● ●● ● ● ●
● ●●●● ● ● ●●●●● ●●●●● ●● ●
●●●●● ●● ● ● ●
● ●
●●● ● ● ● ●●● ●

● ●●●●●●
●●●●

●●●
●●
●●●●
● ●
●●●●●●●
●●●
● ●●●● ● ●● ●●
●●●● ●●●●●
●●
●●●● ●●●● ●●●● ● ●● ●
●●●●●●
●● ●●●●●●●●●●●●
● ●●
●●●

●●●●●
● ●● ●

● ●● ●● ●●
● ●● ●● ●
●●

● ●
●●●●
●●●●●●● ● ●●● ●●

●●●●

●●●●
● ●● ●●●● ●
●●●
●●●●●●
●●●●●● ● ●●

●●
●●● ●

●●●●
●●●
● ● ●●●●●
●●●● ●
●●
● ●●●●●●●●●
●●●●● ●
●●●● ●●
●●●

● ●
●●●●
●● ●●● ● ●● ●●●
●●
●●●
●●●● ● ● ●●
●● ●●● ●● ● ● ●●●●●●
● ● ● ●●●● ●●●●●● ●●●●●● ●
● ●● ●●
● ● ● ●●●●
●●●●●●●●
● ●●●●●

● ●● ●● ● ●● ● ●● ●● ●●●●
●●●●
● ●● ●● ●●
●●●● ●●●●● ●●● ●● ●● ●●●●● ●●
●● ●●●● ● ● ●
●● ● ●●●●●
● ●● ●
●● ●● ●●● ●●● ●●
●●
● ●●

● ●● ●● ● ● ●● ●● ● ●●● ● ●●●● ● ● ●●
● ● ●● ●
● ●● ●●● ● ● ● ●● ● ●● ● ●●
●● ● ●● ●● ● ● ●●●
●● ●● ●
● ●● ● ● ● ●● ● ●




● ● ●● ●● ●● ●●● ●
● ●● ●
●●
●●●
● ●● ● ● ●●● ●●● ● ● ● ● ●●
● ●●●●●
● ● ● ● ● ● ●● ● ●
● ● ● ●
● ●● ● ●● ●● ●● ●●
● ● ● ● ● ● ● ●●● ● ● ● ●
● ●●● ● ● ●● ●● ● ● ● ● ● ●● ● ● ● ● ●● ● ● ●
● ● ●

−4

● ●

0 500 1000 1500

Index

Fig. 5.27 – Rendements et résidus GARCH

ACF of Squared rend


0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

ACF of Squared Residuals


0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

Fig. 5.28 – ACF et PACF des rendements du DAX et des résidus GARCH
132CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Estimate [Link] t-value Pr(> |t|)


ω0 1.154e-06 3.047e-07 3.788 0.000152
ω1 7.166e-02 8.113e-03 8.832 2,00E-16
ω2 9.208e-01 8.827e-03 104.324 2,00E-16

Tab. 5.3 – Estimation d’un GARCH(1,1) sur données historiques du DAX

Variance estimée par processus GARCH(1,1)


0.035
0.030
0.025
Variance conditionnelle

0.020
0.015
0.010
0.005

2000 2001 2002 2003 2004 2005 2006

Time

Fig. 5.29 – Volatilité estimée par processus GARCH sur DAX

[Link] Formule de Black Scholes avec processus GARCH : version ad-hoc


On propose parfois d’utiliser la volatilité conditionnelle dans le cadre de la formule de
Black Schole : il s’agit d’une version ad-hoc de raffinements proposés par Heston et
Nandi plus tard.

A l’aide d’un processus GARCH, on obtient ht la volatilité conditionnelle pour chaque
date d’existence de l’option étudiée. On s’interroge alors : l’erreur générée, i.e. l’écart
entre prix de marché et prix Black Scholes, est elle moindre lorsque l’on utilise la
l’écart type des rendements comme mesure de la volatilié ou la racine de la variance
conditionnelle obtenue dans le cadre d’un modèle GARCH ? Pour répondre à cette
question, on utilise généralement comme critère le Root Mean Square Error, c’est à dire
la racine de l’erreur au carré moyenne. En notant Pt le prix réel de l’option et Pet le
prix tel que la formule de Black Schole le propose, le RMSE est alors :
v
u n
u1 X
RM SE = t (Pi − Pei )2 (5.301)
n
i=1
5.3. LES MODÈLES ARCH-GARCH 133

Le tableau suivant fourni les erreurs des versions standards et GARCH ad-hoc générées
par la formule de Black-Scholes.

Strike Erreur GARCH Erreur BS standard


4000 116,3457 115,7618
4300 25,5418 22,20917
4400 24,40097 20,82484
4500 21,94736 18,3525
4600 19,0568 15,68696
4700 16,8634 14,15297
4800 16,16095 14,37239
4900 15,71973 13,48666
5000 11,66557 9,937144

Le modèle BS standard semble surperformer nettement le modèle GARCH ad-hoc. Si


cet avis est sans appel à la lecture de la table, l’observation du graphique 5.30 conduit à
un tout autre jugement. On observe que le prix avec volatilité GARCH suit globalement
bien mieux le vrai prix de l’option, sauf dans quelques rares cas pour lesquels il s’en
écarte singulièrement, conduisant aux résultats donnés dans la table. L’explication à ce
phénomène est simple : la formule de BS est très sensible à la volatilité. Pour les dates
présentant ces écarts importants, la volatilité GARCH connait un saut, conduisant le
prix BS à s’écarter du vrai prix de l’option.

[Link] Prévision de la volatilité et ses usages

Une fois un modèle GARCH calibré, il est possible de procéder à une analyse plus fine
de la volatilité d’un sous-jacent. La volatilité est principalement utilisée dans le cadre de
la Value at Risk et dans le cadre des modèles d’option. L’avantage d’un modèle GARCH
est qu’il permet de construire une prévision naı̈ve de la volatilité future du marché, sur
une période courte. On présente ici quelques questions relatives à la prévision de la
volatilité du rendement d’un actif.

Dans le cadre d’un modèle GARCH(1,1), de la forme suivante :


p
xt = ht t (5.302)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.303)

avec t ∼ N (0, 1), il est aisé d’obtenir une prévision en date t de la variance condition-
nelle en date t + 1 :

E[ht+1 |ht ] = ω0 + ω1 E[x2t |ht ] + ω2 ht (5.304)


= ω0 + (ω1 + ω2 )ht (5.305)
134CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

70
60
50
40
Prix option

30
20
10
0

0 50 100 150

Index

Fig. 5.30 – Prix du call DAX (rouge), prix BS standard (vert) et prix GARCH BS
ad-hoc

Volatilité conditionnelle GARCH


Volatilité

0.009
0.007

0 50 100 150

Index

Prix BS GARCH Ad hoc


50
Prix BS

30
0 10

0 50 100 150

Index

Fig. 5.31 – Prix théorique contre volatilité conditionnelle pour une option hors de la
monnaie.
5.3. LES MODÈLES ARCH-GARCH 135

On déduit de façon récursive la suite des variances conditionnelles :

E[ht+2 |ht ] = ω0 + ω1 E[x2t+1 |ht ] + ω2 E[ht+1 |ht ] (5.306)


= ω0 + ω1 E[ht+1 |ht ] + ω2 E[ht+1 |ht ] (5.307)
= ω0 + (ω1 + ω2 )E[ht+1 |ht ] (5.308)
= ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )ht ) (5.309)
2
= ω0 (1 + (ω1 + ω2 )) + (ω1 + ω2 ) ht ) (5.310)
(5.311)

Comme on l’a montré lors du calcul da variance non conditionnelle, en procédant par
récursion, on trouve la formule générale suivante :
h−1
X
E[ht+h |ht ] = ω0 (ω1 + ω2 )i + (ω1 + ω2 )h ht ) (5.312)
i=0
(5.313)

Comme dans le cas des ARMA, la prévision s’écrase rapidement contre la variance non
conditionnelle. Ainsi l’horizon prédictif des modèles GARCH est limité : ces modèles
sont bien mieux adaptés pour fournir une mesure de la volatilité, qui, rappelons le, est
par essence inobservable.

Une des utilisations possibles de l’algorithme de prévision de la volatilité qui vient


d’être développé conduit naturellement à une prévision de la Value at Risk. On rap-
pelle brievement le sens et le mode de calcul de cette mesure de risque, sur la base de
ce qui en est dit dans Tsay (2002).

[Link].1 La VaR
La VaR est le benchmark le plus utilisé quand il s’agit de juger de l’exposition maxi-
male au risque de marché produit par une position donnée sur le marché. Le risque de
marché est un terme générique permettant de décrire plusieurs situations possibles sur
le marché, selon le montant des engagements produits. Une position conduisant à in-
vestir dans un seul et unique actif n’induit pas la même exposition au risque de marché
qu’une position prise sur différents actifs simultanément. Dans le cas où l’on détient
un portefeuille d’actifs, et en dépis des mécanismes bien connus de la diversification, la
dépendance existant entre les différents actifs du portefeuille fait peser sur sa rentabilité
une menace particulière, souvent présenté sous le titre de risque de corrélation.

La VaR peut être simplement définie comme la perte maximale liée à une position de
marché, sur une fenetre de temps particulière et pour un niveau de probabilité donné :
en supposant que l’on connaisse la loi du rendement du portefeuille, on est en mesure
de donné le montant maximal de perte que l’on peut réaliser, dans le cadre d’une pro-
babilité égale à 95%. Cela signifie simplement que dans 95% des cas, la perte ne devrait
pas dépenser cette mesure de risque. Evidement, la perte ne se juge pas en terme de
rentabilité ! Il est donc nécessaire de passer de la perte en terme de rentabilité à celle
en terme de prix, en passant à l’exponentielle.
136CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

L’idée est donc : connaissant la loi de t rt+h , i.e. des rendements sur la période de temps
allant de t à t + h (la fenêtre de temps), on cherche la chutte maximale que peut
connaitre le rendement du portefeuille sur ce même intervalle, avec une probabilité
égale à 90% ou 95%. Plus formellement, ceci revient à chercher :

P (t rt+h ≥ V aR) = 95% (5.314)

Il est indifférent de rechercher la valeur VaR dans le cadre de la précédement formule


ou dans le cas suivant :

P (t rt+h ≤ V aR) = 5% (5.315)

Ceci vient simplement du fait que :

P (t rt+h ≥ V aR) = 1 − P (t rt+h ≤ V aR) (5.316)

En travaillant en terme de densités, les inégalités strictes et large ne produisent aucune


différence de calcul. La VaR correspond simplement au quantile à 5% de la loi des
rendements. A la différence des tests statistiques comme le test de Student qui sont des
tests bilatéraux, il s’agit ici d’un quantile ”unilatéral” : il n’est donc pas nécessaire de
calculer un quantile à x%/2, comme on le fait pour un test de Student.

Une fois ce quantilé obtenu (sous R, la function quantile permet d’obtenir une esti-
mation non paramétrique de ce quantile), il est alors possible d’obtenir une estimation
de la VaR en terme de prix, i.e. en terme de perte nette :

P (t rt+h ≤ V aR) = 5% (5.317)


⇔P (exp{t rt+h } ≤ exp{V aR}) = 5% (5.318)
⇔P (Pt exp{t rt+h } ≤ Pt exp{V aR}) = 5% (5.319)
⇔P (αPt+h } ≤ αPt exp{V aR}) = 5% (5.320)

On obtient ainsi la perte nette maximale obtenue pour une probabilité égale à 95%.
Ceci amène plusieurs commentaires :

– α est ici un coefficient multiplicatif traduisant le montant de l’engagement dans le


titre.

– Cette probabilité est en réalité une probabilité conditionnelle : sachant αPt , le mon-
tant net de l’engagement à la date t dans l’actif étudié, quel serait la perte maximale
rencontrée dans 95% des cas pour un horizon h.

– Il s’agit d’une VaR dans le cas d’une position courte : on a ici acheté le titre, et
seule une baisse de son cours (un enchainement de rentabilité négatives) peut nous
conduire à perdre de l’argent. On opère le raisonnement inverse dans le cas où l’on est
placé dans le cadre d’une position longue (vendeur à découvert) dans le titre étudié.
La perte dans ce cas viendra naturellement d’une montée du cours de l’actif. Il est
alors nécessaire de calculer la hausse maximale que le titre peut enregistrer dans 95%
des cas.
5.3. LES MODÈLES ARCH-GARCH 137

On rappelle simplement que la fonction quantile pour une variable aléatoire x est la
fonction telle que :

xp = inf {x|F (x) ≥ p} (5.321)

où p est une probabilité donnée.

Comme présenté dans Tsay (2002), le calcul de VaR est loin d’être aisé. Il nécessite de
nombreux inputs :

– La probabilité utilisée : en général 5% ou 1%.


– L’horizon de calcul : une VaR à un mois n’a souvent rien à voir avec une VaR à 1
jours.
– La fréquence des données utilisées : travaille-t-on sur des rendements journaliers,
hebdomadaires, mensuels ?
– La fonction de répartition des rendements : la fonction de répartition non condi-
tionnelle peut être obtenue à l’aide d’une estimation non paramétrique alors qu’un
fonction paramétrique peut être obtenue plus directement.
– Le montant et le sens de la position dans l’actif étudié.
– Dans le cas où il s’agit d’un portefeuille, il est nécessaire de déterminer la structure
de dépendance liant les différents actifs en portefeuille.

Nombre de ces items sont en général fixés par le régulateur (accords Bâle II par
exemple). Notons que le calcul de la VaR sert aux comptables pour déterminer le
montant de provisions à passer pour couvrir le risque de marché. Il s’agit d’un montant
placé dans les capitaux propres (Provisions pour risques et charges) afin de faire face
à un décrochage violent mais temporaire du marché. Inutile de rappeler qu’un retour-
nement puissant et durable du marché conduit à des effets systémiques d’une ampleur
telle qu’il est impossible d’y faire face avec ce simple montant en poche. Ainsi, d’un
point de vu pratique, on fixe en général de façon institutionnelle un montant de VaR
qui sera passé en provision pour l’année à venir. Il sert ensuite à piloter le montant et le
sens des engagements dans les actifs en portefeuille : on détermine la VaR de l’ensemble
des titres détenus, et on vérifie que celle-ci ne dépasse pas le montant conventionnel-
lement fixé. Dans le cas où la banque est engagée dans différents marchés, et possède
donc différents desks, il est alors nécessaire d’allouer une part de la VaR conventionnelle
à chacun de ces desks.

[Link].2 Calcul de la VaR à l’aide de modèles GARCH Comme le fait très


justement remarqué Tsay (2002), la VaR est une prévision de la perte possible pour
un horizon donné. Elle devrait toujours et partout calculée à l’aide d’une distribu-
tion prédictive (predictive distribution) du futur des rendements du portefeuille. Par
exemple, une VaR pour un horizon d’un jour utilisant des rendements journaliers rt
devrait normalement être calculée en utilisant la distribution prédictive du rendements
rt+1 , sachant l’information disponible à la date t. On imagine alors qu’il serait alors
nécessaire de tenir compte de l’erreur possible d’estimation, comme on le fait à chaque
fois que l’on travaille d’un point de vue économétrique. Dans la réalité, les méthodes
utilisés ne se base pas sur ces distributions prédictives, et ne tiennent pas compte des
138CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

erreurs d’estimation. On propose néanmoins de montrer comment les modèles GARCH


peuvent être utilisés afin de déterminer une VaR.

On reviendra plus loin sur la méthodologie proposées par RiskMetrics (méthode EWMA),
dans la mesure où elle corresond à un modèle GARCH ”raffiné” (modèle GARCH
intégré).

[Link].2.1 VaR dans le cas univarié


Il est très aisé de déterminer une VaR pour un unique sous-jacent à l’aide d’un modèle
GARCH. On prend encore ici le cas simple d’un GARCH(1,1), appliqué au CAC40 (les
données sous tirées de la base EuStockMarkets, disponible dans R). On estime sur les
rendements du CAC le modèle suivant :
q
rtCAC = hCAC
t CAC
t (5.322)
hCAC
t = ω0CAC + ω1CAC rt−1
CAC
+ ω2CAC hCAC
t−1 (5.323)

Avec CAC ∼ N (0, 1). Les estimations obtenues sont les suivantes :

Estimate Std. Error t-value p-value


ω0 0,00001178 2,675E-06 4,406 0
ω1 0,05916 0,01124 5,261 0
ω2 0,8439 0,0315 26,791 0

A l’aide de ces résultats, on peut déterminer une VaR pour l’horizon souhaité. Pour
une la VaR à un jour, on cherche :

CAC
≤ V aR1CAC = 5%

P rt+1 (5.324)
q 
CAC CAC CAC
⇔P ht+1 t+1 ≤ V aR1 = 5% (5.325)
 
V aR1CAC
⇔P CAC
t+1 ≤ q
 = 5% (5.326)
CAC
ht+1

 suivant une loi normale centrée réduite, on connait le quantile à 5% : il vaut -1,64.
On en déduit donc :

V aRCAC
⇔q 1 = −1, 64 (5.327)
hCAC
t+1
q
⇔V aR1CAC = −1, 64 hCAC
t+1 (5.328)
5.3. LES MODÈLES ARCH-GARCH 139

On en déduit alors la VaR en terme de pertes :


 q   q 
CAC CAC CAC CAC
P rt+1 ≤ −1, 64 ht+1 = P exp{rt+1 } ≤ exp{−1, 64 ht+1 } (5.329)
 q 
CAC CAC CAC CAC
= P Pt exp{rt+1 } ≤ Pt exp{−1, 64 ht+1 }
(5.330)
 q 
CAC CAC CAC
= P Pt+1 ≤ Pt exp{−1, 64 ht+1 } (5.331)

La fin des calculs s’appuie sur des données numériques : on a besoin du prix du CAC en
date t ainsi que la prévision de la volatilité à la date t + 1. On a procédé à ces quelques
calculs sous R. On présente le résultat des opérations : on a calculé pour toutes les dates
la VaR à un jour. Elle est présentée en figure 5.32.

VaR pour CAC


2600
2400
2200
2000
Prix

1800
1600
1400
1200

0 200 400 600 800

Index

Fig. 5.32 – Value at Risk à un jour

Dans le cas où l’on souhaite obtenir une VaR pour un horizon t + h quelconque, les
choses se complexifient légèrement. On cherche à définir une borne basse pour Pt+h .
On travaille en rendements, i.e. sur :

Pt+h
r̃t+h = ln (5.332)
Pt

Il est alors nécessaire de travailler sur la distribution conditionnelle prédictive, i.e. sur
140CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

la loi de r̃t+h . Pour cela, on remarque que :


 
Pt+h Pt+1 Pt+2 Pt+h
ln = ln ... (5.333)
Pt Pt Pt+1 Pt+h−1
h  
X Pt+i
= ln (5.334)
Pt+i−1
i=1
Xh
= rt+i (5.335)
i=1

On peut déterminer la loi conditionnelle de cette somme de rendements :


" h # h
X X
E rt+i = E [rt+i ] (5.336)
i=1 i=1
" h # h
X X
V rt+i = V [rt+i ] (5.337)
i=1 i=1
h
X
= E [ht+i ] (5.338)
i=1

L’ensemble de ces précédents calculs sont en réalité conditionnellement à l’information


disponible à la date t. Pour alléger les notations, on a éliminé les notations condi-
tionnelles. Il ne reste plus qu’à utiliser ce qui a été dit sur la prévision des variances
au début de cette section pour être capable de déterminer la VaR sur les rendements
futurs, conditionnellement à l’information disponible à la date t. On sait que :
h
!
X
r̃t+h ∼ N 0, E [ht+i ] (5.339)
i=1

On en déduit à la VaR en constatant que :



qP t+h ∼ N (0, 1) (5.340)
h
i=1 E [ht+i ]

D’où la VaR à 5% est égale à :


v
u h
uX
V aR = −1, 64t E [ht+i ] (5.341)
i=1

Comme précédement, on en déduit la VaR en terme de pertes nettes :


v
u h
uX
V aRPt+h = Pt exp{−1, 64t E [ht+i ]} (5.342)
i=1

Il suffit donc de calculer la somme des variances conditionnelles pour déterminer ensuite
une VaR forward pour un horizon h. On représente la VaR et les moments où celle-ci
5.3. LES MODÈLES ARCH-GARCH 141

2600
2400
2200
2000 VaR pour CAC
Prix

1800
1600
1400
1200

0 200 400 600 800

Index

Fig. 5.33 – Value at Risk à dix jour

est violée sur la figure 5.33.

Les performances de l’approche à un jour et à dix jours appellent un simple commen-


taire. Dans le cas d’un VaR à un jour, le pourcentage de dépassement de la VaR est
de 0,036 alors que dans le cas à 10 jours ce pourcentage est de 0,1168, ce qui est large-
ment supérieur aux 5% autorisés. Ceci s’explique simplement par le fait que la prévision
de la variance pour les modèles GARCH converge rapidement vers la la variance non
conditionnelle, appauvrissant l’impact de la métode utilisée. Les modèles GARCH sont
considérés comme des modèles à mémoire courte, i.e. qu’il retourne rapidement à la
distribution non conditionnelle du processus. La méthode EWMA de Riskmetricks re-
pose sur un modèle dit intégré, permettant de prendre en compte cet aspect mémoire
longue de la volatilité.

[Link].2.2 VaR dans le cas bivarié : VaR par simulation


On se préocuppe à présent d’introduire un certain nombre d’idées concernant le cal-
cul de la VaR d’un portefeuille de titre. Ces questions sont essentielles : ce sont elles
qui sont en général utiles au quotidien des risks managers, dans la mesure où l’activité
d’une banque ne se limite jamais à un seul et unique actif.

Avant toute chose, il est important de remarqué que la VaR d’un portefeuille, i.e. d’une
somme d’actifs pondérés, n’est pas jamais la sommes pondérée des VaR des différents
acifs. Ce qui rend le calcul de VaR d’un portefeuille complexe est la dépendance exis-
tante entre les différents actifs composant le portefeuille. Dans le cadre d’un modèle
142CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

conditionnellement gaussien comme c’est le cas pour un processus GARCH, cette


dépendance est simplement mesurée par le coefficient de corrélation entre les deux
termes d’erreurs. Soit deux actifs de rendement r1 et r2 suivant des processus GARCH(1,1) :
 p
r1,t = h1,t 1,t
2 (5.343)
h1,t = ω1,0 + ω1,1 r1,t−1 + ω1,2 h1,t−1
 p
r2,t = h2,t 2,t
2 (5.344)
h2,t = ω2,0 + ω2,1 r2,t−1 + ω2,2 h2,t−1

avec (i,t )i=1,2 ∼ N (0, 1) et corr(1,t , 2,t ) = ρ.

On se propose de déterminer la VaR de la somme de ces actifs, non par calcul direct,
mais par simulation. Connaissant ρ, on est en mesure de simuler des  corrélés, puis
de simuler les processus r1 et r2 conditionnellement à l’information disponible en t.
Enfin, on est en mesure de retrouver la VaR en terme de perte nette, comme on l’a fait
précédement, en prenant l’exponentielle de chaque rendements.

On applique cette méthode à un portefeuille constitué d’une unité de DAX et d’une


unité de CAC. On estime un GARCH(1,1) sur les rendements de ces actifs. Les résultats
sont présentés dans la table suivante :

Estimate Std. Error t-value p-value


CAC ω0 0,00001178 0,000002675 4,406 0
ω1 0,05916 0,01124 5,261 0
ω2 0,8439 0,0315 26,791 0
DAX ω0 0,000004639 0,000000756 6,137 0
ω1 0,06833 0,01125 6,073 0
ω2 0,8891 0,01652 53,817 0

Une fois ceci fait, on estime la corrélation entre les résidus, en supposant que celle-ci
n’est différente de 0 qu’instantanément (pas de corrélation entre les résidus pour un
retard quelconque). On commence alors les simulations :

1. En partant d’un point donné dans le temps, on simule h 1 et h 2 , pour l’instant


décorrélés.
2. On transforme ces deux vecteurs de résidus, de façon à ce qu’ils soient corrélés.
En notant M la matrice de corrélation entre ces deux résidus que l’on souhaite
obtenir, on a :
 
1 ρ
M= (5.345)
ρ 1

On utilise alors une décomposition de Choleski : il s’agit de déterminer une matrice


F , telle que F T F = M . Pour obtenir deux séries d’innovations corrélés, il suffit
5.3. LES MODÈLES ARCH-GARCH 143

de multiplier la matrice composée de deux colonnes contenant les résidus simulés


et pour l’instant décorrélés par F . En notant  la matrice suivante :
 
1,1 1,2
 2,1 2,2 
= . (5.346)
 
.. 
 .. . 
h,1 h,2
On calcule donc le produit F .
3. On calcule ensuite de façon récursive les différentes valeurs de r1 et r2 , en calculant
au préalable la valeur de la variance conditionnelle.
4. Finalement, on calcule r˜1 et r˜2 , la somme des rentabilités calculée pour le titre 1
et 2.
On répète ces simulations pour un nombre raisonnable de fois (un millier de fois conduit
à des estimations précises). Enfin, on détermine la VaR de r˜1 et r˜2 à 5% de façon non
paramétrique (commande quantile sous R). Une fois ces VaR univariées déterminées,
on est en mesure de calculer la VaR en terme de perte nette du portefeuille détenu. Il
suffit de calculer :
V aRP = PtCAC × exp{V aRCAC } + PtDAX × exp{V aRDAX } (5.347)
où V aRi est la VaR calculée sur la somme des rendements du titre i. On répète l’en-
semble des opérations pour toutes les dates d’intéret dans une approche backtesting.

On a procédé à une application sur le portefeuille CAC+DAX pour une VaR à 10 jours.
On présente les résultats obtenus en figure 5.34. Les résultats semblent intéressants. Le
principal problème reposant sur le fait que lorsque l’on observe une chutte brutale du
prix, on est conduit à surestimer la VaR 10 jours après. Ce résultat est naturelle dans la
mesure où la VaR à 10 jours est, à un coefficient multiplicatif pret, le prix d’aujourd’hui.

L’intérêt principal d’une démarche basée sur des simulations est qu’elle permet, en
travaillant sur des séries univariées, d’incorporer la dépendance existant entre actifs.
Mieux, comme on le détaillera dans la section sur les GARCH, on est implicitement
amené à faire varier la covariance conditionnelle entre les deux actifs, en dépis du fait
que l’on ai fixé la corrélation/covariance entre les résidus une fois pour toute. Le prin-
cipal inconvénient est que, comme à chaque fois que l’on recourt à des simulations, le
temps de calcul est plus long que dans le cas univarié simple, présenté plus haut.

Notons pour terminer qu’il est possible d’effectuer l’ensemble de ce qui vient d’être dit
sur la base de calculs explicites. Dans la mesure où les deux actifs ont des rendements
conditionnellement gaussiens, et en constatant que :
V(X + Y ) = V(X) + V(Y ) + 2Cov(X, Y ) (5.348)
on est en mesure de décrire la loi conditionnelle de l’ensemble des deux rendements. En
effet, on sait que :
E[r1,t + r2,t |ht ] = 0 (5.349)
p p
V[r1,t + r2,t |ht ] = h1,t + h2,t + 2 h1,t h2,t ρ (5.350)
(5.351)
144CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

3800
3600
Portefeuille

3400
3200
3000

0 50 100 150 200 250 300

Index

Fig. 5.34 – Value at Risk multivariée à dix jour

Il est alors possible d’écrire la VaR pour l’horizon souhaité, sans trop de problèmes
(théoriques). Il évident que d’un point de vue pratique, l’utilisation de la corrélation
comme mesure de dépendance est plus qu’un pari risqué ! On rappelle simplement que
la corrélation n’est qu’une mesure de l’existance d’un lien linéaire entre actifs. Ces
questions sont à mon sens - pour l’instant - bien trop avancées pour être intégrées dans
ce cours. Les problèmes de mesure de dépendance sont abordées dans Embrechts et al.
(1999) et Embrechts et al. (2001). L’une des réponses actuelles (quoique ceci commence
à dater) à ces question de corrélations passe par les copules, outil statistique permettant
de travailler de façon plus aisée avec des fonctions de répartition multidimensionelles.
Le lecteur intéressé par les applications en finance de ce type d’outils lira Cherubini
et al. (2005) avec intéret.

5.3.6 Bestiaire des GARCH

Il existe de nombreux processus GARCH, existant pour des raisons diverses : prise en
compte de la lente décroissance de l’autocorrélation du processus de volatilité, prise
en compte du lien risque/rentabilité, prise en compte de l’asymétrie observée dans les
rendements ou liens avec des processus continus. On présente ici trois extensions pos-
sibles des processus GARCH : les modèles GARCH intégrés, les modèles GARCH-M,
les modèles GARCH asymétriques ainsi que le modèle GARCH de Heston.
5.3. LES MODÈLES ARCH-GARCH 145

[Link] GARCH-M
Les modèles GARCH-M furent initialement introduits par Engle et al. (1987) : l’ambi-
tion de l’article est de présenter un modèle permettant de rétablir le lien entre rentabilité
et rendement, cher à la finance de marché. L’idée est donc de faire dépendre la renta-
bilité conditionnelle du risque conditionnel lui-même, de façon linéaire le plus souvent.
Le modèle GARCH-M(1,1) est le suivant :
p
xt = λht + ht t (5.352)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.353)

avec t ∼ N (0, 1). Seule la première équation est modifiée par rapport à un GARCH
classique : on ajoute un terme multiplicatif de la variance, λht , que l’on appelle prime
de risque. On donne les moments conditionnels :

E[xt |ht ] = λht (5.354)


p
V[xt |ht ] = V[λht + ht t |ht ] = ht (5.355)

L’introduction de la prime de risque n’a conduit qu’à la modification de l’espérance


conditionnelle, laissant la variance conditionnelle inchangée. Cette modification ne mo-
difiant que la valeur de l’espérance, ce processus reçu donc le nom de GARCH in mean,
ou GARCH-M. Le calcul des moments non conditionnels est ici passé sous silence :
ceux-ci sont naturellement plus complexes que ceux proposés dans le cadre des simples
GARCH.

Les restrictions habituelles s’appliquent aux paramètres de la variance conditionnelle.


L’inférence de ce type de processus ne pose pas de problème : on applique les mêmes
méthodes que celles présentées plus haut, dans le cas des processus ARCH/GARCH.
Là encore, on estime ces modèles par maximum de vraisemblance conditionnel, sachant
que :

xt |ht ∼ N (λht , ht ) (5.356)

Il est alors aisé de déterminer la log-vraisemblance conditionnelle du processus, pour n


observations :
n
!
n 1 X (xt − λht )2
lnL = − ln(2π) − ln(ht ) + (5.357)
2 2 ht
i=1

Ajoutons que les GARCH-M sont naturellement leptokurtiques, tout comme les GARCH.
Qu’en est il cependant de l’asymétrie du processus ? Plutot que de se lancer dans des
calculs longs et complexes, on a simplement procéder à des simulations : on simule
des GARCH-M avec des paramètres égaux pour toutes les simulations et on calcule à
chaque fois la skewness de la simulation. La figure 5.35 présente la densité estimée par
noyau de l’estimateur de la skewness. Les simulations ont été effectuées à l’aide d’un λ
négatif : on remarque que la série a de bonnes chances d’être asymétrique à gauche.

L’intéret de ces modèles est de permettre une mesure à chaque date de l’espérance
et de la variance des rendements. Naturellement, ceci fait penser aux modèles de type
146CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Densité estimée de la skewness d'un GARCH−M

2.5
2.0
1.5
Density

1.0
0.5
0.0

−8 −6 −4 −2 0

N = 2000 Bandwidth = 0.03208

Fig. 5.35 – Densité non paramétrique de l’estimateur de la skewness

espérance/variance. On propose ici une application du modèle GARCH-M à la frontière


de Markowitz. Soit r1 et r2 , les rendements du titre 1 et du titre 2. Chacun de ses
rendements est supposé suivre un modèle GARCH-M qui lui est propre. On a donc :
 p
r1,t = λ1 h1,t + h1,t 1,t
2 (5.358)
h1,t = ω1,0 + ω1,1 r1,t−1 + ω1,2 h1,t−1
 p
r2,t = λ2 h2,t + h2,t 2,t
2 (5.359)
h2,t = ω2,0 + ω2,1 r2,t−1 + ω2,2 h2,t−1

Toute la question est alors de proprement paramétrer le lien entre 1 et 2 . On propose


simplement de supposer qu’ils sont instantanément corrélés et que cette corrélation est
constante. On a :

cor(1 , 2 ) = ρ (5.360)

On connait déjà les deux premiers moments conditionnels univariés, pour chacun des
deux actifs. Il ne reste plus qu’à déterminer la covariance conditionnelle entre r1 et r2 .
Il suffit de la calculer directement :
p p
Cov(r1,t , r2,t |h1,t , h2,t ) = Cov(λ1 h1,t + h1,t 1,t , λ2 h2,t + h2,t 2,t |h1,t , h2,t ) (5.361)
p p
= Cov( h1,t 1,t , h2,t 2,t |h1,t , h2,t ) (5.362)
p p
= h1,t h2,t Cov(1,t , 2,t |h1,t , h2,t ) (5.363)
p p
= h1,t h2,t ρ (5.364)

On obtient ainsi la corrélation conditionnelle de deux titres. On remarque que même


si la corrélation entre les deux bruits est constante au cours du temps (autrement dit,
les deux titres subissent les mêmes chocs et y répondent de façon similaire), la cova-
riance conditionnelle, elle, varie au cours du temps. On a donc à disposition espérance,
5.3. LES MODÈLES ARCH-GARCH 147

variance et covariance conditionnelle pour chaque titre. La corrélation entre les titres,
conditionnelle ou pas, reste la même :

Cov(r1,t , r2,t |h1,t , h2,t )


cor(r1,t , r2,t |h1,t , h2,t ) = =ρ (5.365)
h1,t h2,t

Les rendements étant de plus conditionnellement gaussiens, il est possible de mettre en


oeuvre la méthodologie de Markowitz sans problème. On proposer ici de travailler sur
des simulations. On simule des processus GARCH-M, liés entre eux par la corrélation
entre les innovations. Puis on représente la frontière efficiente, basée sur les moments
non conditionnels ainis que celles basées sur les moments conditionnels, évoluant au
cours du temps. On observe le résultat de ces simulations en figure 5.36.

Frontière efficiente Frontière efficiente


1.0

1.0
0.5

0.5
Rentabilité

Rentabilité

● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ●●
0.0

0.0
−1.0 −0.5

−1.0 −0.5

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Risque Risque

Frontière efficiente Frontière efficiente


1.0

1.0
0.5

0.5
Rentabilité

Rentabilité

● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ●●
0.0

0.0
−1.0 −0.5

−1.0 −0.5

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Risque Risque

Fig. 5.36 – Frontière efficiente GARCH-M

Il est à noter ici que l’on a pas procédé à l’estimation de ces modèles sur des séries réelles,
et ce pour plusieurs raisons. L’une des principales est que le lien rentabilité/risque est
loin d’être stable selon les actifs étudiés. Il serait faux de croire que le lien espérance
variance est toujours et partout validé. Il existe différents effets microstructurels qui
peuvent expliquer ces phénomènes, au nombre desquels l’impact de la liquidité sur la
formation du prix du risque. Ce type de considération dépasse cependant largement
l’objet de ce cours.

Notons simplement que sur les données étudiées dans le cadre de la VaR, il est intéressant
de remarquer que le lien risque/rentabilité existe et semble robuste. On calcule la
corrélation entre les rendements et la variance conditionnelle telle qu’on l’obtient en
estimant un modèle GARCH(1,1). En notant ρ cette corrélation, la statistique de test
148CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

permettant de tester que ρ est bel et bien significativement différent de 0 est la suivante :
ρ √
t̂ρ = p n ∼ Tn−1 (5.366)
1 − ρ2
où Tn−1 est une distribution de Student à n − 1 degrés de liberté. En calculant le coef-
ficient de corrélation ainsi que la statistique de test présentée, on obtient les résultats
suivants :

CAC DAX
ρ 0,07229244 0,04553088
t̂ 3,125987 1,965682

Sur ces séries, il semble exister une corrélation significative et positive entre rendement
et volatilité. En reprenant les estimations obtenues au cours de l’étude sur la VaR, on
propose une estimation naive du paramètre λ pour les rendements du CAC et du DAX :
on estime par MCO l’équation de la moyenne du GARCH-M, à équation de la variance
connue. La table suivant fournit les résultats de l’estimation :

Estimate Estimate Std. Error t-value p-value


CAC ω0 0,00001178 0,000002675 4,406 0,0000105
ω1 0,05916 0,01124 5,261 0,000000143
ω2 0,8439 0,0315 26,791 0
λ 0.582470 0.186532 3.123 0.00182
Constante -0,005926 0,002056 -2,882 0,00399
DAX ω0 0,00001178 0,000002675 4,406 0,0000105
ω1 0,05916 0,01124 5,261 0,000000143
ω2 0,8439 0,0315 26,791 0
λ 0.191232 0.097390 1.964 0.0497
Constante -0.001263 0.001007 -1.254 0.2099

[Link] GARCH intégrés


On aborde dans cette section l’un des principaux faits stylisés tirés des modèles GARCH :
le fait que la volatilité soit un processus ”intégré”, plus particulièrement un processus
I(1). Qu’est ce qu’un processus I(1) ? Il s’agit d’une notion tirée des séries temporelles
que nous n’avons pas encore abordée, bien qu’elle occupe une place centrale de nos
jours. Une littérature abondante s’est développée autour de cette notion de processus
intégrés, dont l’ensemble des tests de racines unitaires, qui offrent davantage de portée
académique que pratique.

Un processus intégré d’ordre 1 ou I(1) est un processus non-stationnaire (cf. fin de la


section sur les ARMA), et dont la différence d’ordre 1 est, elle, stationnaire. Il s’agit
donc d’un processus xt , dont la moyenne, la variance ou l’autocovariance dépend du
temps (n’est pas stable) mais dont la différence d’ordre 1, elle, ne dépend pas du temps.
Cette différence est évidement ∆xt = xt − xt−1 (juste pour Pépino, pour le cas où).
Un bon exemple de processus non stationnaire en finance est le prix d’un actif finan-
cier (hors électricité) : on sait que le prix du CAC n’est pas stationnaire, mais que le
5.3. LES MODÈLES ARCH-GARCH 149

DAX SMI CAC FTSE


ω1 0,07 0,75 0,88 0,94
ω2 0,89 0,11 0,05 0,05
Somme 0,96 0,86 0,93 0,99

Tab. 5.4 – Estimation de GARCH sur des indices européens

rendement (pas très loin de la différence d’ordre 1) est lui stationnaire (bruit blanc en
général).

On a pu constater lors de l’estimation des modèles GARCH(1,1) que la condition de sta-


tionnarité n’était pas toujours remplie. On rappelle que pour un modèle GARCH(1,1)
de la forme :
p
xt = ht t (5.367)
ht = ω0 + ω1 x2t−1 ω2 ht−1 (5.368)

ce processus n’est stationnaire (sa variance n’explose pas) que si ω1 + ω2 < 1. Dans
de nombreuses estimations de GARCH, on observe en général que la somme de ω1 et
ω2 très proche de 1, sans toutefois lui être supérieur. La table 5.4 présente l’estimation
de modèles GARCH(1,1) sur les différents indices européens contenus dans la base de
donnée EuStockMarkets disponible sous R. On remarque que la somme des coefficients
est très souvent proche de 1 : on parle souvent de processus intégré pour la volatilité.
Ceci fait au passage remarqué que la volatilité d’une actif financier n’est ni constante,
ni une variable lisse : il s’agit d’un processus agité, sujet à des changements de régime
le plus souvent. Il existe des modèles à changement de régime en séries temporelles, qui
ne sont pas développés dans le cadre de ce maigre cours. Un lecteur intéressé trouvera
une breve introduction dans Wang (2003)[Chapitre 5].

Ce qui suit s’inspire largement de Poon (2005)[Chapitre 4]. Un processus GARCH pour
lequel on a ω1 + ω2 = 1 est un processus non stationnaire en variance, dans la mesure
où sa variance non conditionnelle tend vers +∞. Le processus rt (les rendements) reste
cependant stationnaire au sens stricte. On dit que la volatilité conditionnelle suit un
processus IGARCH(1,1), et ni le moment d’ordre 2 ni le moments d’ordre 4 n’existent :
ils divergent tous vers +∞.

L’un des modèles de volatilité les plus utilisés en Risk Management est le modèle
EWMA de RiskMetrics. EWMA signifie Exponentially Weighted Moving Average : il
s’agit simplement d’un modèle spécifiant la volatilité comme une moyenne pondérée des
volatilités passées, avec des pondérations décroissant exponentiellement dans le temps.
D’une façon générale, le modèle s’écrit :

β iσ2
σt+1 = i=0
2 Pτ t−i−1 i
(5.369)
i=0 β

β est appelé paramètre de lissage. Il s’agit d’une approche visant à la prévision : le


paramètre de lissage est estimé en minimisant l’erreur de prévision dans l’echantillon.
150CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

τ est l’horizon de mémoire du modèle. Ce modèle, outre le fait qu’il soit utilisé dans de
nombreuses applications de RiskMetrics, a la particularité d’être proche d’un modèle
GARCH intégré. Pour prouver cette propriété, il suffit de faire une petit coup de pont
d’Avignon : on commence par retravailler l’expression d’un GARCH(1,1), puis on re-
vient sur le modèle EWMA pour étudier la similarité.

Dans le cadre d’un GARCH(1,1), on a :

ht+1 = ω0 + ω1 x2t−1 + ω2 ht (5.370)


= ω0 + ω2 ω0 + ω1 x2t−1 + ω2 ω1 x2t−1 + ω22 ht−1 (5.371)

En poursuivant les itérations, on trouve finalement :


τ
X τ
X
ht+1 = ω0 ω1i−1 + ω0 ω1i−1 x2t−i + ω2τ ht−τ (5.372)
i=1 i=1

Alors, si ω2 < 1, lorsque τ → ∞, on a :



ω0 X
ht+1 = + ω0 ω1i−1 x2t−i (5.373)
1 − ω2
i=1

Ceci est vrai, même dans le cas où ω1 + ω2 = 1. L’important est que ω2 < 1, ce qui
semble vraisemblablement être le cas sur de nombreuses séries financières. On obtient
alors une forme intéressante de volatilité. Comparons ceci au modèles EWMA :

β iσ2
σt+1 = i=0
2 Pτ t−i−1
i
(5.374)
i=0 β

Ici aussi, pour peu que β < 1, il est possible de passer à la limite pour trouver une
forme analytique à la variance :

X
2
σt+1 = (1 − β) β i σt−i−1
2
(5.375)
i=0

A une constante pret, on retrouve notre dynamique de variance GARCH(1,1). Le


modèle EWMA peut être vu à bien des égards comme un simple modèle GARCH(1,1)
intégré. L’une des propriétés remarquable de ce type de processus est qu’il ne sont pas
victimes de mean-reverting rapide comme c’est le cas pour un GARCH(1,1). Il ont au
contraire tendance à conserver et à amplifier les chocs temporaires de volatilité : ils
ont ainsi une mémoire plus longue que les simples modèles GARCH. On parle ainsi
souvent de mémoire longue de la volatilité pour désigner ce fait stylisé. Il existe des
processus de séries temporelles permettant de prendre en compte de façon statisfaisante
cette mémoire longue (dit processus à mémoire longue). Il n’est cependant pas certain
que leur application se justifie pleinement : de nombreux processus à mémoire courte
(tel que les modèles à changement de régime) génèrent eux-aussi des faits stylisés de
mémoire longue, sans être philosophiquement responsables. Il s’agit d’un terrain de
recherche empirique depuis les années 2000.
5.3. LES MODÈLES ARCH-GARCH 151

Pour terminer, revenons sur le calcul de la VaR dans la perspective d’une volatilité
intégrée. Tsay (2002)[chapitre 7] propose une ecriture alternative au modèle RiskMe-
trics. La présentation diffère légèrement de celle qui en est fournie dans Poon (2005),
même reste globalement la même. Le modèle EWMA repose sur l’hypothèse que la
distribution conditionelle des rendements soit normale, d’espérance nulle et de variance
σt . La dynamique de la variance est décrite de la façon suivante :

σt2 = βσt−1
2 2
+ (1 − β)rt−1 (5.376)

où β < 1. On retrouve donc bien un modèle intégré, avec une variance non conditionnelle
qui n’est pas définie, dans la mesure où la somme des deux paramètres de la dynamique
de la variance est égale à 1 par construction. Il s’agit par conséquent d’un modèle
IGARCH(1,1), sans drift. Il est possible de fournir une prévision de la variance, comme
on l’a fait dans le cas d’un processus GARCH classique. On construit ces prévisions de
façon récursive, en rappelant que :

rt = σt t (5.377)

avec t ∼ N (0, 1). On a alors :


2
σt+1 = βσt2 + (1 − β)(σt2 2t ) (5.378)
= σt2 − σt2 + βσt2 + (1 − β)(σt2 2t ) (5.379)
= σt2 + (1 − β)σt2 (2t − 1) (5.380)

On sait que :

E[2t |σt ] = 1 (5.381)

On en déduit donc que :


2
E[σt+1 |σt ] = E[σt2 |σt ] (5.382)

Dans un modèle intégré, la meilleure prévision de la volatilité que l’on puisse formuler,
sachant que l’information dont on dispose en t est réduite à la seule la volatilité d’au-
jourd’hui est σt . Une autre propriété remarquable découlant de ce qui vient d’être dit
est la suivante :
2 2 2
E[σt+h |σt ] = E[σt+h−1 + (1 − β)σt+h−1 (2t+h−1 − 1)|σt ] (5.383)
2
= E[σt+h−1 |σt ] (5.384)

En itérant la dernière équation, on trouve donc que la meilleure prévision que l’on
puisse formuler de la volatilité future pour un horizon t + h est la prévision que l’on
pourrait faire à un jour.

Dans le cas où la filtration ne se réduit pas à σt , mais peut être étendue à {σt , rt }, alors
la prévision à un jour diffère de la volatilité d’aujourd’hui :
2
E[σt+1 |σt , rt ] = βσt2 + (1 − β)rt2 (5.385)
152CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On constate alors qu’un modèle intégré ne conduit pas à un retour de la prévision vers
le niveau moyen de l’échantillon : la volatilité prévue à long terme n’est ni plus moins
que celle d’aujourd’hui. Ceci est globalement en désaccord avec ce qu’on observe sur le
marché. En général, une phase de forte volatilité (bull market) est suivie d’une retour
au calme (bear market). Néanmoins, comme la table précédente le montrait, la volati-
lité, sans être complètement intégrée, n’est pas loin de l’être.

2 |σ , r ] = σ̂ 2 2 2 2
Fort de ces deux éléments (E[σt+h t t t+1 et σ̂t+1 = βσt + (1 − β)rt ), on est alors
en mesure de déterminer une VaR pour un horizon h quelconque, en reprenant P ce qui a
été dit au cours des sections précédentes. On cherche la loi conditionnelle de hi=1 rt+i ,
comme précédement. Sait faire de calcul, on sait qu’elle est gaussienne, d’espérance
nulle et de variance égale à la somme des variances, du fait de l’hypothèse d’absence
de corrélation sérielle dans les rendements. On a donc :
" h # h
X X
V rt+i |σt , rt = V [rt+i |σt , rt ] (5.386)
i=1 i=1
Xh
2
= σ̂t+1 (5.387)
i=1
2
= hσ̂t+1 (5.388)
(5.389)

Ainsi, la variance des rendements à h jours correspond simplement à h fois la variance


à un jour. La VaR se calcule ensuite de façon évidente :
h
!
X
P rt+i ≤ V aR = 5% (5.390)
i=1
 
Ph
rt+i V aR 
⇔P  qi=1 ≤q = 5% (5.391)
2
hσt+1 2
hσt+1
(5.392)

On trouve naturellement :

V aRh = 1, 64 × hσt+1 (5.393)

Il s’agit d’un règle


√ bien connue par les risk managers et acceptée par Bâle II : la VaR à h
jours est égale à h fois la VaR à un jour. Cette méthodologie repose bien évidement sur
la gaussianité conditionnelle des rendements, et conduit naturellement à sous-estimer
régulièrement la VaR ”véritable”. Mais quand les chiffres doivent tomber au quotidien,
il n’en reste pas moins que la méthode est séduisante.

[Link] GARCH asymétriques


Dans cette section, on introduit brièvement les modèles GARCH asymétriques. Ceux-ci
ont été introduits de façon à rendre compte du fait que les séries de rendements aient
5.3. LES MODÈLES ARCH-GARCH 153

en général un skewness inférieure à 0. On a vu qu’un modèle GARCH standard ne


permettait pas d’obtenir une skewness différente de 0. Une abondante littérature s’est
alors développée, proposant des modèles permettant de générer sous certaines condi-
tions ce fait stylisé.

L’intérêt d’une distribution skewed vient de la présence de ce que la théorie financière


a baptisé effet levier. Il s’agit d’un fait stylisé conduisant à l’observation (dans le cas
d’effet levier au sens strict) d’un accroissement de la volatilité lorsque les rendements
eux-même décroissent. Ceci s’interprète souvent en expliquant qu’une mauvaise nou-
velle (rendements négatifs) a un impact positif important sur la volatilité future d’un
titre. Gourieroux and Jasiak (2001)[chapitre 6] présente cette hypothèse en terme de
corrélation, dans le cadre d’un modèle ARCH(1). Il s’agit de déterminer à quelle condi-
tion un ARCH(1) peut générer un effet levier. Le modèle général s’écrit :
2
rt = (ω0 + ω1 rt−1 )1/2 t (5.394)
avec t suivant une loi inconnue, mais de variance égale à 1. On s’intéresse alors à la
covariance suivante :
Cov(rt − rt−1 , ht+1 − ht |rt−1 ) (5.395)
L’effet de levier correspond à une covariance négative. On se demande à quelle condition
on peut observer ce type de comportement dans le cadre d’un ARCH(1). Pour cela, il
suffit de developper un tant soit peu les calculs :
Cov(rt − rt−1 , ht+1 − ht |rt−1 ) = Cov(rt , ht+1 |rt−1 ) (5.396)
= Cov(rt , ω0 + ω1 rt2 |rt−1 ) (5.397)
= ω1 Cov(rt , rt2 |rt−1 ) (5.398)
p
= ω1 Cov( ht t , ht 2t |rt−1 ) (5.399)
3/2
= ω1 ht Cov(t , 2t |rt−1 ) (5.400)
3/2
= ω1 ht E[3t ] (5.401)
Ainsi, un modèle ARCH(1) génère un effet levier à la condition que ses innovations
soient asymétriques vers la gauche. Autrement dit, Cov(rt − rt−1 , ht+1 − ht |rt−1 ) < 0
dans le cadre d’un ARCH(1) si E[3t ] < 0, le reste des paramètres étants positifs.

On comprend alors mieux l’intéret de travailler sur des modèles permettant de générer
de l’asymétrie. Ils permettent de rendre compte d’un fait stylisé important en finance,
i.e. l’effet levier.

Il existe plusieurs modèles permettant de générer cet effet asymétrique. Ils reposent en
général sur l’introduction d’une variable indicatrice (i.e. valant soit 0, soit 1) qui prend
la valeur 1 dans le cas où les rendements sont négatifs. L’un des modèles les plus connus
est le modèle GARCH de Glosten, Jagannathan et Runkle (Glosten et al. (1993)), dit
GJR-GARCH. Il s’écrit de la façon suivante :
p
rt = ht t (5.402)
2 2
ht = ω0 + ω1 rt−1 + ω2 ht−1 + α1rt−1 <0 rt−1 (5.403)
154CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

t ∼ N (0, 1). 1rt−1 <0 est une variable qui prend la valeur 1 lorsque les rendements en
date t − 1 sont négatifs. Dans ce cas là, on observe une volatilité ht à la date suivante
qui est plus importante que dans le cas où les rendements sont positifs, pourvu que
α >. On a encore un processus pour les rendements qui est conditionnellement centré.
La variance conditionnelle quant à elle dépend des rendements à la date passé :
2
E[ht |rt−1 > 0] = ω0 + ω1 rt−1 + ω2 ht−1 (5.404)
2
E[ht |rt−1 < 0] = ω0 + (ω1 + α)rt−1 + ω2 ht−1 (5.405)

Ce type de modèle se rapproche peu à peu de modèles à changement de régime, avec


une specification naive du seuil sur les rendements à dépasser. Ces modèles ne sont
encore une fois pas traités ici, bien qu’ils revetent un intéret certain en econométrie de
la finance. Ils restent un sujet trop avancé pour être abordé ici.

[Link] Modèle GARCH de Heston


L’objet de cette section est de montrer les liens existants entre les processus GARCH(1,1)
et les processus continus classiquement utilisés en finance. Cette section s’inspire gran-
dement de Aboura (2005) ainsi que de Gourieroux (1992).

L’une des utilisations que l’on on aurait envie de faire de ces processus GARCH est bien
évidement de les utiliser afin de valoriser des actifs financiers. Plus particulièrement, on
sait que les options sont des actifs dont le prix est particulièrement sensible aux varia-
tions de la volatilité. Un certain nombres d’articles de recherche se sont ainsi tournés
vers des méthodes permettant de valoriser des options vanilles (typiquement un call) en
utilisant des dynamiques GARCH pour les rendements du sous-jacent. Dans le cadre
de ce type de démarche, on butte sur deux types de difficultés :

– Il s’agit tout d’abord de déterminer un processus continu dont la discrétisation corres-


pond bien à un processus GARCH. En général, on est souvent capable de passer d’un
processus continu sa contrepartie discrète. On se souvient de la petit application du
lemme d’Ito permettant de montrer que dans le cadre de Black-Scholes, la diffusion
discrétisée correspond exactement à un bruit blanc. En revanche, lorsque l’on veut
passer d’une dynamique discrète à sa version continue, rien n’est gagné d’avance.
Il s’agit encore d’un sujet actuel de recherche : inutile d’aborder cette question en
profondeur ici.
– Le second problème rencontré est de passer de la dynamique historique (celle que
l’on observe) à la dynamique risque neutre. Un certain nombre de méthodes ont été
proposés et nous aborderons brièvement celle proposée par Heston.

Commençons par nous intéressé à la la limite possible d’un processus GARCH. Bien
évidement, il s’agit de la limite au sens financier du terme, i.e. pour un pas de temps
infinitésimal. Il ne faut surtout pas confondre la limite en finance, avec une limite
vers l’infini, souvent utilisée en statistique (par exemple dans l’énoncé de la loi des
grands nombres). Engle et Ishida (2002) montrent comment trouver les diffusions cor-
respondants à certains processus GARCH. On propose ici de développer le cas d’un
GARCH(1,1).
5.3. LES MODÈLES ARCH-GARCH 155

On a le modèle suivant pour les rendements :


p
rt = ht t (5.406)
2
h t = ω0 + ω1 rt−1 + ω2 ht−1 (5.407)

avec les hypothèses habituelles. On travaille ici sur la dynamique de la variance condi-
tionnelle, ht . Il s’agit d’une série d’astuces permettant de trouver par passage à la
limite le processus effectivement suivi par la variance conditionnelle. On commence par
réécrire la variance comme suit :

ht = ω0 + (ω1 + ω2 )ht−1 + ω1 (rt−1 − ht−1 ) (5.408)

En posant alors γ = ω1 + ω2 et en remplaçant rt2 par son expression, il vient :

ht = ω0 + γht−1 + ω1 (ht−1 2t−1 − ht−1 ) (5.409)


= ω0 + γht−1 + ω1 ht−1 (2t−1 − 1) (5.410)

On note alors ηt = 2t−1 − 1, un bruit de loi chi-deux, centré. On remplace :

ht = ω0 + γht−1 + ω1 ht−1 ηt (5.411)

Nouvelle astuce : on réécrie le processus en travaillant sur les différences de variance


conditionnelle :

ht − ht−1 = ω0 − ht−1 + γht−1 + ω1 ht−1 ηt (5.412)


= ω0 − (1 − γ)ht−1 + ω1 ht−1 ηt (5.413)

On note à présent k = (1 − γ). On remplace :

ht − ht−1 = ω0 − kht−1 + ω1 ht−1 ηt (5.414)


ω 
0
=k − ht−1 + ω1 ht−1 ηt (5.415)
k
On note ϑ = ωk0 = 1−ωω0
1
. On n’aura pas manqué de remarquer que cette constante
ressemble furieusement à la l’espérance non conditionnelle de la variance d’un processus
GARCH(1,1). En réintroduisant, on obtient :

ht − ht−1 = k (ϑ − ht−1 ) + ω1 ht−1 ηt (5.416)

Cette dernière expression correspond à un cas particulier d’un processus général développé
par Engle et Ishida, nommé CEV-GARCH, par analogie avec les modèles CEV (Constant
Elasticity Variance) développés par la finance en temps continu. La version discrète d’un
CEV-GARCH est :

ht − ht−1 = k(ϑ − ht−1 ) + ω1 hξt−1 ηt (5.417)

et semble converger vers :

dht = k(ϑ − ht ) + ω1 hξt dWt (5.418)


156CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

où Wt est un mouvement brownien standard. Dans notre cas, on trouve naturellement
comme limite d’un GARCH(1,1) la diffusion suivante :

dht = k(ϑ − ht ) + ω1 ht dWt (5.419)

La question suivante, et qui n’est pas abordée ici, est de parvenir à déterminer la dyna-
mique risque neutre des rendements. Heston[1993] propose le principe de Neutralisation
Locale au Risque. Un lecteur soucieux d’en savoir plus lira avec intéret le dernier cha-
pitre de Aboura (2005), ainsi que le papier de Heston. Ce point n’est pas développé
dans la mesure où il s’appuie sur des modèles à volatilité stochastique qui n’ont pas
encore été abordés.

5.3.7 Modèles exponentiels


Cette courte section a pour objectif d’introduire brièvement l’usage des modèles expo-
nentiels et à volatilité stochastiques en séries temporelles. Les deux types de modèles
peuvent être vus comme appartenant à la même famille, dans la mesure où ils reposent
tous deux sur une paramétrisation de la volatilité sous la forme de l’exponentielle d’un
processus, afin de garantir sa positivité.

[Link] Le modèle EGARCH


Les modèles EGARCH furent introduits par Nelson (1991) afin d’améliorer et d’assou-
plir les processus GARCH tel qu’on les a présenté jusqu’à présent. Il s’agit tout d’abord
de trouver une façon d’éviter l’ensemble des contraintes pesant sur les paramètres des
modèles GARCH : on a vu qu’il était nécessaire d’ajouter ces contraintes pour garan-
tir la positivité et l’existence de la variance non conditionnelle. Nelson propose une
méthode permettant d’éviter ces contraintes, et permettant de plus degénérer de la
skewness négative.

On se borne ici à présenter le modèle, sans évoquer ni l’inférence, ni la prévision en


utilisant ce modèle. Comme dans le cadre d’un GARCH classique, on a :
p
rt = ht t (5.420)

Ce qui change cette fois-ci, c’est la façon d’écrire l’équation de la variance. Celle-ci est
écrite en terme de logarithme :
p
ln(ht ) = ω0 + ω1 ln(ht−1 ) + ω2 (|t−1 | − 2/π) − αt−1 (5.421)
p
avec t ∼ N (0, 1). Dans cep cas E[|t |] = 2/π, d’où le fait que l’on retire cette quantité
dans le terme ω2 (|t−1 | − 2/π) : on travaille sur une variable centrée. α est supposé
être positif (mais précédé d’un signe négatif), afin de permettre les effets levier tels
qu’on les a évoqué plus haut. On a ainsi :
p
E[ln(ht )|ht−1 , t−1 > 0] = (ω0 − ω2 2/π) + ω1 ln(ht−1 ) + (ω2 − α)t−1 (5.422)
p
E[ln(ht )|ht−1 , t−1 < 0] = (ω0 − ω2 2/π) + ω1 ln(ht−1 ) − (α + ω2 )t−1 (5.423)
5.3. LES MODÈLES ARCH-GARCH 157

Ainsi, selon les valeurs des paramètres, la réponse de la volatilité à des chocs positifs ou
négatifs peut différer, autorisant la modèlisation des fameux effets leviers. On se forge
rapidement l’intuition que lorsque t−1 < 0, on a alors une volatilité conditionnelle
plus importante que dans le cas contraire. On n’en dira pas davantage au sujet de ces
modèles, ce qui reste étant trop avancé.

[Link] Les modèles à volatilité stochastique


On présente encore plus brievement les modèles à volatilité stochastique, sur la base de
ce qui en est dit dans Wang (2003)[chapitre 3 et 7]. Jusqu’à présent, on a supposé que
la loi de la variance conditionnelle était intégralement dictée par la loi des rt et qu’elle
n’avait par conséquent pas de loi propre. On rappelle que d’après ce qui a été dit, la
loi de la volatilité historique dans le cadre d’un GARCH ne devrait pas être loin d’un
processus χ2 décentré.

Les modèles de volatilté stochastique se présentent dans un cas particulier simple de la


façon suivante :

rt = σt t (5.424)
t ∼ N (0, σ ) (5.425)
ht = lnσt2 (5.426)

A la différence des EGARCH, on propose une dynamique propre à la variance, avec une
loi propre. Wang (2003) propose simplement de donner à lnσt2 un pattern ARMA(p,q).
On a alors dans le cas d’un ARMA(1,1), la volatilité suivante :

ht = α + ρht−1 + νt + θνt−1 (5.427)


νt ∼ N (0, σν ) (5.428)

Au final, on a donc deux bruits différents : un premier bruit lié à l’équation des ren-
dements eux-même, et un second bruit venant de la volatilité elle-même. Dans ce cas
précis, la loi de la volatilité est une loi log-normale, à support positif, tout comme le
χ2 que l’on obtient dans le cas d’un ARCH(1). On retrouve un processus proche d’un
ARCH(1) dans le cas où θ = 0.

L’inférence de ce type de processus repose sur des méthodes particulièrement avancées


(filtres de Kalman) et il n’est pas question d’aborder ces questions ici. On remarque
cependant que les modèles ARMA estimés sur les volatilité implicites présentées dans
le cadre de la section consacrée aux ARMA peuvent être vu comme une façon de se
rapprocher de ce type de modèles.

Terminons ce chapitre en remarquant qu’il est possible de fournir différentes paramétrisations


pour la corrélation entre les deux bruits, et que cette paramétrisation permet de rendre
compte de forme de smile assez variées. Cf. Aboura (2005)[Chapitre 2].
158CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES
Chapitre 6

Boite à outils statistiques

Ce dernier chapitre présente quelques applications statistiques utiles à la finance :


l’analyse en composantes principales, utile pour l’analyse des séries mutlivariées et des
bases de données conséquentes ; les méthodes non-paramétriques, rarement utiles (elles
consomment énormément de données), mais souvent utilisées dans les logiciels de sta-
tistique.

Il s’agit d’un chapitre relativement léger : on fournit à chaque fois un certain nombre de
références pour tout lecteur soucieux d’approfondir ses connaissances (comme Pépino
par exemple).

6.1 Méthodes non-paramétriques et application


Dans tout ce qui a été développé jusqu’à présent, on a spécifié une forme functionnelle
intuitée à partir de différents éléments, tel que l’ACF du carré des rendements pour
former l’intuition des modèles ARCH. Il n’est pas toujours possible de spécifier cette
forme ex ante, et c’est précisément là qu’interviennent les méthodes non paramétriques.

6.1.1 Introduction aux méthodes non paramétriques


L’essence des modèles non paramétriques est le lissage, i.e. le fait d’utiliser des esti-
mateurs permettant de lisser en quelques sortes les relations entre différentes variables.
Supposons par exemple que l’on observe deux variables X et Y , liées par la relation
suivante :

Yt = m(Xt ) + t (6.1)

où t est un bruit blanc, d’espérance nulle. m(.) est une fonction arbitraire mais lisse
de xt . Plaçons nous en une date t, et supposons alors que X = x. Supposons également
que pour cette date, l’on dispose de n observations pour Yt . On peut alors écrire :
n n
1X 1X
yi = m(x) + i (6.2)
n n
i=1 i=1

159
160 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

On sait que par la loi des grands nombres, on a :


n
1X
i → 0 (6.3)
n
i=1
Pn
On trouve donc que n1 i=1 yi est un estimateur consistant de m(x). Evidement, en
finance, on dispose rarement (jamais) de ces n observations. En général, on a à dispo-
sition un processus joint {yt , xt }. Dans ces cas là, on propose d’utiliser un compromis,
basé sur une moyenne pondérée des yt à la place d’une simple moyenne. On propose
alors une relation de la forme :
n
1X
m̂(x) = ωi (x)yi (6.4)
n
i=1

où ωt (x) est un poids qui est plus important pour les yt pour lesquels on a des xt proche
de x. L’estimation est ainsi déterminée à la fois par la distance entre xt et x et à la fois
par le poids accordé à cette distance.

Tout ceci peut sembler plutot abscond, et est principalement utilisé lors de l’estimation
des densités par noyau.

6.1.2 Estimateurs à noyau


Il est possible d’approcher l’estimation d’une densité, à l’aide d’un histogramme. Mais
il est également possible, pour peu que l’on dispose de suffisament de données, de lisser
cet histogramme à l’aide d’un noyau. Le noyau est une forme de fonction de lissage.
On note K(x) ce noyau. Comme il s’agit de poids, il est nécessaire d’avoir la propriété
suivante :
Z
K(z)dz = 1 (6.5)

En général, on ajoute un paramètre d’échelle, appelé bandwidth et noté h, que l’on


incorpore comme suit :
Z
1 x
Kh (x) = K , Kh (z)dz = 1 (6.6)
h h

La fonction de poids est alors définie comme suit :

Kh (x − xt )
ωt (x) = 1 Pn (6.7)
n t=1 Kh (x − xt )

Cette paramétrisation permet évidement d’obtenir des poids dont la somme soit égale
à n. On obtient alors l’estimateur à noyau de Nadaraya-Watson, qui prend la forme
suivante :
Pn
Kh (x − xt )yt
m̂(x) = Pt=1n (6.8)
t=1 Kh (x − xt )
6.1. MÉTHODES NON-PARAMÉTRIQUES ET APPLICATION 161

Dans la pratique, il est nécessaire de spécifier une forme pour le noyau. On utilise dans
le cas le plus courant un noyau gaussien qui est défini par :

x2
 
1
Kh (x) = √ exp − 2 (6.9)
h 2π 2h

Tout l’art de l’estimation par noyau consiste alors à déterminer un h optimal. Tsay
(2002) présente quelques intuitions dans le cas d’un noyau d’Epanechnikov. On donne
ici simplement la règle que l’on se forge rapidement en utilisant ce type d’estimation :
un h trop faible conduit à ne pas assez lisser l’histogramme. Au contraire, un h trop
important lisse plus que de raison l’histogramme empirique.

Le choix de h ne donc si être trop petit, ni trop grand. La fonction density de R


détermine ce h de façon optimale, à l’aide de méthodes qui sont trop avancées pour
être présentées ici. Notons pour conclure que ces méthodes non paramétriques ne sont
applicables qu’à partir du moment où l’on dispose d’un nombre de données suffisantes
(i.e. au moins 1000 observations). On présente un exemple en figure 6.1.

[Link](x = x)
0.4
0.3
Density

0.2
0.1
0.0

−4 −2 0 2 4

N = 10000 Bandwidth = 0.1423

Fig. 6.1 – Densité estimée par méthode des noyaux

Voici un exemple de fonction R permettant d’appliquer la méthode des noyaux. Elle est
relativement simple et nécessite d’optimiser le h à taton.

kernel<-function(X,n,h,min,max){
k=length(X);
support<-seq(min,max,length=n);
[Link]<-numeric(n);
for (i in 1:n){[Link][i]=1/(k*h)*sum(1/sqrt(2*pi)*exp(-((X-support[i])/h)^2))};
return(list([Link]=[Link], t=support))
}
162 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

La figure 6.2 présente l’estimation de la densité d’une loi normale centrée réduite dans
le cas où h est mal choisi. On a utilisé le code précédent pour construire ces graphiques.

h=5 h=0.05

0.35
0.075

0.30
0.25
0.070
Loi normale centrée réduite

Loi normale centrée réduite

0.20
0.065

0.15
0.10
0.060

0.05
0.055

0.00

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Support Support

Fig. 6.2 – Densité estimée par méthode des noyaux

6.2 Analyse des données


L’analyse des données fournit un spectre de méthodes robustes permettant de faire du
data-mining, i.e. de l’exploration de données. Il arrive assez souvent que l’on se retrouve
face à un nombre important de séries de données, dont on se sait pas grand chose, sinon
qu’elles son liées. L’analyse en composantes principales permet de passer d’une base de
données contenant un grand nombre de variables, à une base de données résumée par un
nombre de facteurs limité. Il est alors nettement plus facile d’analyser ce nombre réduit
de facteurs que de travailler sur l’ensemble des séries de données. On présente dans ce
qui suit la méthode de l’ACP, ainsi qu’une application bien connue à la courbe des taux.

6.2.1 Analyse en composante principales


Nous avons jusqu’ici accordé peu d’attention aux séries mutlivariées, i.e. à l’étude de p
séries de données simultanément. L’ACP permet d’explorer ces p séries de données, en
formant des facteurs orthogonaux à partir de la matrice de corrélation des p séries.

On travaille à présent sur une matrice X de taille M(n, p), contenant les n observa-
tions des p séries que l’on souhaite étudier. Une ACP propose de déterminer un nombre
réduit de facteurs qui sont des combinaisons linéaires des éléments de la matrice X, de
façon à expliquer les liens existants entre les différentes séries. Ce faisant, on parvient
en quelques sortes à expliquer la matrice de corrélations de ces p séries. L’important
dans cette méthode est de permettre la construction d’un nombre de facteurs qui soit
6.2. ANALYSE DES DONNÉES 163

inférieur à p. L’idée est donc de réduire la dimensionalité du problème.

Il existe un certain nombre de bonnes références, plus ou moins avancées, permettant


de comprendre l’ACP ou d’approfondir ce qui va être présenté. On pourra se reporter
par exemple à Tsay (2002)[chapitre 8], Pagès (2005) et Saporta (1988). Ce sont les
ouvrages utilisés lors de l’élaboration de ces notes de cours.

On travaille à présent sur notre matrice X qui est telle que :


 
x1,1 x1,2 . . . x1,p
 .. .. 
 x2,1 . . x1,p 
X= .
.. .. .. 
 (6.10)
 .. . . . 
xn,1 xn,2 . . . xn,p

On commence par un petit peu de calcul matriciel. On appelle centre de gravité le


vecteur composé des moyennes empiriques, variable par variable. On le note :
1 T
gT =

x̄.,1 x̄.,2 . . . x̄.,p = X 1n (6.11)
n
Avec 1n un vecteur colonne composé de 1. On note que ceci revient à accorder autant
d’importance à toutes les observations. Il est possible d’utiliser des poids différents
de n1 , permettant d’accorder plus ou moins d’importance aux observations, selon, par
exemple, leur écart à la moyenne (métrique inverse variance).

On en déduit Y , la matrice des p observations centrées :

Y = X − 1n g T (6.12)

Il est alors aisé d’obtenir la matrice de variance/covariance des séries. Il s’agit simple-
ment de :
1 T
V = X X − gg T (6.13)
n
1
= Y TY (6.14)
n
La matrice des observations centrées réduites s’écrit donc naturellement :
 1
0 ... 0

s1
 0 1
s1 ... 0 
Z = Y D1/s , avec D1/s =  . (6.15)
 
.. .. .. 
 .. . . . 
1
0 ... 0 sp

où D1/s est la racine de l’inverse de la première diagonale de la matrice V, i.e. une ma-
trice composée de l’inverse des écart-types de chaque variable. La matrice de corrélation
des variables s’obtient alors de façon aisée :
1 T
R= Z Z (6.16)
n
164 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

Il est possible de procéder à une ACP sur la matrice V ou sur la matrice R. Cepen-
dant, l’utilisation de V présente le désavantage de ne pas fournir des facteurs stables à
toute combinaison linéraire de chaque variable. En clair : si on modifie de façon linéaire
une variable particulière, l’ACP sur V ne fournira pas ex-post les mêmes facteurs. On
préférera alors utiliser R pour l’ACP : R est insensible à toute transformation linéaire
variable par variable. Ceci revient en réalité à réaliser une ACP sur V, en utilisant une
métrique particulière, i.e. une mesure de distance entre observations, i.e. la métrique
définie par D1/s . On en dira pas plus sur ce point plus théorique que pratique.

On appelle intertie totale de X la moyenne pondérée des carrés des distances des
observations au centre de gravité. On a donc :
n
1 X   T
Ig = Xi,. − g T D1/s Xi,. − g T (6.17)
n
i=1
n
1X T
= Zi,. Zi,. (6.18)
n
i=1
L’inertie peut être vue comme une sorte de variance totale de X : il s’agit de l’écart entre
chaque observation et le centre de gravité. Cette notion présente un certain nombre de
propriétés intéressantes. On commence par réécrire l’inertie de la façon suivante :
n p
1 XX 2
Ig = Zi,j (6.19)
n
i=1 j=1
p n
X X 1 2
= Zi,j (6.20)
n
j=1 i=1
p n
X 1 X (Xi,j − gj )2
= (6.21)
n
j=1
s2j i=1
p n
X 1 1X
= (Xi,j − gj )2 (6.22)
j=1
s2j n i=1
| {z }
s2j
p
X s2j
= (6.23)
j=1
s2j
= T r(R) (6.24)
=p (6.25)
Avec la métrique utilisée, l’inertie totale est toujours la même : elle est égale au nombre
de variables présentes dans X. L’idée sous-jacente à l’ACP est de proposer une méthode
permettant de résumer un grand nombre de variables en un nombre réduit de facteurs,
ces facteurs ayant été composés suivant une règle basée sur l’inertie. Le critère pour
former les facteurs est simple : on cherche k facteurs orthogonaux, de façon à former
une nouvelle base orthogonalisée permettant de représenter nos p variables. On cherche
ces facteurs de façon à ce que l’inertie de X dans cette nouvelle base soit la plus im-
portante possible.
6.2. ANALYSE DES DONNÉES 165

En général, on présente ceci sous la forme de projections : on cherche un projecteur


P , i.e. une matrice permettant de transformer des variables dans X pour en faire des
variables dans la nouvelle base. Un projecteur présente un certain nombre de propriétés,
telles que :

P2 = P (6.26)
P T D1/s2 = D1/s2 P (6.27)

On détermine alors l’inertie de X T P , i.e. de X dans la nouvelle base. En travaillant sur


les variables centrées (i.e. Y ), on a :
 T  
V 0 = Y P T D1/s Y P T (6.28)
= PV PT (6.29)

Comme précédement, l’inertie du nuage vaut :

T r(P V P D1/s2 ) = T r(P V D1/s2 P ) (6.30)


2
= T r(V D1/s2 P ) (6.31)
= T r(V D1/s2 P ) (6.32)
(6.33)

Le problème de l’ACP est donc de trouver P de façon à ce que l’inertie de Y P T soit


maximale. On ne détaille pas la solution à ce problème, on se contente du résultat
suivant : les k facteurs réalisant cette condition ont pour coordonnées les k premiers
vecteurs propres de V D1/s2 , c’est à dire de R. Si le ième vecteur propre est ui , alors le
ième facteur est égal à :

fi = Zui (6.34)

On appelle également ces facteurs composantes principales. Elles présentent la particu-


larité suivante :
1
V (fi ) = (Zui )T (Zui ) (6.35)
n
1
= uT Z T Zui (6.36)
n i
1 T
= uT
i Z Zui (6.37)
n
= uT
i Rui (6.38)
= λi uT
i ui (6.39)
= λi (6.40)

où λi est la valeur propre associée au vecteur propre ui . On obtient ces derniers résultats
car par définition, une valeur propre est telle que :

Rui = λi ui (6.41)
166 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

On a de plus par construction :

uT
i ui = 1 (6.42)

Terminons par quelques remarques : on a vu tout d’abord que la variance d’un facteur
est égale à la valeur propre associée au vecteur propre permettant d’obtenir ce facteur.
Ces facteur étant orthogonaux, la variance de la somme des facteurs est la somme de
la variance des facteurs, autrement dit la somme des valeurs propres. On a donc :
k k
!
X X
V fi = V (fi ) (6.43)
i=1 i=1
Xk
= λi (6.44)
i=1

Un autre résultat classique de l’algèbre linéaire, la trace d’une matrice carré est égale
à la somme de ses valeurs propres. Dans notre cas, on a donc :
k
X
T r(R) = λi (6.45)
i=1

On trouve donc que l’inertie associée à X (du moins à sa version centrée réduite) est
exactement égale à l’inertie dans la nouvelle base. La différence tient au fait que dans
la nouvelle base, les facteurs sont ordonnés par part d’inertie décroissante : du fait
de l’alogorithme de maximisation permettant de trouver la solution à notre problème
(alogrithme qui n’a pas été présenté ici), les vecteurs propres que l’on détermine arrive
par valeurs propres décroissantes. Autrement dit, le facteur 1 est associé au vecteur
propre pour lequel on a la plus grande valeur propre.

Pour résumer, l’ACP revient à remplacer les variables composant X qui sont corrélées,
par de nouvelles variables, les composantes principales qui sont combinaisons linéaires
des variables composant X, non corrélées entre elles, de variance maximale et les plus
liées en un certain sens aux variables composant X. L’ACP est ce qu’on appelle une
méthode factorielle linéaire.

6.2.2 Applications : les facteurs de la courbe des taux


On présente une courte application aux taux d’intéret de la méthode de l’ACP. On dis-
pose dans une matrice X de n observations pour des taux swap de maturité constante,
allant de 1 an à 30 ans. On obtient la matrice de corrélation suivante :
1 an 2 an 3 an 4 an 5 an 6 an 7 an 8 an 9 an 10 an 15 ans 20 ans 30 ans
1 an 1,00 0,21 0,24 0,27 0,27 0,23 0,25 0,25 0,26 0,23 0,24 0,22 0,24
2 an 0,21 1,00 0,92 0,89 0,86 0,83 0,81 0,79 0,77 0,80 0,77 0,74 0,70
3 an 0,24 0,92 1,00 0,93 0,90 0,88 0,86 0,84 0,83 0,85 0,81 0,79 0,75
6.2. ANALYSE DES DONNÉES

4 an 0,27 0,89 0,93 1,00 0,95 0,91 0,91 0,89 0,88 0,88 0,85 0,83 0,79
5 an 0,27 0,86 0,90 0,95 1,00 0,94 0,94 0,92 0,91 0,90 0,87 0,85 0,81
6 an 0,23 0,83 0,88 0,91 0,94 1,00 0,96 0,97 0,97 0,90 0,88 0,86 0,83
7 an 0,25 0,81 0,86 0,91 0,94 0,96 1,00 0,95 0,95 0,91 0,86 0,84 0,82
8 an 0,25 0,79 0,84 0,89 0,92 0,97 0,95 1,00 0,98 0,90 0,89 0,87 0,85
9 an 0,26 0,77 0,83 0,88 0,91 0,97 0,95 0,98 1,00 0,91 0,90 0,88 0,86
10 an 0,23 0,80 0,85 0,88 0,90 0,90 0,91 0,90 0,91 1,00 0,90 0,88 0,86
15 ans 0,24 0,77 0,81 0,85 0,87 0,88 0,86 0,89 0,90 0,90 1,00 0,98 0,94
20 ans 0,22 0,74 0,79 0,83 0,85 0,86 0,84 0,87 0,88 0,88 0,98 1,00 0,94
30 ans 0,24 0,70 0,75 0,79 0,81 0,83 0,82 0,85 0,86 0,86 0,94 0,94 1,00
167
168 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

Les deux graphiques suivantes présentent les valeurs propres et les vecteurs propres
extraits de la base de données. Idéalement, on ne souhaite retenir que quelques uns de
ces facteurs pour décrire le comportement de la courbe des taux. La méthode usuelles
est la méthode du coude : on ne retient que les valeurs propres précédant la formation
d’un coude sur le graphique. Ici, on ne retiendrait que 3 ou 4 facteurs. On considère
en général que la courbe des taux est guidée par trois facteurs, dont le premier étant
la source principale de ses mouvements. Ce facteur est en général identifié comme la
politique monétaire.

Valeurs propres


10
8
6
valeur

4
2




● ● ● ● ● ● ● ● ●
0

0 5 10 15 20 25 30

maturities

Fig. 6.3 – Valeurs propres


1.0

Factor 1

Factor 2


Factor 3
0.5


Factor 4

Correlations

● ●
0.0


● ●



−0.5


−1.0

0 5 10 15 20 25 30

Maturities

Fig. 6.4 – Vecteurs propres


Bibliographie

Aboura, S. (2005). Les modèles de volatilité et d’options. Publibook.

Berndt, E. K., Hall, R. E., Hall, B., and Hausman, J. A. (1974). Estimation and infe-
rence in nonlinear structural models. Annals of Economic and Social Measurement,
3 :653–665.

Black, F. and Scholes, M. (1973). The Pricing of Options and Corporate Liabilities.
Journal of Political Economy, (81) :637–654.

Bollen, B. and Inder, B. (2002). Estimating Daily Volatility in Financial Market Utili-
zing Intra Day Data. Journal of Empirical Finance, 9 :551–562.

Bollerslev, T. (1986). Generalized Autoregressive Conditional Heteroscedasticity. Jour-


nal of Econometrics, 31 :307–328.

Cherubini, U., Luciano, E., and Vecchiato, W. (2005). Copula Methods in Finance.
Wiley.

Cochrane, J. (2002). Asset Pricing. Princeton University Press.

Cochrane, J. (2005). Time series for macroeconomics and finance - Manuscrit.


http ://[Link]/fac/[Link]/research/Papers/time series [Link].

Crépon, B. (2005). Econométrie linéaire. Cours ENSAE deuxième année,


http ://[Link]/pageperso/crepon/[Link].

Davidson, R. and MacKinnon, J. (1993). Estimation et inférence en Économétrie.


Oxford University Press. http ://[Link]/EIE/.

Deschamps, P. (2004). Cours d’économétrie. Université de Neuchâtel.


http ://[Link]/Philippe Deschamps/[Link].

Duflo, M. (1996). Algorithmes stochastiques. Springer, Berlin, Heidelberg, New York.

Embrechts, P., Lindskog, F., and McNeil, A. (2001). Modelling dependance with copulas
and applications to risk management. Preprint ETZH.

Embrechts, P., McNeil, A., and Straumann, D. (1999). Correlation and dependency
in risk management : properties and pitfalls. Departement of Mathematik , ETHZ,
Zürich, Working Paper.

Engle, R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the


Variance of United Kingdom Inflation. Econometrica, 50 :987–1007.

169
170 BIBLIOGRAPHIE

Engle, R., Lilien, D., and Robbins, R. (1987). Estimating Time Varying Risk Premia
in the Term Structure : the ARCH-M Model. Econometrica, 55 :391–407.

Faraway, J. (2002). Practical regression and anova using R. http ://cran.r-


[Link]/doc/contrib/[Link].

Garman, M. and Klass, M. (1980). On the Estimation of Security Price Volatilities


from Historical Data. Journal of Business, 53 :67–78.

Glosten, L., Jagannathan, R., and Runkle, D. (1993). On the Relation between the
Expected Value and the Volatility of the Nominal Excess Return on Stocks. Journal
of Finance, 48 :1779–1801.

Gourieroux, C. (1992). Modèles ARCH et applications financières. Economica.

Gourieroux, C. and Jasiak, J. (2001). Econometrics of Finance. Princeton University.

Gourieroux, C., Montfort, A., and Trognon, A. (1984). Pseudo Maximum Likelihood
Methods : Applications to Poisson Models. Econometrica, 52 :701–720.

Greene, W. H. (2002). Econometric analysis. Prentice Hall.

Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.

Harvey, A. C. (1990). The econometric analysis of time series. LSE Handbooks in


economics.

Lopez, J. (2001). Evaluating the Predictive Accuracy of Volatility Models. Journal of


Forecasting, 20 :87–109.

Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, M., and Teller, E. (1953). Equa-
tions of state calculations by fast computing machines. Journal of Chemical Physics,
21 :1087–1092.

Münk, C. (2004). Asset Pricing Theory. Lectures Notes for PhD Students.

Nelson, D. (1991). Conditional Heteroscedasticity in Asset Returns : a New Approach.


Econometrica, 59 :347–370.

Pagès, J. (2005). Statistiques Générales pour Utilisateurs - Tome 1 & 2. Presses


Universitaires de Rennes.

Paradis, E. (2005). R pour les débutants. http ://cran.r-


[Link]/doc/contrib/Paradis-rdebuts [Link].

Parkinson, M. (1980). The Extreme Value Method for Estimating the Variance of the
Rate of Return. Journal of Business, 53 :61–65.

Poon, S.-H. (2005). A Practical Guide to Forecasting Financial Market Volatility. Wiley
Finance.

Quinn, K. (2001). The newton raphson algorithm for function optimization.


http ://[Link]/quinn/classes/536/notes/[Link].
BIBLIOGRAPHIE 171

Robert, C. (1996). Méthodes de Monte Carlo par Chaı̂nes de Markov. Economica.

Saporta, G. (1988). Probabilités, Analyse des Données et Statistiques. Technip.

Taylor, S. (1986). Modelling Financial Time Series. Wiley.

Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.

VonSachs, R. and VanBellegem, S. (2002). Méthodes stochastiques appliquées


à la prévision, séries chronologiques. Université Catholique de Louvain,
http ://[Link]/cours/stat2414/[Link].

Wang, P. (2003). Financial Econometrics. Routledge.

Vous aimerez peut-être aussi