0% ont trouvé ce document utile (0 vote)

32 vues171 pages

Hasbnclic 708

Transféré par

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

0% ont trouvé ce document utile (0 vote)

32 vues171 pages

Hasbnclic 708

Transféré par

hichemboutalby

Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.

Formats disponibles

Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Econométrie de la Finance

Florian Ielpo1

24 février 2008

1
Dexia Group, 7/11 Quai André Citroën, 75015 Paris, Centre d’Economie de la Sorbonne
- Antenne de Cachan, Avenue du Président Wilson, 94230 Cachan. E-mail : [Link]@clf-
[Link]
2
Table des matières

0.1 Introduction de la deuxième édition . . . . . . . . . . . . . . . . . . . . 7

0.2 Introduction de la première édition . . . . . . . . . . . . . . . . . . . . . 7

1 Rappels de mathématiques et probabilité 11

1.1 Des variables aléatoires et des hommes . . . . . . . . . . . . . . . . . . . 11
1.1.1 L’univers... et au dela . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.2 A chacun sa tribu . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.3 Probabilités... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.1.4 Variables aléatoires . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.1.5 Les moments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.1.6 Distribution, fonction de répartition et densité . . . . . . . . . . 15
1.1.7 Loi conditionnelle et lemme des espérances itérées . . . . . . . . 16
1.1.8 Fonction génératrice des moments et fonction caractéristique . . 17
1.2 Le petit monde tres fermé des convergences . . . . . . . . . . . . . . . . 18
1.2.1 Convergence en probabilité et presque sure . . . . . . . . . . . . 18
1.2.2 Convergence en distribution et TCL . . . . . . . . . . . . . . . . 19
1.3 Vous reprendrez bien un petit peu de calcul matriciel ? . . . . . . . . . . 19

2 Retour sur le modèle linéaire : cas univarié et multivarié 21

2.1 Le modèle de régression linéaire simple . . . . . . . . . . . . . . . . . . . 21
2.1.1 Les hypothèses du modèle linéaire simple . . . . . . . . . . . . . 22
2.1.2 Les moindres carrés . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.1.3 Analyse de la variance . . . . . . . . . . . . . . . . . . . . . . . . 26
2.1.4 Quelques tests liés aux MCO . . . . . . . . . . . . . . . . . . . . 27
[Link] Test de Fisher . . . . . . . . . . . . . . . . . . . . . . . 27
[Link] Test de Student . . . . . . . . . . . . . . . . . . . . . . 28
[Link] Test de Durbin et Watson . . . . . . . . . . . . . . . . . 28
[Link] Les tests d’adéquation des résidus . . . . . . . . . . . . 29
2.2 Retour sur le maximum de vraisemblance . . . . . . . . . . . . . . . . . 30
2.2.1 Le principe du maximum de vraisemblance . . . . . . . . . . . . 31
2.2.2 Propriétés du maximum de vraisemblance . . . . . . . . . . . . . 33
2.2.3 EMV du modèle gaussien standard . . . . . . . . . . . . . . . . . 33
2.2.4 Les tests liés à la vraisemblance . . . . . . . . . . . . . . . . . . . 35
2.3 Prévision à partir du modèle linéraire multiple . . . . . . . . . . . . . . 36
2.4 Une calibration simple du CAPM . . . . . . . . . . . . . . . . . . . . . . 37
2.4.1 L’estimation de la relation du MEDAF par MCO . . . . . . . . . 37
2.4.2 Lien de l’estimateur MCO avec le beta financier . . . . . . . . . 38
2.4.3 Estimation de la SML . . . . . . . . . . . . . . . . . . . . . . . . 39

3
4 TABLE DES MATIÈRES

2.4.4 Calcul des alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

2.4.5 Le R2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
2.4.6 Code pour le CAPM . . . . . . . . . . . . . . . . . . . . . . . . . 40

3 Extensions du modèle de base 43

3.1 Modèle de régression non linéaire . . . . . . . . . . . . . . . . . . . . . . 43
3.2 Les modèles à système d’équations . . . . . . . . . . . . . . . . . . . . . 46
3.2.1 Estimation par moindres carrés généralisés et quasi-généralisés . 47
3.2.2 MCO contre MCG et MCQG . . . . . . . . . . . . . . . . . . . . 49
3.2.3 Estimation de systèmes d’équation par maximum de vraisemblance 50
3.2.4 Retour sur l’estimation du MEDAF : implémentation des MCQG 50

4 Optimisation de fonctions à plusieurs variables par algorithme 55

4.1 Pour commencer... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.2 Les méthodes du gradient . . . . . . . . . . . . . . . . . . . . . . . . . . 58
4.2.1 Quelques généralités pour commencer... . . . . . . . . . . . . . . 58
4.2.2 La méthode de la plus grande pente . . . . . . . . . . . . . . . . 59
4.2.3 La méthode de Newton-Raphson . . . . . . . . . . . . . . . . . . 60
4.2.4 Méthode du score et matrice BHHH . . . . . . . . . . . . . . . . 63
4.3 Estimations par algorithme aléatoire . . . . . . . . . . . . . . . . . . . . 64
4.3.1 Faire jouer le hasard . . . . . . . . . . . . . . . . . . . . . . . . . 64
4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simulé . . . 66

5 Introduction aux modèles de séries temporelles 69

5.1 Qu’est-ce qu’une série temporelle ? . . . . . . . . . . . . . . . . . . . . . 69
5.2 Les modèles ARMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.2.1 Au commencement : le bruit blanc . . . . . . . . . . . . . . . . . 70
5.2.2 Les modèles ARMA de base . . . . . . . . . . . . . . . . . . . . . 71
5.2.3 L’opérateur retard . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.2.4 Manipulation les processus ARMA avec L . . . . . . . . . . . . . 72
5.2.5 AR(1) et MA(∞) par recursion . . . . . . . . . . . . . . . . . . . 73
5.2.6 AR(1) et MA(∞) avec L . . . . . . . . . . . . . . . . . . . . . . 73
5.2.7 Résumé des manipulations possibles de l’opérateur retard . . . . 73
5.2.8 La fonction d’autocorrélation . . . . . . . . . . . . . . . . . . . . 74
[Link] Définitions . . . . . . . . . . . . . . . . . . . . . . . . . 74
[Link] ACF des modèles MA(q) . . . . . . . . . . . . . . . . . 74
[Link].1 Bruit blanc . . . . . . . . . . . . . . . . . . . . 74
[Link].2 MA(1) . . . . . . . . . . . . . . . . . . . . . . 74
5.2.9 ACF des modèles AR(p) . . . . . . . . . . . . . . . . . . . . . . . 75
5.2.10 La fonction d’autocorrélation partielle . . . . . . . . . . . . . . . 76
5.2.11 Estimation et test des ACF et PACF . . . . . . . . . . . . . . . . 77
[Link] Fonction d’Autocorrélation . . . . . . . . . . . . . . . . 77
[Link] Fonction d’autocorrélation partielle . . . . . . . . . . . 79
5.2.12 Stationnarité des processus et théorème de Wold . . . . . . . . . 80
5.2.13 Estimation des processus ARMA . . . . . . . . . . . . . . . . . . 85
[Link] Estimation d’un AR(1) . . . . . . . . . . . . . . . . . . 85
[Link] Estimation d’un AR(p) . . . . . . . . . . . . . . . . . . 87
[Link] Estimation d’un MA(1) . . . . . . . . . . . . . . . . . . 88
TABLE DES MATIÈRES 5

[Link] Estimation d’un MA(q) . . . . . . . . . . . . . . . . . . 93

[Link] Estimation d’un ARMA(p,q) . . . . . . . . . . . . . . . 94
5.2.14 Critères de sélection de l’ordre des processus ARMA . . . . . . . 95
[Link] Tests sur les résidus . . . . . . . . . . . . . . . . . . . . 95
5.2.15 Tests sur les résidus ARMA . . . . . . . . . . . . . . . . . . . . . 97
[Link] Tests sur les résidus . . . . . . . . . . . . . . . . . . . . 98
5.2.16 La prévision à l’aide des modèles ARMA . . . . . . . . . . . . . 99
5.2.17 A vrai dire... . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
5.2.18 Quelques applications de modèles ARMA . . . . . . . . . . . . . 102
[Link] Modélisation de l’inflation . . . . . . . . . . . . . . . . . 102
[Link] Modélisation du taux cible de la BCE . . . . . . . . . . 105
[Link] Modélisation de la volatilité implicite d’options sur DAX 107
5.3 Les modèles ARCH-GARCH . . . . . . . . . . . . . . . . . . . . . . . . 112
5.3.1 Présentation des faits stylisés en finance . . . . . . . . . . . . . . 112
5.3.2 Quelques mesures préliminaires de la variance . . . . . . . . . . . 113
[Link] La mesure high-low . . . . . . . . . . . . . . . . . . . . 113
[Link] Le carré des rendements comme mesure de variance . . 114
5.3.3 Présentation des modèles ARCH-GARCH . . . . . . . . . . . . . 116
[Link] Pour commencer... . . . . . . . . . . . . . . . . . . . . . 116
[Link] Introduction aux modèles ARCH-GARCH . . . . . . . 118
[Link].1 La cas d’un ARCH(1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 118
[Link].2 Les modèles ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
[Link].3 Leptokurticité des processus ARCH(p)
. . . . . . . . . . . . . . . . . . . . . . . . . . 121
[Link].4 Quid de l’asymétrie ?
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
[Link] Les modèles GARCH . . . . . . . . . . . . . . . . . . . 123
[Link].1 Le cas d’un GARCH(1,1)
. . . . . . . . . . . . . . . . . . . . . . . . . . 123
[Link].2 Les processus GARCH(p,q)
. . . . . . . . . . . . . . . . . . . . . . . . . . 125
5.3.4 Inférence des modèles ARCH-GARCH . . . . . . . . . . . . . . . 125
[Link] Le cas d’un ARCH(1) . . . . . . . . . . . . . . . . . . . 125
[Link] Le cas d’un GARCH(1,1) . . . . . . . . . . . . . . . . . 128
5.3.5 Premières Applications . . . . . . . . . . . . . . . . . . . . . . . 129
[Link] Etude de la volatilité sous-jacente de l’indice DAX . . . 129
[Link] Formule de Black Scholes avec processus GARCH : ver-
sion ad-hoc . . . . . . . . . . . . . . . . . . . . . . . . . 132
[Link] Prévision de la volatilité et ses usages . . . . . . . . . . 133
[Link].1 La VaR
. . . . . . . . . . . . . . . . . . . . . . . . . . 135
[Link].2 Calcul de la VaR à l’aide de modèles GARCH 137
[Link].2.1 VaR dans le cas univarié
. . . . . . . . . . . . . . . . . . . . . . 138
6 TABLE DES MATIÈRES

[Link].2.2 VaR dans le cas bivarié : VaR par simu-

lation
. . . . . . . . . . . . . . . . . . . . . . 141
5.3.6 Bestiaire des GARCH . . . . . . . . . . . . . . . . . . . . . . . . 144
[Link] GARCH-M . . . . . . . . . . . . . . . . . . . . . . . . . 145
[Link] GARCH intégrés . . . . . . . . . . . . . . . . . . . . . . 148
[Link] GARCH asymétriques . . . . . . . . . . . . . . . . . . . 152
[Link] Modèle GARCH de Heston . . . . . . . . . . . . . . . . 154
5.3.7 Modèles exponentiels . . . . . . . . . . . . . . . . . . . . . . . . . 156
[Link] Le modèle EGARCH . . . . . . . . . . . . . . . . . . . 156
[Link] Les modèles à volatilité stochastique . . . . . . . . . . . 157

6 Boite à outils statistiques 159

6.1 Méthodes non-paramétriques et application . . . . . . . . . . . . . . . . 159
6.1.1 Introduction aux méthodes non paramétriques . . . . . . . . . . 159
6.1.2 Estimateurs à noyau . . . . . . . . . . . . . . . . . . . . . . . . . 160
6.2 Analyse des données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162
6.2.1 Analyse en composante principales . . . . . . . . . . . . . . . . . 162
6.2.2 Applications : les facteurs de la courbe des taux . . . . . . . . . 166

Bibliographie 171
Introductions

”S o if you do not accept the Gaussian distribution (i.e. if you have some ethics) AND do not
”value” options in a axiomatized top-down fashion (i.e. only price them as some informed and
temporary guess), then YOU ARE NOT USING THE BLACK SCHOLES FORMULA, but one
of the modifications of the one started by Bachelier (the latest contributer being Ed Thorp’s).
They did not ground their formula in the Gaussian.”
Nassim Nicholas Taleb1

0.1 Introduction de la deuxième édition

Voici donc la deuxième année que j’enseigne ce cours, et de nombreuses choses ont
changé dans ma compréhension de la finance et de l’économétrie. Ces changements ont
mené à un remaniement complet du présent polycopier et à l’apparition de TD associés
à ce cours.

– Un chap de rappels, référence.

– Praise to Cochrane et Singleton. Ajout des GMM.
– Chapitre sur les tests d’hypothèse, peut etre
– Chapitre sur les ARMA/GARCH : modelling the first two moments + asymétrie.
– Chapitre spécial GMM sur un modèle d’équilibre tiré du livre sur les GMM ou de
Cochrane.
– ACP et multivarié.
– Calibration d’un modèle à vol stochastique ou d’un CIR par fonction caractéristique.

A ceci s’ajoute le mémoire à rendre.

0.2 Introduction de la première édition

Ce cours s’inscrit dans le prolongement de l’U.V. MF 231 [Statistiques I : inférence et
estimation]. Il a pour but de présenter certains approfondissements autour des princi-
paux thèmes de l’économétrie financière.

Il s’agit dans un premier temps de revenir sur le modèle linéaire gaussien, dans sa ver-
sion univariée et multivariée. On présentera quelques questions simples liées à l’inférence
statistique de ces modèles ainsi qu’à l’usage qui peut en être fait : expliquer la dynam-
qiue des séries économiques/financières et permettre la mise en oeuvre de prévisions
1
[Link]

7
8 TABLE DES MATIÈRES

encadrées par des intervalles de confiance.

Il s’agit ensuite de présenter la base de la théorie des séries temporelles : modèle ARMA,
GARCH et modèles à facteurs. Là encore, la principale motivation sera l’inférence ef-
ficace ainsi que la prévision.

La philosophie de ce cours se veut naturellement pratique : par la compréhension des

modélisations et de l’inférence, il s’agit de permettre la mise en oeuvre de ces modèles
dans le cadre d’activités de marché sur la base de n’importe quel logiciel de program-
mation. Une fois la programmation des procédures d’estimation comprise, il est relati-
vement simple de mettre en place des estimations sous n’importe quel environnement.
Il sera proposé tout au long de ce cours des exemples de code R permettant de réaliser
les estimations proposées. R est certainement l’un des meilleurs logiciels de statistique
disponibles sur le marché actuellement. Il s’agit d’un logiciel open-source : il est gra-
tuitement téléchargeable sur le site de ses développeurs2 . Le site fourni une séries de
manuels permettant une prise en main rapide et efficace du logiciel : il est conseillé
de se procurer Paradis (2005) ainsi Faraway (2002) sur le site (section manual puis
contributed documentation).

Ces notes de cours s’appuient sur un certain nombre d’ouvrages de statistiques bien
connus ainsi que sur d’autres notes de cours, qui seront citées à chaque fois. Nous y
renvoyons un lecteur soucieux de dépasser le niveau de cette introduction. La partie
consacrée au modèle linéaire gaussien est grandement inspirée de Greene (2002). La par-
tie consacrée à l’étude des séries temporelles est principalement inspirée de Cochrane
(2005).

La lecture de ces notes de cours ce nécessitent pas de connaissance mathématiques

étendue : les seules connaissances nécessaires sont des connaissances de base en algèbre
matricielle ainsi qu’en analyse (dérivée et formule de Taylor pour la partie consacrée à
l’optimimsation). Quand des éléments plus poussés sont nécessaires, ils sont en général
rappelé avant utilisation. Dans cette mesure, ce cours tente de se suffire à lui-même et ne
requiere pas de lectures annexes. A chaque fois que cela est nécessaire, le lecteur soucieux
d’approfondissements qui sont jugés inutiles à ce niveau est renvoyé à un certain nombre
de références, citées en annexes. La plupart des références fournies sont par ailleurs
des références gratuitement disponibles sur internet : un nombre croissant de profes-
seurs/cherheurs proposent leurs notes de cours sur internet. Les liens sont généralement
fournis sur la page web de mes enseignements ([Link]/ielpo). Ces
notes de cours ne sont bien entendu pas développées intégralement en cours : le chapitre
1 est notamment laissé de coté lors mes interventions. Il s’agit davantage de rappels
que d’éléments développés en cours. Il en va de même de certains passage du chapitre
2 : les élèves sont censés connaitre un certain nombre de résultats tirés de l’économétrie
basique (mco). Ces éléments prennent la forme de rapides rappels en cours : il est
nécessaire de combler d’éventuelles lacunes par une lecture plus approfondies des pas-
sages évoqués.

Enfin, ces notes de cours sont certainement entachées d’inexactitudes ou d’erreurs.

2
[Link]
0.2. INTRODUCTION DE LA PREMIÈRE ÉDITION 9

Celles-ci sont entièrement miennes : tout commentaires/signalement d’erreurs sont bien

évidement les bienvenus. La qualité de ce polycopier ira croissante au fil des ans :
l’amélioration est naturellement un processus lent, lié aux réactions des élèves ainsi qu’à
la croissance de mes propres connaissances en statistiques et en économétrie. J’espère
ainsi que ces modestes notes de cours seront un jour suffisament propres et documentées
pour fournir in fine un manuel de base suffisament rigoureux pour servir de base aux
élèves de l’ESILV.
10 TABLE DES MATIÈRES
Chapitre 1

Rappels de mathématiques et
probabilité

Cette première partie a pour but de revenir sur un certain nombre de concepts et
techniques nécessaires pour comprendre et implémenter les différentes méthodes de
l’économétrie de la finance. Il s’agit principalement de revenir sur un certain nombre
de concepts de probabilités dans un premier temps (définition d’une variable aléatoire,
de ses moments et des distributions qu’il est possible de lui affecter). Il sera ensuite
question de revenir sur les concepts de convergence (presque sure, en probabilité et
en loi), afin d’introduire la Loi des Grands Nombres (LGN hereafter) et le Théorème
Central Limite (TCL). Enfin, on finira par quelques éléments de calculs matriciel.

1.1 Des variables aléatoires et des hommes

1.1.1 L’univers... et au dela
Soit Ω = {ω1 , ω2 , ..., ωn } un espace fini d’états, représentant les différents états possibles
de la nature à un instant donné. On appelle cet espace l’univers des possibles. Cet es-
pace est fini : il n’existe qu’un nombre limité d’état atteignable par le cours du monde
(du moins dans notre façon de le concevoir). Chaque événement qu’il est possible de
voir se réaliser ωi est appelé événement élémentaire. Ces événements élémentaires sont
incompatibles deux à deux. Tout sous-ensemble de Ω est également appelé événement :
il s’agit d’un événement composé. On note par exemple A = {ω2 , ω3 , ω10 }, un sous
ensemble d’événement de Ω. Il s’agit d’un événement composé et A ⊂ Ω.

1.1.2 A chacun sa tribu

Parmi l’ensemble des sous-ensemble P(Ω), on s’interesse seulement à ceux qui sont
dotés d’une certaine structure.

Définition 1.1.1 (Notion de tribu). On dit qu’une partie A de P(Ω) est une tribu si
et seulement si elle vérifie les trois propriétés suivantes :
1. Ω ∈ A.

11
12 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

2. Pour toute partie A de A, A ∈ A.

3. Pour toute famille dénombrable (Ai )i∈I de A alors ∪i∈I Ai est aussi un élément
de A.
En pratique, le concept de tribu est essentiel en finance : il permet de rendre compte
de la façon dont l’information s’organise au fur et à mesure que le s’écoule. Il existe
d’autres dénominations pour les tribu : σ-algèbre ou filtration (une filtration est une
sigma-algèbre). Le concept de filtration est utilisé courament dans le cadre de modèle
stochastiques, tel que celui de Black and Scholes (1973). Un développement remar-
quable sur ce point peut être trouvé dans Münk (2004). On reviendra sur ce point une
fois que l’on sera revenu sur les espaces probabilisés.

Les exemples les plus courants de sigma-algèbre sont :

– A = { , Ω} est la tribu grossiere.

– A = { , A, A, Ω} où A est une partie de Ω, est la tribu de Bernouilli.
– A = P(Ω) est la tribu complète ou triviale.

Globalement, deux types de tribu peuvent nous interesser :

– A0 la tribu engendrée la famille des singletons {ω} de Ω. Cette tribu est utile lors de
la détermination d’une loi de probabilité.
– La tribu complète P(Ω).

Dans le cas où Ω est fini ou infini dénombrable (ce qui sera toujours le cas dans ce qui
suit), alors ces deux tribus sont identiques.
Définition 1.1.2 (Espace probabilisable). Le couple (Ω, A) est appelé espace probabi-
lisable. Dans le cas où Ω est fini dénombrable, A = P(Ω).

1.1.3 Probabilités...
Maintenant que l’on a défini la structure de l’univers dans lequel se déroule l’expérience
aléatoire qui nous intéresse, reste à donner une forme au hasard. C’est ce qu’on appelle
probabiliser l’espace probabilisable. Il s’agit simplement de définir la probabilité qu’un
événement A ∈ A survienne.
Définition 1.1.3 (Probabilité). P est une probabilité définie sur l’espace probabilisable
(Ω, A) si et seulement si P est une application de A vers R qui vérifie les propriétés
suivantes :
1. 0 ≤ P (A) ≤ 1, ∀A ∈ A.
2. P (Ω) = 1 (Axiome de normalisation).
3. Pour toute famille finie (Ai )0≤i≤n d’événements de A, deux à deux incompatibles,
on a :
n n
!
[ X
P Ai = P (Ai )
i=1 i=1

(Axiome de simple additivité).

1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 13

4. Pour toute famille dénombrable (Ai )i∈N d’événements de A, deux à deux incom-
patibles, on a :

∞ ∞
!
[ X
P Ai = P (Ai )
i=1 i=1

(Axiome de σ-additivité).

Le nombre réel du second membre est la somme de la série de terme général P (Ai ).
Dans la mesure où les termes de cette série sont positifs et que la probabilité de l’union
de n Ai est majorée par 1, cette série est toujours convergente.

Définition 1.1.4. L’espace (Ω, A, P ) est appelé espace probabilisé.

Ajoutons les deux définitions suivantes :

Définition 1.1.5. On sait que P (Ω) = 1, mais on peut trouver des événements A 6= Ω
et tels que P (A) = 1. On dit que ces événements sont quasi-certains ou presque sûrs.
On sait que P ( ) = 0, mais on peut trouver des événements A 6= et tels que P (A) =
0. On dit que ces événements sont quasi-impossibles ou négligeables.

Définition 1.1.6. Deux distributions P et P 0 sont dites équivalentes si elles ont les
mêmes négligeables.

Définition 1.1.7 (Espace probabilisé). Le couple (Ω, A, P ) est appelé espace probabi-
lisé.

Notons finalement que la donnée d’une probabilité P sur un espace probabilisable est
équivalent à la donnée d’une distribution de probabilité sur Ω.

1.1.4 Variables aléatoires

Avec l’ensemble des éléments précédents en tête, il est alors possible de tourner notre
attention vers ce qui fera l’objet de ce cours : les variables aléatoires.

Définition 1.1.8. Toute application X telle que :

X:Ω→R

est appelée variable aléatoire, ou plus précisement variable aléatoire réelle.

Il est possible de généraliser le concept de variable aléatoire à celui de vecteur aléatoire :

il s’agit d’une application quelconque de Ω dans Rk . On définit alors la distribution
jointe du vecteur, au lieu de définir la distribution d’une seule variable aléatoire. Notons
que l’on note généralement X cette variable aléatoire et {x1 , x2 , ..., xn } n réalisations
de cette variable aléatoire.
14 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.1.5 Les moments

Avant de s’interesser à la distribution d’une variable aléatoire, il existe d’autres quan-
tités utiles à connaitre : les moments.
Définition 1.1.9. Le moment d’ordre k d’une variable aléatoire X est la quantité
h i Z
E Xk = xk fx (x)dx
Ω

Le moment centré d’ordre k peut se calculer comme suit :

h i Z
E (X − E[X]) = k
(x − E[x])k fx (x)dx
Ω

où fx est la densité de probabilité de la variable aléatoire X. Cette densité est telle
que :
Z i+
P (i− < X < i+ ) = f (x)dx (1.1)
i−

On reviendra plus tard sur la définition d’une densité. Le moment d’ordre 1 est l’espérance :
Z
E [X] = xfx (x)dx (1.2)
Ω

Le moment centré d’ordre 2 est la variance :

Z
V[X] = E (X − E[X]) = (x − E[x])2 fx (x)dx
2

(1.3)
Ω

La variance mesure l’étalement de la distribution autour de l’espérance. En finance,

c’est donc un indicateur de risque - risque de perdre autant que risque de gagner.

Le moment d’ordre 3 normé est la skewness ou coefficient d’asymétrie :

E (X − E[X])3

Sk[X] = (1.4)
E [(X − E[X])2 ]3/2
Elle mesure l’asymétrie à gauche (négative) ou à droite (positive) d’une distribution.
Enfin, le moment centré et normé d’ordre 4 est la kurtosis :
E (X − E[X])4

Ku[X] = (1.5)
E [(X − E[X])2 ]4/2
Elle mesure l’épaisseur des queues de distribution, et donc la possibilité de surve-
nance d’événements dits extrêmes. Ces quatre moments fournissent une information
considérable sur la forme de la distribution d’une variable aléatoire. Il est également
possible de calculer des moments entre variables aléatoires, ou d’un vecteur aléatoire.

La covariance est une mesure de dépendance entre deux variables aléatoires. Soit deux
variables aléatoires X et Y :
Z Z
Cov(X, Y ) = (x − E[x]) (y − E[y]) f (x, y)dx, dy (1.6)
X(ω) Y (ω)
1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 15

où f (x, y) est la densité de la loi jointe de X et Y . Elle mesure la chance qu’on deux
séries d’évoluer de concert. Il est aisé d’interpréter son signe, mais pas son amplitude.
En normant la covariance par le produit des écart-types de X et Y , on obtient une
mesure dont il est aisé d’interpréter la valeur : le coefficient de corrélation. Il se calcule
comme suit :
Cov(X, Y )
ρ(X, Y ) = (1.7)
σX σY
ρ(X, Y ) ∈ [−1; 1], ce qui rend son interprétation aisée.

1.1.6 Distribution, fonction de répartition et densité

Ces moments n’apportent cependant qu’une information partielle sur les distributions
des variables aléatoires. Celles ci sont complement définies par la distributions de proba-
bilités. On ne revient pas ici sur les probabilités attachées à des univers fini (cas discret) :
il ne sera ici question uniquement des univers infini dénombrables. Les distributions de
variables aléatoires dans ce cadre sont approchées par la fonction de répartition et la
densité des distributions.
Définition 1.1.10 (Fonction de répartition). Soit X une variable aléatoire définie
sur l’espace probabilisé (Ω, A, P ). La fonction de répartition notée F de cette variable
aléatoire X est la fonction de R dans R définie par :

∀a ∈ R, F (a) = P (X ≤ a)

Une fonction de répartition a les caractéristiques suivantes :

1. F est monotone croissante sur R.
2. F est une fonction continue à droite en tout point de R.
3. limx→−∞ F (x) = 0 et limx→∞ F (x) = 1
Définition 1.1.11. Une fonction f est une densité de probabilité si et seulement si
elle possède les trois propriétés suivantes :
1. f est positive sur R.
2. f est continue sur R, sauf peut être sur un ensemble fini de points D.
R∞
3. −∞ f (x)dx = 1.
Notons qu’une densité n’est pas une probabilité : les conditions précédentes ne stipulent
par exemple pas que f (x) ∈ [0; 1], mais que f (x) est positive et que l’intégrale sur
l’univers est égale à 1. En revanche, la densité est liée à la distribution par la fonction
de répartition, dans la mesure où :
Z a
P (X ≤ a) = F (a) = f (x)dx,
−∞

où f est une densité de X. En effet, tout autre fonction g de R dans R, qui coincide
avec f sauf sur un ensemble fini de points de R est aussi une densité de probabilité de X.

On ne propose pas revue des principales distributions, dans la mesure où il est aisé de
trouver ces informations sur Wikipédia.
16 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.1.7 Loi conditionnelle et lemme des espérances itérées

Un aspect particulièrement important des distributions est la différence entre une distir-
bution non conditionnelle et conditionnelle. Très classiquement, on présente rapidement
le cas discret avant de passer au cas continu.

Supposons que l’on ait affaire à un groupe d’individu composé d’hommes et de femmes,
de bons et de mauvais élèves. On peut s’interesser à la probabilité de tirer au hasard un
bon éléve au sein de cette population, mais on peut aussi s’intéresser au fait de tirer un
bon éléve parmi les hommes. Il s’agit ici de la probabilité de tirer un bon éléve, sachant
que l’on tire parmi les hommes. On parle dans ce cas de probabilité conditionnelle. On
note :

P (X = {tirer un bon éléve}|il s’agit d’un homme)

La règle de Bayes permet de faire le lien entre les probabilités conditionnelles et non
conditionnelles :
T
P (A B)
Définition 1.1.12 (Probabilité conditionnelle). P (A|B) = P (B) .

P (B|A)∗P (A)
Définition 1.1.13 (Règle de Bayes). P (A|B) = P (B)

Dans le cas continu, il est possible d’obtenir une densité conditionnelle. Soit un couple
de variables aléatoires (X, Y ) définies sur un espace probabilisé (Ω, A, P ). Alors la
densité de X sachant Y s’écrit :
fX,Y
fX|Y =
fY
A ceci s’ajoute une propriété importante : la loi des espérances itérées.

Définition 1.1.14 (Espérances itérées). Soit une variable aléatoire X sur un espace
probabilisé. Alors sont espérance peut être calculée comme suit :

E[X] = EY [E[X|Y ]] (1.8)

où Y est une autre variable aléatoire par rapport à laquelle on conditionne.

Ceci vient du fait que :

Z ∞
E[X] = xf (x)dx (1.9)
Z−∞
∞ Z ∞
= x fX,Y (x, y)dydx (1.10)
−∞ ∞
Z ∞ Z ∞
= x fX|Y (x)fY (y)dydx (1.11)
−∞ ∞
Z ∞ Z ∞
= fY (y) xfX|Y (x)dxdy (1.12)
−∞ ∞
= EY [E[X|Y ]] (1.13)

Ajoutons un petit théorème très utile : le théorème de changement de variable.

1.1. DES VARIABLES ALÉATOIRES ET DES HOMMES 17

Théorème 1.1.1. Soit une variable aléatoire continue X, ayant fX (.) pour densité et
soit le support de X suivant :
X = {x|fX (x) ≥ 0} (1.14)
Si h(.) est une fonction dérivable et strictement monotone de domaine X et d’image
U, alors U = h(X) a pour densité :
dx
fU (u) = fX (h−1 (u)) , ∀u ∈ U (1.15)
du
= 0 sinon (1.16)

1.1.8 Fonction génératrice des moments et fonction caractéristique

Une autre façon de caractériser les distributions est d’utiliser la fonction caractéristique
et/ou la fonction génératrice des moments.
Définition 1.1.15. La fonction caractéristique d’une variable aléatoire X est la fonc-
tion suivante :
γ(t) = E[eitX ] (1.17)
= E[cos(tX)] + iE[sin(tX)] (1.18)
Cette fonction est existe toujours. Elle caractérise entièrement la distribution de X, ce
qui en fait une contrepartie aux densités. Il sera ainsi possible de travailler à la fois en
terme de densité ou de fonction caractéristique. De plus, il existe un lien entre ces deux
fonctions :
Proposition 1.1.1. Soit X une variable aléatoire de densité fX (.). Alors :
Z ∞
fX (x) = e−itx γ(t)dt (1.19)
−∞
Notons ensuite que si X et Y sont deux variables aléatoires indépendantes, i.e. telles
que fX,Y = fX fY , alors E[eit(Y +X) ] = γX (t)γY (t).

Exercice : déterminer la fonction caractéristique d’une loi normale.

Il existe enfin une version réelle de cette fonction caractéristique que l’on appelle fonc-
tion génératrice des moments.
Définition 1.1.16. La fonction caractéristique d’une variable aléatoire X est la fonc-
tion suivante :
φ(t) = E[etX ] (1.20)
On l’appelle fonction génératrice des moments du fait de la propriété suivante :
Proposition 1.1.2. Soit une variable aléatoire X de fonction génératrice des moments
φ(t). Alors on a :
∂ k φ(t)
E[X k ] = (1.21)
∂tk t=0
Exercice : déterminer les deux premiers moments d’une loi normale à partir de la
fonction génératrice des moments..
18 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

1.2 Le petit monde tres fermé des convergences

Cette section a pour but de présenter un certain nombre de rappels (appels ?) concer-
nant les différents types de convergence probabilistes. L’idée est ici de fournir les princi-
pales intuitions nécessaire à l’établissement des différentes versions de la loi des grands
nombres ainsi que du théorème central limite.

1.2.1 Convergence en probabilité et presque sure

Définition 1.2.1 (Convergence en probabilité). La variable aléatoire Xn converge en
probabilité vers une constante c si
lim P (|Xn − c| > ) = 0, ∀ > 0. (1.22)
n→∞
On note plimXn = c.
Définition 1.2.2 (Convergence presque sure). Soit (Xn )n≥1 une suite de variables
aléatoires et X une v.a. définies sur le même espace probabilisé (Ω, A, P ). On dit que
Xn converge presque sûrement vers X si l’ensemble des ω tels que Xn (ω) converge vers
X(ω) a pour probabilité 1. On note :
p.s.
Xn → X. (1.23)
La différence entre ces deux convergences est que la convergence presque sure implique
une convergence ω par ω, sauf pour une poignée de ω qui sont négligeables. La conver-
gence presque sure implique naturellement la convergence en probabilité (correspond
au cas où i = n).

La convergence en probabilité permet d’établir différentes versions de la loi faible des

grands nombres.
Théorème 1.2.1 (Loi faible des grands nombres de Khinchine). Si x1 , x2 , ..., xn est
un échantillon aléatoire de n réalisations i.i.d. issu d’une distribution de moyenne finie
E[xi ] = µ, ∀i, alors :
n
1X
plim xi = µ (1.24)
n
i=1
Ce théorème est particulièrement important, dans la mesure où il permet l’estimation
des moments d’une distribution, pourvu que les conditions d’applicabilité du théorème
soient respectées. Une version plus forte de ce théorème existe également, utilisant une
convergence p.s. :
Théorème 1.2.2 (Loi forte des grands nombres de Kolmogorov). Si x1 , x2 , ..., xn est
un échantillon aléatoire de n réalisations indépendantes tel que E[Xi ] = µi < ∞ et
σi2
V[Xi ] = σi2 < ∞ et ∞
P
i=1 i2 < ∞ lorsque n → ∞ alors
n n
1X 1 X p.s.
xi − µi → 0 (1.25)
n n
i=1 i=1

Définition 1.2.3 (Estimateur convergent/cohérent). Un estimateur θ̂n d’un paramètre

θ est un estimateur convergent ssi
plimθ̂n = θ (1.26)
1.3. VOUS REPRENDREZ BIEN UN PETIT PEU DE CALCUL MATRICIEL ? 19

1.2.2 Convergence en distribution et TCL

Définition 1.2.4 (Convergence en distribution). On dit qu’une suite de variables
aléatoires Xn converge en loi vers une variable aléatoire X, si la suite {Fn (x)} converge
en tout point x où F est continue. On écrit alors :
L
Xn −→ X (1.27)

Théorème 1.2.3 (Théorème central limite). Soit (Xi )i∈N une suite de variables aléatoires
indépendantes et identiquement distribuées, avec ∀i, E[Xi ] = m, V[Xi ] = σ 2 . On a
alors :
1 Pn
n i=1 Xi − m L
σ −→ N (0, 1) (1.28)
√
n

1.3 Vous reprendrez bien un petit peu de calcul matri-

ciel ?
Pour terminer cette section introductive, voici quelques rappels de calcul matriciel. On
rappelle qu’une matrice M M(n × p) est matrice telle que :
 
m1,1 m1,2 . . . m1,p
 m2,1 . . . . . . m2,p 
M = . (1.29)
 
.. .. .. 
 .. . . . 
mn,1 mn,2 . . . mn,p

Une matrice carrée est telle que n = p. Une matrice symétrique est une matrice carrée
telle que mi,j = mj,i , ∀i 6= j.

Le rang (colonne) d’une matrice M(n×p) est le nombre maximum de colonnes qui sont
linéairement indépendantes les unes des autres. En notant r(A) le rang d’une matrice
A qui soit une M(n × p), il vient naturellement que :

r(A) ≤ min(n, p). (1.30)

Une matrice carré d’ordre n est non singulière si son rang est égal à n (par exemple
une matrice diagonale).

Définition 1.3.1 (Matrice inverse). Soit A une matrice carrée d’ordre n. Son inverse,
notée A−1 si elle existe, est la matrice de même dimension telle que :

AA−1 = A−1 A = I, (1.31)

où I est la matrice identité.

Si la matrice A−1 existe, alors on dit que la matrice A est inversible. Cette matrice
existe si et seulement si la matrice A est plein rang, autrement dit si la matrice A est
non singulière.
20 CHAPITRE 1. RAPPELS DE MATHÉMATIQUES ET PROBABILITÉ

Dans ce qui suit, on suppose acquit les éléments suivants : la somme de deux matrices,
le produit de deux matrices, la trace d’une matrice ainsi que le déterminant d’une ma-
trice. On rappelle en revanche différentes opérations de différenciation de matrices.

Soit le produit matriciel suivant :

y = Ax (1.32)

avec A une matrice n × p et x une matrice colonne n × 1. Si A ne dépend pas de x,

alors on a :
∂y
= A. (1.33)
∂x
Soit le produit matriciel suivant :

y = xT A (1.34)

alors on a :
∂y
= AT . (1.35)
∂x
Soit maintenant :

y = xT Ax (1.36)

avec A une matrice p × p et x une matrice colonne de taille p. Alors, on a :

∂y
= xT (A + AT ). (1.37)
∂x
Si A est symétrique, alors :
∂y
= 2xT A. (1.38)
∂x
Chapitre 2

Retour sur le modèle linéaire :

cas univarié et multivarié

On présente dans ce qui suit :

– Quelques rappels sur le modèle de régression linéaire multiple : spécification, inférence

et test.
– Le modèles à équation multiples : spécification, inférence et tests.

2.1 Le modèle de régression linéaire simple

Le modèle de régression linéraire multiple étudie la relation entre une variable dépendante
et une ou plusieurs variables indépendantes. Sa forme est alors :

y = f (x1 , x2 , ..., xn ) + (2.1)

= x1 β1 + x2 β2 + ... + xn βn + (2.2)

On dit que y est la variable expliquée ou endogène et {x1 , x2 , ..., xn } sont les variables
explicatives ou exogènes. est une perturbation aléatoire : il vient perturber une re-
lation qui, sans lui, resterait stable. Ce terme reçoit de nombreuses dénominations,
selon les champs d’application de l’économétrie ainsi que les séries étudiées. Quelques
exemples : il est possible de qualifier les de bruit (artefact statistique qui ne comporte
pas d’information particulière), d’erreur de mesure (erreur sur la compréhension de y
que permet de le modèle), de choc exogène (un choc qui ne transite pas par les variables
du modèle)...
Afin d’estimer cette relation, on utilise un échantillon de l’ensemble des variables. On
note yi la ième valeur de l’échantillon des y et xi,j la ième valeur de l’échantillon de la
jème variable. La valeur observée de yi est alors la somme de deux composantes : l’une
déterministe (les xi,j , ∀j) et l’autre aléatoire, i .

yi = β1 xi,1 + β2 xi,2 + ... + βn xi,n + i (2.3)

L’objectif est d’estimer les paramètres inconnus du modèle, d’utiliser les données pour
étudier la validité de certaines propositions théoriques, et éventuellement de former une

21
22CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

prévision de y. On s’appuie dans cette démarche sur un corpus statistique bien connu :
les estimateurs du maximum de vraisemblance.

2.1.1 Les hypothèses du modèle linéaire simple

Le modèle linéaire simple s’appuie sur un nombre important d’hypothèses que l’on
précise ici.

H 1 (Linéarité). La relation entre y et les xj est linéaire.

H 2 (Plein rang). Il n’existe pas de relation linéaire entre les variables indépendantes.
Si X est la matrice des observations, on aura notamment X 0 X de plein rang, et donc
inversible.

H 3 (Exogéneité des variables indépendantes). E[i |xi,1 , xi,2 , ..., xi,n ] = 0. L’espérance
de la perturbation conditionnellement aux variables exogènes est nulle : les variables
exogènes n’apportent plus aucune information sur la perturbation.

H 4 (Homoscédasticité et absence d’autocorrélation). V[] = σ 2 est stable au cours du

temps. E[i j ] = 0, ∀i 6= j, autrement dit la corrélation entre i et j est nulle.

H 5 (Données générées de manière exogène). Les observations de {x1 , x2 , ..., xn } peuvent

être un mélange de constantes et de variables aléatoires. Les processus ayant généré ces
données sont indépendants de (il s’agit d’une extension de H3.

H 6 (Distribution normale). La perturbation suit une loi normale, en générale centrée

et variance constante.

Une fois ces hypothèses mises à jour, on revient sur l’écriture du modèle. On preferera
travailler avec des matrices, plutôt qu’avec un indiçage couteux en place et en patience
(la mienne). Mieux, la plupart des logiciels de statistique/économétrie ont le bon goût
de fonctionner également en matriciel. Cette démarche simplifie grandement les calculs,
comme on le verra par la suite.
Soit x:k le vecteur colonne de T observations de la variable xk , k = 1, .., n. Soit X un
matrice MT,n constituée par la concaténation des différents vecteurs colonnes. Dans la
plupart des cas, la première colonne de X est constituée par un vecteur colonne unitaire
(1, 1, ..., 1)0 , de façon à ce que β1 soit la constante du modèle.
Sur la base de ces éléments, il est possible de réécrire 2.2 sous forme matricielle :

X β 0 + |{z}
y = |{z} (2.4)
|{z} |{z}
MT,1 MT,n Mn,1 MT,1

On notera ici que β est le vecteur ligne des paramètres :

β = (β1 , β2 , ..., βn ) (2.5)

Quelques remarques générales sur les hypothèse citées plus haut :

2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 23

– L’hypothèse de linéarité (H1) implique également l’additivité du terme d’erreur.

– L’hypothèse H2 rappelle qu’il ne peut exister de relation linéaire entre les variables
explicatives. X est une matrice MT,n : elle doit donc être de rang n, i.e. de plein
rang colonne. Deux conditions sont à remplir pour cela :
– une condition d’identification : il est nécessaire de disposer de n observations au
moins ;
– la non-colinéarité entre vecteurs colonne.
Rajoutons également qu’au moins un régresseur doit varier (et par conséquent être
non constant). Dans le cas contraire, la condition de plein rang n’est pas vérfiée (deux
colonnes sont identiques à une constante mutliplicative près).

– La nullité de l’espérance conditionnelle des implique également la nullité de l’espérance

non conditionnelle. Ceci se montre très simplement en conditionnant proprement :

E[] = Ex [E[|x1 , x2 , ...xn ]] (2.6)

= Ex [0] (2.7)
=0 (2.8)

L’hypothèse de nullité de l’espérance des erreurs n’est pas une hypothèse contraigante
(voir Greene (2002), page 15).

– Hypothèse H4 : la variance des erreurs est constante. On parle d’homoscédasticité.

Dans le cas où elle varie selon les observations, on parle d’hétéroscédasticité. En
ajoutant l’hypothèse d’absence d’autocorrélation, on a alors :

 
E[1 1 |X] E[1 2 |X] ... E[1 n |X]
 E[2 1 |X] E[2 2 |X] ... E[2 n |X] 
E[0 |X] =  (2.9)
 
.. .. .. .. 
 . . . . 
E[n 1 |X] E[n 2 |X] ... E[n n |X]
 2 
σ 0 ... 0
 0 σ 2 ... 0 
= . (2.10)
 
. .. .. .. 
 . . . . 
0 0 ... σ 2
 
1 0 ... 0
 0 1 ... 0 
= σ2  . . . .  (2.11)
 
.
 . . . . . . .
0 0 ... 1
= σ2I (2.12)

Ceci résume l’hypothèse H4 : la matrice de variance/covariance des perturbations

est une matrice bloc diagonal, avec diag(E[0 |X]) = σ 2 . Comme précédement, il
est possible d’utiliser l’expression de la variance conditionnelle des erreurs, afin d’en
inférer la variance non conditionnelle (formule de décomposition de la variance) :
24CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

V[] = E[V[|X]] + V[E[|X]] (2.13)

2
=σ I (2.14)
Notons finalement que les perturbations satisfaisant à la fois l’hypothèse d’absence
d’autocorrélation et d’homoscédasticité sont parfois appelées perturbations sphériques.

– Notons enfin que les perturbations sont supposées suivre une loi normale d’espérance
nulle et de variance égale à σ 2 I. Il s’agit d’une hypothèse bien fondée étant donné la
structure de (les perturbations sont formées d’une suite de chocs, de même loi et
de mêmes moments 1 et 2 : le théorème central limit s’applique sans restriction).

2.1.2 Les moindres carrés

Les paramètres de la relation y = Xβ 0 + sont à estimer. Les moindres carrés ordinaires
forment une méthode simple et très utilisée, même si elle n’est pas toujours la meilleure.
Dans ce qui suit, on cherche β,b un estimateur de β, la vraie valeur. Cet estimateur se
doit de vérifier un certain nombre de bonnes propriétés que l’on détaillera par la suite.
Dans ce qui suit, on appellera b les erreurs produites par le modèle estimé. La méthode
des MCO se propose de minimiser l’erreur quadratique produite par le modèle.
Le programme résolu pour les MCO est alors le suivant :

M in (Y − X βb0 )2 (2.15)
La résolution est simple. Il suffit de dériver l’expression à minimiser par rapport à β et
de chercher la valeur de β (unique avec nos conditions) l’annulant :

2X 0 (Y − X βb0 ) = 0 (2.16)
⇔X 0 Y = X 0 X βb0 (2.17)
⇔βb0 = (X 0 X)−1 X 0 Y (2.18)
L’estimateur des paramètres du modèle par la méthode MCO est alors :

βb0 = (X 0 X)−1 X 0 Y (2.19)

Il est alors possible de montrer que cet estimateur est sans biais et de calculer sa
variance :

– E[βb0 ] = E[(X 0 X)−1 X 0 Y ] = (X 0 X)−1 X 0 Xβ + E[(X 0 X)−1 X 0 ] = β

– V[βb0 ] = V[(X 0 X)−1 X 0 Y ] = V[(X 0 X)−1 X 0 ] = (X 0 X)−1 σ

La distribution de l’estimateur est par conséquent la suivante :

βb0 ∼ N (β 0 , (X 0 X)−1 σ 2 ) (2.20)

Le fait de connaitre cette distribution permet d’élaborer un certain nombre de tests.

On ajoute le théorème suivant :

2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 25

Théorème 2.1.1 (Régression orthogonale). Si les variables dans une régression mut-
liple ne sont pas corrélées (autrement dit, si elles sont orthogonales), alors les esti-
mations obtenues sont les mêmes que celles obtenues dans les regressions individuelles
simples.

Ce théorème est d’une importance capitale : lorsque la condition de non colinéarité

entre variables explicatives est vérifiée, il est alors identique de procéder à l’estimation
des paramètres les uns à la suite des autres ou d’un seul bloc. Ceci mène naturellement
au théorème de Frisch-Waugh. On l’illustre comme suit :

Supposons que la régression à mener implique deux sous-ensembles de variables :

y = Xβ 0 + = X1 β10 + X2 β20 + (2.21)

Quelle est alors la solution pour β2 ? Les équations normales (i.e. l’équation obtenue
après dérivation de l’erreur quadratique telle qu’elle est définie par le modèle) sont alors
les suivantes :

X10 X1 X10 X2 β10 X10 y

= (2.22)
X20 X1 X20 X2 β20 X20 y

Ce problème peut être résolu de deux façons possibles : soit en utilisant les règles
connues sur les matrices partionnées, soit en développant l’expression matricielle.

Rappel 1. Pour la matrice partitionnée de type 2 × 2, on a l’inverse partitionnée

A−1 −1
−A−1

A11 A12 11 (I + A12 F2 A21 A11 11 A12 F2
= −1 (2.23)
A21 A22 −F2 A21 A11 F2

Avec :

F2 = (A22 − A21 A−1

11 A12 )
−1
(2.24)
F1 = (A11 − A12 A−1
22 A21 )
−1
(2.25)

Quelle que soit la méthode, on a le résultat suivant :

β10 = (X10 X1 )−1 X10 y − (X10 X1 )−1 X10 X2 β2 (2.26)

= (X10 X1 )−1 X10 (y − X2 β2 ) (2.27)

Ce premier résultat est un début d’illustration du théorème de Firsch-Waugh : l’estima-

tion de β1 peut donc se faire, non sur y, mais sur y net de l’information sur y contenue
dans X2 . En effet, y − X2 β2 est le résidus de la regression de y sur X2 . On note y2 ce
résidus. En utilisant ce résultat, et en remplaçant dans la seconde équation, on trouve :
26CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

X20 X1 (X10 X1 )−1 X10 y2 + X20 X2 β20 = X20 y (2.28)

⇔β20 = (X20 X2 )−1 (X20 y − X20 X1 (X10 X1 )−1 X10 y2 ) (2.29)
⇔β20 = (X20 X2 )−1 X20 (y − X1 (X10 X1 )−1 X10 y2 ) (2.30)

X1 (X10 X1 )−1 X10 = P1 : il s’agit du projecteur dans l’espace des X1 . Il s’agit d’une
matrice symétrique et idempotente [i.e. P 2 = P ]. On remarque :

y = X1 β10 + (2.31)
= X1 (X10 X1 )−1 X10 y + (2.32)
= P1 y + (2.33)
⇔ y − = P1 y (2.34)

La formule suivante fournit donc l’expression de β10 par estimation itérative :

β20 = (X20 X2 )−1 X20 (y − P1 y2 ) (2.35)

L’intuition de ces différents calculs est la suivante : il est identique de procéder à la

régression de y sur X, ou de partitionner X entre X1 et X2 , puis de regresser de façon
iterative y sur X1 et X2 . Ceci est résumé dans les théorème suivant :

Théorème 2.1.2 (Théorème de Frisch-Waugh modifié). Dans la régression linéaire des

moindres carrés du vecteur y sur deux ensembles de variables X1 et X2 , le sous-vecteur
des coefficients β20 est obtenu en régressant y − P1 y2 sur X2 .

Théorème 2.1.3 (Théorème de Frisch-Waugh). Dans la régression linéaire des moindres

carrés du vecteur y sur deux ensembles de variables X1 et X2 , le sous-vecteur des co-
efficients β20 est obtenu lorsque les résidus de la regression de y sur X1 sont régressés
sur l’ensemble des résidus de la régression de chaque colonne de X2 sur X1 .

Ajoutons un dernier théorème, dont on trouvera la démonstration dans Crépon (2005)

ainsi qu’un peu plus d’explicitations : le théorème de Gauss-Markov. Il s’agit simplement
d’un théorème d’optimalité des estimateurs MCO (optimalité du point de vue de la
variance des estimateurs).

Théorème 2.1.4 (Gauss Markov). Sous les hypothèses du modèle linéaire, l’estima-
teur des moindres carrés ordinaire d’un modèle linéaire est optimal dans la classe des
estimateurs sans biais, conditionnellement aux régresseurs.

2.1.3 Analyse de la variance

Une fois l’estimation accomplie, on dispose de paramètres estimés ainsi que de résidus
- les erreurs produites par le modèle, en principe minimales. On est alors en mesure de
déterminer par une analyse de la variance la part de la variance de Y qui se trouve
expliquée par le modèle. On construit ainsi un R2 , ou coefficient de détermination,
explicitant l’idée précédente. La formule est la suivante :
2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 27

SCE
R2 = (2.36)
SCT
SCT − SCR
= (2.37)
SCT
Pn
− Ȳ )2 − ni=1 (Yi − Ybi )2
P
i=1 (Yi P
= n 2
(2.38)
i=1 (Yi − Ȳi )

Dans le précédent calcul, SCT représente la somme des carrés totaux, SCR, la somme
des carrés résiduels et SCE, la différence entre les deux, c’est à dire la somme des
carrés expliqués. Ȳ est la moyenne empirique de Y . Le R2 se définit donc comme le
rapport de la somme des carrés expliqués sur la somme des carrés totaux. L’idée est en
fait de décomposer la variance de Y en une variance expliquée par le modèle estimé et
une variance qui n’a pas pu être expliquée. Naturellement, plus R2 est grand et plus -
en principe - le modèle peut être soupçonné d’être explicatif de la variable endogène.
Cet indicateur, par construction est toujours compris entre 0 et 1. Ainsi plus le R2 est
proche de 1 (de 0) et plus (moins) le modèle est explicatif de Y .
Une mise en garde s’impose ici : dans une regression multiple, le R2 augmente natu-
rellement lorsqu’une variable supplémentaire (vérifiant certaines conditions qui ne sont
pas détaillées ici) est ajoutée. Ceci signifie donc que l’intoduction d’un grand nombre
de variable peut naturellement conduire à obtenir un R2 important, quand bien même
le pouvoir explicatif du modèle est médiocre.

2.1.4 Quelques tests liés aux MCO

On présente rapidement les tests les plus connus utiles lors de la mise en oeuvre d’esti-
mations basées sur les MCO : test de Fisher, test de Student, test de Durbin et Watson
et tests d’adéquation.

[Link] Test de Fisher

Dans le modèle linéaire simple - et à fortiori dans un modèle MCO - le R2 est utilisé dans
le cadre du test de Fisher. Il s’agit d’un test de nullité des paramètres du modèle. L’idée
est la suivante : on fait l’hypothèse que l’ensemble des paramètres β ont une valeur égale
à 0 et on compare la vraisemblance de cette hypothèse à l’hypothèse alternative dans
le cadre de laquelle les paramètres ont la valeur obtenue après estimation. On retient
naturellement l’hypothèse la plus vraisemblable - sur la base d’un test statistique.

La statistique de test est la suivante :

R2 N − P − 1
Ftest = ∼ F (P, N − P − 1) (2.39)
1 − R2 P

Si la valeur de la statistique de test est supérieure au quantile de la loi de Fisher, on

rejète l’hypothèse de nullité de l’ensemble des paramètres - autrement dit, le modèle a
de bonne chances d’accroitre notre connaissance de Y .
28CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

[Link] Test de Student

Une fois l’ensemble des paramètres testés, il peut être intéressant de tester les pa-
ramètres les uns après les autres. Pour cela, on utilise un test de Student. Là encore,
on fait l’hypothèse initiale que le paramètre αi est nul et on compare cette hypothèse
à l’alternative de αi = αbi . Dans le cas d’un modèle avec bruits gaussiens, on connait la
distribution des estimateurs MCO :

βb0 ∼ N (β, (X 0 X)−1 σ 2 ) (2.40)

On en déduit aisément :

βb
p ∼ Tn−p−1 (2.41)
(X 0 X)−1 σ

Pour n − p − 1 grand (supérieur à 30), on a Tn−p−1 → N (0, 1). Là encore, lorsque la
valeur de la statistique de test est supérieure à la valeur critique pour un niveau de
risque défini, on rejette l’hypothèse nulle de nullité du coefficient du paramètre. Ainsi,
si le quantile de la loi de Student à 95% et n − p − 1 degrés de liberté est plus petit que
la valeur de la statistique calculée ( √ 0β −1 ), on est conduit à rejeter l’hypothèse
b
(X X) σ
de nullité du paramètre. Le paramètre est alors significativement différent de 0. En
pratique, on compare la valeur de cette statistique à 2 : il s’agit de la valeur la plus
courante du quantile d’une loi de Student. La règle est donc : si la valeur de la statistique
calculée est inférieure à 2, alors αi = 0 ; dans le cas contraire, αi = αbi . L’intuition est
donc : on conduit un test de Student pour être bien sûr que la valeur estimée par MCO
soit bien différente de 0. Il s’agit de vérifier la qualité de l’estimation.

Nota Bene : 1. Intuitivement, plus la variance des résidus σ est importante (autrement
dit, moins le modèle semble être explicatif du comportement de Y ) et plus l’erreur
possible lors de l’estimation des paramètres est potentiellement importante.

[Link] Test de Durbin et Watson

Une autre problème peut affecter les résidus : la présence d’autocorrélation entre les
erreurs. Le résidu spécifié dans le modèle est un bruit blanc : il s’agit d’une innovation
pure. Une hypothèse du modèle qui n’apparait pas en première lecture est la suivante :
E[i i−1 ] = 0. Dans le cas contraire, la loi des erreurs n’est pas celle spécifiée et les
estimations simples par MCO ne sont pas bonnes. Durbin et Watson ont proposé un
test astucieux, bâti sur une mesure de distance entre les erreurs en i et en i − 1 :

Pn
i − b
i=1 (b i−1 )2
d= Pn 2 (2.42)
i=1 bi

Cette statistique peut s’exprimer approximativement en fonction du coefficient d’auto-

corrélation des résidus ρ :
2.1. LE MODÈLE DE RÉGRESSION LINÉAIRE SIMPLE 29

d ∼ 2(1 − ρ) (2.43)

Cette intuition simplifie grandement la lecture du test :

– Si ρ est nul (pas d’autocorrélation), alors d se situe au voisinage de 2.

– Si ρ est égal à 1 (autocorrélation positive), alors d se situe au voisinage de 0.
– Si ρ est égal à -1 (autocorrélation négative), alors d se situe au voisinage de 4.

Dans les deux derniers cas, l’estimation par les moindres carrés ordinaires n’est pas sa-
tisfaisante. Il est alors nécessaire de développer des méthodes plus avancées permettant
d’intégrer l’existence de cette autocorrélation.

[Link] Les tests d’adéquation des résidus

L’hypothèse de normalité des résidus est à confirmer à l’aide de différents tests. On

présente ici deux d’entre eux : le test de Jarque et Berra ainsi que les qqplots.

Le test de Jarque et Berra

Le test utilise les estimateurs empiriques de la kurtosis et de la skewness, ainsi que

leur distribution afin de juger de la normalité d’une variable aléatoire. L’estimateur
empirique du moment centré d’ordre k est le suivant :

T
1X
µk = (Xi − X̄)k (2.44)
T
i=1

La skweness s’estime donc par µ3 /µ32 et la kurtosis par µ4 /µ22 . La statistique de Jarque
et Berra vaut donc :

T 2 T
s= Sk + (Ku − 3)2 → χ2 (2) (2.45)
6 24

Le qqplot

Le qqplot compare quantiles empiriques et quantiles théoriques d’une loi donnée. Il

permet de se faire une idée de l’adéquation éventuelle de nos données à une loi pa-
ramétrique particulière.

Tests d’adéquation paramétrique

Il est également possible de procéder à un test d’adéquation des résidus à une loi
paramétrique quelconque. On se reportera au chapitre 1 pour la méthodologie.
30CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.2 Retour sur le maximum de vraisemblance

Il est possible de retrouver l’ensemble des résultats obtenus jusqu’à maintenant sur la
base d’une approche utilisant le maximum de vraisemblance. On rappelle ici les bases
de la méthode ainsi que son application au modèle linéaire multivarié gaussien.
La fonction de densité de probabilité d’une variable aléatoire y conditionnellement à
un ensemble de paramètres θ est noté f (y, θ). Cette fonction identifie le processus
générant les données qui sous-tend l’échantillon de données, et, en même temps, fournit
une description mathématique des données que le processus génère. La densité jointe de
n observations indépendantes et distribuées de façon identique (i.i.d.) de ce processus
est le produit des densités individuelles :

n
Y
f (y1 , ..., yn |θ) = f (yi |θ) = L(θ, y) (2.46)
i=1

Cette densité jointe est la fonction de vraisemblance, définie comme une fonction du
vecteur de paramètres inconnus (θ), où y indique les données observées (qui ne sont
donc pas une inconnue). On remarque que l’on note la densité jointe comme une fonc-
tion des données conditionnellement aux paramètres alors que, lorsque l’on forme la
fonction de vraisemblance, on note cette fonction en sens inverse, comme une fonction
de paramètres conditionnellement aux données observées. Dans ce qui suit, on suppose
que les paramètres sont constants et inconnus : l’enjeux de la méthode est d’exploi-
ter l’information disponible dans l’échantillon afin d’en inférer une valeur probable des
paramètres.
Il est généralement plus simple de travailler avec le logarithme de la fonction de vrai-
semblance :

n
X
lnL(θ|y) = lnf (yi |θ) (2.47)
i=1

On parle dans ce cas de log-vraisemblance. Ajoutons qu’il est courant de travailler sur
la densité d’un processus conditionnellement à un autre processus. C’est du moins ce
qui se passe dans le modèle linéraire : les erreurs sont bien i.i.d., ce qui fait que y|x est
aussi un processus iid. Soit le modèle linéaire gaussien suivant :

y = Xβ 0 + (2.48)
⇔yi = β1 + β2 x1,i + ... + βp xp−1,i + i (2.49)

On suppose que les perturbations sont gaussiennes : conditionnellement à x:,i , yi est

distribué normalement, moyenne µi = x:,i β 0 et de variance σ 2 . Cela signifie que les
variables aléatoires observées ne sont pas i.i.d. : elles sont de moyenne différentes. Tou-
tefois, les observations sont conditionnelement indépendantes, permettant de travailler
sur la vraisemblance conditionnelle. Dans notre cas, elle a la forme suivante :
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 31

n
X
lnL(θ|y,X) = lnf (yi |Xi , θ) (2.50)
i=1
n
(yi − x:,i β 0 )2

1X 2
=− lnσ + ln(2π) + (2.51)
2 σ2
i=1
n
1 X (yi − x:,i β 0 )2

1 2
= − nlnσ − nln(2π) − (2.52)
2 2 σ2
i=1

La méthode du maximum de vraisemblance propose de déterminer θb de façon à ce

que la log-vraisemblance soit maximale. Cependant, avant d’exposer la méthode, il est
nécessaire de vérifier que cette estimation est réalisable/possible : il s’agit d’étudier ce
que l’on appelle les conditions d’identification.
Définition 2.2.1 (Identification). Le vecteur de paramètres θ est identifié (i.e. suscep-
tible d’être estimé) si, pour n’importe quel autre vecteur de paramètre θ∗ tel que θ 6= θ∗ ,
on a pour les données y : L(θ∗ |y) 6= L(θ|y).
Il est parfois impossible d’obtenir une valeur unique pour le paramètre θ, rendant toute
estimation par maximum de vraisemblance impossible.

2.2.1 Le principe du maximum de vraisemblance

Le principe du maximum de vraisemblance fournit un moyen de choisir un estima-
teur asymptotiquement efficient (cf. chapitre 1) pour un paramètre ou un ensemble
de paramètres. Il est aisé d’illustrer la logique de cette technique dans le cas d’une
distribution discrète.
On considère un échantillon aléatoire de 10 observations tirées d’une distribution de
Poisson : 5,0,1,1,0,3,2,3,4,1. La densité de chaque obersvation est alors :

e−θ θyi
f (yi |θ) = (2.53)
yi !
Puisque les observations sont i.i.d., leur densité jointe, qui est la vraisemblance de cet
échantillon, est :

1 P1
Y e−10θ θ i=1 0yi e−10θ θ20
f (y1 , ..., y1 0|θ) = 0f (yi |θ) = Q1 = (2.54)
i=1 0yi !
207, 360
i=1

Ce dernier résultat donne la probabilité d’observer cet échantillon particulier, en sup-

posant qu’une distribution de Poisson de paramètre encore inconnu θ, a généré les
données. Quelle est alors la valeur de θ qui rendrait cet échantillon plus probable ?
La réponse est fournie par la méthode du maximum de vraisemblance : il s’agit de la
valeur qui rend la vraisemblance maximum, i.e. la probabilité jointe la plus importante
possible. C’est ce qu’on représent en figure (2.2.1).
Sur la figure, on remarque que la vraisemblance a un mode unique pour θ = 2, qui est
l’estimation du maximum de vraisemblance ou EMV de θ.
32CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

Fig. 2.1 – Représentation graphique du maximum de vraisemblance

On considère la maximisation de L(θ|y) par rapport à θ. Puisque la fonction loga-

rithme croı̂t de manière monotone et qu’elle est plus simple à utiliser, on maximise
généralement lnL(θ|y) à la place. Dans notre exemple :

n
X n
X
lnL(θ|y) = −nθ + lnθ yi − ln(yi !) (2.55)
i=1 i=1
n
∂lnL(θ|y) 1 X
= −n + yi = 0 ⇔ θ̂EM V = ȳn (2.56)
∂θ θ
i=1

Ainsi, afin de déterminer la maximum de vraisemblance, il ”suffit” de dériver la log-

vraisemblance par rapport à θ et de l’annuler (comme on le fait très classiquement pour
un fonction à une variable). Dans le cas d’une loi de Poisson, on trouve un EMV pour
θ égal à la moyenne empirique. Ceci n’est pas vraiment surprenant, dans la mesure où
si X ∼ P (λ), alors E[X] = λ.
Annuler la dérivé première ne suffit cependant pas à s’assurer qu’il s’agit d’un maxi-
mum : encore faut il prouver qu’en ce point (le prétendant au titre de maximum), la
dérivée seconde est négative (fonction concave). En général, la vraisemblance est na-
turellement strictement concave, ce qui fait que la solution de la dérivée première est
toujours un maximum.
La référence à la probabilité d’observer un échantillon donné n’est pas exacte dans une
distribution continue, puisqu’un échantillon particulier à un probabilité d’être observé
nulle. La principe reste néanmoins le même. Les valeurs des paramètres qui maximisent
L(θ|y) ou son logarithme sont les estimations du maximum de vraisemblance, notées θ̂.
Puisque le logarithme est une fonction monotone, les valeurs qui maximisent L(θ|y) sont
2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 33

les mêmes que celles qui maximisent lnL(θ|y). La condition nécessaire pour maximiser
lnL(θ|y) est :

∂lnL(θ|y)
=0 (2.57)
∂θ
Il s’agit de l’équation de vraisemblance. Le résultat général est que l’EMV est une racine
de l’équation de vraisemblance. L’application aux paramètres du processus générant les
données d’une variable aléatoire discrète suggèrent que le maximum de vraisemblance
est une bonne utilisation des données. Cette intuition reste à généraliser dans ce qui
suit.

2.2.2 Propriétés du maximum de vraisemblance

On introduit dans ce qui suit quelques défintions et propriétés qui ne sont pas démontrées.
On lira les preuves avec profit dans Greene (2002).

Définition 2.2.2 (Efficience asymptotique). Un estimateur est asymptotiquement effi-

cient s’il est convergent, distribué normalement asymptotiquement et s’il a une matrice
de covariances asymptotiques qui n’est pas plus grande que celle de n’importe quel autre
estimateur convergent distribué normalement asymptotiquement.

Proposition 2.2.1 (Propriétés d’un EMV). 1. Convergence : θEM V → θ0 (conver-

gence en probabilité), où θ0 est la vraie valeur du paramètre.
h i
∂ 2 lnL
2. Normalité asymptotique : θEM V ∼ N θ0 , {I(θ0 )}−1 , où I(θ0 ) = −E[ ∂θ 0 ∂θ
0 ].
0

3. Efficience asymptotique : θEM V est asymptotiquement efficient et atteint la borne

inférieure de Frechet-Darmois-Cramer-Rao des estimateurs convergents.
4. Invariance : l’estimateur du maximum de vraisemblance de γ0 = c(θ0 ) est c(θEM V )
si c(θ0 ) est une fonction continue et continuellement différenciable.

Ces propriétés reposent principalement sur les conditions de régularités, principalement

au nombre de trois, que le lecteur trouvera (avec la démonstration des propriétés du
maximum de vraisemblance) dans Greene (2002) (page 457 et suivantes). Il s’agit prin-
cipalement d’être en présence d’une vraisemblance triplement continument dérivables,
avec les dérivées d’ordre un et deux appartenant à L1 et celle d’ordre majorable par une
fonction appartenant à L1 . Il s’agit ici de simples rappels de résultats statistiques de
base, nous laisserons le soin au lecteur d’aller faire les lectures adéquates pour remédier
à la maigre présentation qui en est faite.

2.2.3 EMV du modèle gaussien standard

On rappelle que le modèle de régression linéaire standard est :

yi = xi β 0 + i (2.58)

La vraisemblance d’un processus gaussien x de n observations s’écrit naturellement :

34CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

n 2
n 1X xi − µ
lnL(θ|x) = −nln(σ) − ln(2π) − (2.59)
2 2 σ
i=1

Dans le cas de , on a :

n
n 1 X i 2
lnL(θ|x) = −nln(σ) − ln(2π) − (2.60)
2 2 σ
i=1

Il est alors nécessaire de savoir passer de la loi de à celle de y, lorsque l’on a spécifié
le modèle. Pour cela, on utilise un changement de variable qui est rappelé ici :
Proposition 2.2.2 (Changement de variable). Si x est une variable aléatoire de fonc-
tion de répartition fx (.) et si y = g(x), alors la densité de y s’exprime comme suit :

fy (y) = fx (g −1 (y))|g −10 (y)| (2.61)

Cette proposition sera particulièrement importante pour l’analyse des séries temporelles
(troisième partie de cet opus). Ici, la transformation de à y est = y − Xβ 0 , donc la
∂
jacobienne (matrice des dérivées premières) est égale à l’unité ( ∂y = 1). On en déduit
naturellement la vraisemblance associée à y :

n 2
yi − xi β 0

n 1X
lnL(θ|x) = −nln(σ) − ln(2π) − (2.62)
2 2 σ
i=1

Les conditions nécessaires (équations normales ou de la vraisemblance) sont alors :

1 Pn
" #
∂lnL xi (y − xi β 0 )

∂β σ2 i=1 P 0
∂lnL = n
(y −x β 0 )2 = (2.63)
∂σ − 2σn2 + 12 i=1 σi4 i 0

On en déduit aisément, en passant en forme matricielle :

βEM V = (X 0 X)−1 X 0 y (2.64)

0
σ2 = (2.65)
n
On retrouve l’estimateur MCO du modèle de régression linéaire. Dernier calcul, la borne
de Cramer-Rao : on calcule tout d’abord pour cela la matrice des dérivées secondes du
maximum de vraisemblance, puis en on prend l’espérance. Les calculs sont les suivants :

Pn Pn
∂ 2 lnL ∂ 2 lnL x2i
" # " #
i=1 xi i
∂β∂β 0 ∂β∂σ −P i=1
σ2
− σ 4n
∂ 2 lnL ∂ 2 lnL = n P 2 (2.66)
i=1 xi i n i=1 i
∂σ∂β 0 ∂σ∂σ − σ4 2σ 4
− σ6

L’espérance de la précédente matrice fournit alors la matrice d’information de Fisher :

2.2. RETOUR SUR LE MAXIMUM DE VRAISEMBLANCE 35

X0X

σ2
0
I(θ) = n (2.67)
0 2σ 4

D’où la matrice de variance/covariance des estimateurs :

σ 2 (X 0 X)−1

−1 0
V[θ] = I(θ) = 2σ 4 (2.68)
0 n

Estimateurs du maximum de vraisemblance et des moindres carrés coincident en tout

point1 . Par conséquent, l’estimateur MCO hérite de toutes les bonnes propriétés asymp-
totiques souhaitables des estimateurs du maximum de vraisemblance.

2.2.4 Les tests liés à la vraisemblance

L’un des avantages de procéder à des estimations par maximum de vraisemblance est
que l’on peut par la suite en procéder à un certain nombre de tests simples. Trois de ces
tests sont généralement développés : le test de Wald, le test du ratiode vraisemblance
et enfin le test du multiplicateur de Lagrange. On ne présentera ici que celui dont
l’implémentation est immédiate une fois les estimations EMV produites : le test du
ratio de vraisemblance. Pour les autres, voir Greene (2002), pages 479 et suivantes.
Lors de l’estimation d’un modèle donné, il est possible de devoir opérer un choix sur le
nombre de variables à utiliser pour un modèle donné. Soit θ les paramètres du modèle
incluant le maximum de paramètres (dit modèle non contraint) et θ− les paramètres
d’un modèle dit contraint, i.e. excluant volontairement certaines variables. Le test du
ratio de vraisemblance propose une statistique simple afin de discriminer entre modèle
contraint et non contraint. Soit lnL(θ|y) la log-vraisemblance associée à θ et lnL(θ− |y)
celle associée θ− . La statistique est alors égale à :

LR = −2[lnL(θ− ) − lnL(θ)] (2.69)

On parle de rapport de vraisemblance car il s’agit en fait de calculer le rapport de

vraisemblance, dont on prend ensuite le logarithme : ceci explique que l’on ait une
différence. Cette statistique a sous H0 (θ− est une paramétrisation plus raisonnable
que θ)la distribution asymptotique suivante :

LR → χ2 (J) (2.70)

Où J est le nombre de contraite pesant sur les paramètres θ.

1
A peu de choses pret en fait, dans la mesure où l’estimateur des moindres carrés de la variance
des erreurs est corrigés dans sa version MCO des degrés de libertés. Un estimateur du maximum de
vraisemblance n’est jamais corrigé. Là encore, voir Greene (2002), chapitre 17.
36CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.3 Prévision à partir du modèle linéraire multiple

Une fois un modèle robuste dégagé des précédentes estimations, il est possible de passer
à la prédiction des valeurs de y à partir de celle de x. On suppose que l’on souhaite
prédire la valeur de y 0 associée au regresseur x0 . Cette valeur est :

y 0 = x0 β 0 + 0 (2.71)
Par le théorème de Gauss Markov, on a :

E[y 0 |x0 ] = ŷ 0 = x0 β 0 (2.72)

est l’estimateur sans biais de variance minimale de E[y 0 |x0 ]. L’erreur de prévision est
alors :

e0 = y 0 − ŷ 0 (2.73)
= x0 (β 0 − β̂ 0 ) + 0 (2.74)

Où β est la vraie valeur du paramètre et β̂ son estimateur. On en déduit alors aisément
la variance de la prédiction :

V[e0 |X, x0 ] = V[x0 (β 0 − β̂ 0 )|X, x0 ] + σ 2 (2.75)

= x0 V[β̂ 0 |X, x0 ]x00 + σ 2 (2.76)
0 2 0 −1 00 2
= x σ (X X) x + σ (2.77)

1
= σ 2 1 + + x̃0 (X̃ 0 X̃)−1 x̃00 (2.78)
n
La dernière équation est obtenue dans le cas où le modèle contient un terme constante.
On note alors à l’aide d’un tilde la matrice des données dont on a supprimé la première
colonne contenant le terme constant. Ce résultat montre que l’intervalle dépend du
rapport entre une version approchée de la variance de x0 et X. Plus x0 a une variance
approchée importante, et plus la prévision sera incertaine.
Il est alors possible d’inférer un intervalle de confiance pour la prédiction (voir le cha-
pitre 1 sur la construction d’un intervalle de confiance pour la moyenne) :

q
0 0 0
ICα = ŷ ± tα/2 V[e |X, x ]
b (2.79)

Afin de déterminer la qualité d’une prévision, on utilise en général les deux statistiques
suivantes :

s
1 X
RM SE = (yi − ŷi )2 (2.80)
n0
i
1 X
M AE = 0 |yi − ŷi | (2.81)
n
i
2.4. UNE CALIBRATION SIMPLE DU CAPM 37

On parle de Root Mean Square Error et de Mean Absolute Error. n0 désigne le nombre
de périodes de prévisions.

2.4 Une calibration simple du CAPM

Suite à l’ensemble de ces éléments théoriques, on propose dans ce qui suit un exemple
simple de calibration du CAPM. Cette méthode repose, comme nous le verrons, sur
l’hypothèse principale selon laquelle les prix sont des martingales. On montre que le
beta coincide exactement avec l’estimateur des moindres carrés ordinaires. On procède
de même pour estimer le alpha, après avoir estimer la Security Market Line (SML).
Enfin, on montre qu’il est aisé d’obtenir le R2 du modèle, sur la base du calcul du beta.

2.4.1 L’estimation de la relation du MEDAF par MCO

On cherche à calibrer un modèle de la forme :
ri = rf + βi (rm − rf ) (2.82)
Une approche classique en économétrie pour résoudre ce type de problème revient à
se donner , une erreur d’estimation, puis à chercher à minimiser cette erreur. On fait
apparaitre comme suit dans la précédente relation :
ri = rf + βi (rm − rf ) + (2.83)
Il s’agit bien d’une erreur : si rf + βi (rm − rf ) correspond à l’approximation (ou es-
timation) de la rentabilité du titre i, celle ci n’est pas parfaite. est précisement la
différence entre le vrai ri et son estimation, que l’on peut noter r̂i . On a donc :
= ri − r̂i (2.84)
= ri − rf + βi (rm − rf ) (2.85)
Ceci est vrai d’après la relation précédente (équation 2.83). La méthode des moindres
carrés ordinaires vise à déterminer une valeur pour β (que l’on ne connait pour l’instant
pas), qui rende la somme des erreurs au carrés la plus petite possible. L’idée est donc
de trouver un beta qui permette de rendre l’erreur la plus petite possible, autrement
dit, qui rende le modèle le meilleur possible.

On cherche donc à minimiser la somme des erreurs commises pour chacune des obser-
vations de la rentabilité du titre i, élevées au carré. On cherche donc :
X
M in 2i (2.86)
X
⇔ (ri − rf − β(rm − rf ))2 (2.87)
Pour trouver un minimum sur une fonction convexe, il suffit d’égaler la dérivée à 0. Ici,
on :
∂SSR(β) X
= (rm − rf )(ri − rf − βi (rm − rf )) (2.88)
∂β
X
= β(rm − rf )2 − (ri − rf )(rm − rf ) (2.89)
X X
= β(rm − rf )2 − (ri − rf )(rm − rf ) (2.90)
38CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

En égalant la dérivée à 0, il vient :

X X
β(rm − rf )2 − (ri − rf )(rm − rf ) = 0 (2.91)
X X
⇔ β(rm − rf )2 = (ri − rf )(rm − rf ) (2.92)
P
(ri − rf )(rm − rf )
⇔β = (2.93)
(rm − rf )2
P

En notant r̃i et r̃m les rentabilités du titre i ainsi que du marché dont on a retrancher
le taux sans risque, il vient une écriture simple de l’estimateur des MCO, qui peut se
réécrire de façon matricielle aisément :
P
r̃i r̃m
β= P (2.94)
(r̃m )2
En notant Ri la matrice n×1 contenant les n observations de rentabilités du titre (dont
on a retranché le taux sans risque) i et Rm de même taille, celle contenant celles du
marché, il est alors possible de réécrire ces sommes de façon matricielle (faire les calculs
pour s’en convaincre) :
T
β = (Rm Rm )−1 RmT Ri (2.95)
Cet estimateur est l’estimateur MCO de β. On admettra qu’il possède la distribution
suivante :
T
βb ∼ N (β, (Rm Rm )−1 σ2 ) (2.96)
σ2 est la variance du terme d’erreur et β la vraie valeur du paramètre à estimer. On
est ainsi en mesure de construire un test de Student permettant de tester sur l’estima-
tion de β est différente de 0 avec une probabilité importante. On se borne ici à fournir
la méthodologie générale permettant de construire ce test : il s’agit pour nous d’une
recette de cuisine financière dont les fondements ne sont pas démontrés.

β̂
Pour conduire ce test, il suffit de comparer à 1,96 (le quantile à 95% d’une loi
V[β̂]
normale). Si la valeur est supérieure, alors β̂ 6= 0.

2.4.2 Lien de l’estimateur MCO avec le beta financier

On a vu que le beta financier pouvait être estimer par :
cov(ri , rm )
β= 2
(2.97)
σm
au terme de la démonstration de Sharpe. Il est facile de démontrer que l’estimateur
MCO et cette expression du beta coincident exactement, à la condition que les prix
soient martingale. Quelle est la contrepartie empirique de la covariance et de la va-
riance ? En remplaçant dans l’expression précedentes les moments par leur estimation,
il vient :
1 P
n (ri − E[ri ])(rm − E[rm ])
β= 1 P (2.98)
n (rm − E[rm ])2
P
(ri − E[ri ])(rm − E[rm ])
= P (2.99)
(rm − E[rm ])2
2.4. UNE CALIBRATION SIMPLE DU CAPM 39

Dans le cas où les prix sont martingale, on sait que :

E[Pt ] = Pt−1 (2.100)
⇔E[Pt − Pt−1 ] = 0 (2.101)

Pt − Pt−1
⇔E =0 (2.102)
Pt−1
⇔E[rt ] = 0 (2.103)
Ainsi, l’ensemble des actifs doivent avoir une espérance de rentabilité nulle si le marché
est martingale. L’introduction de la nullité des espérances de rendement permet de
retrouver (à rf pret), la formule des MCO :
P
ri rm
β= P 2 (2.104)
rm

2.4.3 Estimation de la SML

Une fois l’ensemble des β des titres estimés, il est possible d’estimer la SML. Là encore
le recours aux MCO permet d’obtenir des résultats simples. On cherche à estimer une
relation du type :
E[ri ] = αβi (2.105)
L’estimateur MCO est alors le suivant :
P
β i µi
α̂ = P 2 (2.106)
βi
On propose à la fin de ce chapitre une fonction R permettant de réaliser ces estimations.
La figure 2.2 est le résultat de cette fonction.

2.4.4 Calcul des alpha

Il est possible d’estimer les surrentabilités eventuelles dégagées par le marché : les
alpha. Il s’agit simplement d’introduire une constante dans le modèle du CAPM et de
l’estimer par MCO. On note Ri la matrice consituée de deux colonnes : l’une comportant
exclusivement des 1 et l’autre l’ensemble des observations des ri . On fait de même pour
Rm . On est alors en mesure d’utiliser là encore la formule des MCO pour estimer le
beta et le alpha en un seul coup.

2.4.5 Le R2
Le R2 ou coefficient de détermination est une mesure de la qualité globale du modèle
proposé. Il s’agit du rapport entre la variance de l’estimation de l’on donne du modèle
et la variance de la variable expliquée. Il s’agit donc du rapport :
V[βi rm ]
R2 = (2.107)
V[ri ]
Dans le cas du MEDAF, il est aisé de calculer ce R2 à partir du β :
βi2 σm2
R2 = = ρi,m (2.108)
σi2
On aboutit donc à une expression simple de ce R2 .
40CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ

2.4.6 Code pour le CAPM

################################################################################
# Estimation et test du CAPM #
################################################################################

# Dans ce programme, on estime les beta du CAPM par MCO. On teste l’existence de
# alpha. Enfin, on estime la SML par MCO.

capm<-function(x,Rf){
# Formattage de la base de données
x=[Link](x)
[Link]=x
x=x-Rf
SP=cbind(matrix(1,nrow(x),1),x[,1])
titres=x[,2:ncol(x)]
xx=solve(t(SP)%*%SP)
theta=xx%*%(t(SP)%*%titres)
res=titres-SP%*%theta
[Link]=apply(res,2,var)
test=cbind(diag(xx)[1]*[Link]([Link]),diag(xx)[2]*[Link]([Link]))
test=sqrt(test)
test=t(theta)/test
ptest=pnorm(test)

#Calcul de la SML

[Link]=t(theta)[,2]
[Link]=[Link](apply([Link][,2:ncol([Link])],2,mean))
pente=sum([Link]*[Link])/sum([Link]^2)
[Link]=([Link])
[Link]=[Link]*pente

par(bg="lightyellow")
plot([Link],[Link],type="l",col="red",ylab="Rentabilité",xlab="Beta",
main="Estimation de la SML")
lines([Link],[Link],type="p",col="blue")

# Calcul des R2

R2=[Link]([Link]^2)*var(SP[,2])/apply(titres,2,var)
return(list(theta=theta, R2=R2, test=test, ptest=ptest))
}
2.4. UNE CALIBRATION SIMPLE DU CAPM 41

Estimation de la SML

●
0.020

●
●

● ●
0.018

●
● ●
●
●

●
0.016

●
Rentabilité

● ●

● ●
0.014

●
●
● ●
● ●
0.012

●
0.010

●
●

0.6 0.8 1.0 1.2 1.4

Beta

Fig. 2.2 – Security Market Line

42CHAPITRE 2. RETOUR SUR LE MODÈLE LINÉAIRE : CAS UNIVARIÉ ET MULTIVARIÉ
Chapitre 3

Extensions du modèle de base

On propose dans ce qui suit quelques extensions du modèle linéraire standard : les
modèles non linéaires et les modèles à équations multiples. L’exposé s’appuie à la fois sur
Greene (2002) et Davidson and MacKinnon (1993). Il est à noter qu’il existe une version
française de ce dernier ouvrage librement accessible sur le site de Russel Davidson
(voir l’url fournie en bibliographie). Il s’agit d’une introduction succinte : tout lecteur
soucieux de dépasser ce stade se reportera avec profit aux deux références qui sont
fournies plus haut.

3.1 Modèle de régression non linéaire

On se contente ici de présenter le modèle de régression non linéaire dans le cas univarié :
il est aisé de généraliser les résultats présentés ici au cas multivarié. Classiquement, un
modèle non linéaire s’exprime sous forme fonctionnelle comme suit :

y = x(β) + (3.1)

avec x(β) une forme fonctionnelle liant les variables exogènes x et le vecteur des pa-
ramètres β. est une perturbation i.i.d. de moyenne nulle et de variance égale à σ 2 .
La fonction scalaire x(β) est une fonction de regression (non linéaire) qui détermine
l’espérance de y conditionnellement à β et à x. Ici encore, un modèle de régression non
linéaire doit être identifié si l’on désire obtenir des estimations uniques des paramètres.
Classiquement, l’estimation peut se faire par moindres carrés. La fonction objectif est
alors :

n
X
M in (yi − xi (β))2 (3.2)
i=1

Dans le cas multivarié, ceci s’écrit matriciellement comme suit :

M in (y − x(β))0 (y − x(β)) (3.3)

43
44 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

où y désigne une matrice M(n × 1) composé des différentes valeurs de yi et x(β) une
matrice M(n × p) composé des n fonctions de regression xi (β), i = 1, ...p. Cette somme
des carrés peut être explicité comme suit :

M in y 0 y − 2y 0 x(β) + x(β)0 x(β) (3.4)

En dérivant cette expression par rapport à β et en l’annulant, il vient :

∂x(β) 0 ∂x(β) 0
−2y +2 x(β) = 0 (3.5)
∂β ∂β

Ceci est équivalent à :

∂x(β) 0
(y − x(β)) = 0 (3.6)
∂β

On retrouve ici la condition d’orthogonalité entre les résidus et la dérivée des régresseurs,
une version modifiée de la condition d’orthogonalité entre regresseurs et résidus dans le
cas MCO. Le problème est qu’il n’existe pas formule analytique permettant d’obtenir
l’expression des estimateurs comme dans le cas MCO : il est alors nécessaire d’utiliser
des algorithmes d’optimisation permettant de trouver le minimum du programme men-
tionné plus haut. Nous reviendrons sur ces algorithme plus loin : il seront également
utiles pour l’estimation des modèles de séries temporelles.
Un dernier point reste à noter dans ce bref exposé des moindres carrés non linéaires :
les conditions de premier ordre sont nécessaire, mais pas suffisante pour garantir le fait
que β̂ soit un minimum. Il peut exister plusieurs valeurs de β qui vérifient les conditions
de premier ordre, mais qui soient des minima lcaux, des points stationnaires ou même
des maxima locaux. En définitive, rien ne garantit que la fonction à minimiser soit
globalement convexe, i.e. :

∂ 2 SSR(β)
Hij (β) = (3.7)
∂βi βj

soit définie positive en β.

Rappel 2. Une matrice M M(n×n) est dite définie positive si ∀x, une matrice colonne
composée de n éléments réels on a :

x0 M x > 0 (3.8)

Une autre façon de prouver le caractère défini positif d’une matrice est de montrer
que l’ensemble de ses valeurs propres est strictement positif. Enfin, si l’ensemble des
sous matrices d’une matrice carré admet un déterminant positif, alors cette matrice est
définie positive. Il s’agit de la généralisation matricielle de la postivité d’un scalaire.
Une matrice définie négative est une matrice dont l’opposé est définie positive.
3.1. MODÈLE DE RÉGRESSION NON LINÉAIRE 45

Cette condition n’est assurée que pour quelques cas particuliers, dont les MCO :

∂ 2 SSR(β)
Hij (β) = = −x0 x (3.9)
∂βi βj
Il est aisé de prouver d’après ce qui vient d’être rappelé que cette matrice est bien
définie positive.
Terminon enfin par une courte discussion des conditions d’identification de ce type
de modèle. On distingue deux srotes d’identification, l’identification locale et l’iden-
tification globale. Les estimation des moindres carrés non linéaire ne seront identifiés
localement qu’à la condition que pour tout modification infinitésimale de β̂, la valeur
de la fonction objectif s’élève. Ceci revient à supposer que la matrice hessienne est
strictement convexe en β, de sorte que :

SSR(β̂) < SSR(β̂ + δ) (3.10)

Pour une petite variation δ. Cette condition est analogue au caractère défini positif
de la matrice hessienne. La stricte convexité implique que SSR(β) soit incurvée dans
toutes les directions ; aucun plat n’est autorisé quelle que soit la direction. Si SSR(β)
était plate dans une direction donnée au voisinage de β̂, il serait possible de s’éloigner
de β̂ dans cette direction, sans jamais modifier la valeur de la somme des résidus au
carré (du fait des conditions du premier ordre). Par conséquent, β̂ ne sera pas l’unique
estimateur des moindres carrés non linéaires.
L’identification locale n’est cependant pas suffisante. Une condition plus générale est
l’identification globale :

SSR(β̂) < SSR(β∗), ∀β̂ 6= β∗ (3.11)

Il s’agit d’une simple reformulation de la condition d’identification établit au précédent

chapitre : l’estimateur doit être unique. Remarquons que même si un modèle est identifié
localement, il est toujours possible qu’ily ait deux (ou davantage) estimations distinctes
garantissant une même valeur minimale de la fonction objectif. A titre d’exemple :

y = βγ + γ 2 xt + (3.12)

ˆ γ̂) minimise la fonction objectif des MCO pour ce

Il apparait clairement que si (beta,
ˆ ˆ
modèle, (−beta, −γ) en fera autant. Donc le modèle est globalement non identifié par
quelque ensemble de données que ce soit, bien que les conditions du premier et second
ordre soient remplies.
Dans la pratique, notons qu’il est également possible qu’un modèle non linéaire puisse
être linéarisé au moyen d’un passage au logarithme, notamment dans le cas de modèles
multiplicatifs. L’exemple le plus courant est la fonction de production de type Cobb-
Douglas :

y = AK β1 Lβ2 (3.13)
46 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

qui redevient un modèle linéaire dans le cas où l’on passe au log :

y = ln(A) + β1 ln(K) + β2 ln(L) + ln() (3.14)

En paramétrisant de façon à ce qu’il suive une loi log-normale, on retrouve ∼ N (σ 2 ).

Ceci évite d’avoir recours à des procédures d’estimation complexes et consommatrices
de temps.

3.2 Les modèles à système d’équations

On introduit brièvement une méthode économétrique utile pour l’un des principaux
modèles financiers (le MEDAF ou CAPM ) : les systèmes d’équations de regression. Là
encore, le lecteur se reportera avec profit à
Les modèles décrits dans les chapitres précédents peuvent s’appliquer à des groupes de
variables. Dans ce cas, on examine les modèles de manière jointe. L’un des principaux
exemple pour l’économétrie de la finance est le MEDAF. Ce type de modélisation
procède comme suit :

y1 = X1 β10 + 1 (3.15)
y2 = X2 β20 + 2 (3.16)
... (3.17)
0
ym = Xm βm + m (3.18)

lorsque l’on dispose de m équations et de n observations. On se bornera ici à l’étude

d’un cas particulier de ces régressions : le modèle SUR (seemingly unrelated regressions
ou modèle de régressions apparament indépendantes). Le modèle se présente comme
suit :

yi = Xi βi0 + i , i = 1, ..., m (3.19)

= [1 , ..., m ] (3.20)
E[|X1 , ..., Xm ] = 0 (3.21)
0
E[ |X1 , ..., Xm ] = Σ (3.22)

On suppose que n observations sont utilisées pour l’estimation des paramètres des m
équations. Chaque équation a Km régresseurs, pour un total de K = m
P
K
i=1 j . On pose
T > Ki . On suppose que les perturbations ne sont pas corrélées entre observations. En
conséquence,

E[it js |X1 , ..., Xm ] = σij , si t = s, 0 sinon (3.23)

La structure de perturbation est donc :

E[0i j |X1 , ..., Xm ] = σij In (3.24)

3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 47

D’où on en déduit naturellement :

 
σ11 In σ12 In ... σ1m In
 σ21 In σ22 In ... σ2m In 
E[0 |X1 , ..., Xm ] = Ω =   = Σ ⊗ In (3.25)
 
..
 . 
σm1 In σm2 In ... σmm In

Chaque équation est une régression classique. Les paramètres peuvent donc être estimés
de manière convergent par la méthode MCO. La régression généralisée s’applique aux
données dites empilées :

 
y11  
 ..  β1,1
 . 
    β1,2 
 y1n  X1 0n,k2 ... 0n,km

 ..


.
 
 y21   0n,k X2 ... 0n,km  
1  
 ..  =  .. β1,k1 (3.26)
  
.. ..  
 .   . . ... . 
 β2,1


 
 y2n  0n,k 0 n,k ... Xm

..

1 2  
.
 
 ..   
 . 
βm,km
ymn
 
1,1
 1,2 
 
 .. 
 . 
 
 1,n 
+ (3.27)

 2,1 
 
 .. 
 . 
m,n

Il est alors possible de réécrire ce modèle de façon matricielle :

Y = Xβ 0 + (3.28)

Où Y est une matrice M(n×m, 1), X une matrice M(n×m, K), β 0 une matrice M(K, 1)
et une matrice M(n × m, 1). Une fois ce travail préliminaire accompli, tournons nous
vers l’estimation de ce type de modèle.
A ce stade plusieurs stratégies d’inférence sont envisageables. On montre dans ce qui suit
que l’estimation par maximum de vraisemblance ou par Moindres Carrés Généralisés
(MCG), comme dans le cas simple des MCO, coincident exactement. On s’intéresse
finalement au cas où Σ est bloc diagonal.

3.2.1 Estimation par moindres carrés généralisés et quasi-généralisés

Quelques rappels sur les MCG et MCQG sont ici nécessaires. L’estimation efficace de
β dans le modèle de régression généralisé requiert Σ. On suppose pour commencer que
Σ est une matrice connues, symétrique et définie positive. Il arrive que ce soit le cas,
48 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

mais le plus souvent il est nécessaire de procéder à l’estimation de Σ avant de mettre

en oeuvre la méthode (on parle alors de moindres carrés quasi généralisés).
L’idée de base consiste à minimiser la somme des carrés des résidus, pondérés par
la variance des résidus. Cette somme est appelée mesure de Mahalanobis (utile pour
l’analyse en terme de vraisemblance). Les MCG se propose de déterminer un estimateur
qui minimise cette distance.

M in(Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.29)

Où Ω−1 = Σ−1 ⊗ In . En développant l’expression, il vient :

(Y 0 − βX 0 )Σ−1 ⊗ In (Y − Xβ 0 ) (3.30)
0 −1 0 −1 0 −1 0 0 −1 0
=Y Σ ⊗ In Y − βX Σ ⊗ In Y − Y Σ ⊗ In Xβ + βX Σ ⊗ In Xβ (3.31)
En dérivant la précédente expression, on obtient :

− 2X 0 Σ−1 ⊗ In Y + X 0 Σ−1 ⊗ In β 0 = 0 (3.32)

0 −1 0 0 −1
⇔(X Σ ⊗ In X)β = X Σ ⊗ In Y (3.33)
0 0 −1 −1 0 −1
⇔β = (X Σ ⊗ In X) XΣ ⊗ In Y (3.34)
On obtient ainsi l’expression de l’estimateur des MCG. On obtient bien un de bonne β0
dimension : M(K, 1). Il est à noté que ⊗ est le produit Kronecker. On en rappelle
brièvement les propriétés :
Définition 3.2.1 (Produit de Kronecker). Soit A une matrice M(m × n) constituée
d’éléments [aij ]. Soit B une matrice M(p × q). Alors on a le produit de Kronecker
suivant :
 
a11 B a12 B ...
A ⊗ B =  a21 B ... ...  (3.35)
... ... amn B
Il s’agit donc d’une matrice M((m × p) × (n × q))
Proposition 3.2.1 (Produit de Kronecker). On a les propriétés suivantes :
– (A ⊗ B)(C ⊗ D) = AC ⊗ BD
– (A ⊗ B)0 = A0 ⊗ B 0
– A ⊗ (B + C) = A ⊗ B + A ⊗ C
– (B + C) ⊗ A = B ⊗ A + C ⊗ A
– A ⊗ (B ⊗ C) = (A ⊗ B) ⊗ C
La matrice de covariance asymptotique de l’estimateur des MCQ est la matrice inverse
dans la précédente équation. On rappelle quelques propriétés des estimateurs MCG.
On détail le précédent résultat de façon s’en convaincre pleinement. En notant σ ij la
contrepartie de σij dans Σ−1 , il vient :
 11 0 −1
σ X1 X1 σ 12 X10 X2 ... σ 1m X10 Xm  Pm 1j 0 
 σ 21 X 0 X1 22 0 2m 0 j=1 σ X1 yj
2 σ X2 X2 ... σ X2 Xm   
..
β0 =   (3.36)
 
.. .. .. ..   .
 . . . .  Pm mj 0
σ m1 Xm 0 X m2 X 0 X mm X 0 X j=1 σ Xm yj
1 σ m 2 ... σ m m
3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 49

Il est aisé de s’en convaincre sur un exemple de faible dimensions, par exemple pour
m = 2, K = 2. Autre remarque : en spécifiant Σ = σIm , on retrouve exactement
l’estimateur des moindres carrés. On détaille quelques propriétés des estimateurs MCG :

Proposition 3.2.2 (Estimateur sans biais). L’estimateur MCG est un estimateur sans
biais de β.

Proposition 3.2.3 (Estimateur efficace). L’estimateur MCG est un estimateur efficace

de β.

Proposition 3.2.4 (Gauss Markov). L’estimateur MCG β̂ est l’estimateur linéaire

sans biais de variance minimale pour la régression généralisée. Il s’agit du théorème de
Aitken[1935], et d’une généralisation de Gauss Markov.

Pour finir, on a supposé que jusque ici que Σ était connue. Ceci n’est généralement pas
le cas. On procède donc à une estimation préliminaire de Σ : les résidus des moindres
carrés peuvent être utilisées pour estimer la matrice de variance-covariance des résidus.
En note ˆ les résidus des MCO, l’estimation de Σ est alors :

1 0
Σ̂ = ˆ ˆ (3.37)
n

On parle alors d’estimateur des moindres carrés quasi-généralisés pour β̂ estimé par
MCG, une fois l’estimation de Σ accomplie. Les propriétés asymptotiques de l’estima-
teur MCQG ne proviennent pas de l’estimateur sans biais de Σ ; seule la convergence
est nécessaire. L’estimateur a les mêmes propriétés que l’estimateur MCG.

3.2.2 MCO contre MCG et MCQG

L’estimateur MCG diffère bien évidemment de l’estimateur MCO. Pour l’instant, les
équations sont seulement liées par leurs perturbations, d’où le terme de régressions
apparament indépendantes. Il est alors nécessaire de s’interroger sur le gain d’efficacité
provenant de l’estimateur MCO à la place de l’estimateur MCG. L’estimateur MCO
est ici un estimateur équation par équation, laissant de coté l’écriture fastidieuse du
modèle MCG. On détaille quelques cas particuliers :

– Si les équations sont indépendantes - i.e. si σij = 0, i 6= j - alors il n’y a aucun

avantage à utiliser les MCG pour estimer le système d’équation. En effet, les MCG
reviennent aux MCO équation par équation.

– Si les équations ont les mêmes variables explicatives, alors MCO et MCG sont iden-
tiques.

– Si les regresseurs dans un bloc d’équations sont un sous-ensemble des regresseurs

dans d’un autre , alors MCG n’apporte aucun gain d’efficacité par rapport aux MCO
dans l’estimation de l’ensemble de l’ensemble plus petit d’équation ; ainsi MCO et
MCG sont de nouveau identiques.
50 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

3.2.3 Estimation de systèmes d’équation par maximum de vraisem-

blance
Il est possible, comme pour le cas des MCO, d’estimer le modèle par maximum de
vraisemblance. On rappelle qu’une loi gaussienne multivariée se note comme suit :

m 1 1
f (X1 , ..., Xm ) = (2π)− 2 |Ω|− 2 exp − (Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.38)
2

Sur la base des notations introduites plus haut, la vraisemblance concentrée du modèle
SURE s’écrit :
n 1
lnL = − ln(|Ω|) − (Y − Xβ 0 )0 Ω−1 (Y − Xβ 0 ) (3.39)
2 2
En dérivant par rapport à β 0 , il vient :

X 0 Ω−1 (Y − Xβ 0 ) = 0 (3.40)
0 −1 0 −1 0
⇔X Ω Y =XΩ Xβ (3.41)
0 0 −1 −1 0 −1
⇔β = (X Ω X) XΩ Y (3.42)

On retrouve bien l’estimateur des MCG : celui profite donc de l’ensemble des propriétés
des estimateurs du maximum, developpées plus haut. L’estimateur de la variance se
déduit des propriétés suivantes :

Proposition 3.2.5 (Dérivation matricielle 1). Soit A une matrice carrée, inversible et
de déterminant positif. Alors :

∂ln(|A|)
= (A0 )−1 (3.43)
A
Proposition 3.2.6 (Dérivation matricielle 2).

−ln(|A|) = −ln(|A−1 |)−1 = log(|A−1 |) (3.44)

Une fois que l’on connait ces propriétés, il est aisé de voir que :
∂lnL n 1
−1
= Ω − (Y − Xβ 0 )(Y − Xβ 0 )0 (3.45)
∂Ω 2 2
En égalisant la dernière dérivée à 0, il vient :
1 0
Ω= (3.46)
n
où = Y − Xβ 0 . On retrouve bien un estimateur habituel de la variance.

3.2.4 Retour sur l’estimation du MEDAF : implémentation des MCQG

On se propose de calibrer le MEDAF à l’aide des Moindres Carrés Quasi Généralisés.
Comme exposé plus haut, il est tout d’abord nécessaire d’obtenir une estimation de
la matrice de covariance des résidus. On utilise pour cela la matrice des résidus issus
des estimations produites par les moindres carrés dans la fonction capm.R, fournies
3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS 51

précédement. Il est ensuite nécessaire de réécrire le système d’équation sous la forme

présentée plus haut : la nouvelle matrice des variables explicatives doit être de la forme
M(n × m, m × 2), dans la mesure où l’on a ici uniquement deux variables explicatives
pour l’ensemble des équations du systèmes (la constante et l’index de marché).

On commence donc par réécrire l’ensemble des matrices de façon appropriée. Avec
l’estimation de Σ, on fournit une estimation de Ω :

Ω = Σ ⊗ In (3.47)

Il ne reste alors plus qu’à estimer la matrice β, qui comporte (si tout se passe bien)
n × m éléments en colonne. L’estimateur βb est alors :

βb = (X T Ω−1 X)−1 (X T Ω−1 Y ) (3.48)

La fonction capm.R a été complétée pour prendre en compte l’estimation par MCQG : le
code est fournit ci-après. Une mise en garde s’impose : le calcul de Ω conduit à construire
une matrice aux dimensions imposantes. Il est par conséquent possible que de nombreux
PC ne puisse pas permettre l’estimation par MCQG d’un système d’équations où m est
grand. Dans notre cas, pour 30 titres et 250 dates, la matrice Ω est de taille 7500×7500 :
elle comporte donc... 56 250 000 éléments ! Il est par conséquent nécessaire de disposer
d’une mémoire vive... très importante.

Les resultats retournés par la procédure sont fournis dans la table 3.2.4 et comparés à
ceux obtenus par MCO. Le constat principal est la suivant : les MCQG n’apporte rien
en comparaison des MCO lors de l’estimation du CAPM. Ceci tient à la matrice de
variance-covariance des erreurs MCO qui est une matrice diagonale presque surement.
Pour tester la valeur d’une corrélation ρ, on rappelle que la statistique de test est :
√ ρ
Tρ = n − 2p (3.49)
1 − ρ2

Cette statistique suit, sous H0 : ρ = 0, une loi de student à n − 2 degrés de liberté (où
n est le nombre de données disponibles). On compare donc Tρ à 1,96, comme on l’a fait
pour les tests de Student.

Finalement, ceci ne sert qu’à montrer que dans de nombreux cas pour lesquels la struc-
ture de corrélation se réduit aux simples variances, il n’est pas nécessairement utile de
recourir aux MCG/MCQG : les MCO suffisent amplement. Pour refaire ces estimations
vous-mêmes, il suffit d’ajouter à la fonction capm.R les quelques lignes qui suivent, ainsi
que de modifier return, comme c’est ici le cas :

# Calcul de l’estimateur des MCQG

# Mise en forme des données
[Link]=matrix(titres,length(titres),1)
n=nrow(titres)
[Link]=matrix(0,length(titres),2*ncol(titres))
52 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE

for (i in 1:ncol(titres)){
[Link][(n*(i-1)+1):(i*n),(2*(i-1)+1):(2*i)]=SP
}
# Calcul de la matrice de variance covariance des résidus MCO
[Link]=var(res)
omega=solve(kronecker([Link],diag(1,nrow(titres),nrow(titres))))
# Estimation des paramètres
[Link]=t(solve(t([Link])%*%omega%*%[Link])%*%(t([Link])%*%omega%*%[Link]))
return(list(theta=theta, R2=R2, test=test, ptest=ptest, [Link]=[Link]))
Alcoa AT.T Boeing Caterpilar Chevron [Link] Disney DuPont [Link]
MCO alpha 0.003024439 -0.01330993 0.004927275 -0.001995679 -0.006321155 -0.001599203 0.0084873 0.001150471 -0.01899075
beta 1.029791342 0.74692300 1.143201992 1.054370309 0.840468354 0.802655308 1.1226112 1.016821780 0.59013381
MCQG alpha 0.003024439 -0.01330993 0.004927275 -0.001995679 -0.006321155 -0.001599203 0.0084873 0.001150471 -0.01899075
beta 1.029791 0.746923 1.143202 1.054370 0.8404684 0.8026553 1.122611 1.016822 0.5901338

Tab. 3.1 – Estimations du CAPM par MCQG

3.2. LES MODÈLES À SYSTÈME D’ÉQUATIONS
53
54 CHAPITRE 3. EXTENSIONS DU MODÈLE DE BASE
Chapitre 4

Optimisation de fonctions à
plusieurs variables par algorithme

On présente dans ce qui suit quelques bases nécessaires à l’approximation numérique de

fonctions de plusieurs variables. Comme on l’a vu dans la partie consacrée aux modèles
non linéaires, il arrive (assez souvent) lorsque l’on cherche à maximiser une vraisem-
blance ou des SSR qu’il n’existe pas de forme analytique pour les estimateurs. Il est
alors nécessaire d’approximer ce maximum de façon numérique, i.e. déterminer une va-
leur approchée des paramètres assurant que la vraisemblance soit maximale.

Ne le cachons pas, proposer ce type de chapitre n’est pas monnaie courante : rares sont
les cours de statistique à insister sur de tels aspects computationnels. Je suis intime-
ment convaincu que de trop nombreux économètres ne programment pas leurs propres
procédures d’estimation, et ceci est extrêment dommageable. Des générations d’élèves
sont formés dans l’idée que l’économétrie se fait simplement en lançant des procédures
SAS ou pire : Eviews. Il existe un certain illétrisme économétrique parmis beaucoup
d’élèves : il est possible de programmer ses propres procédures d’estimation (notamment
en R) et ce sans faire d’efforts incroyables. Je propose dans ce qui suit les principales
intuitions nécessaires à la programmation de fonction permettant d’optimiser un fonc-
tion de p variables. Bien évidemment, on ne propose ici pas l’ombre d’une preuve des
méthodes proposées : il s’agit bien plutôt d’une chapitre de cuisine économétrique. Il
existe de nombreuses références proposant les preuves de ce qui va suivre, mais je doute
qu’un élève de M1 en tire un quelconque profit.

Les différentes recettes proposées ont été tirées pelle-melle de : Harvey (1990), Des-
champs (2004) Quinn (2001) et Greene (2002). Notez que ce chapitre du Green est li-
brement téléchargeable sur le site de Pearson Education (et en Français !)1 . On propose
trois types de méthodes : une première approche intuitive vise à déterminer graphique-
ment (méthode de recherche par quadrillage) les fonctions de un ou deux variables. Ce
type de méthode laisse ensuite la place à l’ensemble des méthodes basées sur le gra-
dient : plus grande pente, Newton Raphson, méthode du score et BHHH. Ces méthodes
se heurtent cependant aux problèmes liées aux multimodalités du maximum de vrai-
semblance : les méthodes de type recuit simulé sont brièvement présentées.
1
[Link]

55
56CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

4.1 Pour commencer...

Dans ce qui va suivre, on s’intéresse à un problème très simple : soit {x1 , x2 , ..., xn }
un échantillon que l’on suppose tiré d’une loi normale de paramètres inconnus. On
souhait déterminer les estimateurs du maximum de vraisemblance de ces paramètres.
[Ce problème se traite aisément sans tout ce qui va suivre, mais autant prendre un
problème simple pour introduire des éléments plus complexes.] La vraisemblance as-
sociée à l’échantillon est :
n
( )
1 xi − m 2

Y 1
L= √ exp − (4.1)
2πσ 2 σ
i=1

La log-vraisemblance associée est naturellement :

n 2
n 1X xi − m
lnL = − ln(2π) − nln(σ) − (4.2)
2 2 σ
i=1

On cherche à présent à déterminer les paramètres θ = (m, σ) qui maximisent cette

expression. La première idée que l’on peut proposer est de représenter cette vraisem-
blance en deux dimensions en fonction d’un grid ou quadrillage. On détermine une
valeur minimum ainsi qu’une valeur maximum pour l’ensemble des valeurs que m peut
prendre. On fait de même pour σ. Ceci nous fournit alors un damier composé des deux
grid ainsi formés (les deux supports de nos paramètres). L’idée est alors de calculer la
log-vraisemblance associée à l’ensemble des points d’intersection des lignes composant
le damier. L’algorithme à coder pour déterminer le maximum de vraisemblance est
alors :

1. Déterminer le support des paramètres

2. Pour chaque valeur de ce support (une boucle for par paramètre), on calcule la
log-vraisemblance
3. On entamme ensuite une nouvelle boucle (possibilité de la combiner avec la
précédente) pour déterminer le max sur les logvraisemblance pour le support.
4. On récupère finalement la valeur des paramètres garantissant cette valeur maxi-
male de la log-vraisemblance.

C’est ce qui est fait par le code suivant (à ceci pret que la fonction proposée représente
également la logvraisemblance en 3D).

grid<-function(x,n){
mu<-seq(1,3,length=n)
sigma<-seq(1,3,length=n)
T=nrow(x);
lnL=matrix(0,n,n);
for (i in 1:n){
for (j in 1:n){
mm2=sum((x-mu[i])^2);
4.1. POUR COMMENCER... 57

lnL[i,j]=-T*log(sigma[j])-1/2*(mm2/(sigma[j]^2));
}}
persp(mu,sigma,lnL, theta = 50, phi = 30, expand = 0.5, col = "lightblue");
max=min(lnL);
for (i in 1:n){
for (j in 1:n){
if(max<lnL[i,j]){max=lnL[i,j]; indexi=i;indexj=j}
}}
mumax=mu[indexi];
sigmamax=sigma[indexj];
return(list(mu=mu,sigma=sigma,lnL=lnL,sol=cbind(max,mumax,sigmamax)))
}

On obtient alors les graphiques présentés en figure 4.1 et 4.2, en utilisant les fonction
persp et contour de R. On en déduit alors l’estimation de nos paramètres. L’idée est
essentiellement de se construire une représentation mentale de ce qu’est une vraisem-
blance (ça existe !), avant de passer à des méthodes plus avancées.

Logvraisemblance en 3D
lnL

a
u

m
sig

Fig. 4.1 – Log-vraisemblance en 3D

58CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Logvraisemblance en courbes de niveau

3.0
2.5
2.0
1.5
1.0

1.0 1.5 2.0 2.5 3.0

Fig. 4.2 – Log-vraisemblance en 2D

4.2 Les méthodes du gradient

Les méthodes les plus utilisées en économétrie/statistique sont généralement basées
sur un calcul approché du gradient [matrice des dérivées premières de la fonction à
maximiser]. Il existe différentes méthodes, qui ont chacune leurs qualités et défauts. On
les présente ici de façon très pratique : il s’agit de permettre une programmation aisée
de ces méthodes de maximisation.

4.2.1 Quelques généralités pour commencer...

L’ensemble des méthodes ci-après partent toutes plus ou moins du même point de
départ. On cherche à déterminer le θ optimal, i.e. l’ensemble des paramètres qui maxi-
mise une fonction f (θ). On part d’un point initial noté θ0 , si possible le plus proche des
vraies valeurs de θ∗ (les paramètres optimaux). On cherche ensuite à modifier la valeur
des ces paramètres selon une certain pas λt et une certaine direction ∆t , de façon à
former une suite de valeur θt qui converge vers la vraie valeur de θ∗ . La chaı̂ne des θt
est alors formée de la façon suivante :

θt+1 = θt + λt ∆t (4.3)
4.2. LES MÉTHODES DU GRADIENT 59

Tout l’art de la maximisation vient alors du fait de spécifier λt et ∆t de façon optimale,

i.e. :

– de façon à ce que l’algorithme aboutisse effectivement à la valeur optimale (une valeur

approchée du moins),
– et de façon à ce qu’on l’atteigne ce point le plus vite possible, c’est à dire :
1. que l’algorithme nécessite le moins de calculs complexes possibles,
2. que l’algorithme consomme le moins de ressource machine possible.

On développe ici quelques méthodes bien connues : méthode de la plus grande pente,
méthode de Newton Raphson et méthode du score par BHHH. L’ensemble de ces
méthodes sont dires méthodes du gradient dans la mesure où ∆t est systématiquement
de la forme :

∆ t = W t Gt (4.4)

où Wt est une matrice définie positive et G le gradient de f :

∂f
G= (4.5)
∂θ

4.2.2 La méthode de la plus grande pente

Il s’agit de la méthode la plus simple. On utilise G, le gradient de f , comme direction :
on a donc Wt = I et ∆t = Gt . On dirige ainsi l’estimateur du côté de la plus grande
pente, i.e. de la plus grande dérivée. On montre que le pas optimal est alors de la forme :

−G0 G
λt = (4.6)
G0t Ht Gt

où H est la matrice hessienne, i.e. la matrice des dérivées secondes de f . On a donc :

∂2f
H= (4.7)
∂θ∂θ0
Ainsi l’itération de la plus grande pente est alors :

G0 G
θt+1 = θt − Gt (4.8)
G0t Ht Gt

En supposant que l’on a p paramètres à estimer, θ est alors une M(p, 1), G est également
une M(p, 1) et H est une M(p, p). On vérifie donc que les dimensions des matrices cor-
respondent bien.

L’algorithme est des plus simples à programmer :

1. Etablir un θ0
2. Déterminer G0 et H0
3. Déterminer ∆t et λt
60CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

Le code R est fourni ici :

steep<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
check=matrix(0,2,1)
i=1;
while(sum(G^2)>0.0000001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=[Link]((t(G)%*%G)/(t(G)%*%H%*%G))*G;
i=i+1
}
return(list(theta=theta,check=check))
}

Ici, on a fixé à 0.0000001, de façon arbitraire. On illustre les résultats de cette méthode
sur notre problème initial de vraisemblance gaussienne en figure 4.3. On a fixé volon-
tairement θ0 loin de la vraie valeur des paramètres : on observe une certain nombre de
sauts, même si on trouve au final la bonne valeur approchée des paramètres.

Deux mises en gardes cependant :

– Le calcul des dérivées secondes peut être long et pénible.

– D’autre part, si θt est loin de la vraie valeur du maximum, il est possible que Ht ne
soit pas définie négative, et que l’algorithme diverge.

4.2.3 La méthode de Newton-Raphson

Il s’agit d’une méthode classique d’optimisation numérique. L’origine de la méthode
est la suivante : supposons que l’on veuille trouver x̂ ∈ Rk qui maximise la fonction
f : Rk → R, qui est deux fois continuement dérivable. Il est possible de donner le
développement de Taylor suivant de la fonction f :
1
f (x + h) ≈ f (x) + G0 h + h0 Hh (4.9)
2
4.2. LES MÉTHODES DU GRADIENT 61

Convergence méthode de la plus grande pente

1000
0
d$ch[1, ]

−1000
−2000

0 10 20 30 40

Index

Fig. 4.3 – Convergence de la méthode de la plus grande pente

avec les notations précédentes pour G et H. Ceci implique naturellement que :

∂f (x + h)
= G + Hh (4.10)
∂h
La condition de premier ordre pour un maximum est alors :

0 = G + Hh (4.11)
−1
⇔h = −H G (4.12)

En d’autres termes, la direction optimale pour optimiser f (retour sur notre problème)
est de choisir θt+1 tel que :

θt+1 = θt − H−1 G (4.13)

On notera qu’avec Newton-Raphson, on a : λt = 1∀t. Là encore, la programmation de

ce type d’algorithme est très simple :

1. Etablir un θ0
2. Déterminer G0 et H0
3. Déterminer ∆t et λt
4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

newton<-function(theta,x,iter){
H=matrix(0,2,2)
G=matrix(1,2,1)
n=nrow(x)
62CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
H[1,1]=-n/(theta[2,1]^2);
H[2,2]=H[1,1]-3*(mm2)/(theta[2,1]^4);
H[1,2]=-(2*mm)/(theta[2,1]^3);
H[2,1]=H[1,2];
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(i,"\n");
check=cbind(check,theta-solve(H)%*%G);
theta=theta-solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}

On applique également cette méthode à notre problème, en partant encore d’un point
éloigné du véritable maximum. Là, l’algorithme de Newton Raphson diverge et aboutit
à la solution m = −1182571474 et σ = −168165462, soit des valeurs abhérantes. Ceci
est représenté sur la figure 4.4.

Convergence méthode de Newton Raphson

0.0 e+00
−4.0e+08
d$ch[1, ]

−8.0e+08
−1.2e+09

5 10 15 20

Index

Fig. 4.4 – Convergence de la méthode de Newton Raphson

Cette méthode converge cependant dans de nombreux cas. Si la fonction est quadra-
tique, elle atteint l’optimum en une itération depuis n’importe quel point de départ.
Si la fonction est globalement concave, cette méthode reste probablement la meilleure.
Elle est particulièrement adaptée à l’estimation du maximum de vraisemblance.
4.2. LES MÉTHODES DU GRADIENT 63

4.2.4 Méthode du score et matrice BHHH

Il n’est parfois pas possible ou simplement trop couteux de calculer la matrice hessienne
directement. On la remplace alors par un estimateur, en s’appuyant sur la propriété
bien connue :
2
∂ lnL ∂lnL ∂lnL
−E =E (4.14)
∂θ∂θ0 ∂θ ∂θ0
Là encore, il peut être parfois plus simple d’approximer cette espérance à l’aide de
l’estimateur BHHH (Berndt et al. (1974)) :
n
X
−H = G0 G (4.15)
i=1

Le calcul de θt+1 se fait alors comme suit :

θt+1 = θt + BHHHt−1 Gt (4.16)
L’algorithme est alors :

1. Etablir un θ0
2. Déterminer G0 et BHHH0
3. Déterminer ∆t et λt
4. Déterminer θ1
P 2
5. Tester G < . Si oui, stop. Si non, on continue la boucle...

Dans notre cas, le code R peut être écrit comme suit :

HHH<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
while(sum(G^2)>0.0001){
mm=sum(x-theta[1,1])
mm2=sum((x-theta[1,1])^2)
BHHH=cbind((x-theta[1,1])/(theta[2,1]^2),-1/theta[2,1]+((x-theta[1,1])^2)/(theta[2,1]^3
H=(t(BHHH)%*%BHHH);
G[1,1]=mm/(theta[2,1]^2);
G[2,1]=-n/theta[2,1]+(mm2)/(theta[2,1]^3);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
return(list(theta=theta,check=check))
}
64CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

On présente en figure 4.5 une application de ce code à notre problème. La convergence

est rapide, et l’algorithme fonction (quasiment) toujours (du moins pour les essais que
j’ai fait). Mieux, la matrice BHHH −1 fournit à l’optimum une estimation de la variance
des estimateurs (i.e. de l’inverse de la matrice d’information de Fisher).

Convergence méthode de scoring BHHH

15
10
d$ch[1, ]

5
0

2 4 6 8 10 12 14

Index

Fig. 4.5 – Convergence de la méthode de scoring par BHHH

4.3 Estimations par algorithme aléatoire

Une autre façon de voir les choses est de compter sur le hasard : lorsque le nombre de
paramètres est grand, il n’est pas possible d’utiliser la méthode du quadrillage. Pire,
dans un tel cas, il est rarement aisé de s’assurer de la globale concavité de f . L’exis-
tence de maximum locaux met en danger les estimations. Une solution peut être de
lancer des algorithmes de type gradient en partant de différents points de départ. Il
est également possible d’utiliser des méthodes de type recuit simulé, telles que l’al-
gorithme de Métropolis-Hastings. Encore une fois, on en fournit ici une présentation
de type ”cuisine économétrique”. Le lecteur soucieux d’aller plus loin est renvoyé aux
références cités dans la partie consacrée à ces méthodes.

4.3.1 Faire jouer le hasard

L’idée de ce type de méthode est de remplacer un grid search par une recherche d’op-
timum aléatoire. Au lieu de construire une suite de paramètre de façon déterministe
(type méthode du gradient), on rend cette suite aléatoire. On a donc :
∗
θt+1 = θt + t (4.17)
∗
où t est tiré d’une loi particulière (uniforme, normale...). A ce stade, θt+1 n’est pas
encore le paramètre retenu à l’itération t + 1. A chaque itération, on compare la
∗ . On conserve le paramètre qui rend la log-
log-vraisemblance associée à θt et à θt+1
vraisemblance maximale. Il s’agit donc d’un algorithme itératif : il est nécessaire de
4.3. ESTIMATIONS PAR ALGORITHME ALÉATOIRE 65

déterminer un critère d’arrêt pour l’algorithme. Deux possibilités : il est possible de

fixer un nombre d’itérations ex ante, ou de d’utiliser un critère de type gradient, comme
il en a été question dans les méthodes précédentes.
L’algorithme est donc :

1. Choisir θ0
2. Tirer autant de que de paramètres
3. Déterminer θ1
4. Comparer lnL(θ0 ) et lnL(θ1 )
5. Conserver le θi rendant la log-vraisemblance maximale
6. Recommencer la boucle

Le code R dans le cadre de notre problème est le suivant :

random<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){
for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)/2}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew}
cat(i,"\n")
thetachain=cbind(thetachain,theta)
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}
Appliqué à notre problème, ce code fournit une estimation correcte de nos paramètres.
En partant d’un point éloigné de maximum, l’algorithme converge cependant lentement.
C’est ce qu’on observe sur la figure 4.6.
Il est possible de converger plus rapidement, en effectuant des saut dans les paramètres
plus importants. Cependant, ce faisant, on diminue également la probabilité de trouver
un point qui maximise la vraisemblance. Notons que l’algorithme s’alourdit considérablement
en présence d’un grand nombre de paramètres. En effet, on travaille à chaque itération
autour du voisinage du dernier maximum trouvé par l’algorithme : un voisinage à n
paramètres est bien plus grand qu’un voisinage à deux paramètres. Pour finir, il est
possible de coupler les méthodes basées sur le gradient (définissant la direction) avec un
algorithme construit pour générer des nombres positifs aléatoirement : on génère alors
une taille de pas aléatoire. L’idéal est de générer au début de l’algorithme des taille de
pas importantes, et de diminuer ces tailles au fur et à mesure de l’algorithme. Ceci est
d’ailleurs proche de ce qu’on appelle la température dans l’Algorithme de Métropolis
Hastings.
66CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Chroniques des estimateurs avec algorithme itératif

100
80
d$thetach[1, ]

60
40
20
0

0 200 400 600 800 1000

Index

Fig. 4.6 – Convergence de la méthode aléatoire

4.3.2 Moduler le hasard : Metropolis Hastings et le recuit simulé

On présente ici rapidement une façon de résoudre des problèmes de maximisation en
présence de maxima locaux et d’un unique maximum global. On utilise pour cela l’al-
gorithme de Métropolis Hastings. Cet algorithme a été introduit par Metropolis et al.
(1953) pour minimiser un critère sur un espace d’états fini de grande taille. Cette
présentation est inspirée de Robert (1996) et Duflo (1996).

Soit une fonction f à maximiser en θ. La fonction f est souvent appelée fonction

d’énergie, dans le cadre de cette méthode. On part de θ0 et on fixe un paramètre
T dit de température : ce paramètre va déterminer la probabilité d’échapper à un
maximum local au fur et à mesure des itération. On détermine θt+1 de la même façon
que précédement :

∗
θt+1 = θt + t (4.18)
∗
Ce qui change par rapport à la précédente méthode est le mode de selection entre θt+1
et θt . On compare la log-vraisemblance associée à chacun d’eux :
∗ ) > lnL(θ ), alors on retient θ
– si lnL(θt+1 ∗
t t+1 = θt+1 .
∗
– sinon, on ne rejette pas nécessairement θt+1 . On l’accepte avec une probabilité de
0lnL(θ∗ )−lnL(θ )
la forme : min(exp(− 1
T ), 1). Dans la pratique, on procède à un tirage
d’une loi uniforme, puis on compare ce tirage avec le précédent calcul. Si le tirage est
∗ , sinon, on conserve θ . La température T du système permet
inférieur, on choisit θt+1 t
d’augmenter cette probabilité d’accepter θt+1∗ . En général, il s’agit d’une fonction du

nombre d’itérations de l’algorithme.

L’algorithme est alors le suivant :

4.3. ESTIMATIONS PAR ALGORITHME ALÉATOIRE 67

1. Déterminer θ0
2. Tirer et déterminer θ1∗
3. Comparaison de la lnL associée aux deux paramètres
4. Si lnL(θ1∗ ) > lnL(θ0 ) ⇒ θ1 = θ1∗
5. Sinon : on tire u selon une loi uniforme.
lnL(θ1∗ )−lnL(θ0 )
6. On calcule min(exp(− T ), 1) et on compare à u
lnL(θ1∗ )−lnL(θ0 )
7. Si u < min(exp(− T ), 1), alors θ1 = θ1∗ .
8. Sinon θ1 = θ0
9. On recommence la boucle...

Le code R peut être le suivant :

randommh<-function(theta,x,iter){
nb=length(theta)
logv<-function(x,theta){
mm2=sum((x-theta[1,1])^2);
lnL=-nrow(x)*log(theta[2,1])-1/2*(mm2/theta[2,1]^2)
return(list(lnL=lnL))
}
thetachain=theta
thetanew=matrix(0,2,1)
for(i in 1:iter){thetanew[2,1]=-1;
while(thetanew[2,1]<0.1){for (j in 1:nb){thetanew[j,1]=theta[j,1]+rnorm(1)}}
if (logv(x,thetanew)$lnL>logv(x,theta)$lnL){theta=thetanew; cat("-","\n")}
if (logv(x,thetanew)$lnL<logv(x,theta)$lnL){u=runif(1);
if(u<min(exp((logv(x,thetanew)$lnL-logv(x,theta)$lnL))*exp(1+i^(1/100)),1)){theta=theta
}
cat(i,"\n")
thetachain=cbind(thetachain,theta);
plot(thetachain[1,],type="l",col="blue")
}
return(list(theta=theta,lnL=logv(x,theta)$lnL,thetachain=thetachain))
}

Il existe des façons bien plus complexe de contrôler la température du système que celle
proposée ici qui est déterministe. Graphiquement, sur un problème aussi simple que le
notre, il n’y a pas grande différence entre la précédente méthode et celle-ci (cf. figure
4.7).
68CHAPITRE 4. OPTIMISATION DE FONCTIONS À PLUSIEURS VARIABLES PAR ALGORITHME

Méthode MH pour convergence

50
40
thetachain[1, ]

30
20
10

0 200 400 600 800 1000

Index

Fig. 4.7 – Convergence de la méthode MH

Chapitre 5

Introduction aux modèles de

séries temporelles

5.1 Qu’est-ce qu’une série temporelle ?

La plupart des donnés macroéconomiques et financières prennent la forme de séries
temporelles, un jeu d’observations répétées d’une même variable, telle que le PIB ou le
rendement d’un titre donné. Dans ce qui suit, on note un série temporelle de la façon
suivante :

{x1 , x2 , ..., xT } ou {xt }, t = 1, 2, ..., T (5.1)

xt est appelé variable aléatoire. En principe, il n’existe pas ou peu de différence entre
les séries temporelles et l’économétrie, sinon que les variables sont indicées par t plutôt
que par i. Par exemple, si yt est généré par :

yt = βxt + t , E[t |xt ] = 0 (5.2)

alors une estimation par MCO permet d’obtenir des estimateurs consistants, de la même
façon que dans le cas classique (i.e. indexé par i).

Le terme de séries temporelles est utilisé de façon interchangeable pour désigner à la

fois un échantillon de données {xt } et un modèle probabiliste pour cet échantillon. Un
exemple de modèle probabiliste peut être le suivant :

xt = t , t ∼ i.i.d.N (0, σ) (5.3)

Heureusement pour nous, il est très rare que des séries temporelles soient i.i.d. (indépendantes
et identiquement distribuées) : il s’agit précisement de ce qui les rend intéressantes. Le
PIB en donnée trimestrielle constitue un bon exemple de cette dépendance temporelle :
en général, quand le PIB est anormalement haut en t (i.e. au-dessus de sa moyenne
historique ou non-conditionnelle), il y a de très fortes chances pour que la prochaine
valeur de ce même PIB soit elle aussi anormalement haute.

L’idée est donc de parvenir à caractériser la loi jointe de {..., xt−1 , xt , xt+1 , ...}. Evi-
dement, il serait interessant de mettre en oeuvre des méthodes non paramétriques

69
70CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

(histogrammes, kernels...) afin d’embrasser toute la dépendance existante. Le problème

est que les séries temporelles - du moins les séries économiques - sont souvent réduites
à (au plus) 300 à 400 points. Il n’en va pas de même des séries financières, qui peuvent
être plus conséquente (centaines de milliers de points) : cependant, la forme de la
dépendance sur ce type d’actif est tout sauf stable. D’où le recours à des procédures
paramétriques, cadre infiniment plus souple, aisé et agréable à manier. Là encore, le
marketing est essentiel.

Dans ce qui suit, on présente deux classes de modèles : l’une s’attachant à modéliser la
moyenne conditionnelle des processus (les modèles ARM A) et l’autre s’intéressant à la
modélisation de la variance conditionnelle (les modèles ARCH − GARCH).

5.2 Les modèles ARMA

5.2.1 Au commencement : le bruit blanc
Le fondement de l’ensemble des méthodes de séries temporelles est le bruit blanc (white
noise), que l’on note dans ce qui suit t . Dans un cas général, on a :

t ∼ i.i.d.N (0, σ ) (5.4)

Cette formulation a trois implications :

– E[t ] = E[t |t−1 , t−2 , ...] = E[t |toute l’information disponible en date t − 1]
– E[t t−j ] = Cov[t t−j ] = 0
– var[t ] = var[t |t−1 , t−2 , ...] = var[t |toute l’information disponible en date t − 1] =
σ2

Les premières et deuxième propriétés supposent l’absence d’une corrélation sérielle

ou d’une prédictibilité quelconques. La troisième propriété stipule l’homoscédasticité
conditionnelle du processus bruit blanc. Ces propriétés seront peu à peu relachées au
fur et à mesure des modèles évoqués ci-après.

En lui-même, t est un processus plutôt ennuyeux : si t atteint une valeur surpre-

nament haute, t+1 ne sera pas nécessairement plus élevé. Il ne s’agit donc pas d’un
processus persistant, alors que la plupart des séries chronologiques présentent ce type
de persistance.

Notons néanmoins que la théorie financière repose néanmoins sur une hypothèse proche
du bruit blanc. Le modèle de Black-Scholes repose sur l’hypothèse d’une diffusion sui-
vant un brownien géométrique pour le prix des actifs. On rappelle que si St est le cours
du sous-jacent dans le modèle de Black-Scholes, alors sa diffusion est de la forme :

dSt = µSt dt + σSt dWt (5.5)

où Wt est un mouvement brownien standard. En applicant la formule d’Îto, on parvient

à déterminer une expression intégrale permettant d’obtenir la dynamique des prix :
σ2
dlog(St ) = (µ − )dt + σdWt (5.6)
2
5.2. LES MODÈLES ARMA 71

On en déduit aisément :
Z t+1 t+1 t+1
σ2
Z Z
dlog(Ss ) = (µ − )ds + σdWs (5.7)
t t 2 t
2

St+1 σ
⇔log =µ− + σ(Wt+1 − Wt ) (5.8)
St 2

Sachant que (Wt+1 − Wt ) ∼ N (0, 1) (l’intervalle de temps est l’unité), on retrouve donc
bien un processus pour les rendements qui est à peu de choses pret un bruit blanc.
La seule différence entre les deux processus tient au drift obtenu après application de
la formule d’Îto. Malheureusement, le cours des actifs est rarement bruit blanc, ce qui
ne va pas sans poser quelques problèmes lors de l’utilisation de la formule de Black
et Scholes. Elle constitue néanmoins un benchmark intéressant pour l’évaluation des
options.

La discrétisation de la diffusion a été accomplie ici rapidement et sans précautions :

nous reviendrons plus loin sur la discrétisation des diffusions, en rappellant la méthode
d’Euler. Cette maigre digression a uniquement pour but de mettre à jour quelques
liens évidents entre l’analyse des séries temporelles ... et la finance. Tournons nous tout
d’abord vers l’analyse des premiers modèles de séries temporelles : les processus ARMA.

5.2.2 Les modèles ARMA de base

La plupart du temps, on étudie une classe de modèles créés par combinaisons linéaires
de bruits blancs. Ces modèles sont les suivants :

AR(1) : xt = φxt−1 + t (5.9)

MA(1) : xt = θt−1 + t (5.10)
AR(p) : xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + t (5.11)
MA(q) : xt = θ1 t−1 + θ2 t−2 + ... + θq t−q + t (5.12)
ARMA(p,q) : xt = φ1 xt−1 + φ2 xt−2 + ... + φp xt−p + θ1 t−1 + θ2 t−2 + ... + θq t−q + t
(5.13)

Comme on peut le constater, il s’agit à chaque fois d’une recette à base de bruits blancs
passés et de valeurs de départ pour xt . L’ensemble de ces modèles ont une moyenne
nulle, et sont utilisés pour représenter l’écart des séries à leur moyenne. Par exemple,
si une série {xt } a une moyenne égale à x̄ et suit un processus AR(1), alors :

(xt − x̄) = φ(xt−1 − x̄) + t (5.14)

est équivalent à :

xt = (1 − φ)x̄ + φxt−1 + t (5.15)

⇔xt = c + φxt−1 + t (5.16)

Ainsi, la constante c absorbe l’effet moyen. On travaille dans ce qui suit principalement
à l’aide de modèle excluant la constante : elle est aisément estimable.
72CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.3 L’opérateur retard

Il est aisé de représenter et de manipuler les processus ARMA en utilisant l’opérateur
retard L. Cet opérateur retarde les données d’une unité de temps :

Lxt = xt−1 (5.17)

De façon plus formelle, l’opérateur retard est un opérateur qui produit une nouvelle série
de donnée (retardée) à partir d’une série {xt }. A partir de cette définition sommaire,
il est aisé de voir que :

L2 xt = LLxt = Lxt−1 = xt−2 (5.18)

On a donc :

Lj xt = xt−j L−j xt = xt+j (5.19)

Il est également possible de définir des polynomes de l’opérateur retard. On a alors :

a(L)xt = (α0 L0 + α1 L1 + α2 L2 + ... + αp Lp )xt = α0 xt + α1 xt−1 + α2 xt−2 + ... + αp xt−p

(5.20)

En utilisant ces notations, il est alors possible de réécrire des modèles ARMA comme
suit :

AR(1) : (1 − φL)xt = t (5.21)

MA(1) : xt = (1 + θL)t (5.22)
1 2 p
AR(p) : (1 − φ1 L − φ2 L − ... − φp L )xt = t (5.23)
MA(q) : xt = (1 + θ1 L1 + θ2 L2 + ... + θp Lp )t (5.24)
ARMA(p,q) : (1 − φ1 L − φ2 L − ... − φp L )xt = (1 + θ1 L + θ2 L + ... + θp Lp )t
1 2 p 1 2

(5.25)

ou plus simplement :

AR : a(L)xt = t (5.26)
MA : xt = b(L)t (5.27)
ARMA(p,q) : a(L)xt = b(L)t (5.28)

5.2.4 Manipulation les processus ARMA avec L

Un modèle ARMA n’est pas unique. La loi jointe de {x0 , x1 , ..., xn } peut être modélisée
par différents processus ARMA. Il est cependant important d’avoir toujours en tête :

– une représentation à l’aide d’un polynome retard le plus petit possible est toujours
plus aisé ;
– les modèles AR sont les plus aisés à estimer par MCO ;
– les MA représentent xt en fonction de variables indépendantes : dans de nombreux
cas, ceci facilitera les calculs de variance et de covariance, comme on le verra plus loin.
5.2. LES MODÈLES ARMA 73

5.2.5 AR(1) et MA(∞) par recursion

Il est possible dans de nombreux cas de fournir une représentation MA(∞) à partir
d’un AR(1). Ceci se montre aisément comme suit :
xt = φxt−1 + t (5.29)
2
⇔xt = φ(φxt−2 + t−1 ) + t = φ xt−2 + φt−1 + t (5.30)
⇔xt = φk xt−k + φk−1 t−k+1 + ... + φ2 t−2 + φt−1 + t (5.31)
Ainsi, à la condition que |φ| < 1, on peut écrire :
∞
X
xt = φj t−j (5.32)
j=0

Ainsi un AR(1) peut être exprimé comme MA(∞).

5.2.6 AR(1) et MA(∞) avec L

Les manipulations proposées plus haut sont plus aisées en utilisant le polynome retard :
(1 − φL)xt = t (5.33)
−1
⇔xt = (1 − φL) t (5.34)
Quel sens peut on donner à (1−φL)−1 ? Une façon d’expliciter les choses est la suivante :
(1 − z)−1 = 1 + z + z 2 + z 3 + ..., pour |z| < 1 (5.35)
Ceci peut être prouvé en utilisant un développement de Taylor. Ce développement, en
supposant que |φ| < 1 implique |φL| < 1 suggère la chose suivante :
∞
X
xt = (1 − φL)−1 t = (1 + φL + φ2 L2 + ...)t = φj t−j (5.36)
j=0

On retrouve donc le résultat précédent. On a supposé que |φL| < 1. Tous les processus
ARMA n’ont pas de représentation inversible (on parle d’inversibilité des processus ou
de processus inversible) de xt en fonction du passé de t .

Il est possible d’étendre les résultats, en montrant sous quelle condition un AR(p) peut
admettre une représentation MA(∞). Les calculs sont cependant un peu plus longs et
fastidieux. Un lecteur intéressé lira avec intérêt Cochrane (2005), page 14 et suivantes.

5.2.7 Résumé des manipulations possibles de l’opérateur retard

Les règles de calcul pour L sont les suivantes :
– a(L)b(L) = (a0 + a1 L + ...)(b0 + b1 L + ...) = a0 b0 + (a0 b1 + b0 a1 )L + ...
– a(L)b(L) = b(L)a(L)
– a(L)2 = a(L)a(L)
Il existe d’autres règles de calculs, développée dans Cochrane (2005), page 17. [Les
ajouter un jour ?]
74CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.8 La fonction d’autocorrélation

[Link] Définitions
La fonction d’autocovariance d’une série xt est définie par :

γj = cov(xt , xt−j ) = E[xt − E[xt ]][xt−j − E[xt−j ]] (5.37)

Dans un cas où E[xt ] = 0, ∀t, alors γj = cov(xt , xt−j ) = E[xt xt−j ]. On a de plus
γ0 = V[xt ].
On en déduit aisément l’expression du coefficient de corrélation :
γj γj
ρj = = (5.38)
γ0 V[xt ]

Remarque 1 (Autocorrélation et ARMA). Les processus ARMA sont construits de

façon à fournir une modélisation de la loi jointe de {x1 , ...xn }. Les fonctions d’au-
tocorrélation et d’autocovariance sont un moyen intéressant de caractériser cette loi
jointe : la correlation entre xt et xt−j est un moyen intéressant (mais imparfait) de
mesurer notamment la persistance d’une série. Si on observe une valeur importante
pour xt−j , on sera capable de dire si la valeur en xt sera plus ou moins importante elle
aussi.

[Link] ACF des modèles MA(q)

[Link].1 Bruit blanc Un bruit blanc t ∼ iidN (0, σ2 ) a les caractéristiques sui-
vantes :

γ0 = σ2 (5.39)
γj = 0, ∀j 6= 0 (5.40)
ρ0 = 1 (5.41)
ρj = 0, ∀j 6= 0 (5.42)

[Link].2 MA(1) Le modèle s’écrit : xt = θt−1 + t . On a les propriétés suivantes :

γ0 = V[xt ] = V[t + θt−1 ] = (1 + θ2 )σ2 (5.43)

γ1 = E[xt xt−1 ] = E[(t + θt−1 )(t−1 + θt−2 )] = θσ2 (5.44)
γ2 = E[xt xt−2 ] = E[(t + θt−1 )(t−2 + θt−3 )] = 0 (5.45)
γj = 0, ∀j ≥ 2 (5.46)

L’autocorrélation se déduit des précédents calculs :

θ
ρ1 = (5.47)
1 + θ2
ρi = 0, ∀i > 1 (5.48)

On observe ainsi que les autocorrélations d’un MA(1) s’annulent à partir de l’ordre 1.
C’est ce qu’on observe sur les figure 5.2. Notons que la figure 5.1 présente l’allure d’un
processus bruit blanc, MA(1), AR(1) et ARMA(1,1).
5.2. LES MODÈLES ARMA 75

Le cas d’un MA(2) se traite aisément de la même façon. Le modèle s’écrit :

xt = θ1 t−1 + θ2 t−2 + t (5.49)

Comme précédement, les covariances se déterminent comme suit :

γ0 = V[xt ] = V[θ1 t−1 + θ2 t−2 + t ] = (1 + θ12 + θ22 )σ2 (5.50)

γ1 = E[xt xt−1 ] = E[(t + θ1 t−1 + θ2 t−2 )(t−1 + θ1 t−2 + θ2 t−3 )] = (θ1 + θ1 θ2 )σ2
(5.51)
γ2 = E[xt xt−2 ] = E[(t + θ1 t−1 + θ2 t−2 )(t−2 + θ1 t−3 + θ2 t−4 )] = θ2 σ2 (5.52)
γi = 0, ∀i > 3 (5.53)

On en déduit la fonction d’autocorrélation suivante :

ρ0 = 1 (5.54)
θ1 + θ1 θ 2
ρ1 = (5.55)
1 + θ12 + θ22
θ2
ρ2 = (5.56)
1 + θ12 + θ22
ρi = 0, ∀i > 2 (5.57)

On déduit aisément les autocorrélations d’un processus MA(q). Le modèle s’écrit :

q
X
xt = θ(L)t = (θi Li )t (5.58)
i=0

On a alors :
q q
" # !
X X
i
γ0 = V[xt ] = V (θi L )t = θj2 σ2 (5.59)
i=0 i=0
q q q
" #
X X X
i i
γk = E[xt xt−k ] = E (θi L )t (θi L )t−k = θi θi+k σ2 , ∀k ≤ q (5.60)
i=0 i=0 i=0
γk = 0, ∀k > q (5.61)

Remarque 2. Il y a une leçon importante à retenir de tout ceci : les calculs de co-
variance pour les processus MA est simple dans la mesure où les termes en E[j k ]
deviennent rapidement nuls quand j et k sont éloignés. Il n’en va pas de même des
processus AR.

5.2.9 ACF des modèles AR(p)

Il existe deux façons de calculer l’ACF d’un processus AR(p). La première d’entre elles
est de travailler sur la représentation MA(∞) d’un processus AR(p). En utilisant les
formules obtenues plus haut, il est aisé de montrer qu’avec un modèle de la forme :
∞
X
−1
(1 − φL)xt = t ⇒ xt = (1 − φL) t = φi t−i (5.62)
i=0
76CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On obtient des covariances de la forme :

∞
!
X
2i 1
γ0 = φ σ2 = σ 2 ; ρ0 = 1 (5.63)
1 − φ2 x
i=0
∞ ∞
! !
X
i i+1 2
X φ
γ1 = φφ σ = φ φ φ σ2 =
i i
σ 2 ; ρ1 = φ (5.64)
1 − φ2 x
i=0 i=0

En continuant ainsi, on trouve :

φk
γk = σ 2 , ρk = φk (5.65)
1 − φ2
L’autre façon de retrouver ces résultats est de travailler directement sur xt , sans utiliser
l’astuce de l’inversion. Pour le même modèle AR(1) que précédement, on a :

γ1 = E[xt xt−1 ] = E[(φxt−1 + t )xt−1 ] = φσx2 , ρ = φ (5.66)

2
γ2 = E[xt xt−2 ] = E[(φ xt−2 + φt−1 + t )xt−1 ] = φ2 σx2 , ρ =φ 2
(5.67)
... (5.68)
γk = E[xt xt−k ] = E[(φk xt−k + t + . . .)xt−k ] = φk σx2 , ρ = φk (5.69)
(5.70)

Ainsi l’ACF d’un modèle AR est général un mélange entre une sinusoide et une expo-
nentielle, selon les signes de coefficient du modèle AR. Si les signes sont négatifs, les
autocorrélations paires seront positives, et celles impaires seront négatives. Quoi qu’il
arrive, |φ| < 1, d’où limk→0 φk = 0. Une décroissance relativement lente vers zéro se
traduit par un convergence en forme d’exponentiele de l’ACF vers 0.

5.2.10 La fonction d’autocorrélation partielle

Définition 5.2.1 (Autocorrélation partielle). L’autocorrélation partielle d’ordre k désigne
la corrélation entre xt et xt−k obtenue lorsque l’influence des variables xt−k−i , i < k a
été retirée.
Une définition plus formelle est la suivante :
Définition 5.2.2 (Définition plus formelle). L’autocorrélation partielle d’ordre k d’un
processus (xt )t∈Z , de moyenne m, notée p(k) est définie par le dernier coefficient de la
projection linéaire de xt+1 sur ces k précédentes valeurs. ∀k ∈ Z :

xt+1 − m = c1 (xt − m) + c2 (xt−1 − m) + ... + ck−1 (xt−k − m) + p(k)(xt−k+1 − m)

(5.71)

ou de façon équivalente par :

   −1    −1  
c1 γ0 γ1 . . . γk−1 γ1 1 ρ1 . . . ρk−1 ρ1
 c2   γ1 γ0 . . . γk−2   γ2   ρ1 1 . . . ρk−2   ρ2 
 ..  =  .. =
         
.. .. ..   .. .. .. .. ..   .. 
 .   . . . .   .   . . . .   . 
pk γk−1 γk−2 . . . γ0 γk ρk−1 ρk−2 ... 1 ρk
(5.72)
5.2. LES MODÈLES ARMA 77

Ceci tient donc pour m = 0. Dans un tel cas, p(k) ∈ [−1; 1]. On ajoute la propriété
suivante :

Proposition 5.2.1. De façon générale, la fonction d’autocorrélation partielle d’un

processus (xt )t∈Z satisfait la relation :

|Pk∗ |
p(k) = (5.73)
|Pk |
avec
 
1 ρ1 . . . ρk−1
 ρ1 1 . . . ρk−2 
Pk =  (5.74)
 
.. .. .. .. 
 . . . . 
ρk−1 ... ... 1

et
 
1 ρ1 . . . ρ1
 ρ1 1 . . . ρ2 
Pk =  (5.75)
 
.. .. .. .. 
 . . . . 
ρk−1 . . . . . . ρk

L’idée est donc de caractériser la dépendance entre les différents retards en éliminant
l’impact à chaque fois des retards intermédiaires. La solution la plus simple consiste a
utilisée la définition avancée plus haut utilisant les moindres carrés de façon itérative,
pour les différents ordres de l’autocorrélation partielle. On en déduit (intuitivement)
que la PACF d’un AR(p) devrait être égale à 0 pour les autocorrélations partielles d’un
ordre supérieur à p.

Sans en faire la preuve formelle, on retrouve (théoriquement) dans le cas d’un processus
MA(q) un fonction d’autocorrélation partielle qui est un mélange d’une fonction expo-
nentielle et d’une sinusoı̈de. Il s’agit donc d’un cas symétrique de l’ACF pour les AR(p).

5.2.11 Estimation et test des ACF et PACF

Il est essentiel de pouvoir disposer d’une ACF et d’une PACF estimées correctement.
On fournit ici l’estimateur empirique ainsi que la région de confiance pour une hy-
pothèse nulle de nullité de la corrélation et de la corrélation partielle.

[Link] Fonction d’Autocorrélation

L’estimation d’une fonction d’autocorrélation par la biais de son estimateur empirique,
grace à la loi des grands nombres. Pour un processus non centré, de moyenne m, on a :

Cov[xt , xt−k ] = E[(xt − m)(xt−k − m)] (5.76)

78CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Son estimateur est alors :

N
1 X
Cov[xt , xt−k ] =
d (xt − x̄)(xt−k − x̄) (5.77)
N
t=k+1

où x̄ est la moyenne empirique. L’estimateur de l’autocorrélation ρk est alors :

Cov[x
d t , xt−k ]
ρ̂k = (5.78)
Cov[x
d t , xt ]

D’après le théorème central limite, la variable centrée tρk suit une loi normale centrée
réduite :
ρ̂k − ρk L
tρk = p → N (O, 1) (5.79)
V[ρ̂k ]

où V[ρ̂k ] désigne la variance de l’estimateur. Elle est égale à :

K
1 X
V[ρˆk ] = ρ̂2i , avec K < k (5.80)
N −k
i=−K

Par symétrie de la fonction d’autocorrélation, on a :

K
!
1 X
2
V[ρˆk ] = 1+2 ρ̂i , avec K < k (5.81)
N −k
i=1

On en déduit aisément la région de confiance pour une hypothèse nulle ρk = 0 :

p
IC = [±1.96 × V[ρˆk ]] (5.82)

On fournit un exemple de code R permettant de calculer cette fonction d’autocorrélation

ainsi que les bornes du test :

autocorrel<-function(x,lag,series){
# This function computes the ACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
#Computation of the correlations from lag 1 to lag "lag"
correl=t(data[,1])%*%data[,1]
for (i in 1:lag){
correl=cbind(correl,t(data[,1])%*%data[,(i+1)])
}
5.2. LES MODÈLES ARMA 79

correl=t([Link](correl))
#Normalization to obtain the ACF
correl=correl/correl[1,1]
#Computation of the variance of the estimates
variance=matrix(1/N,nrow(correl),1)
for (i in 1:lag){variance[(i+1),1]=1/N*(1+2*sum(correl[1:i,1]^2))}
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*sqrt(variance);
intervalledown=-1.96*sqrt(variance);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}

[Link] Fonction d’autocorrélation partielle

On a suffisament dévelopé d’éléments relatifs à l’estimation des PACF. Pour déterminer
la variance de l’estimateur, plusieurs stratégies sont possibles. Dans le cas d’un AR(p),
les coefficients p̂(k), k > p sont distribués selon une loi normale de moyenne nulle et de
variance :
1
V[p̂(k)] = , ∀k > p (5.83)
T
Une autre façon de traiter le problème consiste à déterminer de façon itérative les va-
riances des estimateurs MCO permettant d’obtenir les coefficients de corrélation par-
tielle. La méthode fonctionne quel que soit le modèle sous-jacent. C’est qui est proposé
dans le code suivant :

pautocorrel<-function(x,lag,series){
# This function computes the PACF for any series of data.
#Dimension setting
n=nrow(x);
N=n-lag;
# Scaling of the data
x=scale(x)
#Creation of the matrix containing the lagged series
data=x[(lag+1):n,1];
for (i in 1:lag){
data=cbind(data,x[(lag-i+1):(n-i),1])
}
80CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

#Computation of the partial autocorrelations from lag 1 to lag "lag"

correl=matrix(0,lag,1)
var1=matrix(0,lag,1)
for (i in 1:lag){
X=data[,2:(i+1)]; Y=data[,1];
coeff=solve(t(X)%*%X)%*%(t(X)%*%Y)
res=sqrt(var(Y-X%*%coeff));
correl[i,1]=coeff[nrow(coeff),1];
var2=solve(t(X)%*%X);
var1[i,1]=res*sqrt(var2[nrow(var2),ncol(var2)])
}
correl=t([Link](correl))
#Computation of the intervall around the 0 null hypothesis
intervalleup=1.96*(var1);
intervalledown=-1.96*(var1);
#Plotting the results : ACF and tests
#Definition of the plot windows
mindata=min(intervalleup,intervalledown,correl);
maxdata=max(intervalleup,intervalledown,correl);
#Plot
correl=t(correl)
par(bg="lightyellow")
plot(correl,type="h",col="blue",ylim=c(mindata,maxdata),main="Autocorrelation
Function",xlab="Lag",ylab=series,bg="red")
lines(matrix(0,nrow(correl),1),col="black")
lines(intervalleup,type="l",col="red");
lines(intervalledown,type="l",col="red");
return(list(correl=correl, interval=cbind(intervalleup,intervalledown)))
}

5.2.12 Stationnarité des processus et théorème de Wold

Avant de passer à l’estimation des processus ARMA, il est important de revenir sur
certains aspects de ces processus. Il n’a été question jusqu’ici que d’une présentation
relativement intuitive des processus ARMA, sans avoir souligné le fait que ces pro-
cessus sont stationnaires par hypothèse. On distingue généralement deux formes de
stationnarité : forte (stricte) ou faible. Soit xt un processus temporel aléatoire :

Définition 5.2.3 (Stationnarité stricte). Le processus xt est dit strictement station-

naire si quel que soit ti et ti +h la suite {xt1 , ..., xtn } a la même loi que {xt1 +h , ..., xtn +h }, ∀h.

Dans la pratique, on se limite généralement à supposer la stationnarité faible, qui se

définit comme suit :

Définition 5.2.4 (Stationnarité faible). Le processus xt est dit stationnaire au second

ordre si les trois conditions suivantes sont satisfaites :

− ∀t ∈ N, E[x2t ] < ∞ (5.84)

− ∀t ∈ N, E[xt ] = m (5.85)
2
− ∀(t, h) ∈ Z , Cov[(xt+h − m)(xt − m)] = γh , indépendant de t (5.86)
5.2. LES MODÈLES ARMA 81

L’idée derrière tout ceci est de travailler sur des processus dont la moyenne et la variance
sont constante au cours du temps. Notez que si la loi du processus est gaussienne, il y
a équivalence entre les deux définitions de la stationnarité. Détaillons les conditions :
la première de ces conditions suppose l’existence ou la convergence du moment d’ordre
2 (la variance pour un processus centré) ; les deux conditions suivantes supposent que
l’espérance et la covariance du processus sont constantes au cours du temps. Il n’y a
donc ni rupture dans la moyenne, ni rupture dans la structure de dépendance au cours
du temps.

Dernier point dans cet errata théorique, le théorème de Wold est le théorème fonda-
mental de l’analyse des séries temporelles stationnaires.

Théorème 5.2.1 (Théorème de Wold). Tout processus stationnaire d’ordre deux (xt )
peut être représenté sous la forme :
∞
X
xt = ψj t−j + κt (5.87)
j=0
P∞
où les paramètres ψj satisfont ψ0 = 1, ψj ∈ R∀j ∈ N∗ et 2
j=0 ψj < ∞ et où t est un
bruit blanc i.i.d..

On dit que la somme des chocs passés correspond à la composante linéaire stochastique
de xt . Le terme κt désigne la composante linéaire déterministe telle que Cov[κt , t ] =
0, ∀j ∈ Z. Il s’agit par conséquent d’une formalisation de ce qui a été déjà été dit sur
la transformation d’un processus AR en un MA(∞). On n’en fournit pas la preuve.
Bruit blanc AR(1)

2
4

1
2

0
ar

wn
0

−1
−2

−2
−4
0 50 100 150 200 250 300 0 50 100 150 200 250 300

Index Time

MA(1) ARMA(1,1)

3
4

2
1
2

0
0

ma
arma

−1
−2

−3
−4

0 50 100 150 200 250 300 0 50 100 150 200 250 300
82CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Time Time

Fig. 5.1 – Chroniques de processus

Bruit blanc AR(1)

0.8
0.8

ACF
ACF

0.4
0.4
5.2. LES MODÈLES ARMA

0.0
0.0
0 5 10 15 20 0 5 10 15 20

Lag Lag

MA(1) ARMA(1,1)

1.0
0.8

0.6

ACF
ACF
0.4

0.2
0.0

−0.2
0 5 10 15 20 0 5 10 15 20
83

Lag Lag

Fig. 5.2 – Chroniques de processus

Bruit blanc AR(1)

0.8

0.10
0.6
0.4

0.00

Partial ACF
Partial ACF
0.2
0.0

−0.10
5 10 15 20 5 10 15 20

Lag Lag

MA(1) ARMA(1,1)

0.8

0.1
0.6

0.0
0.4

−0.1
0.2

Partial ACF
Partial ACF

−0.3
−0.2

5 10 15 20 5 10 15 20
84CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Lag Lag

Fig. 5.3 – Chroniques de processus

5.2. LES MODÈLES ARMA 85

5.2.13 Estimation des processus ARMA

Il existe différentes méthodes pour estimer les processus ARMA. Les processus AR
s’estiment notamment par la méthode de Yule Walker, qui n’est pas présentée ici :
la méthode devient très vite complexe lorsque l’on ajoute une composante MA dans
le processus. On se bornera à présenter l’estimation par maximum de vraisemblance
(conditionnelle) des processus AR,MA et enfin ARMA.

L’estimation par maximum de vraisemblance requiert un background théorique qui

n’est pas présenté ici : la preuve de l’efficience des estimateurs du maximum de vraisem-
blance est notamment développé dans Harvey (1990)[chapitre 3]. Une autre référence
bien connue sur la question est Hamilton (1994). Le lecteur soucieux de revenir sur le
détail de ces preuves s’y reportera.

On présente rapidement les principes généraux de l’estimation par maximum de vrai-

semblance des modèles MA, AR et ARMA.

[Link] Estimation d’un AR(1)

L’estimation par maximum de vraisemblance dans le cas d’un AR(1) est légèrement
plus complexe que dans le cas d’un modèle linéaire gaussien, tel qu’il en a été question
dans le chapitre 2 de cet opus. Ceci tient au fait que le processus AR(1) non conditionnel
n’est pas i.i.d. On rappelle qu’un modèle AR(1) est de la forme :

xt = φxt−1 + t , t ∼ N (0, σ ) (5.88)

Il est aisé de montrer que les moments conditionnels et non-conditionnels ne coincident

pas, notamment lorsque le processus xt n’est pas centré. Soit le modèle AR(1) suivant :

xt = µ + φxt−1 + t , t ∼ N (0, σ ) (5.89)

Il suffit pour montrer cette divergence de calculer l’espérance conditionnelle et non

conditionnelle et de faire de même pour la variance. Pour déterminer l’espérance non
conditionnelle, il est utile de recourir à la représentation MA(∞) du processus AR(1).
Ceci est possible si |φ| < 1. On a alors :

xt = (1 − φL)−1 (µ + t ) (5.90)
2
= µ + t + φ(µ + t−1 ) + φ (µ + t−2 ) + ... (5.91)
∞
X ∞
X
=µ φi + φi t−i (5.92)
i=0 i=0
∞
µ X
= + φi t−i (5.93)
1−φ
i=0

En prenant l’espérance de la précédente expression, on obtient :

µ
E[xt ] = (5.94)
1−φ
86CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Dans le cas où le processus est centré, on obtient :

E[xt ] = 0 (5.95)

ce qui n’est bien sur pas surprenant. L’espérance conditionnelle à xt−1 est différente de
cette dernière expression :

E[xt |xt−1 ] = φxt−1 6= 0 (5.96)

Ainsi conditionellement à xt−1 , l’espérance d’un AR(1) est différente de l’espérance non
conditionnelle. Il est possible de dérouler les mêmes calculs pour la variance condition-
nelle et non conditionnelle :
∞
µ X
V[xt ] = V[ + φi t−i ] (5.97)
1−φ
i=0
σ2
= (5.98)
1 − φ2

V[xt |xt−1 ] = V[µ + φxt−1 + t ] (5.99)

= σ2 (5.100)

Là encore, les moments conditionnels et non conditionnels ne coincident pas. L’estima-
tion de ce type de processus nécessite de travailler non plus sur la vraisemblance mais
sur la vraisemblance non-conditionnelle. Harvey (1990) en rappelle le principe général :
dans le cas de la vraisemblance non conditionnelle avec observations i.i.d., il est pos-
sible d’écrire la loi jointe du processus comme le produit des lois pour chacune des
observations, du fait de la propriété d’indépendance des observations. Ici, on travaille
en relachant cette hypothèse. On utilise alors le fait que conditionnellement à l’obser-
vation du passé, les observations sont i.i.d.. Pour se faire, on applique la règle de Bayes
rappelée dans le chapitre 1, de façon à reproduire la décomposition proposée dans le
cas de la vraisemblance. Dans le cas où l’on dispose de trois observations {x1 , x2 , x3 } il
est alors possible d’écrire :

f (x1 , x2 , x3 ) = f (x1 )f (x2 |x1 )f (x3 |x2 , x1 ) (5.101)

On en déduit alors la logvraisemblance :

lnL = ln(f (x1 )) + ln(f (x2 |x1 )) + ln(f (x3 |x2 , x1 )) (5.102)

Il est alors possible d’estimer les paramètres en utilisant les méthodes proposées au
chapitre 4. On présente la méthode dans le cadre d’un modèle AR(1). Si t ∼ N (0, σ 2 ),
alors, en utilisant les calculs précédents des moments conditionnels, le processus xt =
xt−1 + t suit une loi normale d’espérance conditionnelle φxt−1 et de variance σ2 . Sa
log-vraisemblance s’écrit alors comme suit :
n
n−1 1 X
lnL(x, φ, σ2 ) = − ln(2π) − (n − 1)ln(σ) − 2 (xt − φxt−1 )2 + ln(f (x1 ))
2 2σ
t=2
(5.103)
5.2. LES MODÈLES ARMA 87

Dans la plupart des cas, on néglige le terme ln(f (x1 )) : dans le cas d’échantillons
importants, son influence est minime. Ceci peut se réécrire sous forme concentrée et
matricielle :
1
lnL(x, φ, σ2 ) = −(n − 1)ln(σ ) − 2 (Xt − φXt−1 )0 (Xt − φXt−1 ) (5.104)
2σ
où Xt et Xt−1 sont des matrices M(n − 1 × 1) contenant les observations du processus
(xt )t∈Z . Les équations normales sont alors :
∂lnL 1 0
= 2 Xt−1 (Xt − φXt−1 ) = 0 (5.105)
∂φ σ
∂lnL n−1 1
=− + 3 (Xt − φXt−1 )0 (Xt − φXt−1 ) = 0 (5.106)
∂σ σ σ
(5.107)
Ce système admet la solution suivante :
0
θ = (Xt−1 Xt−1 )−1 Xt−1
0
Xt (5.108)
r
1 0
σ = t (5.109)
n−1 t
On retrouve donc exactement la même solution que dans le cas des MCO. Tout ce qui
a été dit précédement sur ces estimateurs est donc valable : on n’y reviendra pas.

[Link] Estimation d’un AR(p)

La généralisation au cas d’un AR(p) se fait aisément une fois la précédente étape en
tête. Soit le processus AR(p) suivant :
p
X
xt = φi xt−i + t (5.110)
i=1

utilisant les mêmes conditions que celles évoquées précédement. Conditionnellement à

l’information passée, la loi de ce processus est la suivante :
Xp
xt |xt−1 , xt−2 , ..., xt−p ∼ N( φi xt−i , σ2 ) (5.111)
i=1

Tout ceci se réécrit naturellement sous forme matricielle :

xt = Xt−1:t−p Φ0 + t (5.112)
0
xt |Xt−1:t−p ∼ N (Xt−1:t−p Φ , σ2 ) (5.113)

où Φ est la matrice M(1 × p) des p coefficients à estimer et Xt−1:t−p est la matrice
M(n − p × p) des séries de données retardées.
Il est alors aisé de déterminer la log-vraisemblance conditionnelle et de retrouver les
estimateurs du maximum de vraisemblance, qui, là encore, coincident avec ceux des
MCO :
1
lnL(x, Φ, σ2 ) = −(n − 1)ln(σ ) − 2 (Xt − Xt−1:t−p Φ0 )0 (Xt − Xt−1:t−p Φ0 ) (5.114)
2σ
88CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Les équations normales sont alors :

∂lnL 1
= 2 Xt−1:t−p 0 (Xt − Xt−1:t−p Φ0 ) = 0 (5.115)
∂φ σ
∂lnL n−1 1
=− + 3 (Xt − Xt−1:t−p Φ0 )0 (Xt − Xt−1:t−p Φ0 ) = 0 (5.116)
∂σ σ σ
(5.117)

Les estimateurs sont alors :

θ = (Xt−1:t−p 0 Xt−1:t−p )−1 Xt−1:t−p 0 Xt (5.118)

r
1 0
σ = t (5.119)
n−1 t
On retrouve donc bien les estimateurs MCO du modèle. Les processus AR sont ainsi
très simple à estimer : il ”suffit” de regresser xt sur son passé par MCO pour obtenir des
estimateurs sans biais et efficaces. L’estimation des MA est bien plus complexe comme
nous allons le voir.

[Link] Estimation d’un MA(1)

La difficulté de l’estimation d’un MA(1) tient au fait que l’on observe pas directement
les résidus passés : il n’est pas possible de regresser xt sur t−1 car ce dernier n’est pas
directement observé. Il est alors nécessaire de procéder de façon itérative pour parvenir
à écrire la vraisemblance. Soit le processus MA(1) suivant :

xt = θxt−1 + t , t ∼ N (0, σ2 ) (5.120)

On commence comme précédement par constater que les moments d’ordre 1 et 2 condi-
tionnels et non conditionnels ne sont pas les mêmes :

E[xt |t−1 ] = θt−1 (5.121)

E[xt ] = 0 (5.122)
V[xt |t−1 ] = σ2 (5.123)
V[xt ] = σ2 (1 2
+θ ) (5.124)

Là encore les moments conditionnels et non conditionnels ne coincident pas. On rai-
sonnera là encore en terme de vraisemblance conditionnelle. On sait que :

xt |t−1 ∼ N (θt−1 , σ2 ) (5.125)

La vraisemblance conditionnelle s’écrit donc :

n
n−1 1 X
lnL(x, θ, σ2 ) =− 2
ln(2π) − (n − 1)ln(σ ) − 2 (xt − θt−1 )2 + ln(f (x1 ))
2 2σ
t=2
(5.126)
La encore, on ne tient pas compte de ln(f (x1 )). Le problème est alors le suivant : il
n’est pas possible de calculer la vraisemblance directement. Il est nécessaire pour un
theta∗ donné de calculer les résidus de façon récursive. L’algorithme serait par exemple :
5.2. LES MODÈLES ARMA 89

1. On connait x2 . On est alors en mesure de calculer 2 = x1 − θ1 . Il suffit de

donner une valeur de départ à 1 pour pouvoir débuter l’algorithme. La solution
généralement considérée est de choisir 1 = E[t ] = 0 ⇔ ˆ2 = x2 .
2. Une fois que l’on connait epsilon2 , il est possible de calculer 3 = x3 − θ2 ...
3. Et ainsi de suite : on parvient à déterminer l’ensemble des valeurs de t pour θ
fixé ex ante.
On comprend bien qu’il n’est pas possible d’appliquer une méthode standard (i.e. MCO)
d’estimation. Il est nécessaire d’avoir recours aux méthodes présentées au chapitre 4.
On présente à titre d’exemple un code permettant de simuler un processus MA(1), ainsi
qu’un code permettant d’estimer les paramètres de ce modèle.

[Link]<-function(n,theta){
epsilon=[Link](rnorm(n));
x=matrix(0,n,1);
for (i in 2:n){
x[i,1]=theta*epsilon[(i-1),1]+epsilon[i,1]
}
x[1,1]=epsilon[1,1]
return(list(x=x))
}

[Link]<-function(theta,x){
G=matrix(1,2,1)
n=nrow(x)
check=theta
i=1;
epsilon=matrix(0,n,1);
while(sum(G^2)>0.0001){
for (i in 2:n){epsilon[i,1]=x[i,1]-theta[1,1]*epsilon[i-1,1]}
BHHH=cbind((1/theta[2,1])*epsilon[1:(n-1),1]*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])
,-1/theta[2,1]+(1/theta[2,1]^3)*(x[2:n,1]-theta[1,1]*epsilon[1:(n-1),1])^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
cat(theta,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
i=i+1
}
plot(check[1,],type="l",col="blue",ylim=c(min(check),max(check)))
lines(check[2,],col="red")
return(list(theta=theta,check=check))
}

L’utilisation de ce code permet d’obtenir des estimations de processus MA(1). Le gra-

phique [Link] présente la chronique d’un processus MA(1) simulé. Le graphe [Link]
représente les ACF et PACF de ce processus, en utilisant le code fournit plus haut.
90CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Enfin, la figure [Link] fournit la trajectoire pour différents points de départ des pa-
ramètres estimés.

Partial Autocorrelation Function Autocorrelation Function

1.0
0.05

0.8
0.00

0.6
MA(1) simulé

MA(1) simulé
−0.05

0.4
−0.10

0.2
0.0
−0.15

−0.2

5 10 15 20 5 10 15 20

Lag Lag

Fig. 5.4 – ACF et PACF du processus MA(1) simulé

MA(1) simulé

3
2
1
5.2. LES MODÈLES ARMA

x
0
−1
−2
−3
0 200 400 600 800 1000

Index

Fig. 5.5 – Trajectoire d’un processus MA(1)

91
2.0

1.0
1.5

0.6
1.0

check[1, ]
check[1, ]
0.5

0.2
0.0

−0.2
5 10 15 0 10 20 30 40 50 60

Index Index

1.0
1.0
0.6

0.5

check[1, ]
check[1, ]
0.2

0.0
−0.2

−0.5
0 50 100 150 1 2 3 4 5 6 7
92CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Index Index

Fig. 5.6 – trajectoire des estimateurs pour différentes valeurs de départ

5.2. LES MODÈLES ARMA 93

[Link] Estimation d’un MA(q)

On généralise ce qui vient d’être dit dans le cas d’un MA(1) au cas d’un MA(q), comme
on l’ai fait pour les AR(p). Le modèle s’écrit :
q
X
xt = θi t−i + t , t ∼ N (0, σ2 ) (5.127)
i=1

Là encore les t ne sont pas observables : il est nécessaire de procéder à leur estimation
à Θ = {θ1 , ..., θp } fixé. Il est alors possible d’écrire la vraisemblance associée à Θ ainsi
qu’aux observations. On détermine les t comme suit :

1. On suppose que les i pour i = {1, ..., q} sont nuls (espérance du processus bruit
blanc).
2. On détermine alors q+1 = xq+1 .
3. On peut alors déterminer q+2 = xq+2 − θ1 q+1 .
4. Puis q+3 = xq+3 − θ1 q+2 + θ2 q+1 .
5. On poursuit ainsi jusqu’à 2q+1 = x2q+1 − qi=1 θi 2q − i.
P

6. On poursuit ensuit l’algorithme jusqu’à ce qu’on l’on

Pq obtenue l’intégralité de la
chronique des t en utilisant la formule : t = xt − i=1 θi t−i .

Une fois ceci fait, il est aisé de calculer la vraisemblance puis de la maximiser en utilisant
les méthodes proposées au chapitre 4. La loi conditionnelle de xt est :
Xq
xt |t−1 , ..., t−q ∼ N( θi t−i , σ2 ) (5.128)
i=1

On en déduit la vraisemblance du modèle :

n
1 (xt − qi=1 θi t−i )2
P
Y 1
L(Θ, x) = √ exp{− } (5.129)
2πσ 2 σ2
i=q+1

La log-vraisemblance est alors :

n
1 X (xt − qi=1 θi t−i )2
P
n−q
lnL(Θ, x) = − ln(2π) − (n − q)ln(σ) − (5.130)
2 2 σ2
i=q+1

On en déduit alors les équations normales :

n
t−k (xt − qi=1 θi t−i )
P
∂lnL X
= (5.131)
∂θk σ2
i=q+1
n q
!2
∂lnL n−q 1 X X
=− + 3 xt − θi t−i (5.132)
∂σ σ σ
i=q+1 i=1

Là encore, pour maximiser la vraisemblance, il suffit de mettre en oeuvre l’une des
méthodes présentées au cours du chapitre 4. On préfèrera naturellement utiliser des
méthodes de type scoring qui ont le bon gout de converger à tous les coups (en théorie).
L’utilisation de la matrice BHHH simplifie considérablement le calcul de la matrice
d’information de Fisher.
94CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Remarque 3 (Espérance et variances conditionnelles). On remarque qu’au cours des

calculs des espérances et des variances conditionnelles qui ont été menés on observe que
pour un processus AR ou MA, l’espérance conditionnelle varie au cours du temps, alors
que la variance conditionnelle, elle, ne change pas. C’est en relachant cette dernière
hypothèse que l’on passera au modèles GARCH dans la section suivante. Quoi qu’il en
soit, les espérances et variances non conditionnelles sont toujours constantes au cours
du temps : les processus MA et AR sont des processus stationnaires au second ordre.
Ceci n’est donc pas surprenant.

[Link] Estimation d’un ARMA(p,q)

On termine cette section consacrée à l’estimation des ARMA par une méthode d’esti-
mation pour les modèles ARMA(p,q). On présente les moments conditionnels et non
conditionnels, la loi conditionnelle ainsi que la vraisemblance d’un tel modèle, accom-
pagnée de ses équations normales.

Un modèle ARMA(p,q) s’écrit comme suit :

p
X q
X
xt = xt−i + t−i + t (5.133)
i=1 i=1

Il est aisé de retrouver l’ensemble des moments :

p
X q
X
E[xt |xt−1 , ..., xt−p , t−1 , ..., t−q ] = xt−i + t−i (5.134)
i=1 i=1
E[xt ] = 0, il existe plusieurs façons de le montrer ! (5.135)
V[xt |xt−1 , ..., xt−p , t−1 , ..., t−q ] = σ2 (5.136)
σ2 qi=1 θi2
P
V[xt ] = (5.137)
1 − pi=1 φ2i
P

On en déduit la loi de xt conditionnellement au passé des observations :

Xp q
X
xt |xt−1 , ..., xt−p , t−1 , ..., t−q ∼ N( xt−i + t−i , σ2 ) (5.138)
i=1 i=1

Là encore, la difficulté tient au calcul des t−i liés à l’introduction d’une composante
MA(q). L’algorithme peut être de la forme :

1. On fixe t = 0, t ∈ (1, max(p, q)).

2. Puis, à partir de t = max(p, q) + 1 et à {θ1 , ..., θq , φ1 , ..., φp } fixés, on détermine
t de la façon suivante :
p
X q
X
t = xt − xt−i + t−i (5.139)
i=1 i=1

3. on répète la procédure jusqu’à l’obtention de l’ensemble de la chronique des t .

5.2. LES MODÈLES ARMA 95

La log vraisemblance concentrée du processus est alors :

n
(xt − pi=1 φi xt−i + qi=1 θi t−i )2
P P
1 X
lnL = −(n − max(p, q))ln(σ ) −
2 σ2
t=max(p,q)+1
(5.140)

Les équations normales sont alors :

n
t−k (xt − pi=1 φi xt−i − qi=1 θi t−i )
P P
∂lnL X
= (5.141)
∂θk σ2
i=max(p,q)+1
n p q
!2
∂lnL n − max(p, q) 1 X X X
=− + 3 xt − φi xt−i − θi t−i (5.142)
∂σ σ σ
i=max(p,q)+1 i=1 i=1

Il suffit alors d’appliquer les méthodes présentées au chapitre 4 pour obtenir une esti-
mation des paramètres. Le code à developper est bien entendu plus complexe que ce
qui a été développé jusqu’ici. Les concepteurs de R proposent par défaut une fonction
permettant d’estimer les paramètres d’un modèle ARMA. Il s’agit de la fonction arima
qui utilise la synthaxe suivante1 :

arima(x, order = c(0, 0, 0),

seasonal = list(order = c(0, 0, 0), period = NA),
xreg = NULL, [Link] = TRUE, [Link] = TRUE,
fixed = NULL, init = NULL, method = c("CSS-ML", "ML", "CSS"),
[Link], [Link] = list(), kappa = 1e6)

[Ajouter un code généraliste qui permet d’estimer un ARMA(p,q), un jour... du cou-

rage...]

5.2.14 Critères de sélection de l’ordre des processus ARMA

Une fois les estimations conduites, deux questions restent à traiter : 1. les estimations
violent-elles les hypothèses du modèle ? 2. quel ordre retenir pour p et q ? Il est à noter
que la méthode de Box et Jenkins visant à retenir p et q au vu des ACF et PACF n’est
plus utilisée. Au mieux, il s’agit d’un guide dans la sélection des p et q maximaux à
tester.

[Link] Tests sur les résidus

Le premier élément à vérifier est que les résidus ne violent pas les hypothèses du modèle.
De façon générale, on vérifie la valeur moyenne des résidus, leur autocorrélation, la sta-
bilité de la variance ainsi que leur normalité. Il est à noter que si les résidus ne sont pas
normaux, mais que l’estimation a été conduite en utilisant une hypothèse de normalité
des résidus, les estimations des paramètres du modèle reste bonne. Il s’agit en fait d’une
estimation par pseudo-maximum de vraisemblance, introduite pas Gourieroux, Mon-
fort et Trognon dans deux articles fameux d’Econometrica. L’estimation par BHHH
1
Il est toujours possible d’obtenir de l’aide sur une fonction, en tapant help(nom de la fontion)"
96CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

de la matrice d’information de Fisher est particulièrement appropriée à ce cas. Cette

approche sera très utile pour l’estimation des processus GARCH.

Test de nullité des résidus

Lorsque le processus est bien estimé, les résidus entre valeurs estimées et réelles par
le modèle doivent se comporter comme un bruit blanc. L’une des hypothèses de bruit
blanc est que l’espérance des résidus (et la moyenne empirique par conséquent) est
nulle. Si le processus (t ) est i.i.d., on doit alors :
n
1X
¯t = ˆt → 0 (5.143)
n
t=1

On se réfère au chapitre 1 où un test de nullité de la moyenne est développé. La

statistique de test est alors (sous H0 : ¯t = 0) :
¯t
√ ∼ Tn−1 (5.144)
σˆ / n
La loi de Student convergent rapidement vers une loi normale centrée réduite. Ainsi, il
est possible de calculer la statistique de test et de la comparer à 2 pour obtenir un test
à 95% de la nullité de la moyenne. Il est également possible de construire un intervalle
de confiance autour de la moyenne en utilisant la loi de cette statistique :
σˆ
IC95% = [¯t ± tn−1 √ t ] (5.145)
n
Test d’autocorrélation des résidus

Les processus ARMA peuvent être vu comme une façon de stationnariser les séries,
abus de langage pour désigner le fait que l’on se débarrasse de la corrélation existant
dans les séries. Il est donc nécessaire de tester l’existence d’autocorrélation dans les
résidus. Si ce test conduit au constat que les résidus sont corrélés, c’est certainement
que le modèle est mal spécifié. Il existe différents tests d’autocorrélation :

– Test de Durbin et Watson : ce test a déjà été brievement présenté au chapitre 2. On

n’y revient pas ici.
– Etude des ACF et PACF : si le modèle est bien spécifié, l’ensemble des autocorrélations
simples et partielles doivent être nulles.
– Cette dernière étude est complétée par l’étude de la statistique dite du ”porte-
manteau”. Ce test repose sur l’idée que la FAC d’un bruit blanc ne doit pas réveler
d’autocorrélations non nulles. En pratique ce test présente deux variantes :

– Test de Box et Pierce : l’idée de ce test est simple. Il est basé sur une somme des
carrés de autocorrélations pour un horizon allant de 1 à K. La statistique est la
suivante :
K
X
QBP = n ρ2k → χ2K−p−q (5.146)
k=1
5.2. LES MODÈLES ARMA 97

L’hypothèse H0 est ici : ρ1 = ... = ρK = 0 contre H1 : ∃j ∈ [1, K], ρj 6= 0. Il suffit

de comparer la valeur de la statistique de test au quantile de la loi du χ2 .
– Test de Ljung-Box : l’hypothèse nulle du test est H0 : ρj = 0, ∀j < K. On construit
la statistique de test suivante :
K
X ρ2k
QK = n(n − 2) → χ2K−p−q (5.147)
n−k
k=1

Là encore, il suffit de déterminer la valeur de la statistique et de la comparer au

quantile d’une loi du χ2 .

5.2.15 Tests sur les résidus ARMA

Dans la mesure où l’estimation suppose que les résidus sont gaussiens, il est souvent
conseillé de mener un certain nombre de tests afin de vérifier leur gaussiannité dans les
faits. On utilise en général des tests simples (tests d’adéquation ou test de Kolmogorov)
afin de s’en assurer.

On rappelle ici le test de Jarque et Berra explicité plus haut. Celui-ci repose sur deux
statistiques connues pour la loi normale. La première est la skewness ou coefficient
d’asymétrie. Son expression est :

E[(X − E[X])3 ]
Sk = 3 (5.148)
σX

Cette statistique est une mesure de l’asymétrie de la distribution, i.e. de la façon dont
la densité s’étale de part et d’autre de son espérance. Dans le cas d’une loi normale,
cette statistique vaut 0 : la loi est parfaitement centrée.

La seconde statistique sur laquelle s’appuie le test de Jarque et Berra est la kurtosis
ou coefficient d’applatissement. Cette statistique mesure l’applatissement des queues
de distribution : plus celles-ci sont épaisses et moins le processus a de chances d’être
gaussien. Un loi normale a théoriquement une kurtosis égale à 3. On mesure cet index
à l’aide de la statistique suivante :

E[(X − E[X])4 ]
Ku = 4 (5.149)
σX

La statistique de Jarque et Berra est en fait une mesure de la distance de chacune de

ces statistiques aux résultats théoriques connus pour la loi normale. Elle est néanmoins
pondérée par les écarts types des lois asymptotiques des estimateurs de la skewness et
de la kurtosis :
T T
JB = (Sk − 0)2 + (Ku − 3)3 (5.150)
6 24
où T est le nombre d’observation. Cette statistique a pour distribution asymptotique
une loi du chi-deux à 2 degrés de liberté.
98CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Attention cependant à la philosophie de la démarche : on ne vérifie pas l’adéquation à

une loi gaussienne afin de s’assurer de la justesse des estimations. Depuis Gourieroux
et alii (1984), on sait qu’à partir du moment où l’estimation est conduite en supposant
que les innovations ((t )t∈Z ) suivent une loi appartenant à la famille des lois expo-
nentielles (dont la loi normale fait partie), les estimateurs utilisés dans le cadre d’une
démarche basée sur le maximum de vraisemblance sont des estimateurs consistents !
Finalement, peut importe la loi, pourvu qu’il ne subsiste ni autocorrélation des erreurs,
ni hétéroscédasticité (la variance n’est pas constante au cours du temps), alors les es-
timateurs du maximum de vraisemblance utilisant la gaussiannité des innovations sont
convergents.

La méthode d’estimation utilisant une loi des erreurs possiblement différente de la vraie
loi de celle-ci, mais appartenant à la famille des lois exponentielles est appelée Pseudo
Maximum de Vraisemblance. L’estimation de la matrice de variance covariance des esti-
mateurs peut naturellement se faire en utilisant la matrice BHHH présentée au chapitre
précédent. Il s’agit d’une méthode particulièrement utile pour l’estimation des proces-
sus ARCH/GARCH que l’on verra par la suite.

[Link] Tests sur les résidus

Avant de passer à la prévision, il convient néanmoins de s’interroger sur la méthodologie
permettant de sélectionner l’ordre p et q des processus. Plusieurs méthodologies sont
applicables, et reste plus complémentaires que substituables.

1. La première démarche est celle exposée plus haut et fut la démarche fondatrice
de ces modèles, telles qu’elle fut proposée par Box et Jenkins. Il s’agit simplement
de sélectionner les ordres pour le processus AR et le processus MA au vu des au-
tocorrélogrammes du processus utilisé pour l’estimation. Il s’agit simplement du
prolongement naturel de ce qui a été dit lors de l’introduction du présent chapitre.
L’étude de l’ACF permet de sélectionner l’ordre du processus MA et l’étude la
PACF permet de sélectionner l’ordre du processus AR. Cependant, comme il l’a
été mentionné plus haut, un processus AR(1) présente une ACF avec une forte
persistance, ce qui n’est dû qu’à la ”contagion” de l’autoregressivité sur les er-
reurs du processus. Autrement dit, un AR(1) présente certes une ACF qui décroit
lentement, mais il s’agit simplement d’une persistance née de l’unique retard de
l’AR(1), perceptible sur la PACF. Moralité : si cette méthode fournie un point
de départ, elle est loin d’être suffisante.

2. Une seconde approche possible, dans le prolongement de la précédente, consiste

à utiliser les statistiques de student des estimations par maximum de vraisem-
blance (estimées généralement par approximation BHHH ou forme analytique)
pour juger de la significativité des paramètres associés à chacun des retards. Pour
un paramètre φi donné, le test est de la forme :

φ̂i − φ
∼ N (0, 1) (5.151)
σφ
5.2. LES MODÈLES ARMA 99

Ce type de test a déjà fait l’objet de développements lors de l’exposé des méthodes
du maximum de vraisemblance.

3. La dernière méthode s’appuie sur des statistiques composés à partir de la log-

vraisemblance, permettant de juger de la distance entre la loi du modèle estimé
et celle du processus. On parle de critères d’information pour manifester ce der-
nier trait associé à ces statistiques. On en détaille quelques unes :

– Le critère d’Akaike (AIC) : le meilleur des modèles ARMA est celui qui minimise
la statistique :
AIC(p, q) = T log(σ2 ) + 2(p + q) (5.152)
– Le critère bayésien (BIC) : le meilleur des modèles ARMA est celui qui minimise
la statistique :

2 p+q
BIC(p, q) =T log(σ ) − (n − p − q)log 1 − (5.153)
T
2

−1 σx
+ (p + q)log(T ) + log (p + q) (5.154)
σ2 − 1
– Le critère de Hanan et Quinn : le meilleur des modèles ARMA est celui qui
minimise la statistique :

2 log(T )
HQ(p, q) = T log(σ ) + (p + q)log (5.155)
T
Au final, lors de l’estimation de processus ARMA, l’ensemble de ces critères sont à
utiliser pour l’estimation des ordres p et q : on commence en général par l’étude de
l’ACF et de la PACF pour se faire un ordre d’idée sur le processus latent. On définit
en général un ordre maximum pour p et q, puis on procède de façon descendante : on
élimine progressivement (on parle d’approche stepwise) les paramètres non significatifs,
tout en conservant un oeil sur les critères d’information.

5.2.16 La prévision à l’aide des modèles ARMA

Le principal avantage des modèles ARMA tient au fait qu’il permettent de fournir des
prévisions pour des échéances éloignées (du moins pour une échéance plus éloignée dans
le temps que la prochaine date). Comme dans le cas des modèles linéaires présentés plus
haut, la prévision se fait en utilisant l’espérance : en supposant que l’on se situe à une
date t, la prévision du processus (xt )t∈Z est obtenue comme sa projection dans l’espace
engendré par le passé de ce processus et de ses erreurs.

Plus simplement, dans le cas d’un processus AR(1) :

xt = φxt−1 + t , t ∼ N (0, σ2 ) (5.156)
sa prévision à la date t + 1 sera :
x̂t+1 = E[xt+1 |xt ] (5.157)
= φxt (5.158)
100CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Les prévisions suivantes s’obtiennent de façon récursives. Par exemple pour t + 2 :

x̂t+2 = E[xt+2 |xt ] (5.159)
= φE[xt+1 |xt ] (5.160)
= φ2 xt (5.161)
D’une façon plus générale, une prévision à l’ordre k pour un processus AR(1) s’obtient
de la façon suivante :
x̂t+k = φk xt (5.162)
On remarque évidement que pour un k suffisament grand, on a :
x̂t+k → 0 (5.163)
qui est la moyenne non conditionnelle du processus. Autrement dit, pour un ordre k
élevé, le modèle AR(1) se contente de fournir comme prévision la moyenne (historique)
du processus.

La simplicité de ces processus les a rendu très attrayants : il est possible de prévoir
n’importe quelle série autoregressive pour un ordre important, à partir de la seule
connaissance de son passé. Dans le cas d’un AR, l’estimation se fait très simplement,
par MCO. On montre encore qu’il est aisé d’obtenir un intervalle de confiance pour la
prévision, en utilisant le théorème de Wold.

Si le processus étudié est stationnaire, alors il admet une représentation MA(∞) de la

forme :
∞
X
xt = φi t−i , avec φ0 = 1 (5.164)
i=0

en faisant abstraction de la composante déterministe. La prévision précédente peut

aussi être obtenue de la façon suivante :
x̂t+1 = E[xt+1 |xt , ..., x0 ] (5.165)
= E[xt+1 |t , ..., 0 ] (5.166)
∞
X
= φi t+1−i (5.167)
i=1

La précédente égalité est obtenue en remarquant que :

∞
X
xt+1 = φi t+1i (5.168)
i=0
∞
X
= t+1 + φi t+1i (5.169)
i=1

D’une façon plus générale, on a :

∞
X
x̂t+k = φi t−i (5.170)
i=k
5.2. LES MODÈLES ARMA 101

On en déduis l’erreur de prévision :

∞
X ∞
X
xt+k − x̂t+k = φi t+k−i − φi t+k−i (5.171)
i=0 i=k
k−1
X
= φi t+k−i (5.172)
i=0

On en déduis sans problème la variance des erreurs de prévision :

k−1
X
V[xt+k − x̂t+k ] = φ2i σ2 (5.173)
i=0

Première remarque : non, le théorème de Wold ne sert pas à rien. Il permet de déterminer
l’intervalle de confiance de la prévision simplement en s’appuyant sur la représentation
MA des processus stationnaires. Deuxième remarque : l’erreur de prévision va gran-
dissante au fur et à mesure que l’on s’éloigne de la date t. Troisème remarque : il
est toujours possible d’obtenir cet intervalle de confiance en estimant un modèle MA
avec un ordre important afin d’obtenir les φi nécessaire à l’estimation de l’intervalle de
confiance.

D’après ce qui vient d’être dit, il est évident qu’il est possible de construire un intervalle
de confiance de la forme :
k−1
" #
X
ICα = x̂t+k ± tα/2 φ2i σ2 (5.174)
i=0

Ceci tient naturellement au fait que la loi asymptotique de l’estimateur du maximum

de vraisemblance est gaussienne (cf. chapitres précédents). On a donc naturellement :
x̂ − xt+k
qt+k
Pk−1 2 2 → N (0, 1) (5.175)
i=0 φi σ

où xt+k est la vraie valeur du processus à la date t + k.

5.2.17 A vrai dire...

Arrivé à ce stade, il est évident que la clef du succès des modèles de séries temporelles
univariés et linéaires réside dans leur simplicité et l’interprétation des résultats fournis.

Malheureusement, qui dit simplicité dit également pauvreté de la prévision. Les modèles
ARMA sont incapables de percevoir un retournement de tendance, puisqu’on ne fait
que multiplier la tendance actuelle. Pour remédier à ceci, des modèles à seuil ont été
introduits. Il en sera question plus tard lors d’une simple application. Pire, les mouve-
ments de prix, de rentabilité ou bien encore les évolutions des chiffres de l’économie sont
le résultats d’une mutlitude de chocs, de dépendances conditionnnelles entre séries...
Bref, xt ne contient certainement pas assez d’information pour parvenir à construire
une prévision robuste de son avenir ! Là encore, pour remédier à ceci, des modèles mul-
tivariés ont été introduits. On traitera de ces modèles dans la section consacrée à la
prise en compte des liens entre variables macroéconomiques.
102CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.2.18 Quelques applications de modèles ARMA

[Link] Modélisation de l’inflation

L’inflation est l’une des variables macroéconomiques les plus suivies par les marchés,
et notamment les marchés de taux. La raison à cela est simple : il s’agit d’une variable
suivie par les Banques Centrales afin d’établir leur politique. On parle d’instrument de
la politique monétaire : les Banques Centrales sont censées réagir par une montée des
taux à tout accroissement de l’inflation, de façon mécanique. En réalité, la véritable
variable cible des banquiers centraux est l’inflation qu’il anticipent à moyen terme.
Celle-ci n’est malheureusement pas mesurable : on a recourt en France et en Europe à
L’Indice des Prix à la Consommation ou IPC pour mesurer cette inflation.

La mesure d’inflation suivie par les Banques Centrales est en réalité le glissement men-
suel de l’indice des prix à la consommation. En notant Pt l’indice des prix à la consom-
mation en date t, le glissement mensuel se note comme suit :

Pt − Pt−12
πt = (5.176)
Pt−12

La chronique de l’inflation est présentée en figure 5.7. Sa trajectoire ressemble furieu-

sement à une marche aléatoire : on s’attend à trouver un modèle de type AR, avec un
premier paramètre proche de 1.

IPC Européen depuis 1997

3.0
Indice des prix à la consommation

2.5
2.0
1.5
1.0

1998 2000 2002 2004 2006

Time

Fig. 5.7 – IPC européen depuis 1997

Cette intuition est confirmée par l’étude des ACF/PACF qui exhibent naturellement
une persistance importante, pour des ordres de retard eux-mêmes importants. Ces gra-
phiques sont représentés en figure 5.8.

Finalement, l’estimation du modèle ARMA optimal conduit aux paramètres suivants :

5.2. LES MODÈLES ARMA 103

ACF de l'IPC PACF de l'IPC

1.0

0.8
0.8

0.6
0.6

Partial ACF

0.4
ACF

0.4

0.2
0.2

0.0
0.0

−0.2
−0.2

0.0 0.5 1.0 1.5 0.5 1.0 1.5

Lag Lag

Fig. 5.8 – ACF et PACF de l’IPC européen

ar1 ma1 intercept

Estimation 0,89 0,23 1,92
Ecart type 0,04 0,11 0,19
T-stat 19,96 2,15 10,06

Conclusion de cette courte étude : l’indice des prix à la consommation semble se com-
porter comme une marche aléatoire. La meilleure prévision de l’inflation de demain
devrait ainsi être celle d’aujourd’hui. En oubliant la composante ma1, et en posant
φ = 1, on a alors :

πt = πt+1 + t (5.177)

On a donc très naturellement :

E[πt+h |It ] = πt (5.178)

où It est l’information disponible à la date t. Il s’agit d’un fait qui commence à être
bien connu dans le monde de l’économie monétaire.

Dernier point de remarque : il est possible d’interpréter le paramètre de la composante

MA comme un paramètre de retour à la moyenne/autoexcitation de l’inflation. On
remarque tout d’abord que l’on a approximativement :

t−1 = πt−1 − (µ + φπt−2 ) (5.179)

Le paramètre associé à la composante MA est positif : l’inflation a ainsi tendance à

se surexciter. Si l’inflation s’écarte de sa moyenne de long terme (ici 1,92%), elle aura
tendance à rester au dessus de cette moyenne pour quelques périodes.

Notons enfin que la constante du modèle correspond à la cible d’inflation de la BCE.

La figure 5.9 présente une prévision tirée du modèle ARMA estimé.
104CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Prévision à l'horizon d'un an

3.0
2.5
2.0
IPC

1.5
1.0

1998 2000 2002 2004 2006

Time

Fig. 5.9 – Prévision de l’IPC européen

Quoiqu’il en soit, il n’est pas certain que l’inflation soit tout à fait une marche aléatoire
pour ce qui est de la zone euro depuis 2000. En effet, on remarque visuellement que
la moyenne pour la période 1997-2000 ne semble pas être la même que celle pour la
période 2000-2006 (cf figure 5.7). Confirmons cette intuition : étudions la structure de
la série de l’IPC depuis 2000. La série est présentée en figure 5.10.

Zoom depuis 2000

3.0
2.5
IPC

2.0

2001 2002 2003 2004 2005 2006

Time

Fig. 5.10 – Zoom sur l’IPC depuis 2000

Etudions les ACF/PACF de la série sur la figure 5.11.

Elle semble assez différente de celle étudiée pour le même processus, avec une fenetre
de temps plus large. La série semble se rapprocher d’une série nettement moins proche
de la marche aléatoire : il s’agit simplement d’un AR(2), générant dans l’ACF un com-
portement de mélange entre sinusoide et exponentielle. L’estimation d’un AR(2) sur la
série confirme les résultats :
5.2. LES MODÈLES ARMA 105

ACF IPC PACF IPC

1.0

0.6
0.8

0.4
0.6

Partial ACF

0.2
0.4
ACF

0.2

0.0
0.0

−0.2
−0.2

0.0 0.5 1.0 1.5 0.2 0.4 0.6 0.8 1.0 1.2 1.4

Lag Lag

Fig. 5.11 – ACF et PACF de l’IPC depuis 2000

ar1 ma1 intercept

Estimation 0,8808 -0,3499 2,2105
Ecart type 0,1123 0,1121 0,048
T-stat 7,84 -3,12 46,05

Finalement, les résultats obtenus sont réellements différents des précédents : l’inflation
moyenne est plus importante que dans le cas précédent et le modèle est globalement un
modèle autoregressif qui n’est plus marche aléatoire (le terme en AR(2) vient ”corriger”
l’importance du 0,88. Au final, notre petite estimation souligne que la zone euro est ac-
tuellement dans un régime inflationniste plus important que son régime de long terme.
Ceci est certainement dû à l’effet Balassa-Samuelson : lors de la formation d’unions
monétaires, un effet rattrapage par le haut du niveau des prix se produit. L’intégration
de nouveaux pays à bas niveau de vie conduit à chaque fois à l’accroissement du niveau
général des prix en Europe (il s’agit d’un index prix en glissement annuel).

La figure 5.12 présente la prévision associée au modèle.

[Link] Modélisation du taux cible de la BCE

Le taux directeur de la Banque Centrale Européenne est défini chaque mois lors de la
réunion du conseil des gouverneurs. Ce taux constitue une cible permettant de guider le
taux court (journalier) sur les marchés obligataires européens. La plupart des modèles
de taux font de la politique monétaire le premier facteur de la courbe des taux : la
compréhension du processus latent au taux cible est essentiel pour la gestion obliga-
taire. Est-il possible d’utiliser les modèles ARMA à cette fin ?

La figure 5.13 présente l’évolution (sur une base mensuelle) de ces taux depuis 2000.
Premier constat : il existe un nombre important de dates pour lesquelles le taux ne
change pas. En notant rt le taux cible à la date t, il existe de nombreuses dates pour
lesquelles on a :

rt = rt−1 (5.180)
106CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Prévision à l'horizon d'un an

3.0
2.5
IPC

2.0

2001 2002 2003 2004 2005 2006 2007

Time

Fig. 5.12 – Prévision de l’IPC

Evolution des taux BCE depuis 2000

4.5
4.0
Taux BCE

3.5
3.0
2.5
2.0

0 20 40 60 80

temps

Fig. 5.13 – Chronique des taux BCE depuis 2000

5.2. LES MODÈLES ARMA 107

Ceci risque bel-et-bien de faire apparaitre une correlation persistante dans l’ACF du
processus. On observe ceci en figure 5.14. En effet, on observe tout d’abord un phénomène
de contagion évident entre les différentes dates sur l’ACF qui décroit lentement vers
0. Au contraire, la PACF admet un unique pic, proche de 1, suggérant que l’on peut
écrire pour le taux BCE un modèle de la forme :

rt = φrt−1 + t (5.181)

avec φ proche de 1. Dans le cas où φ = 1, on retrouverai naturellement une marche

aléatoire pour le taux BCE : le processus ne serait ainsi pas stationnaire. Faisons l’hy-
pothèse que tel n’est pas le cas. Deux stratégies sont alors implémentables :

– Il est tout d’abord possible d’estimer un modèle MA avec un lag important. Ceci
signifierai que chaque taux BCE peut s’écrire comme la somme des chocs passés sur
ces taux (une sorte de représentation MA(∞) d’un processus AR(1). Après estima-
tion, un modèle MA(15) semble convenir : il minimise le critère BIC. Les coefficients
estimés sont les suivantes :

Estimations T-stats
ma1 0,9115 6,80731889
ma2 0,8645 3,92954545
ma3 1,0792 5,96902655
ma4 1,4888 7,61145194
ma5 1,5917 6,49408405
ma6 1,783 4,97766611
ma7 1,5166 5,9732178
ma8 1,5969 6,67600334
ma9 1,6871 5,59568823
ma10 1,3082 4,19698428
ma11 0,9441 4,30506156
ma12 0,6917 3,56546392
ma13 1,0329 4,61116071
ma14 0,7159 3,71124935
ma15 0,2105 1,72258592
Constante 2,9544 12,8788143

– La seconde stratégie, qui est la plus naturelle, consiste à estimer un AR(1), tout
en se doutant que les taux suivent probablement un processus proche de la marche
aléatoire. L’estimation d’un simple AR(1) donne des résultats similaires au MA(15).
Les estimations sont :

AR(1) Constante
Estimations 0,9772 2,8363
T-stats 59,5853659 5,11229272

[Link] Modélisation de la volatilité implicite d’options sur DAX

Parmi les processus connus pour être autoregressifs, les processus de volatilité présentent
des comportements modélisables à l’aide de processus ARMA. Nous verrons plus loin
108CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ACF des taux BCE PACF des taux BCE

1.0
1.0

0.8
0.8

0.6
0.6

Partial ACF

0.4
ACF

0.4

0.2
0.2

0.0
0.0

−0.2
−0.2

0 5 10 15 5 10 15

Lag Lag

Fig. 5.14 – ACF et PACF des taux BCE depuis 2000

une raison à cette situation.

On présente en figure 5.15 les prix black scholes calibrés sur volatilité historique, im-
plicite globale et implicite locale.

Prix BS
100
80
60
option

40
20
0

0 50 100 150

Index

Fig. 5.15 – Prix BS d’une option sur DAX de strike 5000

La volatitilé implicite extraite en inversant numériquement la formule de BS présente

la dynamique présentée en figure 5.16.
L’étude de l’ACF/PACF de la série des volatilités implicites ainsi obtenues permet de
se convaincre de l’existence de pattern ARMA dans la série (cf. figure 5.17).
L’estimation d’un modèle ARMA permet de conclure à un modèle ARMA(1,1) dont
les estimations sont fournies dans le tableau suivant :
5.2. LES MODÈLES ARMA 109

Processus de volatilité implicite

0.008
0.006
[Link]

0.004
0.002
0.000

0 50 100 150

Index

Fig. 5.16 – Volatilité implicite

Series 1 Series [Link]

1.0

0.6
0.8
0.6

0.4
Partial ACF
ACF

0.4

0.2
0.2

0.0
0.0

0 5 10 15 20 5 10 15 20

Lag Lag

Fig. 5.17 – ACF de la volatilité implicite

110CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ar1 ma1 intercept

Estimation 0,9169 -0,5431 0,0072
Ecart type 0,0483 0,1042 0,0002
T-stat 18,9834 -5,2121 36,0000

La non constance de la volatilité a des implications particulières pour la gestion de

portefeuille d’option, au nombre desquelles la courverture. La simple couverture d’un
portefeuille de sous-jacent à l’aide du vega traditionnel pose problème : la couverture
est statique alors que la volatilité, elle, est dynamique. On proposera l’utilisation des
modèles ARCH/GARCH pour permettre de prendre cet élément en compte.

Poussons tout de même l’analyse un peu plus loin. Les prix d’options génèrent en général
ce que l’on appelle un smile : la volatilité est une fonction non linéaire du strike. On
représente cette surface de volatilité en figure 5.18.

Volatilité implicite
sg[100
:120, 1
:8]
Tim
e to
ma
tur
ity

ik e
Str

Fig. 5.18 – Surface de volatilité implicite

Une piste d’explication possible pour rendre compte de cette relation est d’étudier les
composantes AR et MA de chacune des volatilité implicites. C’est ce qu’on représente
en figures 5.19 et figures 5.20 : on retrouve une relation non linéaire entre strike et
composante.
5.2. LES MODÈLES ARMA 111

Composante ar en fonction du strike

0.96
0.94
0.92
ar(1)

0.90
0.88
0.86

4000 4200 4400 4600 4800 5000

Fig. 5.19 – Relation entre strike et composante AR

Composante ma en fonction du strike

−0.3
−0.4
ma(1)

−0.5
−0.6
−0.7

4000 4200 4400 4600 4800 5000

Fig. 5.20 – Relation entre strike et composante MA

112CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.3 Les modèles ARCH-GARCH

L’ensemble des notes qui suivent visent à introduire un certain nombre de concepts
simples relatifs à la modélisation de la volatilité en finance. Il s’agit d’une problématique
essentielle, pour de nombreux champs d’étude de la finance contemporaine. Le simple
fait que la gestion de portefeuille s’appuie le plus souvent sur des algorithme espérance-
variance souligne l’importance de la construction d’indicateurs de variance correcte-
ment spécifiés. La gestion des options s’appuie également sur une étude rigoureuse de
l’évolution de la variance.

Ces dix dernières années furent l’occasion de développements importants, conduisant

à une appréhension plus claire et dans un même temps plus complexe de ce qu’est
réellement la variance du rendement d’un actif. Le lecteur soucieux d’accroitre sa culture
dans ce domaine (au delà de ces maigres notes) lira avec intérêt Poon (2005), Gourie-
roux (1992), Gourieroux and Jasiak (2001) et Wang (2003). Une revue de littérature
en français tournant autour des applications des modèles de volatilité appliqués aux
options est disponible dans Aboura (2005).

La suite du cours est constuite de la façon suivante : on s’attarde dans un premier

temps sur quelques faits stylisés en finance ainsi que sur la mesure de la volatilité des
rendements. Puis, dans un second temps, on présente simplement les modèles dédiés à
la volatilité historique des titres (modèles ARCH-GARCH). Ceci est suivi d’un retour
sur l’inférence et la prédiction de la variance sur la base d’un modèle GARCH, avant
de conclure cette section par l’étude des modèles de Duan et de Heston et Nandi visant
à évaluer des actifs contingent sur la base d’un processus de variance GARCH.

5.3.1 Présentation des faits stylisés en finance

Les séries financières présentent un certain nombre de traits caractéristiques qu’il est
nécessaire de souligner avant de passer à leur modélisation. Ces principaux faits sont
les suivants (on suit ici ce qui en est dit dans Poon (2005)[page 7-8] :

1. Les rendements ne sont pas autocorrélés, ce qui semble confirmer l’hypothèse

faible d’efficience des marchés financiers.
2. Les autocorrélations du carré et de la valeur absolue des rendements sont signifi-
catives et décroissent lentement vers 0.
3. On remarque qu’en général, la suppression des valeurs extrêmes d’une série de
rendements accroit la significativité de l’autocorrélation des rendements élévés au
carré ou pris en valeur absolue.
4. L’autocorrélation la plus forte touche les valeurs absolues des rendements : celles
relatives aux rendements élevés à une puissance quelconque sont moindres, mais
significatives. Il s’agit de l’effet de Taylor, d’après Taylor (1986).
5. L’asymétrie de la volatilité : en général, la volatilité d’un actif s’accroit lorsque le
rendements qui précèdent sont négatifs. On parle dans ce cas d’effet levier.
6. Rentabilité et volatilité pour une classe d’actif semble évoluer de pair.
5.3. LES MODÈLES ARCH-GARCH 113

7. La volatilité d’un actif manifeste en général des périodes de de volatilité impor-

tante et d’autres périodes de volatilité faibles (correspondant à ce qu’on appelle
des bear and bull market.

Cette liste est bien évidement non exhaustive. Elle a cependant le mérite de mettre en
lumière le fait que dès lors que l’on souhaite s’extraire des standards de la finance (la
marche aléatoire des théories de l’efficience et de l’évaluation d’option), il est nécessaire
de considérer l’ensemble de ces propriétés avec beaucoup d’attention.

Dans la suite de cette section, on considère un certain nombre de modèles visant à

prendre en compte (d’un point de vue purement statistique) certains de ces faits sty-
lisés de la finance.

5.3.2 Quelques mesures préliminaires de la variance

Par essence, la volatilité est un phénomène inobservable : un actif vanille (une action
par exemple) n’est cotée qu’à l’aide de son prix. Il est alors nécessaire de construire
un certain nombre de statistiques permettant de juger de la volatilité des rendements :
celle-ci, pourtant essentielle à tout modèle financier, ne s’observe pas naturellement. Il
est à noter que certaines classes d’actifs sont cotés en volatilité implicite (pour certaines
classes d’options) et qu’il existe des index de volatilité pour certains marchés : Poon
(2005) consacre ainsi son avant dernier chapitre à quelques précisions relatives au Vix,
un indice de volatilité compilé par le Chicago Board of Option Exchange. Il s’agit d’un
indice visant à capturer la volatilité du S&P 500, et à permettre un prévision de la
volatilité future de ce même indice de marché. Le mode de calcul est simple : il s’agit
d’une moyenne pondérée de la volatilité implicite des contrats d’options sur S&P500
(contre S&P100 pour son prédécesseur, le Vxo) qui présentent la spécificité d’être out
of the money. Ce nouvel index de volatilité commença a être publié en 2003 (l’ancien
fut lancé en 1993).

Le fait que ce type d’index connaissent un succès évident ne fait que souligner le besoin
qu’on les marchés financiers de disposer d’intruments de mesure de la volatilité. Ce
index est l’une des tentatives d’établissement de ces mesures et semblent relativement
robuste (cf. revue de littérature de Poon (2005)). Il ne s’agit pas de la seule façon de
faire : on propose ici deux autres tentatives plus ou moins intéressantes : l’index high-
low et le carré des rendements.

[Link] La mesure high-low

La mesure high-low de la volatilité constitue une méthode simple et relativement robuste
de mesure la volatilité : high et low désignent naturellement le plus haut et le plus bas du
cours d’un titre sur une journée de cotation. Là encore, on suppose que les rendements
sont gaussiens : on mesure la volatilité journalière à l’aide de l’estimateur suivant :

(lnHt − lnLt )2
σt2 = (5.182)
4ln2
114CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Cet estimateur est celui proposé par Bollen and Inder (2002) dans le cadre de rendement
suivant un brownien géométrique. Il s’agit d’une application d’une mesure initiallement
proposée par Parkinson (1980). Garman and Klass (1980) propose une amélioration de
la mesure de Parkinson qui prend la forme suivante :
Ht 2 pt 2

2
σt = 0.5 ln − 0.39 ln (5.183)
Lt pt−1
Ces estimateurs de la volatilité sont assez sensibles aux valeurs extremes, c’est à dire
aux rendements anormalement importants (qu’il s’agissent de rendement négatifs ou
positifs). L’importance de la probabilité d’occurence des événements extrèmes rend le
processus effectivement suivi par les rendements incompatibles avec la loi normale. Dans
cette mesure, les mesures H-L constitue une approximation intéressante de la variance
des rendements.

Notons finalement que ces indices H-L modélisent d’une certaine façon la variance
conditionnelle du processus des rendements : celle-ci change chaque jour. Il n’est par
conséquent pas question d’utiliser ces résultats pour modéliser la variance de l’ensemble
de la série des rendements d’un titre donnée, ce qui n’aurait de toute façon pas grand
sens.

Mesure High−Low sur S&P500

0.030
Mesure High−Low

0.015
0.000

1995 2000 2005

Time

Carré des rendements sur S&P500

Carré des rendements

0.000 0.002 0.004

1995 2000 2005

Time

Index VIX
VIX measure

0.03
0.01

1995 2000 2005

Time

Fig. 5.21 – Différentes mesures de la volatilité appliquées au S&P 500

[Link] Le carré des rendements comme mesure de variance

Avant l’introduction de larges banques de données contenant des données intraday, de
nombreux chercheurs se sont penchés sur l’utilisation d’un certain nombre de mesures
5.3. LES MODÈLES ARCH-GARCH 115

0.8 Autocorrélations de High Low

ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Autocorrélations des rendements au carré

0.8
ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Autocorrélations du VIX
0.8
ACF

0.4
0.0

0.00 0.05 0.10 0.15 0.20

Lag

Fig. 5.22 – ACF des différentes mesures de la volatilité appliquées au S&P 500

de la volatilité des rendements sur la base de données journalières. Par exemple, Lopez
(2001) propose le modèle suivant pour les rendements :

rt = µ + σt t (5.184)

avec t ∼ N (0, 1). On a alors :

E[rt2 |Ft−1 ] = σt2 (5.185)

Dans ce cas, le carré des rendements (en négligeant le drift) permet de mesurer la
volatilité de ces mêmes rendements. Cependant, 2t suit naturellement une loi du χ2 à
σ2
un degré de liberté, dont la médiane est 0,455 : il s’en suit que 2t est inférieur à 2t
dans plus de la moitié des cas. En effet, on a :

σt2 σt2

2 2 2
P rt < = P σt t < (5.186)
2 2

2 1
= P t < (5.187)
2
= 0.52 (5.188)

Autrement dit, le carré des rendements (en l’absence de drift) est un estimateur sans
biais de la variance des rendements. Cependant, dans plus de la moitié des cas, il sous-
estime la variance des résidus. Ce résultat semble s’affaiblir lorsqu’on utilise le carré
des rendements toutes les 5 minutes plutot que le carré des rendements journaliers.
116CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

5.3.3 Présentation des modèles ARCH-GARCH

Les processus ARCH visent également à rendre compte du fait que la variance condi-
tionnelle n’est pas constante et proposent une façon de l’estimer basée sur le carré des
rendements. D’après ce qui vient d’être dit, on traitera cette classe de modèle avec
méfiance : il est possible que la volatilité soit non constante au cours du temps, mais
qu’un modèle ARCH - ou leur généralisation GARCH - ne captent pas cet effet, voire
concluent dans certains cas à l’absence de dépendance temporelle dans les rendements.

On présente dans ce qui suit les modèles ARCH et GARCH ainsi que leurs principales
propriétés.

[Link] Pour commencer...

On a modélisé jusqu’à présent l’espérance conditionnelle dans le cadre de modèles
linéaires simples (les modèles ARMA). Ces modèles ne sont guères applicables en fi-
nance car :

– La théorie financière repose sur la martingalité des prix : l’autocorrélation entre le

rendement à la date t et à la date t − 1 est une abhération financière, qui disparait
peu à peu des rendements, à mesure que les marchés se liquéfient. Certains marchés
comme les commodities (IPE BRENT par exemple) continuent d’exhiber de l’auto-
corrélation dans les rendements.
– Ces modèles reposent sur l’hypothèse de constance de la variance conditionnelle : dans
les séries financières, la volatilité est généralement une fonction du temps. Il suffit
d’étudier le processus de volatilité implicite d’une option pour se rendre compte de
sa dépendance temporelle. C’est ce qu’on a observé à la fin de la section précédente.

Une façon simple d’illustrer les dangers liés à l’utilisation des rendements au carré pour
mesurer la volatilité consiste à simuler un AR(1) et à représenter le carré du processus,
en le confrontant à une série financière. L’illusion est parfaite : on aurait presque l’im-
pression que les deux séries sont issues du même processus. C’est ce qu’on observe sur
la figure 5.23.

Enfin, on est également à la recherche de modèles statistiques pour les rendements qui
permettent de générer de la leptokurticité, i.e. des distributions à queues épaisses. On
remarque en général que les séries financières présentent une kurtosis supérieure à 3,
signifiant simplement que les queues de distribution de ces séries sont en général plus
épaisses que celles de la loi normale.

Ce dernier fait a des implications importantes en terme de Risk Management, notam-

ment au travers du calcul très simple de la Value at Risk. La VaR est simplement le
quantile de la loi des rendements à x% : il suffit de calculer ce quantile pour différents x
et sur différentes lois pour se rendre compte de l’importance des queues de distribution.
Le tableau 5.1 propose trois type de lois : la loi normale, qui n’est ni leptokutique, ni
asymétrique ; la loi de Student qui est leptokutique, mais symétrique ; la loi de Laplace
qui dans ce cas précis est à la fois leptokurtique et asymétrique (la queue basse est plus
5.3. LES MODÈLES ARCH-GARCH 117

Rendements du DAX au carré

4 e−04
carré

0 e+00

0 50 100 150

Temps

ARMA au carré
12
8
carré

4
0

0 50 100 150

Temps

Fig. 5.23 – Rendements au carré et erreurs de mesure

0% 5% 10% 50% 90% 95% 100%

Loi normale -2,95 -1,62 -1,25 0,01 1,31 1,69 3,16
Loi de Student -4,26 -1,76 -1,37 0,02 1,30 1,75 4,73
Loi Laplace -13,89 -4,18 -3,15 0,08 1,79 2,42 5,27

Tab. 5.1 – Quantiles de différentes loi de moyenne nulle

épaisse que la queue haute). Les densités empiriques de ces trois lois sont présentées
en figure 5.24. La VaR calculée pour différents seuils permet de se faire une idée plus
précise des risques liés à calculer une VaR sur une hypothèse de gaussiannité des ren-
dements, quand ceux-ci admettent des queues épaisses et/ou asymétriques.

La table 5.2 fournit une autre illustration de ces propriétés des séries financières : on
présente espérance, écart type (volatilité), skewness et kurtosis des rendements de l’in-
dice DAX ainsi que de divers call européens de strike différents, ayant tous le DAX
pour sous-jacent. On remarque tout à fait l’existence de queues épaisses ainsi que d’une
asymétrie.

Espérance Variance Skewness Kurtosis

DAX 0,001 0,007 -0,394 3,924
Option strike 4800 -0,001 0,173 -0,19 3,485
Option strike 4600 0,003 0,124 -0,131 3,599
Option strike 4400 0,004 0,09 -0,149 3,95
Option strike 4000 0,003 0,052 -0,268 4,241

Tab. 5.2 – Statistiques des rendements

118CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Notons pour terminer cette section fourre-tout que ce qui vient d’être dit n’a pas que des
implications pour le risk-management, mais aussi pour l’asset pricing. A peu de choses
pret, comme le souligne très justement Cochrane (2002), le prix d’un actif est toujours
et partout une espérance sous loi risque neutre actualisée. Dans le cas où les rendements
sont gaussiens, la formule de Black Scholes semble tenir et est largement utilisée dans
de nombreux domaines, dont les options sur action et les produits de taux. Cependant,
l’existence des faits styliés qui viennent d’être mis en avant peut conduire à d’impor-
tantes erreurs de pricing : le modèle BS avec rendements GARCH introduit par Duan
et par Heston et Nandi semble conduire à des prix d’option plus proche de la réalité que
les prix BS standards. Ceci a d’importantes implications en terme d’asset management.

Densités
0.5
0.4
0.3
Density

0.2
0.1
0.0

−15 −10 −5 0 5 10

N = 1000 Bandwidth = 0.348

Fig. 5.24 – Densité de la loi de Laplace (rouge), normale (bleu) et Student (vert)

[Link] Introduction aux modèles ARCH-GARCH

[Link].1 La cas d’un ARCH(1)
Les modèles furent initiallement proposés par Engle (1982) et Bollerslev (1986), Tim
Bollerslev étant le thésard de Robert Engle. Le premier modèle fut celui de Engle,
et visait à obtenir une modélisation de la variance conditionnelle de l’inflation (en
glissement mensuel) de la Grande Bretagne. Un modèle ARCH(1) est de la forme :
√
xt = ht t
(5.189)
ht = ω0 + ω1 x2t−1
avec t ∼ N (0, 1). ht représente la variance conditionnelle du processus xt . Les moments
conditionnels sont les suivants :
p
E[xt |ht ] = E[ ht t |ht ] (5.190)
p
= ht E[t |ht ] (5.191)
=0 (5.192)
5.3. LES MODÈLES ARCH-GARCH 119

Il s’agit donc encore de processus applicables à des séries préalablement centrées, comme
dans le cas des ARMA. Notons que les séries des rendements sont théoriquement na-
turellement centrées : il s’agit simplement d’une conséquence de la martingalité des prix.

La variance conditionnelle n’a plus rien à voir avec celle des ARMA :
p
V[xt |ht ] = V[ ht t |ht ] (5.193)
= ht V[t |ht ] (5.194)
= ht E[2t |ht ] (5.195)
| {z }
=1 par hypothèse

= ht (5.196)

Ainsi, contrairement aux modèles ARMA, la variance conditionnelle d’un processus

ARCH n’est pas constante au cours du temps. C’est ce qui fait tout l’intérêt de ces
processus, notamment pour les séries financières. Gardons cependant à l’esprit que ces
modèles s’appuie sur une mesure de la variance proche de x2t . En effet, on a :

E[x2t |ht ] = E[ht 2t |ht ] = ht (5.197)

Ceci tient simplement au fait que xt soit naturellement un processus centré. Si ces
modèles semblent d’un abord pratiques, il n’en reste pas moins qu’il produisent natu-
rellement des erreurs de mesure sur la volatilité.

Le calcul des moments non conditionnels permet de déterminer quelques conditions à

remplir afin de s’assurer de la stationnarité du processus. On détermine l’espérance à
l’aide de la loi des espérances itérées :

E[xt ] = E[E[xt |ht ]] (5.198)

= E[0] (5.199)
=0 (5.200)

Pour ce qui de la variance, il est possible de procéder par récurrence. Utilisons tout
d’abord la loi de la décomposition de la variance :

V[xt ] = E[V[xt |ht ]] + V[E[xt |ht ]] (5.201)

= E[ht ] + 0 (5.202)

On en déduit alors l’équation suivante :

V[xt ] = E[ht ] (5.203)

= E[ω0 + ω1 x2t−1 ] (5.204)
= ω0 + ω1 E[x2t−1 ] (5.205)
= ω0 + ω1 V[xt−1 ] (5.206)

On obtient ainsi une formule de récurrence permettant de déterminer la variance non

conditionnelle du processus. Il suffit, pour y parvenir, d’itérer la formule n fois, puis,
120CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

comme dans le cas des ARMA, de passer à la limite. On sait que :

V[xt ] = ω0 + ω1 V[xt−1 ] (5.207)
V[xt−1 ] = ω0 + ω1 V[xt−2 ] (5.208)
V[xt−2 ] = ω0 + ω1 V[xt−3 ] (5.209)
D’où :
V[xt ] = ω0 + ω1 (ω0 + ω1 (ω0 + ω1 V[xt−3 ])) (5.210)
= ω0 (1 + ω1 + ω12 ) + ω13 V[xt−3 ] (5.211)
D’où la formule générale :
n
!
X
V[xt ] = ω0 1+ ω1i + ω1n+1 V[xt−(n+1) ] (5.212)
i=1
n
!
X
= ω0 ω1i + ω1n+1 V[xt−(n+1) ] (5.213)
i=0

D’où si |ω1 | < 1, on a, lorsque n → ∞ :

ω0
V[xt ] = (5.214)
1 − ω1
Cette dernière condition est nécessaire pour assurer l’existence de la variance, c’est à
dire :
V[xt ] < ∞ (5.215)
Cette condition est nécessaire pour obtenir un processus stationnaire (variance finie et
indépendante du temps). Il est nécessaire d’imposer une seconde condition : la variance
conditionnelle et non conditionnelle doivent être naturellement positives (la variance
est le carré de l’écart type). La positivité de la variance conditionelle implique naturel-
lement que :
ω0 > 0 (5.216)
ω1 > 0 (5.217)
Ces deux conditions impliquent naturellement que la variance non conditionnelle, dotée
de la condition |ω1 | < 1, soit positive. Remarquons finalement que, dans le cadre d’un
processus ARCH, la variance conditionnelle ne coincide pas avec la variance non condi-
tionnelle, ce qui est précisément ce que nous recherchions.

Ultime propriété d’un processus ARCH(1), il est possible de montrer que le carré du
processus admet une représentation AR(1). On suit ici ce qui en est dit dans Poon
(2005)[Chapitre 4]. Notons νt la différence entre x2t et ht . On a alors :
ht = ω0 + ω1 x2t−1 (5.218)
⇔x2t − νt = ω0 + ω1 x2t−1 (5.219)
⇔x2t = ω0 + ω1 x2t−1 + νt (5.220)
On retrouve ainsi un processus AR(1) sur les carrés des résidus. Ceci a plusieurs impli-
cations pratiques :
5.3. LES MODÈLES ARCH-GARCH 121

– D’une part, un processus ARCH(1) ne semble pas saisir de façon adéquate les proces-
sus de volatilité financière : on a vu lors des applications des processus ARMA que
la volatilité de certains actifs semble présenter une structure plus proche des ARMA
(retour à la moyenne en cas de choc importants) que des AR. Il sera donc nécessaire
de complexifier légèrement la chose, afin d’accomoder cette caractéristique empirique.

– Seconde implications pratique, l’identification d’un ARCH(1) ne doit pas poser de

problème, si l’on s’appuie sur ce qui a été dit plus haut au sujet des AR : il suffit
d’étudier les fonctions d’autocorrélations simple et partielle pour se faire une idée de
l’ordre du processus à retenir. On étudiera ceci au cours des applications empiriques
proposées plus loin.

[Link].2 Les modèles ARCH(p)

Ce qui vient d’être dit au sujet des ARCH(1) peut se généraliser aisément au cas des
processus ARCH(p). Un processus ARCH(p) est un processus xt qui est de la forme :
p
xt = ht t (5.221)
p
X
ht = ω0 + ω1,i x2t−i (5.222)
i=1

avec ∼ N (O, 1).

Comme précécement, on fournit les moments conditionnels :

E[xt |xt−1 ] = 0 (5.223)

V[xt |xt−1 ] = ht (5.224)

Conditionnellement à l’information disponible à la date t, un processus GARCH est

un processus de moyenne (conditionnelle) nulle et de variance égale à ht . Qu’en est il
des moments non-conditionnels ? L’espérance ne pose pas de problème, à la condition
d’utiliser la loi des espérances itérées :

E[xt ] = 0 (5.225)

Pour ce qui est la variance, il est ici nécessaire de déterminer, comme précédement,
une formule de récurrence pour parvenir finalement à exprimer la variance en passant
àP
la limite. On ne refait pas ici les calculs : on se contente de fournir le résultat. Si
| pi=1 ω1,i | < 1, alors la variance du processus existe et est de la forme :
ω
V[xt ] = Pp0 (5.226)
1− i=1 ω1,i

[Link].3 Leptokurticité des processus ARCH(p)

Une propriété essentielle des processus ARCH est qu’ils génèrent des séries leptokur-
tiques. Il s’agit d’une propriété intéressante dans la mesure où conditionnellement, un
processus ARCH est gaussien ! Ceci signifie qu’il n’est pas forcément nécessaire d’aller
chercher des lois complexes ou méconnues pour rendre compte de la leptokurticité des
122CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

séries.

Il suffit donc de prouver que la kurtosis d’un processus ARCH est supérieure à 3. La
preuve est simplissime et s’appuie sur le lemme de Jensen.

Rappel 3. Soit f (x) une fonction convexe en x. On a alors :

E [f (x)] > f (E[x]) (5.227)

La preuve d’établit comme suit, en se souvenant que f (x) = x2 est bien convexe : soit
xt un processus ARCH(p) donné. Sa kurtosis est alors :

E[x4t ]
Ku (x) = (5.228)
E[x2t ]2

car xt est un processus centré. En appliquant le lemme des espérances itérées au

numérateur, il vient :

E[x4t ] = E E[x4t |xt−1 ]

(5.229)
= E E[h2t 4t |xt−1 ]

(5.230)
= E h2t E[4t |xt−1 ]

(5.231)
= E 3h2t

(5.232)
= 3E h2t

(5.233)

Cette dernière égalité tient au fait que t suit une N (0, 1) donc la kurtosis est égale à 3.
Dans la mesure où sa variance est égale à 1, constatons simplement que le dénominateur
de la kurtosis est toujours égal à 1 pour une N (0, 1). D’où le résultat proposé. En
utilisant Jensen, on a alors :

E[x4t ] = 3E h2t > 3E [ht ]2

(5.234)

La preuve s’achève en remarquant que :

E[x2t ]2 = E[ht 2t ]2 (5.235)

2
= E E[ht 2t |xt−1 ]

(5.236)
2
= E ht E[2t |xt−1 ]

(5.237)
2
= E [ht ] (5.238)

En réinjectant ceci dans l’expression de la kurtosis, on prouve finalement :

E[x4t ] E [ht ]2
Ku (x) = > 3 =3 (5.239)
E[x2t ]2 E [ht ]2

CQFD.
5.3. LES MODÈLES ARCH-GARCH 123

[Link].4 Quid de l’asymétrie ?

Les processus ARCH seraient parfaitement adaptés à la finance si ils étaient de plus
capable de générer de l’asymétrie. On mesure d’ordinaire l’asymétrie à l’aide de la
skweness :
E[x3t ]
Sk = (5.240)
V[xt ]3/2

Ceci est bien évidement vrai dans le cas où les séries sont centrées, comme c’est le
cas pour les processus ARCH. Pour montrer que les processus GARCH ne sont pas
asymétriques, il suffit de montrer que le numérateur est nul dans le cas d’un ARCH(p) :

E[x3t ] = E[E[x3t |xt−1 , xt−2 , ...]] (5.241)

3/2
= E[E[ht 3t |xt−1 , xt−2 , ...]] (5.242)
3/2
= E[ht E[3t |xt−1 , xt−2 , ...]] (5.243)
3/2
= E[ht × 0] (5.244)
=0 (5.245)

Non, les processus ARCH ne permettent pas de prendre en compte tous les faits stylisés
de la finance : seule la leptokurticité est prise en compte.

[Link] Les modèles GARCH

Les modèles GARCH forment un légère complexification des modèles ARCH : on ajoute
au processus de la variance les q valeurs passées de la variance, telle qu’elle est estimée
par le modèle.

[Link].1 Le cas d’un GARCH(1,1)

Un modèle GARCH(1,1) s’écrit de la façon suivante :
p
xt = ht t (5.246)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.247)

où t ∼ N (0, 1). Comme précédement, on donne les moments conditionnels, à partir des-
quels on fournira finalement les moments non conditionnels par itération. L’espérance
conditionnelle du processus est la suivante :

E[xt |Ft ] = 0 (5.248)

où Ft est la filtration engendrée par les valeurs passées de xt , de x2t et de ht . La variance
conditionnelle est alors :
p
V[xt |Ft ] = V[ ht t |Ft ] (5.249)
p
= ht V[t |Ft ] (5.250)
= ht (5.251)
124CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

ht étant Ft mesurable. On détermine à présent les deux premiers moments conditionnels

du processus. L’espérance s’obtient simplement à partir de la loi des espérances itérées :

E[xt ] = E[E[xt |Ft ]] (5.252)

=0 (5.253)

Pour ce qui est de la variance non conditionnelle, on procède comme précédement, par
itération. On sait que :

E[x2t ] = E[ht ] (5.254)

= E[ω0 + ω1 x2t−1 + ω2 ht−1 ] (5.255)
= ω0 + ω1 E[x2t−1 ] + ω2 E[ht−1 ] (5.256)

Or, on sait que E[x2t−1 ] = E[ht−1 ]. On peut donc réécrire la précédente égalité de la
façon suivante :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.257)

Comme précédement, on écrit cette formule de récurrence pour différents ordres :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.258)

E[x2t−1 ] = ω0 + (ω1 + ω2 )E[x2t−2 ] (5.259)
E[x2t−2 ] = ω0 + (ω1 + ω2 )E[x2t−3 ] (5.260)

On trouve donc une formule de récurrence à l’ordre n suivante :

E[x2t ] = ω0 + (ω1 + ω2 )E[x2t−1 ] (5.261)

= ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )E[x2t−3 ])) (5.262)
= ω0 + (ω1 + ω2 )ω0 + (ω1 + ω2 )2 ω0 + (ω1 + ω2 )3 E[x2t−3 ] (5.263)

d’où pour n itération, on a la formule suivante :

E[x2t ] = ω0 [1 + (ω1 + ω2 ) + (ω1 + ω2 )2 + ...] + (ω1 + ω2 )n E[x2t−n ] (5.264)

n−1
X
= ω0 (ω1 + ω2 )i + (ω1 + ω2 )n E[x2t−n ] (5.265)
i=0

Comme précédement, à la condition que |ω1 + ω2 | < 1, la série engendrée admet une
limite (la variance existe) conduit à :
ω0
E[x2t ] = (5.266)
1 − (ω1 + ω2 )

La positivité de la variance est assurée si ω0 est du même signe que 1 − (ω1 + ω2 ).

On retrouve les mêmes propriétés de leptokurticité que pour les processus ARCH. On
le montre de la même façon que précédement, en utilisant le lemme de Jensen. En
5.3. LES MODÈLES ARCH-GARCH 125

travaillant avec le quatrième moment du processus, il vient :

E[x4t ] = E[E[x4t |ht ]] (5.267)

= E[E[h2t 4t |ht ]] (5.268)
= E[h2t E[4t |ht ]] (5.269)
= E[3h2t ] (5.270)
= 3E[h2t ] ≥ 3E[ht ]2 (5.271)

En divisant la dernière inégalité par E[ht ]2 , on retrouve la kurtosis à gauche, et le

résultat souhaité à droite. On a alors :
E[x4t ]
≥3 (5.272)
E[ht ]2

Si les GARCH sont à même de générer de la leptokurticité, ils sont en revanche incapable
de générer de l’asymétrie. On le montre de la même façon que précédement, en utilisant
la loi des espérances itérées :
p
E[x3t ] = E[( ht t )3 ] (5.273)
p 3
= E[ ht E[3t |ht ]] (5.274)
p 3
= E[ ht × 0] (5.275)
=0 (5.276)

avec t ∼ N (0, 1). Cette généralisation des GARCH(1,1) ne sera pas utilisée par la
suite : le lecteur soucieux d’aller jusqu’au bout des calculs pourra appliquer ce qui a
été fait précédement pour les ARCH(p).

5.3.4 Inférence des modèles ARCH-GARCH

[Link] Le cas d’un ARCH(1)
Comme précédement (pour les processus ARMA), on montre ici quelques rudiments
nécessaires à l’estimation des ARCH(1). Il est essentiel de présenter les méthodes d’es-
timations, et de ne pas s’en remettre au fait que les logiciels de statistiques permettent
une implémentation des ARCH sans connaissances particulières : l’interprétation des
résultats ou la compréhension même des problèmes de convergence des estimateurs
n’ont rien de trivial, comme de trop nombreux utilisateurs le pensent.
126CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Sur le plan technique, l’estimation des ARCH n’est guère plus complexe que les ARMA :
là encore, le processus xt n’est pas i.i.d. et il est nécessaire de travailler conditionnel-
lement au passé de xt et de ht , afin d’obtenir un processus i.i.d.. On connait les mo-
ments conditionnels d’un processus ARCH : celui-ci est conditionnellement gaussien,
d’espérance nulle et de variance égale à ht . Le problème ici, comme dans le cas des
MA, est que la variance est ”inobservable” : on a besoin des paramètres du proces-
sus ARCH pour obtenir la variance conditionnelle du processus. Comme précédement,
la seule façon d’estimer ce type de processus est d’écrire la log-vraisemblance, puis
de déterminer l’ensemble des dérivées dont on a besoin pour l’implémentation des
méthodes numériques décrites au chapitre 5.

La loi conditionnelle de xt conduit à la vraisemblance suivante :

x2

1
Li = √ exp − t (5.279)
2πht 2ht
La vraisemblance s’obtient en faisant le produit des différents Li :
n
x2t

Y 1
L= √ exp − (5.280)
2πht 2ht
i=1

et la log-vraisemblance concentrée est alors :

n n
1X 1 X x2t
lnL = − log(ht ) − (5.281)
2 2 ht
i=1 i=1

La méthode de Newton-Raphson s’appuie sur les dérivées premières qui s’obtiennent

comme suit, pour un paramètre θ donné :
n
∂lnL 1 X ∂ht /∂θ ∂ht x2t
=− − (5.282)
∂θ 2 ht ∂θ h2t
i=1
n
x2t

1 X ∂ht 1
=− 1− (5.283)
2 ∂θ ht ht
i=1

x2
En remarquant dans le précédent réarrangement que htt = 2t , on trouve alors qu’à
l’optimum, le score est nul. On rappelle que le score est l’espérance de la dérivée de la
log-vraisemblance. En effet, on a, d’après ce qui vient d’être dit :
2
x
E t = E[2t ] = 1 (5.284)
ht
Afin d’obtenir les dérivées de la log-vraisemblance, il ne reste qu’à obtenir les dérivées
de la variance conditionnelle par rapport à chacun des paramètres. Elles se calculent
aisément :
∂ht
=1 (5.285)
∂ω0
∂ht
= x2t−1 (5.286)
∂ω1
5.3. LES MODÈLES ARCH-GARCH 127

On trouve donc finalement les dérivées de la log-vraisemblance suivantes :

n
x2t

∂lnL 1X 1
=− 1− (5.287)
∂ω0 2 ht ht
i=1
n
1 X x2t−1 x2

∂lnL
=− 1− t (5.288)
∂θ 2 ht ht
i=1

On est alors en mesure de mettre en oeuvre ce qui a été présenté dans le cadre du cha-
pitre 5 : l’estimation se fait généralement par Newton-Raphson, en utilisant la matrice
BHHH comme approximation de la variance de l’estimateur des paramètres. Il est ce-
pendant nécessaire d’en dire un peu plus : on a fait l’hypothèse que l’erreur du modèle
(t )suivait une loi normale. Qu’en est il si tel n’est pas le cas ? Greene (2002)[Cha-
pitre 11] revient sur les implications de cette hypothèse : comme on l’a déjà précisé
précédement, l’estimation par maximum de vraisemblance conditionel avec bruit gaus-
sien conduit à l’obtention d’estimateurs consistent (i.e. qui converge presque surement
vers les vraies valeurs des paramètres). Dans ce cas, on parle de Pseudo Maximum de
Vraisemblance. Gourieroux et al. (1984) remarquent cependant que l’estimation de la
matrice de variance/covariance des estimateurs par l’inverse de la matrice d’information
de Fisher n’est pas bonne. Il est nécessaire d’uiliser l’approximation suivante :

V[θ] = H −1 F H −1 (5.289)

avec :
∂ 2 lnL

H = −E (5.290)
∂θ∂θT

∂lnL ∂lnL
F =E (5.291)
∂θ ∂θT
On remarque que la matrice 2 × 2 F est l’estimateur BHHH présenté au chapitre 5.
La matrice F est en général très simple à calculer, puisque prise en espérance. Il suffit
pour cela de déterminer les dérivées secondes de la log-vraisemblance. Dans le cas d’un
ARCH(1), les calculs conduisent généralement aux résultats suivants :
n
∂ 2 lnL
2
1X 1 xt
=− 2 −1 (5.292)
∂ω02 2
i=1 t
h2 ht
n
∂ 2 lnL 1 X x2t−1 x2t

=− 2 −1 (5.293)
∂ω0 ∂ω1 2
i=1
h2t ht
n
∂ 2 lnL 1 X x4t−1 x2t

=− 2 −1 (5.294)
∂∂ω12 2
i=1
h2t ht

On ne calcule que l’une des dérivées croisées, dans la mesure où le lemme de Monge
s’applique sans problème. En prenant l’espérance de ces dernières dérivées, et en re-
x2
marquant encore une fois que E[ htt ] = 1, on obtient la matrice F :
 
x2
− 21 ni=1 h12 − 21 ni=1 ht2
P P
F =  1 Pn x2t t 
x4 (5.295)
− 2 i=1 ht2 − 21 ni=1 ht2
P
t t
128CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On sait de plus calculer la matrice BHHH à partir des dérivées premières : on est alors
en mesure d’estimer un modèle ARCH sans trop de difficulté. Dans la réalité (et dans
R), l’estimation ne passe pas par Newton Raphson, mais par une méthode plus complexe
garantissant de meilleurs résultats : la méthode BFGS. Celle-ci n’est pas développée ici.

[Link] Le cas d’un GARCH(1,1)

Tout ce qui vient d’être dit précédement au sujet de l’estimation des ARCH s’applique
de la même façon aux modèles GARCH. La vraisemblance conditionnelle s’écrit encore
une fois en constatant que la loi conditionnelle de xt sachant ht est connue :

xt |ht ∼ N (0, ht ) (5.296)

Il s’agit donc du même point de départ qu’on modèle ARCH(1). L’estimation d’un
modèle GARCH(1,1) nécessite cependant le calcul d’une dérivée première supplémentaire :

∂ht
= ht−1 (5.297)
∂ω2
On obtient alors les dérivées de la vraisemblance suivantes :
n
x2t

∂lnL 1X 1
=− 1− (5.298)
∂ω0 2 ht ht
i=1
n
1 X x2t−1 x2

∂lnL
=− 1− t (5.299)
∂ω1 2 ht ht
i=1
n
x2

∂lnL 1 X ht−1
=− 1− t (5.300)
∂ω2 2 ht ht
i=1

On laisse à titre d’exercice le calcul des dérivées secondes. On renvoie à VonSachs and
VanBellegem (2002) pour plus de précisions au sujet de l’estimation des GARCH. On
propose le code R suivant, stricte application de ce qui vient d’être dit : il s’agit d’un
code permettant d’estimer un GARCH(1,1) par Newton Raphson, avec matrice BHHH.

[Link]<-function(theta,x){
G=matrix(1,3,1)
n=nrow(x)
check=theta
j=1;
while(sum(G^2)>0.0001){
# Computation of sigma2
sigma2=matrix(theta[1,1],n,1);
for (i in 2:n){sigma2[i,1]=theta[1,1]+theta[2,1]*sigma2[(i-1),1]+theta[3,1]*x[(i-1),1]^2}
comp=[Link]((x^2-sigma2)/sigma2^2);
BHHH=cbind(comp[2:n,1],comp[2:n,1]*sigma2[1:(n-1),1],comp[2:n,1]*x[1:(n-1),1]^2);
H=(t(BHHH)%*%BHHH);
G[1,1]=sum(BHHH[,1]);
G[2,1]=sum(BHHH[,2]);
5.3. LES MODÈLES ARCH-GARCH 129

G[3,1]=sum(BHHH[,3]);
cat(j,"\n");
check=cbind(check,theta+solve(H)%*%G);
theta=theta+solve(H)%*%G;
j=j+1
}
var=sqrt(diag(solve(H)));
test=theta/var
return(list(theta=theta,check=check, test=test))
}

5.3.5 Premières Applications

Avant de se lancer dans des applications plus complexes utilisant quelques raffinements
des modèles GARCH, on présente une application simple, visant à estimer un modèle
GARCH sur les rentabilités mensuelles de l’indice DAX.

[Link] Etude de la volatilité sous-jacente de l’indice DAX

La figure 5.25 présente l’évolution de la rentabilité journlières du DAX depuis 2000,

avec ses ACF et PACF. On remarque les quelques faits stylisés présentés plus haut :
existence d’agrégats de volatilité et faiblesse de l’autocorrélation dans les rendements.
Ce dernier point appelle à commentaire : l’existence d’une légère autocorrélation est en
général le fait des séries longues. Celle-ci disparait aisément à mesure que l’on réduit la
taille de l’échantillon et/ou que l’on utilise des données plus récentes. Quoiqu’il arrive,
les prix des actifs sont en général martingale, et rien d’autre.

On étudie naturellement les ACF et PACF des rendements élevés au carré sur la fi-
gure 5.26. On remarque ce qui a été dit plus haut : l’autocorrélation dans les rende-
ments au carré décroit lentement et la PACF admet quelques valeurs significativement
différentes de 0. Ceci suggère naturellement l’estimation d’un modèle GARCH avec un
ordre faible. On choisit ici délibérément un GARCH(1,1), en utilisant la fonction R
fournie précédement.

La table [Link] fournit les estimations d’un modèle GARCH(1,1) sur nos données. On
remarque l’ensemble des paramètres est significatif à 95%. La figure 5.27 présente les
résidus du modèle GARCH. On rappelle que les résidus d’un GARCH sont données
par √xht et non par l’écart entre le modèle et les résidus. On constate que ces résidus
t
ne présentent presque plus de phénomènes de cluster de volatilité. En revanche l’étude
de la PACF et de l’ACF du carré des résidus (figure 5.28) conclue naturellement à
l’insuffisance de l’ordre du GARCH choisit : il subsiste encore de la corrélation.

La figure 5.29 fournit l’évolution de la variance conditionnelle du DAX : encore une

fois, la volatilité est une composante inobservable et les modèles GARCH constituent
une approxiamtion permettant de la mettre à jour.
130CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Rendements du DAX depuis 2000

Rendements DAX

0.05
−0.05

2000 2001 2002 2003 2004 2005 2006

Time

ACF des rendements du DAX

0.8
ACF

0.4
0.0

0.00 0.02 0.04 0.06 0.08 0.10 0.12

Lag

PACF des rendements du DAX

Partial ACF

0.05
−0.05

0.00 0.02 0.04 0.06 0.08 0.10 0.12

Lag

Fig. 5.25 – Rendements du DAX depuis 2000 : chronique, ACF et PACF

ACF des rendements du DAX au carré

0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

PACF des rendements du DAX au carré

0.15
Partial ACF

0.05
−0.05

0 5 10 15 20 25 30

Lag

Fig. 5.26 – ACF et PACF des rendements du DAX élevés au carré

5.3. LES MODÈLES ARCH-GARCH 131

rend

● ● ●
0.05

● ●●
● ● ●
● ● ●
●● ● ●●
●●● ●● ●
●●●● ●● ● ● ● ● ● ● ●
●●
● ● ● ● ●● ●● ●●●●● ● ●●●●● ●
●● ●● ● ●● ● ●
● ●●●● ● ● ●●● ● ● ●●
●● ●● ●● ● ● ● ●● ● ●●●● ● ● ● ● ● ●● ● ●● ●● ●● ● ● ●●● ●
●
●●● ● ●● ●
Series

●●● ●●●● ●● ●● ● ●●● ●●● ● ●● ●●●●● ● ●● ●●● ●● ● ●●

●
●●
●●●●●●
●● ●● ●●
●● ●●●● ●
●
●●●
●
●●● ●
●●●●●● ●●●●● ●
●●●●● ●
●●●
●● ● ●● ●
●
●●●●● ●● ●●●● ●●●
●● ●
●●
●
●●● ●●●●●
● ●● ●●
●●
● ●●●
●●
●●● ●
●●●● ●
●
●● ● ● ●●●
● ●●
●● ● ● ●● ●
● ● ● ●
●●●
● ●● ● ●●●●
● ●●● ● ●●●
● ● ● ●● ●●●
●
●●●
●●●
● ●
●
●
●●●●●
●●●
● ●
●●
●
●●●
●
● ●
●
●●
●
●
●
●
●
●
●●●●
●●
●●●
●
●●
●●●
●●
●
●● ●●●
●●
●●
●
●
●
●
●
●●
●
●
●
●
●●
●
●●●
●
●●
● ●
●
●●
●●●
●●
● ●
●●
●●
●
●
●
● ●
●
●
●● ●●●
●
●
● ●
●
●●
●
●
●
●
●
●●
●● ●●
●
●●
●
●
●
●
●
●
●●●●
●
● ●
●●
●
●
●●● ●●● ●
●●
● ●● ●
●●
●
●●●●●●●
●●
● ●●●
●
●●
●
●
●
●●
●
●●●
●
●●
●
●
●
●
●●
●●
●
●●●
●
●
●●
●
●●●
●
●
●
●●
●
●●
●
●●
●
●●
●●
●●
●●
●
●●
●●
●
●
●
●
●●●●
●
●
●
●●●
●●
●●●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●●
●
●
●
●
●
●●
●●
●●●
●
●●●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●●
●
●●
● ●
●
●●
●
●●
●
●
●
●●●●
●
●
●●
●●
●
●
●●
●
●●
●
●●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●
●
●
●●
●
●●
●●
●
●●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
● ●
●
●
●●
●
●
●●
●●●
●●
●
●
●
●
●●
● ●
●
●
●
●
●
●
●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●
●
●●
●●●
●
●
●●
●●
●
●
●
●
●
●
●
●
●
●●
●
●●
●
●
●
●
●●
●
●
● ●
● ●● ●●
●●
●
●
●●●
●
●
●
●
●
●
●●
●●
●
●●
●●●●
●
●●●
●●
●
●
●●
●
●●
●●
●
●●
●
●
●
●
●
●
●
● ●●●
●●●●
●●
●
●
●
●
●
●
●●
●●●
●●●
●
●●
●
●●
●
●
●●●●●●
●
●
●
●
●
●●
●●●●
●
●●
●
●●
●
●●●
●●●
●
●
●
●● ●
● ●
●● ● ●
●
●
●
●●●●
●●●●
●● ●
●●●●
●
●●●
●
●●●
●
●
●●●●
●
●●
●
●
●
●
●
●
●
●●
●
●
● ●
●
●
●●
● ●
●●●
●●●
●
●●
●
● ● ●
● ●
●●●●
●
●●
●●
●●
● ●
●●●
●●●●●
●●
●●●●
●
●
●●
●●●
●●●
●
●●●
●
●
●
●●
●
●●●
●●
●●●
●
● ●●
●
●
●●
●●
● ●●
●●●
●
●
●●
●●
●●
●
●●
●
●
●
●●
●
●
●●
●
●
●
●
●●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●
●●●●
●●●
●●●●
●
●
● ●●●●
●
●
●●
●●
●●●
●
●
●●●
●
●●
●
●
● ●
●●
●
●●●
●
●●●●
●●
●●
● ●
●
●
●
●●
●
●●
●
●
●
●
●
●
●●●
●
●●●●●● ●
●
● ●
●●
●
● ● ●
●●
●
●●
●●
●●●
●●
●
●
●
● ●●
● ●●
●● ● ●
●●● ●
● ●● ●
● ● ● ● ●● ●
● ● ●● ●
● ● ●●
●●●● ● ● ● ● ●
●● ●
●
●●●● ● ●
●
●
●●●
●●●●
●● ● ●
●●
●●●●●●
●●●
●
●● ● ●
●●
● ●●
●●
●●
●●●
● ●●● ●●●●
●
●
●● ●●●● ● ● ●● ● ●
● ● ●●● ●● ●●
● ● ● ●● ●
●
●
●
● ●● ●● ● ● ●● ● ●
●● ●● ●●●●● ● ●● ●
● ● ● ●●● ● ● ● ●●
● ●● ●● ● ● ●
−0.05

● ●● ● ● ●●●● ● ● ●
●● ● ● ● ●
●● ●
●
● ● ●●●
● ●
●
●
●

0 500 1000 1500

Index

Residuals

● ● ● ●
● ● ● ● ●● ● ● ●
● ●
● ● ● ● ● ●
● ● ● ● ●● ●● ● ●●● ● ●
●● ●● ● ● ●●● ●●
2

● ●

0 500 1000 1500

Index

Fig. 5.27 – Rendements et résidus GARCH

ACF of Squared rend

0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

ACF of Squared Residuals

0.8
ACF

0.4
0.0

0 5 10 15 20 25 30

Lag

Fig. 5.28 – ACF et PACF des rendements du DAX et des résidus GARCH
132CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Estimate [Link] t-value Pr(> |t|)

ω0 1.154e-06 3.047e-07 3.788 0.000152
ω1 7.166e-02 8.113e-03 8.832 2,00E-16
ω2 9.208e-01 8.827e-03 104.324 2,00E-16

Tab. 5.3 – Estimation d’un GARCH(1,1) sur données historiques du DAX

Variance estimée par processus GARCH(1,1)

0.035
0.030
0.025
Variance conditionnelle

0.020
0.015
0.010
0.005

2000 2001 2002 2003 2004 2005 2006

Time

Fig. 5.29 – Volatilité estimée par processus GARCH sur DAX

[Link] Formule de Black Scholes avec processus GARCH : version ad-hoc

On propose parfois d’utiliser la volatilité conditionnelle dans le cadre de la formule de
Black Schole : il s’agit d’une version ad-hoc de raffinements proposés par Heston et
Nandi plus tard.
√
A l’aide d’un processus GARCH, on obtient ht la volatilité conditionnelle pour chaque
date d’existence de l’option étudiée. On s’interroge alors : l’erreur générée, i.e. l’écart
entre prix de marché et prix Black Scholes, est elle moindre lorsque l’on utilise la
l’écart type des rendements comme mesure de la volatilié ou la racine de la variance
conditionnelle obtenue dans le cadre d’un modèle GARCH ? Pour répondre à cette
question, on utilise généralement comme critère le Root Mean Square Error, c’est à dire
la racine de l’erreur au carré moyenne. En notant Pt le prix réel de l’option et Pet le
prix tel que la formule de Black Schole le propose, le RMSE est alors :
v
u n
u1 X
RM SE = t (Pi − Pei )2 (5.301)
n
i=1
5.3. LES MODÈLES ARCH-GARCH 133

Le tableau suivant fourni les erreurs des versions standards et GARCH ad-hoc générées
par la formule de Black-Scholes.

Strike Erreur GARCH Erreur BS standard

4000 116,3457 115,7618
4300 25,5418 22,20917
4400 24,40097 20,82484
4500 21,94736 18,3525
4600 19,0568 15,68696
4700 16,8634 14,15297
4800 16,16095 14,37239
4900 15,71973 13,48666
5000 11,66557 9,937144

Le modèle BS standard semble surperformer nettement le modèle GARCH ad-hoc. Si

cet avis est sans appel à la lecture de la table, l’observation du graphique 5.30 conduit à
un tout autre jugement. On observe que le prix avec volatilité GARCH suit globalement
bien mieux le vrai prix de l’option, sauf dans quelques rares cas pour lesquels il s’en
écarte singulièrement, conduisant aux résultats donnés dans la table. L’explication à ce
phénomène est simple : la formule de BS est très sensible à la volatilité. Pour les dates
présentant ces écarts importants, la volatilité GARCH connait un saut, conduisant le
prix BS à s’écarter du vrai prix de l’option.

[Link] Prévision de la volatilité et ses usages

Une fois un modèle GARCH calibré, il est possible de procéder à une analyse plus fine
de la volatilité d’un sous-jacent. La volatilité est principalement utilisée dans le cadre de
la Value at Risk et dans le cadre des modèles d’option. L’avantage d’un modèle GARCH
est qu’il permet de construire une prévision naı̈ve de la volatilité future du marché, sur
une période courte. On présente ici quelques questions relatives à la prévision de la
volatilité du rendement d’un actif.

Dans le cadre d’un modèle GARCH(1,1), de la forme suivante :

p
xt = ht t (5.302)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.303)

avec t ∼ N (0, 1), il est aisé d’obtenir une prévision en date t de la variance condition-
nelle en date t + 1 :

E[ht+1 |ht ] = ω0 + ω1 E[x2t |ht ] + ω2 ht (5.304)

= ω0 + (ω1 + ω2 )ht (5.305)
134CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

70
60
50
40
Prix option

30
20
10
0

0 50 100 150

Index

Fig. 5.30 – Prix du call DAX (rouge), prix BS standard (vert) et prix GARCH BS
ad-hoc

Volatilité conditionnelle GARCH

Volatilité

0.009
0.007

0 50 100 150

Index

Prix BS GARCH Ad hoc

50
Prix BS

30
0 10

0 50 100 150

Index

Fig. 5.31 – Prix théorique contre volatilité conditionnelle pour une option hors de la
monnaie.
5.3. LES MODÈLES ARCH-GARCH 135

On déduit de façon récursive la suite des variances conditionnelles :

E[ht+2 |ht ] = ω0 + ω1 E[x2t+1 |ht ] + ω2 E[ht+1 |ht ] (5.306)

= ω0 + ω1 E[ht+1 |ht ] + ω2 E[ht+1 |ht ] (5.307)
= ω0 + (ω1 + ω2 )E[ht+1 |ht ] (5.308)
= ω0 + (ω1 + ω2 )(ω0 + (ω1 + ω2 )ht ) (5.309)
2
= ω0 (1 + (ω1 + ω2 )) + (ω1 + ω2 ) ht ) (5.310)
(5.311)

Comme on l’a montré lors du calcul da variance non conditionnelle, en procédant par
récursion, on trouve la formule générale suivante :
h−1
X
E[ht+h |ht ] = ω0 (ω1 + ω2 )i + (ω1 + ω2 )h ht ) (5.312)
i=0
(5.313)

Comme dans le cas des ARMA, la prévision s’écrase rapidement contre la variance non
conditionnelle. Ainsi l’horizon prédictif des modèles GARCH est limité : ces modèles
sont bien mieux adaptés pour fournir une mesure de la volatilité, qui, rappelons le, est
par essence inobservable.

Une des utilisations possibles de l’algorithme de prévision de la volatilité qui vient

d’être développé conduit naturellement à une prévision de la Value at Risk. On rap-
pelle brievement le sens et le mode de calcul de cette mesure de risque, sur la base de
ce qui en est dit dans Tsay (2002).

[Link].1 La VaR
La VaR est le benchmark le plus utilisé quand il s’agit de juger de l’exposition maxi-
male au risque de marché produit par une position donnée sur le marché. Le risque de
marché est un terme générique permettant de décrire plusieurs situations possibles sur
le marché, selon le montant des engagements produits. Une position conduisant à in-
vestir dans un seul et unique actif n’induit pas la même exposition au risque de marché
qu’une position prise sur différents actifs simultanément. Dans le cas où l’on détient
un portefeuille d’actifs, et en dépis des mécanismes bien connus de la diversification, la
dépendance existant entre les différents actifs du portefeuille fait peser sur sa rentabilité
une menace particulière, souvent présenté sous le titre de risque de corrélation.

La VaR peut être simplement définie comme la perte maximale liée à une position de
marché, sur une fenetre de temps particulière et pour un niveau de probabilité donné :
en supposant que l’on connaisse la loi du rendement du portefeuille, on est en mesure
de donné le montant maximal de perte que l’on peut réaliser, dans le cadre d’une pro-
babilité égale à 95%. Cela signifie simplement que dans 95% des cas, la perte ne devrait
pas dépenser cette mesure de risque. Evidement, la perte ne se juge pas en terme de
rentabilité ! Il est donc nécessaire de passer de la perte en terme de rentabilité à celle
en terme de prix, en passant à l’exponentielle.
136CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

L’idée est donc : connaissant la loi de t rt+h , i.e. des rendements sur la période de temps
allant de t à t + h (la fenêtre de temps), on cherche la chutte maximale que peut
connaitre le rendement du portefeuille sur ce même intervalle, avec une probabilité
égale à 90% ou 95%. Plus formellement, ceci revient à chercher :

P (t rt+h ≥ V aR) = 95% (5.314)

Il est indifférent de rechercher la valeur VaR dans le cadre de la précédement formule

ou dans le cas suivant :

P (t rt+h ≤ V aR) = 5% (5.315)

Ceci vient simplement du fait que :

P (t rt+h ≥ V aR) = 1 − P (t rt+h ≤ V aR) (5.316)

En travaillant en terme de densités, les inégalités strictes et large ne produisent aucune

différence de calcul. La VaR correspond simplement au quantile à 5% de la loi des
rendements. A la différence des tests statistiques comme le test de Student qui sont des
tests bilatéraux, il s’agit ici d’un quantile ”unilatéral” : il n’est donc pas nécessaire de
calculer un quantile à x%/2, comme on le fait pour un test de Student.

Une fois ce quantilé obtenu (sous R, la function quantile permet d’obtenir une esti-
mation non paramétrique de ce quantile), il est alors possible d’obtenir une estimation
de la VaR en terme de prix, i.e. en terme de perte nette :

P (t rt+h ≤ V aR) = 5% (5.317)

⇔P (exp{t rt+h } ≤ exp{V aR}) = 5% (5.318)
⇔P (Pt exp{t rt+h } ≤ Pt exp{V aR}) = 5% (5.319)
⇔P (αPt+h } ≤ αPt exp{V aR}) = 5% (5.320)

On obtient ainsi la perte nette maximale obtenue pour une probabilité égale à 95%.
Ceci amène plusieurs commentaires :

– α est ici un coefficient multiplicatif traduisant le montant de l’engagement dans le

titre.

– Cette probabilité est en réalité une probabilité conditionnelle : sachant αPt , le mon-
tant net de l’engagement à la date t dans l’actif étudié, quel serait la perte maximale
rencontrée dans 95% des cas pour un horizon h.

– Il s’agit d’une VaR dans le cas d’une position courte : on a ici acheté le titre, et
seule une baisse de son cours (un enchainement de rentabilité négatives) peut nous
conduire à perdre de l’argent. On opère le raisonnement inverse dans le cas où l’on est
placé dans le cadre d’une position longue (vendeur à découvert) dans le titre étudié.
La perte dans ce cas viendra naturellement d’une montée du cours de l’actif. Il est
alors nécessaire de calculer la hausse maximale que le titre peut enregistrer dans 95%
des cas.
5.3. LES MODÈLES ARCH-GARCH 137

On rappelle simplement que la fonction quantile pour une variable aléatoire x est la
fonction telle que :

xp = inf {x|F (x) ≥ p} (5.321)

où p est une probabilité donnée.

Comme présenté dans Tsay (2002), le calcul de VaR est loin d’être aisé. Il nécessite de
nombreux inputs :

– La probabilité utilisée : en général 5% ou 1%.

– L’horizon de calcul : une VaR à un mois n’a souvent rien à voir avec une VaR à 1
jours.
– La fréquence des données utilisées : travaille-t-on sur des rendements journaliers,
hebdomadaires, mensuels ?
– La fonction de répartition des rendements : la fonction de répartition non condi-
tionnelle peut être obtenue à l’aide d’une estimation non paramétrique alors qu’un
fonction paramétrique peut être obtenue plus directement.
– Le montant et le sens de la position dans l’actif étudié.
– Dans le cas où il s’agit d’un portefeuille, il est nécessaire de déterminer la structure
de dépendance liant les différents actifs en portefeuille.

Nombre de ces items sont en général fixés par le régulateur (accords Bâle II par
exemple). Notons que le calcul de la VaR sert aux comptables pour déterminer le
montant de provisions à passer pour couvrir le risque de marché. Il s’agit d’un montant
placé dans les capitaux propres (Provisions pour risques et charges) afin de faire face
à un décrochage violent mais temporaire du marché. Inutile de rappeler qu’un retour-
nement puissant et durable du marché conduit à des effets systémiques d’une ampleur
telle qu’il est impossible d’y faire face avec ce simple montant en poche. Ainsi, d’un
point de vu pratique, on fixe en général de façon institutionnelle un montant de VaR
qui sera passé en provision pour l’année à venir. Il sert ensuite à piloter le montant et le
sens des engagements dans les actifs en portefeuille : on détermine la VaR de l’ensemble
des titres détenus, et on vérifie que celle-ci ne dépasse pas le montant conventionnel-
lement fixé. Dans le cas où la banque est engagée dans différents marchés, et possède
donc différents desks, il est alors nécessaire d’allouer une part de la VaR conventionnelle
à chacun de ces desks.

[Link].2 Calcul de la VaR à l’aide de modèles GARCH Comme le fait très

justement remarqué Tsay (2002), la VaR est une prévision de la perte possible pour
un horizon donné. Elle devrait toujours et partout calculée à l’aide d’une distribu-
tion prédictive (predictive distribution) du futur des rendements du portefeuille. Par
exemple, une VaR pour un horizon d’un jour utilisant des rendements journaliers rt
devrait normalement être calculée en utilisant la distribution prédictive du rendements
rt+1 , sachant l’information disponible à la date t. On imagine alors qu’il serait alors
nécessaire de tenir compte de l’erreur possible d’estimation, comme on le fait à chaque
fois que l’on travaille d’un point de vue économétrique. Dans la réalité, les méthodes
utilisés ne se base pas sur ces distributions prédictives, et ne tiennent pas compte des
138CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

erreurs d’estimation. On propose néanmoins de montrer comment les modèles GARCH

peuvent être utilisés afin de déterminer une VaR.

On reviendra plus loin sur la méthodologie proposées par RiskMetrics (méthode EWMA),
dans la mesure où elle corresond à un modèle GARCH ”raffiné” (modèle GARCH
intégré).

[Link].2.1 VaR dans le cas univarié

Il est très aisé de déterminer une VaR pour un unique sous-jacent à l’aide d’un modèle
GARCH. On prend encore ici le cas simple d’un GARCH(1,1), appliqué au CAC40 (les
données sous tirées de la base EuStockMarkets, disponible dans R). On estime sur les
rendements du CAC le modèle suivant :
q
rtCAC = hCAC
t CAC
t (5.322)
hCAC
t = ω0CAC + ω1CAC rt−1
CAC
+ ω2CAC hCAC
t−1 (5.323)

Avec CAC ∼ N (0, 1). Les estimations obtenues sont les suivantes :

Estimate Std. Error t-value p-value

ω0 0,00001178 2,675E-06 4,406 0
ω1 0,05916 0,01124 5,261 0
ω2 0,8439 0,0315 26,791 0

A l’aide de ces résultats, on peut déterminer une VaR pour l’horizon souhaité. Pour
une la VaR à un jour, on cherche :

CAC
≤ V aR1CAC = 5%

P rt+1 (5.324)
q
CAC CAC CAC
⇔P ht+1 t+1 ≤ V aR1 = 5% (5.325)
 
V aR1CAC
⇔P CAC
t+1 ≤ q
 = 5% (5.326)
CAC
ht+1

suivant une loi normale centrée réduite, on connait le quantile à 5% : il vaut -1,64.
On en déduit donc :

V aRCAC
⇔q 1 = −1, 64 (5.327)
hCAC
t+1
q
⇔V aR1CAC = −1, 64 hCAC
t+1 (5.328)
5.3. LES MODÈLES ARCH-GARCH 139

On en déduit alors la VaR en terme de pertes :

q q
CAC CAC CAC CAC
P rt+1 ≤ −1, 64 ht+1 = P exp{rt+1 } ≤ exp{−1, 64 ht+1 } (5.329)
q
CAC CAC CAC CAC
= P Pt exp{rt+1 } ≤ Pt exp{−1, 64 ht+1 }
(5.330)
q
CAC CAC CAC
= P Pt+1 ≤ Pt exp{−1, 64 ht+1 } (5.331)

La fin des calculs s’appuie sur des données numériques : on a besoin du prix du CAC en
date t ainsi que la prévision de la volatilité à la date t + 1. On a procédé à ces quelques
calculs sous R. On présente le résultat des opérations : on a calculé pour toutes les dates
la VaR à un jour. Elle est présentée en figure 5.32.

VaR pour CAC

2600
2400
2200
2000
Prix

1800
1600
1400
1200

0 200 400 600 800

Index

Fig. 5.32 – Value at Risk à un jour

Dans le cas où l’on souhaite obtenir une VaR pour un horizon t + h quelconque, les
choses se complexifient légèrement. On cherche à définir une borne basse pour Pt+h .
On travaille en rendements, i.e. sur :

Pt+h
r̃t+h = ln (5.332)
Pt

Il est alors nécessaire de travailler sur la distribution conditionnelle prédictive, i.e. sur
140CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

la loi de r̃t+h . Pour cela, on remarque que :

Pt+h Pt+1 Pt+2 Pt+h
ln = ln ... (5.333)
Pt Pt Pt+1 Pt+h−1
h
X Pt+i
= ln (5.334)
Pt+i−1
i=1
Xh
= rt+i (5.335)
i=1

On peut déterminer la loi conditionnelle de cette somme de rendements :

" h # h
X X
E rt+i = E [rt+i ] (5.336)
i=1 i=1
" h # h
X X
V rt+i = V [rt+i ] (5.337)
i=1 i=1
h
X
= E [ht+i ] (5.338)
i=1

L’ensemble de ces précédents calculs sont en réalité conditionnellement à l’information

disponible à la date t. Pour alléger les notations, on a éliminé les notations condi-
tionnelles. Il ne reste plus qu’à utiliser ce qui a été dit sur la prévision des variances
au début de cette section pour être capable de déterminer la VaR sur les rendements
futurs, conditionnellement à l’information disponible à la date t. On sait que :
h
!
X
r̃t+h ∼ N 0, E [ht+i ] (5.339)
i=1

On en déduit à la VaR en constatant que :

r̃
qP t+h ∼ N (0, 1) (5.340)
h
i=1 E [ht+i ]

D’où la VaR à 5% est égale à :

v
u h
uX
V aR = −1, 64t E [ht+i ] (5.341)
i=1

Comme précédement, on en déduit la VaR en terme de pertes nettes :

v
u h
uX
V aRPt+h = Pt exp{−1, 64t E [ht+i ]} (5.342)
i=1

Il suffit donc de calculer la somme des variances conditionnelles pour déterminer ensuite
une VaR forward pour un horizon h. On représente la VaR et les moments où celle-ci
5.3. LES MODÈLES ARCH-GARCH 141

2600
2400
2200
2000 VaR pour CAC
Prix

1800
1600
1400
1200

0 200 400 600 800

Index

Fig. 5.33 – Value at Risk à dix jour

est violée sur la figure 5.33.

Les performances de l’approche à un jour et à dix jours appellent un simple commen-

taire. Dans le cas d’un VaR à un jour, le pourcentage de dépassement de la VaR est
de 0,036 alors que dans le cas à 10 jours ce pourcentage est de 0,1168, ce qui est large-
ment supérieur aux 5% autorisés. Ceci s’explique simplement par le fait que la prévision
de la variance pour les modèles GARCH converge rapidement vers la la variance non
conditionnelle, appauvrissant l’impact de la métode utilisée. Les modèles GARCH sont
considérés comme des modèles à mémoire courte, i.e. qu’il retourne rapidement à la
distribution non conditionnelle du processus. La méthode EWMA de Riskmetricks re-
pose sur un modèle dit intégré, permettant de prendre en compte cet aspect mémoire
longue de la volatilité.

[Link].2.2 VaR dans le cas bivarié : VaR par simulation

On se préocuppe à présent d’introduire un certain nombre d’idées concernant le cal-
cul de la VaR d’un portefeuille de titre. Ces questions sont essentielles : ce sont elles
qui sont en général utiles au quotidien des risks managers, dans la mesure où l’activité
d’une banque ne se limite jamais à un seul et unique actif.

Avant toute chose, il est important de remarqué que la VaR d’un portefeuille, i.e. d’une
somme d’actifs pondérés, n’est pas jamais la sommes pondérée des VaR des différents
acifs. Ce qui rend le calcul de VaR d’un portefeuille complexe est la dépendance exis-
tante entre les différents actifs composant le portefeuille. Dans le cadre d’un modèle
142CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

conditionnellement gaussien comme c’est le cas pour un processus GARCH, cette

dépendance est simplement mesurée par le coefficient de corrélation entre les deux
termes d’erreurs. Soit deux actifs de rendement r1 et r2 suivant des processus GARCH(1,1) :
p
r1,t = h1,t 1,t
2 (5.343)
h1,t = ω1,0 + ω1,1 r1,t−1 + ω1,2 h1,t−1
p
r2,t = h2,t 2,t
2 (5.344)
h2,t = ω2,0 + ω2,1 r2,t−1 + ω2,2 h2,t−1

avec (i,t )i=1,2 ∼ N (0, 1) et corr(1,t , 2,t ) = ρ.

On se propose de déterminer la VaR de la somme de ces actifs, non par calcul direct,
mais par simulation. Connaissant ρ, on est en mesure de simuler des corrélés, puis
de simuler les processus r1 et r2 conditionnellement à l’information disponible en t.
Enfin, on est en mesure de retrouver la VaR en terme de perte nette, comme on l’a fait
précédement, en prenant l’exponentielle de chaque rendements.

On applique cette méthode à un portefeuille constitué d’une unité de DAX et d’une

unité de CAC. On estime un GARCH(1,1) sur les rendements de ces actifs. Les résultats
sont présentés dans la table suivante :

Estimate Std. Error t-value p-value

CAC ω0 0,00001178 0,000002675 4,406 0
ω1 0,05916 0,01124 5,261 0
ω2 0,8439 0,0315 26,791 0
DAX ω0 0,000004639 0,000000756 6,137 0
ω1 0,06833 0,01125 6,073 0
ω2 0,8891 0,01652 53,817 0

Une fois ceci fait, on estime la corrélation entre les résidus, en supposant que celle-ci
n’est différente de 0 qu’instantanément (pas de corrélation entre les résidus pour un
retard quelconque). On commence alors les simulations :

1. En partant d’un point donné dans le temps, on simule h 1 et h 2 , pour l’instant

décorrélés.
2. On transforme ces deux vecteurs de résidus, de façon à ce qu’ils soient corrélés.
En notant M la matrice de corrélation entre ces deux résidus que l’on souhaite
obtenir, on a :

1 ρ
M= (5.345)
ρ 1

On utilise alors une décomposition de Choleski : il s’agit de déterminer une matrice

F , telle que F T F = M . Pour obtenir deux séries d’innovations corrélés, il suffit
5.3. LES MODÈLES ARCH-GARCH 143

de multiplier la matrice composée de deux colonnes contenant les résidus simulés

et pour l’instant décorrélés par F . En notant la matrice suivante :
 
1,1 1,2
 2,1 2,2 
= . (5.346)
 
.. 
 .. . 
h,1 h,2
On calcule donc le produit F .
3. On calcule ensuite de façon récursive les différentes valeurs de r1 et r2 , en calculant
au préalable la valeur de la variance conditionnelle.
4. Finalement, on calcule r˜1 et r˜2 , la somme des rentabilités calculée pour le titre 1
et 2.
On répète ces simulations pour un nombre raisonnable de fois (un millier de fois conduit
à des estimations précises). Enfin, on détermine la VaR de r˜1 et r˜2 à 5% de façon non
paramétrique (commande quantile sous R). Une fois ces VaR univariées déterminées,
on est en mesure de calculer la VaR en terme de perte nette du portefeuille détenu. Il
suffit de calculer :
V aRP = PtCAC × exp{V aRCAC } + PtDAX × exp{V aRDAX } (5.347)
où V aRi est la VaR calculée sur la somme des rendements du titre i. On répète l’en-
semble des opérations pour toutes les dates d’intéret dans une approche backtesting.

On a procédé à une application sur le portefeuille CAC+DAX pour une VaR à 10 jours.
On présente les résultats obtenus en figure 5.34. Les résultats semblent intéressants. Le
principal problème reposant sur le fait que lorsque l’on observe une chutte brutale du
prix, on est conduit à surestimer la VaR 10 jours après. Ce résultat est naturelle dans la
mesure où la VaR à 10 jours est, à un coefficient multiplicatif pret, le prix d’aujourd’hui.

L’intérêt principal d’une démarche basée sur des simulations est qu’elle permet, en
travaillant sur des séries univariées, d’incorporer la dépendance existant entre actifs.
Mieux, comme on le détaillera dans la section sur les GARCH, on est implicitement
amené à faire varier la covariance conditionnelle entre les deux actifs, en dépis du fait
que l’on ai fixé la corrélation/covariance entre les résidus une fois pour toute. Le prin-
cipal inconvénient est que, comme à chaque fois que l’on recourt à des simulations, le
temps de calcul est plus long que dans le cas univarié simple, présenté plus haut.

Notons pour terminer qu’il est possible d’effectuer l’ensemble de ce qui vient d’être dit
sur la base de calculs explicites. Dans la mesure où les deux actifs ont des rendements
conditionnellement gaussiens, et en constatant que :
V(X + Y ) = V(X) + V(Y ) + 2Cov(X, Y ) (5.348)
on est en mesure de décrire la loi conditionnelle de l’ensemble des deux rendements. En
effet, on sait que :
E[r1,t + r2,t |ht ] = 0 (5.349)
p p
V[r1,t + r2,t |ht ] = h1,t + h2,t + 2 h1,t h2,t ρ (5.350)
(5.351)
144CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

3800
3600
Portefeuille

3400
3200
3000

0 50 100 150 200 250 300

Index

Fig. 5.34 – Value at Risk multivariée à dix jour

Il est alors possible d’écrire la VaR pour l’horizon souhaité, sans trop de problèmes
(théoriques). Il évident que d’un point de vue pratique, l’utilisation de la corrélation
comme mesure de dépendance est plus qu’un pari risqué ! On rappelle simplement que
la corrélation n’est qu’une mesure de l’existance d’un lien linéaire entre actifs. Ces
questions sont à mon sens - pour l’instant - bien trop avancées pour être intégrées dans
ce cours. Les problèmes de mesure de dépendance sont abordées dans Embrechts et al.
(1999) et Embrechts et al. (2001). L’une des réponses actuelles (quoique ceci commence
à dater) à ces question de corrélations passe par les copules, outil statistique permettant
de travailler de façon plus aisée avec des fonctions de répartition multidimensionelles.
Le lecteur intéressé par les applications en finance de ce type d’outils lira Cherubini
et al. (2005) avec intéret.

5.3.6 Bestiaire des GARCH

Il existe de nombreux processus GARCH, existant pour des raisons diverses : prise en
compte de la lente décroissance de l’autocorrélation du processus de volatilité, prise
en compte du lien risque/rentabilité, prise en compte de l’asymétrie observée dans les
rendements ou liens avec des processus continus. On présente ici trois extensions pos-
sibles des processus GARCH : les modèles GARCH intégrés, les modèles GARCH-M,
les modèles GARCH asymétriques ainsi que le modèle GARCH de Heston.
5.3. LES MODÈLES ARCH-GARCH 145

[Link] GARCH-M
Les modèles GARCH-M furent initialement introduits par Engle et al. (1987) : l’ambi-
tion de l’article est de présenter un modèle permettant de rétablir le lien entre rentabilité
et rendement, cher à la finance de marché. L’idée est donc de faire dépendre la renta-
bilité conditionnelle du risque conditionnel lui-même, de façon linéaire le plus souvent.
Le modèle GARCH-M(1,1) est le suivant :
p
xt = λht + ht t (5.352)
ht = ω0 + ω1 x2t−1 + ω2 ht−1 (5.353)

avec t ∼ N (0, 1). Seule la première équation est modifiée par rapport à un GARCH
classique : on ajoute un terme multiplicatif de la variance, λht , que l’on appelle prime
de risque. On donne les moments conditionnels :

E[xt |ht ] = λht (5.354)

p
V[xt |ht ] = V[λht + ht t |ht ] = ht (5.355)

L’introduction de la prime de risque n’a conduit qu’à la modification de l’espérance

conditionnelle, laissant la variance conditionnelle inchangée. Cette modification ne mo-
difiant que la valeur de l’espérance, ce processus reçu donc le nom de GARCH in mean,
ou GARCH-M. Le calcul des moments non conditionnels est ici passé sous silence :
ceux-ci sont naturellement plus complexes que ceux proposés dans le cadre des simples
GARCH.

Les restrictions habituelles s’appliquent aux paramètres de la variance conditionnelle.

L’inférence de ce type de processus ne pose pas de problème : on applique les mêmes
méthodes que celles présentées plus haut, dans le cas des processus ARCH/GARCH.
Là encore, on estime ces modèles par maximum de vraisemblance conditionnel, sachant
que :

xt |ht ∼ N (λht , ht ) (5.356)

Il est alors aisé de déterminer la log-vraisemblance conditionnelle du processus, pour n

observations :
n
!
n 1 X (xt − λht )2
lnL = − ln(2π) − ln(ht ) + (5.357)
2 2 ht
i=1

Ajoutons que les GARCH-M sont naturellement leptokurtiques, tout comme les GARCH.
Qu’en est il cependant de l’asymétrie du processus ? Plutot que de se lancer dans des
calculs longs et complexes, on a simplement procéder à des simulations : on simule
des GARCH-M avec des paramètres égaux pour toutes les simulations et on calcule à
chaque fois la skewness de la simulation. La figure 5.35 présente la densité estimée par
noyau de l’estimateur de la skewness. Les simulations ont été effectuées à l’aide d’un λ
négatif : on remarque que la série a de bonnes chances d’être asymétrique à gauche.

L’intéret de ces modèles est de permettre une mesure à chaque date de l’espérance
et de la variance des rendements. Naturellement, ceci fait penser aux modèles de type
146CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

Densité estimée de la skewness d'un GARCH−M

2.5
2.0
1.5
Density

1.0
0.5
0.0

−8 −6 −4 −2 0

N = 2000 Bandwidth = 0.03208

Fig. 5.35 – Densité non paramétrique de l’estimateur de la skewness

espérance/variance. On propose ici une application du modèle GARCH-M à la frontière

de Markowitz. Soit r1 et r2 , les rendements du titre 1 et du titre 2. Chacun de ses
rendements est supposé suivre un modèle GARCH-M qui lui est propre. On a donc :
p
r1,t = λ1 h1,t + h1,t 1,t
2 (5.358)
h1,t = ω1,0 + ω1,1 r1,t−1 + ω1,2 h1,t−1
p
r2,t = λ2 h2,t + h2,t 2,t
2 (5.359)
h2,t = ω2,0 + ω2,1 r2,t−1 + ω2,2 h2,t−1

Toute la question est alors de proprement paramétrer le lien entre 1 et 2 . On propose

simplement de supposer qu’ils sont instantanément corrélés et que cette corrélation est
constante. On a :

cor(1 , 2 ) = ρ (5.360)

On connait déjà les deux premiers moments conditionnels univariés, pour chacun des
deux actifs. Il ne reste plus qu’à déterminer la covariance conditionnelle entre r1 et r2 .
Il suffit de la calculer directement :
p p
Cov(r1,t , r2,t |h1,t , h2,t ) = Cov(λ1 h1,t + h1,t 1,t , λ2 h2,t + h2,t 2,t |h1,t , h2,t ) (5.361)
p p
= Cov( h1,t 1,t , h2,t 2,t |h1,t , h2,t ) (5.362)
p p
= h1,t h2,t Cov(1,t , 2,t |h1,t , h2,t ) (5.363)
p p
= h1,t h2,t ρ (5.364)

On obtient ainsi la corrélation conditionnelle de deux titres. On remarque que même

si la corrélation entre les deux bruits est constante au cours du temps (autrement dit,
les deux titres subissent les mêmes chocs et y répondent de façon similaire), la cova-
riance conditionnelle, elle, varie au cours du temps. On a donc à disposition espérance,
5.3. LES MODÈLES ARCH-GARCH 147

variance et covariance conditionnelle pour chaque titre. La corrélation entre les titres,
conditionnelle ou pas, reste la même :

Cov(r1,t , r2,t |h1,t , h2,t )

cor(r1,t , r2,t |h1,t , h2,t ) = =ρ (5.365)
h1,t h2,t

Les rendements étant de plus conditionnellement gaussiens, il est possible de mettre en

oeuvre la méthodologie de Markowitz sans problème. On proposer ici de travailler sur
des simulations. On simule des processus GARCH-M, liés entre eux par la corrélation
entre les innovations. Puis on représente la frontière efficiente, basée sur les moments
non conditionnels ainis que celles basées sur les moments conditionnels, évoluant au
cours du temps. On observe le résultat de ces simulations en figure 5.36.

Frontière efficiente Frontière efficiente

1.0

1.0
0.5

0.5
Rentabilité

Rentabilité

● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ●●
0.0

0.0
−1.0 −0.5

−1.0 −0.5

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Risque Risque

Frontière efficiente Frontière efficiente

1.0

1.0
0.5

0.5
Rentabilité

Rentabilité

● ● ● ● ● ● ● ● ● ●
● ●●
● ●● ● ●●
● ●●
0.0

0.0
−1.0 −0.5

−1.0 −0.5

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0

Risque Risque

Fig. 5.36 – Frontière efficiente GARCH-M

Il est à noter ici que l’on a pas procédé à l’estimation de ces modèles sur des séries réelles,
et ce pour plusieurs raisons. L’une des principales est que le lien rentabilité/risque est
loin d’être stable selon les actifs étudiés. Il serait faux de croire que le lien espérance
variance est toujours et partout validé. Il existe différents effets microstructurels qui
peuvent expliquer ces phénomènes, au nombre desquels l’impact de la liquidité sur la
formation du prix du risque. Ce type de considération dépasse cependant largement
l’objet de ce cours.

Notons simplement que sur les données étudiées dans le cadre de la VaR, il est intéressant
de remarquer que le lien risque/rentabilité existe et semble robuste. On calcule la
corrélation entre les rendements et la variance conditionnelle telle qu’on l’obtient en
estimant un modèle GARCH(1,1). En notant ρ cette corrélation, la statistique de test
148CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

permettant de tester que ρ est bel et bien significativement différent de 0 est la suivante :
ρ √
t̂ρ = p n ∼ Tn−1 (5.366)
1 − ρ2
où Tn−1 est une distribution de Student à n − 1 degrés de liberté. En calculant le coef-
ficient de corrélation ainsi que la statistique de test présentée, on obtient les résultats
suivants :

CAC DAX
ρ 0,07229244 0,04553088
t̂ 3,125987 1,965682

Sur ces séries, il semble exister une corrélation significative et positive entre rendement
et volatilité. En reprenant les estimations obtenues au cours de l’étude sur la VaR, on
propose une estimation naive du paramètre λ pour les rendements du CAC et du DAX :
on estime par MCO l’équation de la moyenne du GARCH-M, à équation de la variance
connue. La table suivant fournit les résultats de l’estimation :

Estimate Estimate Std. Error t-value p-value

CAC ω0 0,00001178 0,000002675 4,406 0,0000105
ω1 0,05916 0,01124 5,261 0,000000143
ω2 0,8439 0,0315 26,791 0
λ 0.582470 0.186532 3.123 0.00182
Constante -0,005926 0,002056 -2,882 0,00399
DAX ω0 0,00001178 0,000002675 4,406 0,0000105
ω1 0,05916 0,01124 5,261 0,000000143
ω2 0,8439 0,0315 26,791 0
λ 0.191232 0.097390 1.964 0.0497
Constante -0.001263 0.001007 -1.254 0.2099

[Link] GARCH intégrés

On aborde dans cette section l’un des principaux faits stylisés tirés des modèles GARCH :
le fait que la volatilité soit un processus ”intégré”, plus particulièrement un processus
I(1). Qu’est ce qu’un processus I(1) ? Il s’agit d’une notion tirée des séries temporelles
que nous n’avons pas encore abordée, bien qu’elle occupe une place centrale de nos
jours. Une littérature abondante s’est développée autour de cette notion de processus
intégrés, dont l’ensemble des tests de racines unitaires, qui offrent davantage de portée
académique que pratique.

Un processus intégré d’ordre 1 ou I(1) est un processus non-stationnaire (cf. fin de la

section sur les ARMA), et dont la différence d’ordre 1 est, elle, stationnaire. Il s’agit
donc d’un processus xt , dont la moyenne, la variance ou l’autocovariance dépend du
temps (n’est pas stable) mais dont la différence d’ordre 1, elle, ne dépend pas du temps.
Cette différence est évidement ∆xt = xt − xt−1 (juste pour Pépino, pour le cas où).
Un bon exemple de processus non stationnaire en finance est le prix d’un actif finan-
cier (hors électricité) : on sait que le prix du CAC n’est pas stationnaire, mais que le
5.3. LES MODÈLES ARCH-GARCH 149

DAX SMI CAC FTSE

ω1 0,07 0,75 0,88 0,94
ω2 0,89 0,11 0,05 0,05
Somme 0,96 0,86 0,93 0,99

Tab. 5.4 – Estimation de GARCH sur des indices européens

rendement (pas très loin de la différence d’ordre 1) est lui stationnaire (bruit blanc en
général).

On a pu constater lors de l’estimation des modèles GARCH(1,1) que la condition de sta-

tionnarité n’était pas toujours remplie. On rappelle que pour un modèle GARCH(1,1)
de la forme :
p
xt = ht t (5.367)
ht = ω0 + ω1 x2t−1 ω2 ht−1 (5.368)

ce processus n’est stationnaire (sa variance n’explose pas) que si ω1 + ω2 < 1. Dans
de nombreuses estimations de GARCH, on observe en général que la somme de ω1 et
ω2 très proche de 1, sans toutefois lui être supérieur. La table 5.4 présente l’estimation
de modèles GARCH(1,1) sur les différents indices européens contenus dans la base de
donnée EuStockMarkets disponible sous R. On remarque que la somme des coefficients
est très souvent proche de 1 : on parle souvent de processus intégré pour la volatilité.
Ceci fait au passage remarqué que la volatilité d’une actif financier n’est ni constante,
ni une variable lisse : il s’agit d’un processus agité, sujet à des changements de régime
le plus souvent. Il existe des modèles à changement de régime en séries temporelles, qui
ne sont pas développés dans le cadre de ce maigre cours. Un lecteur intéressé trouvera
une breve introduction dans Wang (2003)[Chapitre 5].

Ce qui suit s’inspire largement de Poon (2005)[Chapitre 4]. Un processus GARCH pour
lequel on a ω1 + ω2 = 1 est un processus non stationnaire en variance, dans la mesure
où sa variance non conditionnelle tend vers +∞. Le processus rt (les rendements) reste
cependant stationnaire au sens stricte. On dit que la volatilité conditionnelle suit un
processus IGARCH(1,1), et ni le moment d’ordre 2 ni le moments d’ordre 4 n’existent :
ils divergent tous vers +∞.

L’un des modèles de volatilité les plus utilisés en Risk Management est le modèle
EWMA de RiskMetrics. EWMA signifie Exponentially Weighted Moving Average : il
s’agit simplement d’un modèle spécifiant la volatilité comme une moyenne pondérée des
volatilités passées, avec des pondérations décroissant exponentiellement dans le temps.
D’une façon générale, le modèle s’écrit :
Pτ
β iσ2
σt+1 = i=0
2 Pτ t−i−1 i
(5.369)
i=0 β

β est appelé paramètre de lissage. Il s’agit d’une approche visant à la prévision : le

paramètre de lissage est estimé en minimisant l’erreur de prévision dans l’echantillon.
150CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

τ est l’horizon de mémoire du modèle. Ce modèle, outre le fait qu’il soit utilisé dans de
nombreuses applications de RiskMetrics, a la particularité d’être proche d’un modèle
GARCH intégré. Pour prouver cette propriété, il suffit de faire une petit coup de pont
d’Avignon : on commence par retravailler l’expression d’un GARCH(1,1), puis on re-
vient sur le modèle EWMA pour étudier la similarité.

Dans le cadre d’un GARCH(1,1), on a :

ht+1 = ω0 + ω1 x2t−1 + ω2 ht (5.370)

= ω0 + ω2 ω0 + ω1 x2t−1 + ω2 ω1 x2t−1 + ω22 ht−1 (5.371)

En poursuivant les itérations, on trouve finalement :

τ
X τ
X
ht+1 = ω0 ω1i−1 + ω0 ω1i−1 x2t−i + ω2τ ht−τ (5.372)
i=1 i=1

Alors, si ω2 < 1, lorsque τ → ∞, on a :

∞
ω0 X
ht+1 = + ω0 ω1i−1 x2t−i (5.373)
1 − ω2
i=1

Ceci est vrai, même dans le cas où ω1 + ω2 = 1. L’important est que ω2 < 1, ce qui
semble vraisemblablement être le cas sur de nombreuses séries financières. On obtient
alors une forme intéressante de volatilité. Comparons ceci au modèles EWMA :
Pτ
β iσ2
σt+1 = i=0
2 Pτ t−i−1
i
(5.374)
i=0 β

Ici aussi, pour peu que β < 1, il est possible de passer à la limite pour trouver une
forme analytique à la variance :
∞
X
2
σt+1 = (1 − β) β i σt−i−1
2
(5.375)
i=0

A une constante pret, on retrouve notre dynamique de variance GARCH(1,1). Le

modèle EWMA peut être vu à bien des égards comme un simple modèle GARCH(1,1)
intégré. L’une des propriétés remarquable de ce type de processus est qu’il ne sont pas
victimes de mean-reverting rapide comme c’est le cas pour un GARCH(1,1). Il ont au
contraire tendance à conserver et à amplifier les chocs temporaires de volatilité : ils
ont ainsi une mémoire plus longue que les simples modèles GARCH. On parle ainsi
souvent de mémoire longue de la volatilité pour désigner ce fait stylisé. Il existe des
processus de séries temporelles permettant de prendre en compte de façon statisfaisante
cette mémoire longue (dit processus à mémoire longue). Il n’est cependant pas certain
que leur application se justifie pleinement : de nombreux processus à mémoire courte
(tel que les modèles à changement de régime) génèrent eux-aussi des faits stylisés de
mémoire longue, sans être philosophiquement responsables. Il s’agit d’un terrain de
recherche empirique depuis les années 2000.
5.3. LES MODÈLES ARCH-GARCH 151

Pour terminer, revenons sur le calcul de la VaR dans la perspective d’une volatilité
intégrée. Tsay (2002)[chapitre 7] propose une ecriture alternative au modèle RiskMe-
trics. La présentation diffère légèrement de celle qui en est fournie dans Poon (2005),
même reste globalement la même. Le modèle EWMA repose sur l’hypothèse que la
distribution conditionelle des rendements soit normale, d’espérance nulle et de variance
σt . La dynamique de la variance est décrite de la façon suivante :

σt2 = βσt−1
2 2
+ (1 − β)rt−1 (5.376)

où β < 1. On retrouve donc bien un modèle intégré, avec une variance non conditionnelle
qui n’est pas définie, dans la mesure où la somme des deux paramètres de la dynamique
de la variance est égale à 1 par construction. Il s’agit par conséquent d’un modèle
IGARCH(1,1), sans drift. Il est possible de fournir une prévision de la variance, comme
on l’a fait dans le cas d’un processus GARCH classique. On construit ces prévisions de
façon récursive, en rappelant que :

rt = σt t (5.377)

avec t ∼ N (0, 1). On a alors :

2
σt+1 = βσt2 + (1 − β)(σt2 2t ) (5.378)
= σt2 − σt2 + βσt2 + (1 − β)(σt2 2t ) (5.379)
= σt2 + (1 − β)σt2 (2t − 1) (5.380)

On sait que :

E[2t |σt ] = 1 (5.381)

On en déduit donc que :

2
E[σt+1 |σt ] = E[σt2 |σt ] (5.382)

Dans un modèle intégré, la meilleure prévision de la volatilité que l’on puisse formuler,
sachant que l’information dont on dispose en t est réduite à la seule la volatilité d’au-
jourd’hui est σt . Une autre propriété remarquable découlant de ce qui vient d’être dit
est la suivante :
2 2 2
E[σt+h |σt ] = E[σt+h−1 + (1 − β)σt+h−1 (2t+h−1 − 1)|σt ] (5.383)
2
= E[σt+h−1 |σt ] (5.384)

En itérant la dernière équation, on trouve donc que la meilleure prévision que l’on
puisse formuler de la volatilité future pour un horizon t + h est la prévision que l’on
pourrait faire à un jour.

Dans le cas où la filtration ne se réduit pas à σt , mais peut être étendue à {σt , rt }, alors
la prévision à un jour diffère de la volatilité d’aujourd’hui :
2
E[σt+1 |σt , rt ] = βσt2 + (1 − β)rt2 (5.385)
152CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

On constate alors qu’un modèle intégré ne conduit pas à un retour de la prévision vers
le niveau moyen de l’échantillon : la volatilité prévue à long terme n’est ni plus moins
que celle d’aujourd’hui. Ceci est globalement en désaccord avec ce qu’on observe sur le
marché. En général, une phase de forte volatilité (bull market) est suivie d’une retour
au calme (bear market). Néanmoins, comme la table précédente le montrait, la volati-
lité, sans être complètement intégrée, n’est pas loin de l’être.

2 |σ , r ] = σ̂ 2 2 2 2
Fort de ces deux éléments (E[σt+h t t t+1 et σ̂t+1 = βσt + (1 − β)rt ), on est alors
en mesure de déterminer une VaR pour un horizon h quelconque, en reprenant P ce qui a
été dit au cours des sections précédentes. On cherche la loi conditionnelle de hi=1 rt+i ,
comme précédement. Sait faire de calcul, on sait qu’elle est gaussienne, d’espérance
nulle et de variance égale à la somme des variances, du fait de l’hypothèse d’absence
de corrélation sérielle dans les rendements. On a donc :
" h # h
X X
V rt+i |σt , rt = V [rt+i |σt , rt ] (5.386)
i=1 i=1
Xh
2
= σ̂t+1 (5.387)
i=1
2
= hσ̂t+1 (5.388)
(5.389)

Ainsi, la variance des rendements à h jours correspond simplement à h fois la variance

à un jour. La VaR se calcule ensuite de façon évidente :
h
!
X
P rt+i ≤ V aR = 5% (5.390)
i=1
 
Ph
rt+i V aR 
⇔P  qi=1 ≤q = 5% (5.391)
2
hσt+1 2
hσt+1
(5.392)

On trouve naturellement :
√
V aRh = 1, 64 × hσt+1 (5.393)

Il s’agit d’un règle

√ bien connue par les risk managers et acceptée par Bâle II : la VaR à h
jours est égale à h fois la VaR à un jour. Cette méthodologie repose bien évidement sur
la gaussianité conditionnelle des rendements, et conduit naturellement à sous-estimer
régulièrement la VaR ”véritable”. Mais quand les chiffres doivent tomber au quotidien,
il n’en reste pas moins que la méthode est séduisante.

[Link] GARCH asymétriques

Dans cette section, on introduit brièvement les modèles GARCH asymétriques. Ceux-ci
ont été introduits de façon à rendre compte du fait que les séries de rendements aient
5.3. LES MODÈLES ARCH-GARCH 153

en général un skewness inférieure à 0. On a vu qu’un modèle GARCH standard ne

permettait pas d’obtenir une skewness différente de 0. Une abondante littérature s’est
alors développée, proposant des modèles permettant de générer sous certaines condi-
tions ce fait stylisé.

L’intérêt d’une distribution skewed vient de la présence de ce que la théorie financière

a baptisé effet levier. Il s’agit d’un fait stylisé conduisant à l’observation (dans le cas
d’effet levier au sens strict) d’un accroissement de la volatilité lorsque les rendements
eux-même décroissent. Ceci s’interprète souvent en expliquant qu’une mauvaise nou-
velle (rendements négatifs) a un impact positif important sur la volatilité future d’un
titre. Gourieroux and Jasiak (2001)[chapitre 6] présente cette hypothèse en terme de
corrélation, dans le cadre d’un modèle ARCH(1). Il s’agit de déterminer à quelle condi-
tion un ARCH(1) peut générer un effet levier. Le modèle général s’écrit :
2
rt = (ω0 + ω1 rt−1 )1/2 t (5.394)
avec t suivant une loi inconnue, mais de variance égale à 1. On s’intéresse alors à la
covariance suivante :
Cov(rt − rt−1 , ht+1 − ht |rt−1 ) (5.395)
L’effet de levier correspond à une covariance négative. On se demande à quelle condition
on peut observer ce type de comportement dans le cadre d’un ARCH(1). Pour cela, il
suffit de developper un tant soit peu les calculs :
Cov(rt − rt−1 , ht+1 − ht |rt−1 ) = Cov(rt , ht+1 |rt−1 ) (5.396)
= Cov(rt , ω0 + ω1 rt2 |rt−1 ) (5.397)
= ω1 Cov(rt , rt2 |rt−1 ) (5.398)
p
= ω1 Cov( ht t , ht 2t |rt−1 ) (5.399)
3/2
= ω1 ht Cov(t , 2t |rt−1 ) (5.400)
3/2
= ω1 ht E[3t ] (5.401)
Ainsi, un modèle ARCH(1) génère un effet levier à la condition que ses innovations
soient asymétriques vers la gauche. Autrement dit, Cov(rt − rt−1 , ht+1 − ht |rt−1 ) < 0
dans le cadre d’un ARCH(1) si E[3t ] < 0, le reste des paramètres étants positifs.

On comprend alors mieux l’intéret de travailler sur des modèles permettant de générer
de l’asymétrie. Ils permettent de rendre compte d’un fait stylisé important en finance,
i.e. l’effet levier.

Il existe plusieurs modèles permettant de générer cet effet asymétrique. Ils reposent en
général sur l’introduction d’une variable indicatrice (i.e. valant soit 0, soit 1) qui prend
la valeur 1 dans le cas où les rendements sont négatifs. L’un des modèles les plus connus
est le modèle GARCH de Glosten, Jagannathan et Runkle (Glosten et al. (1993)), dit
GJR-GARCH. Il s’écrit de la façon suivante :
p
rt = ht t (5.402)
2 2
ht = ω0 + ω1 rt−1 + ω2 ht−1 + α1rt−1 <0 rt−1 (5.403)
154CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

t ∼ N (0, 1). 1rt−1 <0 est une variable qui prend la valeur 1 lorsque les rendements en
date t − 1 sont négatifs. Dans ce cas là, on observe une volatilité ht à la date suivante
qui est plus importante que dans le cas où les rendements sont positifs, pourvu que
α >. On a encore un processus pour les rendements qui est conditionnellement centré.
La variance conditionnelle quant à elle dépend des rendements à la date passé :
2
E[ht |rt−1 > 0] = ω0 + ω1 rt−1 + ω2 ht−1 (5.404)
2
E[ht |rt−1 < 0] = ω0 + (ω1 + α)rt−1 + ω2 ht−1 (5.405)

Ce type de modèle se rapproche peu à peu de modèles à changement de régime, avec

une specification naive du seuil sur les rendements à dépasser. Ces modèles ne sont
encore une fois pas traités ici, bien qu’ils revetent un intéret certain en econométrie de
la finance. Ils restent un sujet trop avancé pour être abordé ici.

[Link] Modèle GARCH de Heston

L’objet de cette section est de montrer les liens existants entre les processus GARCH(1,1)
et les processus continus classiquement utilisés en finance. Cette section s’inspire gran-
dement de Aboura (2005) ainsi que de Gourieroux (1992).

L’une des utilisations que l’on on aurait envie de faire de ces processus GARCH est bien
évidement de les utiliser afin de valoriser des actifs financiers. Plus particulièrement, on
sait que les options sont des actifs dont le prix est particulièrement sensible aux varia-
tions de la volatilité. Un certain nombres d’articles de recherche se sont ainsi tournés
vers des méthodes permettant de valoriser des options vanilles (typiquement un call) en
utilisant des dynamiques GARCH pour les rendements du sous-jacent. Dans le cadre
de ce type de démarche, on butte sur deux types de difficultés :

– Il s’agit tout d’abord de déterminer un processus continu dont la discrétisation corres-

pond bien à un processus GARCH. En général, on est souvent capable de passer d’un
processus continu sa contrepartie discrète. On se souvient de la petit application du
lemme d’Ito permettant de montrer que dans le cadre de Black-Scholes, la diffusion
discrétisée correspond exactement à un bruit blanc. En revanche, lorsque l’on veut
passer d’une dynamique discrète à sa version continue, rien n’est gagné d’avance.
Il s’agit encore d’un sujet actuel de recherche : inutile d’aborder cette question en
profondeur ici.
– Le second problème rencontré est de passer de la dynamique historique (celle que
l’on observe) à la dynamique risque neutre. Un certain nombre de méthodes ont été
proposés et nous aborderons brièvement celle proposée par Heston.

Commençons par nous intéressé à la la limite possible d’un processus GARCH. Bien
évidement, il s’agit de la limite au sens financier du terme, i.e. pour un pas de temps
infinitésimal. Il ne faut surtout pas confondre la limite en finance, avec une limite
vers l’infini, souvent utilisée en statistique (par exemple dans l’énoncé de la loi des
grands nombres). Engle et Ishida (2002) montrent comment trouver les diffusions cor-
respondants à certains processus GARCH. On propose ici de développer le cas d’un
GARCH(1,1).
5.3. LES MODÈLES ARCH-GARCH 155

On a le modèle suivant pour les rendements :

p
rt = ht t (5.406)
2
h t = ω0 + ω1 rt−1 + ω2 ht−1 (5.407)

avec les hypothèses habituelles. On travaille ici sur la dynamique de la variance condi-
tionnelle, ht . Il s’agit d’une série d’astuces permettant de trouver par passage à la
limite le processus effectivement suivi par la variance conditionnelle. On commence par
réécrire la variance comme suit :

ht = ω0 + (ω1 + ω2 )ht−1 + ω1 (rt−1 − ht−1 ) (5.408)

En posant alors γ = ω1 + ω2 et en remplaçant rt2 par son expression, il vient :

ht = ω0 + γht−1 + ω1 (ht−1 2t−1 − ht−1 ) (5.409)

= ω0 + γht−1 + ω1 ht−1 (2t−1 − 1) (5.410)

On note alors ηt = 2t−1 − 1, un bruit de loi chi-deux, centré. On remplace :

ht = ω0 + γht−1 + ω1 ht−1 ηt (5.411)

Nouvelle astuce : on réécrie le processus en travaillant sur les différences de variance

conditionnelle :

ht − ht−1 = ω0 − ht−1 + γht−1 + ω1 ht−1 ηt (5.412)

= ω0 − (1 − γ)ht−1 + ω1 ht−1 ηt (5.413)

On note à présent k = (1 − γ). On remplace :

ht − ht−1 = ω0 − kht−1 + ω1 ht−1 ηt (5.414)

ω
0
=k − ht−1 + ω1 ht−1 ηt (5.415)
k
On note ϑ = ωk0 = 1−ωω0
1
. On n’aura pas manqué de remarquer que cette constante
ressemble furieusement à la l’espérance non conditionnelle de la variance d’un processus
GARCH(1,1). En réintroduisant, on obtient :

ht − ht−1 = k (ϑ − ht−1 ) + ω1 ht−1 ηt (5.416)

Cette dernière expression correspond à un cas particulier d’un processus général développé
par Engle et Ishida, nommé CEV-GARCH, par analogie avec les modèles CEV (Constant
Elasticity Variance) développés par la finance en temps continu. La version discrète d’un
CEV-GARCH est :

ht − ht−1 = k(ϑ − ht−1 ) + ω1 hξt−1 ηt (5.417)

et semble converger vers :

dht = k(ϑ − ht ) + ω1 hξt dWt (5.418)

156CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES

où Wt est un mouvement brownien standard. Dans notre cas, on trouve naturellement
comme limite d’un GARCH(1,1) la diffusion suivante :

dht = k(ϑ − ht ) + ω1 ht dWt (5.419)

La question suivante, et qui n’est pas abordée ici, est de parvenir à déterminer la dyna-
mique risque neutre des rendements. Heston[1993] propose le principe de Neutralisation
Locale au Risque. Un lecteur soucieux d’en savoir plus lira avec intéret le dernier cha-
pitre de Aboura (2005), ainsi que le papier de Heston. Ce point n’est pas développé
dans la mesure où il s’appuie sur des modèles à volatilité stochastique qui n’ont pas
encore été abordés.

5.3.7 Modèles exponentiels

Cette courte section a pour objectif d’introduire brièvement l’usage des modèles expo-
nentiels et à volatilité stochastiques en séries temporelles. Les deux types de modèles
peuvent être vus comme appartenant à la même famille, dans la mesure où ils reposent
tous deux sur une paramétrisation de la volatilité sous la forme de l’exponentielle d’un
processus, afin de garantir sa positivité.

[Link] Le modèle EGARCH

Les modèles EGARCH furent introduits par Nelson (1991) afin d’améliorer et d’assou-
plir les processus GARCH tel qu’on les a présenté jusqu’à présent. Il s’agit tout d’abord
de trouver une façon d’éviter l’ensemble des contraintes pesant sur les paramètres des
modèles GARCH : on a vu qu’il était nécessaire d’ajouter ces contraintes pour garan-
tir la positivité et l’existence de la variance non conditionnelle. Nelson propose une
méthode permettant d’éviter ces contraintes, et permettant de plus degénérer de la
skewness négative.

On se borne ici à présenter le modèle, sans évoquer ni l’inférence, ni la prévision en

utilisant ce modèle. Comme dans le cadre d’un GARCH classique, on a :
p
rt = ht t (5.420)

Ce qui change cette fois-ci, c’est la façon d’écrire l’équation de la variance. Celle-ci est
écrite en terme de logarithme :
p
ln(ht ) = ω0 + ω1 ln(ht−1 ) + ω2 (|t−1 | − 2/π) − αt−1 (5.421)
p
avec t ∼ N (0, 1). Dans cep cas E[|t |] = 2/π, d’où le fait que l’on retire cette quantité
dans le terme ω2 (|t−1 | − 2/π) : on travaille sur une variable centrée. α est supposé
être positif (mais précédé d’un signe négatif), afin de permettre les effets levier tels
qu’on les a évoqué plus haut. On a ainsi :
p
E[ln(ht )|ht−1 , t−1 > 0] = (ω0 − ω2 2/π) + ω1 ln(ht−1 ) + (ω2 − α)t−1 (5.422)
p
E[ln(ht )|ht−1 , t−1 < 0] = (ω0 − ω2 2/π) + ω1 ln(ht−1 ) − (α + ω2 )t−1 (5.423)
5.3. LES MODÈLES ARCH-GARCH 157

Ainsi, selon les valeurs des paramètres, la réponse de la volatilité à des chocs positifs ou
négatifs peut différer, autorisant la modèlisation des fameux effets leviers. On se forge
rapidement l’intuition que lorsque t−1 < 0, on a alors une volatilité conditionnelle
plus importante que dans le cas contraire. On n’en dira pas davantage au sujet de ces
modèles, ce qui reste étant trop avancé.

[Link] Les modèles à volatilité stochastique

On présente encore plus brievement les modèles à volatilité stochastique, sur la base de
ce qui en est dit dans Wang (2003)[chapitre 3 et 7]. Jusqu’à présent, on a supposé que
la loi de la variance conditionnelle était intégralement dictée par la loi des rt et qu’elle
n’avait par conséquent pas de loi propre. On rappelle que d’après ce qui a été dit, la
loi de la volatilité historique dans le cadre d’un GARCH ne devrait pas être loin d’un
processus χ2 décentré.

Les modèles de volatilté stochastique se présentent dans un cas particulier simple de la

façon suivante :

rt = σt t (5.424)
t ∼ N (0, σ ) (5.425)
ht = lnσt2 (5.426)

A la différence des EGARCH, on propose une dynamique propre à la variance, avec une
loi propre. Wang (2003) propose simplement de donner à lnσt2 un pattern ARMA(p,q).
On a alors dans le cas d’un ARMA(1,1), la volatilité suivante :

ht = α + ρht−1 + νt + θνt−1 (5.427)

νt ∼ N (0, σν ) (5.428)

Au final, on a donc deux bruits différents : un premier bruit lié à l’équation des ren-
dements eux-même, et un second bruit venant de la volatilité elle-même. Dans ce cas
précis, la loi de la volatilité est une loi log-normale, à support positif, tout comme le
χ2 que l’on obtient dans le cas d’un ARCH(1). On retrouve un processus proche d’un
ARCH(1) dans le cas où θ = 0.

L’inférence de ce type de processus repose sur des méthodes particulièrement avancées

(filtres de Kalman) et il n’est pas question d’aborder ces questions ici. On remarque
cependant que les modèles ARMA estimés sur les volatilité implicites présentées dans
le cadre de la section consacrée aux ARMA peuvent être vu comme une façon de se
rapprocher de ce type de modèles.

Terminons ce chapitre en remarquant qu’il est possible de fournir différentes paramétrisations

pour la corrélation entre les deux bruits, et que cette paramétrisation permet de rendre
compte de forme de smile assez variées. Cf. Aboura (2005)[Chapitre 2].
158CHAPITRE 5. INTRODUCTION AUX MODÈLES DE SÉRIES TEMPORELLES
Chapitre 6

Boite à outils statistiques

Ce dernier chapitre présente quelques applications statistiques utiles à la finance :

l’analyse en composantes principales, utile pour l’analyse des séries mutlivariées et des
bases de données conséquentes ; les méthodes non-paramétriques, rarement utiles (elles
consomment énormément de données), mais souvent utilisées dans les logiciels de sta-
tistique.

Il s’agit d’un chapitre relativement léger : on fournit à chaque fois un certain nombre de
références pour tout lecteur soucieux d’approfondir ses connaissances (comme Pépino
par exemple).

6.1 Méthodes non-paramétriques et application

Dans tout ce qui a été développé jusqu’à présent, on a spécifié une forme functionnelle
intuitée à partir de différents éléments, tel que l’ACF du carré des rendements pour
former l’intuition des modèles ARCH. Il n’est pas toujours possible de spécifier cette
forme ex ante, et c’est précisément là qu’interviennent les méthodes non paramétriques.

6.1.1 Introduction aux méthodes non paramétriques

L’essence des modèles non paramétriques est le lissage, i.e. le fait d’utiliser des esti-
mateurs permettant de lisser en quelques sortes les relations entre différentes variables.
Supposons par exemple que l’on observe deux variables X et Y , liées par la relation
suivante :

Yt = m(Xt ) + t (6.1)

où t est un bruit blanc, d’espérance nulle. m(.) est une fonction arbitraire mais lisse
de xt . Plaçons nous en une date t, et supposons alors que X = x. Supposons également
que pour cette date, l’on dispose de n observations pour Yt . On peut alors écrire :
n n
1X 1X
yi = m(x) + i (6.2)
n n
i=1 i=1

159
160 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

On sait que par la loi des grands nombres, on a :

n
1X
i → 0 (6.3)
n
i=1
Pn
On trouve donc que n1 i=1 yi est un estimateur consistant de m(x). Evidement, en
finance, on dispose rarement (jamais) de ces n observations. En général, on a à dispo-
sition un processus joint {yt , xt }. Dans ces cas là, on propose d’utiliser un compromis,
basé sur une moyenne pondérée des yt à la place d’une simple moyenne. On propose
alors une relation de la forme :
n
1X
m̂(x) = ωi (x)yi (6.4)
n
i=1

où ωt (x) est un poids qui est plus important pour les yt pour lesquels on a des xt proche
de x. L’estimation est ainsi déterminée à la fois par la distance entre xt et x et à la fois
par le poids accordé à cette distance.

Tout ceci peut sembler plutot abscond, et est principalement utilisé lors de l’estimation
des densités par noyau.

6.1.2 Estimateurs à noyau

Il est possible d’approcher l’estimation d’une densité, à l’aide d’un histogramme. Mais
il est également possible, pour peu que l’on dispose de suffisament de données, de lisser
cet histogramme à l’aide d’un noyau. Le noyau est une forme de fonction de lissage.
On note K(x) ce noyau. Comme il s’agit de poids, il est nécessaire d’avoir la propriété
suivante :
Z
K(z)dz = 1 (6.5)

En général, on ajoute un paramètre d’échelle, appelé bandwidth et noté h, que l’on

incorpore comme suit :
Z
1 x
Kh (x) = K , Kh (z)dz = 1 (6.6)
h h

La fonction de poids est alors définie comme suit :

Kh (x − xt )
ωt (x) = 1 Pn (6.7)
n t=1 Kh (x − xt )

Cette paramétrisation permet évidement d’obtenir des poids dont la somme soit égale
à n. On obtient alors l’estimateur à noyau de Nadaraya-Watson, qui prend la forme
suivante :
Pn
Kh (x − xt )yt
m̂(x) = Pt=1n (6.8)
t=1 Kh (x − xt )
6.1. MÉTHODES NON-PARAMÉTRIQUES ET APPLICATION 161

Dans la pratique, il est nécessaire de spécifier une forme pour le noyau. On utilise dans
le cas le plus courant un noyau gaussien qui est défini par :

x2

1
Kh (x) = √ exp − 2 (6.9)
h 2π 2h

Tout l’art de l’estimation par noyau consiste alors à déterminer un h optimal. Tsay
(2002) présente quelques intuitions dans le cas d’un noyau d’Epanechnikov. On donne
ici simplement la règle que l’on se forge rapidement en utilisant ce type d’estimation :
un h trop faible conduit à ne pas assez lisser l’histogramme. Au contraire, un h trop
important lisse plus que de raison l’histogramme empirique.

Le choix de h ne donc si être trop petit, ni trop grand. La fonction density de R

détermine ce h de façon optimale, à l’aide de méthodes qui sont trop avancées pour
être présentées ici. Notons pour conclure que ces méthodes non paramétriques ne sont
applicables qu’à partir du moment où l’on dispose d’un nombre de données suffisantes
(i.e. au moins 1000 observations). On présente un exemple en figure 6.1.

[Link](x = x)
0.4
0.3
Density

0.2
0.1
0.0

−4 −2 0 2 4

N = 10000 Bandwidth = 0.1423

Fig. 6.1 – Densité estimée par méthode des noyaux

Voici un exemple de fonction R permettant d’appliquer la méthode des noyaux. Elle est
relativement simple et nécessite d’optimiser le h à taton.

kernel<-function(X,n,h,min,max){
k=length(X);
support<-seq(min,max,length=n);
[Link]<-numeric(n);
for (i in 1:n){[Link][i]=1/(k*h)*sum(1/sqrt(2*pi)*exp(-((X-support[i])/h)^2))};
return(list([Link]=[Link], t=support))
}
162 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

La figure 6.2 présente l’estimation de la densité d’une loi normale centrée réduite dans
le cas où h est mal choisi. On a utilisé le code précédent pour construire ces graphiques.

h=5 h=0.05

0.35
0.075

0.30
0.25
0.070
Loi normale centrée réduite

Loi normale centrée réduite

0.20
0.065

0.15
0.10
0.060

0.05
0.055

0.00

−3 −2 −1 0 1 2 3 −3 −2 −1 0 1 2 3

Support Support

Fig. 6.2 – Densité estimée par méthode des noyaux

6.2 Analyse des données

L’analyse des données fournit un spectre de méthodes robustes permettant de faire du
data-mining, i.e. de l’exploration de données. Il arrive assez souvent que l’on se retrouve
face à un nombre important de séries de données, dont on se sait pas grand chose, sinon
qu’elles son liées. L’analyse en composantes principales permet de passer d’une base de
données contenant un grand nombre de variables, à une base de données résumée par un
nombre de facteurs limité. Il est alors nettement plus facile d’analyser ce nombre réduit
de facteurs que de travailler sur l’ensemble des séries de données. On présente dans ce
qui suit la méthode de l’ACP, ainsi qu’une application bien connue à la courbe des taux.

6.2.1 Analyse en composante principales

Nous avons jusqu’ici accordé peu d’attention aux séries mutlivariées, i.e. à l’étude de p
séries de données simultanément. L’ACP permet d’explorer ces p séries de données, en
formant des facteurs orthogonaux à partir de la matrice de corrélation des p séries.

On travaille à présent sur une matrice X de taille M(n, p), contenant les n observa-
tions des p séries que l’on souhaite étudier. Une ACP propose de déterminer un nombre
réduit de facteurs qui sont des combinaisons linéaires des éléments de la matrice X, de
façon à expliquer les liens existants entre les différentes séries. Ce faisant, on parvient
en quelques sortes à expliquer la matrice de corrélations de ces p séries. L’important
dans cette méthode est de permettre la construction d’un nombre de facteurs qui soit
6.2. ANALYSE DES DONNÉES 163

inférieur à p. L’idée est donc de réduire la dimensionalité du problème.

Il existe un certain nombre de bonnes références, plus ou moins avancées, permettant

de comprendre l’ACP ou d’approfondir ce qui va être présenté. On pourra se reporter
par exemple à Tsay (2002)[chapitre 8], Pagès (2005) et Saporta (1988). Ce sont les
ouvrages utilisés lors de l’élaboration de ces notes de cours.

On travaille à présent sur notre matrice X qui est telle que :

 
x1,1 x1,2 . . . x1,p
 .. .. 
 x2,1 . . x1,p 
X= .
.. .. .. 
 (6.10)
 .. . . . 
xn,1 xn,2 . . . xn,p

On commence par un petit peu de calcul matriciel. On appelle centre de gravité le

vecteur composé des moyennes empiriques, variable par variable. On le note :
1 T
gT =

x̄.,1 x̄.,2 . . . x̄.,p = X 1n (6.11)
n
Avec 1n un vecteur colonne composé de 1. On note que ceci revient à accorder autant
d’importance à toutes les observations. Il est possible d’utiliser des poids différents
de n1 , permettant d’accorder plus ou moins d’importance aux observations, selon, par
exemple, leur écart à la moyenne (métrique inverse variance).

On en déduit Y , la matrice des p observations centrées :

Y = X − 1n g T (6.12)

Il est alors aisé d’obtenir la matrice de variance/covariance des séries. Il s’agit simple-
ment de :
1 T
V = X X − gg T (6.13)
n
1
= Y TY (6.14)
n
La matrice des observations centrées réduites s’écrit donc naturellement :
 1
0 ... 0

s1
 0 1
s1 ... 0 
Z = Y D1/s , avec D1/s =  . (6.15)
 
.. .. .. 
 .. . . . 
1
0 ... 0 sp

où D1/s est la racine de l’inverse de la première diagonale de la matrice V, i.e. une ma-
trice composée de l’inverse des écart-types de chaque variable. La matrice de corrélation
des variables s’obtient alors de façon aisée :
1 T
R= Z Z (6.16)
n
164 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

Il est possible de procéder à une ACP sur la matrice V ou sur la matrice R. Cepen-
dant, l’utilisation de V présente le désavantage de ne pas fournir des facteurs stables à
toute combinaison linéraire de chaque variable. En clair : si on modifie de façon linéaire
une variable particulière, l’ACP sur V ne fournira pas ex-post les mêmes facteurs. On
préférera alors utiliser R pour l’ACP : R est insensible à toute transformation linéaire
variable par variable. Ceci revient en réalité à réaliser une ACP sur V, en utilisant une
métrique particulière, i.e. une mesure de distance entre observations, i.e. la métrique
définie par D1/s . On en dira pas plus sur ce point plus théorique que pratique.

On appelle intertie totale de X la moyenne pondérée des carrés des distances des
observations au centre de gravité. On a donc :
n
1 X T
Ig = Xi,. − g T D1/s Xi,. − g T (6.17)
n
i=1
n
1X T
= Zi,. Zi,. (6.18)
n
i=1
L’inertie peut être vue comme une sorte de variance totale de X : il s’agit de l’écart entre
chaque observation et le centre de gravité. Cette notion présente un certain nombre de
propriétés intéressantes. On commence par réécrire l’inertie de la façon suivante :
n p
1 XX 2
Ig = Zi,j (6.19)
n
i=1 j=1
p n
X X 1 2
= Zi,j (6.20)
n
j=1 i=1
p n
X 1 X (Xi,j − gj )2
= (6.21)
n
j=1
s2j i=1
p n
X 1 1X
= (Xi,j − gj )2 (6.22)
j=1
s2j n i=1
| {z }
s2j
p
X s2j
= (6.23)
j=1
s2j
= T r(R) (6.24)
=p (6.25)
Avec la métrique utilisée, l’inertie totale est toujours la même : elle est égale au nombre
de variables présentes dans X. L’idée sous-jacente à l’ACP est de proposer une méthode
permettant de résumer un grand nombre de variables en un nombre réduit de facteurs,
ces facteurs ayant été composés suivant une règle basée sur l’inertie. Le critère pour
former les facteurs est simple : on cherche k facteurs orthogonaux, de façon à former
une nouvelle base orthogonalisée permettant de représenter nos p variables. On cherche
ces facteurs de façon à ce que l’inertie de X dans cette nouvelle base soit la plus im-
portante possible.
6.2. ANALYSE DES DONNÉES 165

En général, on présente ceci sous la forme de projections : on cherche un projecteur

P , i.e. une matrice permettant de transformer des variables dans X pour en faire des
variables dans la nouvelle base. Un projecteur présente un certain nombre de propriétés,
telles que :

P2 = P (6.26)
P T D1/s2 = D1/s2 P (6.27)

On détermine alors l’inertie de X T P , i.e. de X dans la nouvelle base. En travaillant sur

les variables centrées (i.e. Y ), on a :
T
V 0 = Y P T D1/s Y P T (6.28)
= PV PT (6.29)

Comme précédement, l’inertie du nuage vaut :

T r(P V P D1/s2 ) = T r(P V D1/s2 P ) (6.30)

2
= T r(V D1/s2 P ) (6.31)
= T r(V D1/s2 P ) (6.32)
(6.33)

Le problème de l’ACP est donc de trouver P de façon à ce que l’inertie de Y P T soit

maximale. On ne détaille pas la solution à ce problème, on se contente du résultat
suivant : les k facteurs réalisant cette condition ont pour coordonnées les k premiers
vecteurs propres de V D1/s2 , c’est à dire de R. Si le ième vecteur propre est ui , alors le
ième facteur est égal à :

fi = Zui (6.34)

On appelle également ces facteurs composantes principales. Elles présentent la particu-

larité suivante :
1
V (fi ) = (Zui )T (Zui ) (6.35)
n
1
= uT Z T Zui (6.36)
n i
1 T
= uT
i Z Zui (6.37)
n
= uT
i Rui (6.38)
= λi uT
i ui (6.39)
= λi (6.40)

où λi est la valeur propre associée au vecteur propre ui . On obtient ces derniers résultats
car par définition, une valeur propre est telle que :

Rui = λi ui (6.41)
166 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

On a de plus par construction :

uT
i ui = 1 (6.42)

Terminons par quelques remarques : on a vu tout d’abord que la variance d’un facteur
est égale à la valeur propre associée au vecteur propre permettant d’obtenir ce facteur.
Ces facteur étant orthogonaux, la variance de la somme des facteurs est la somme de
la variance des facteurs, autrement dit la somme des valeurs propres. On a donc :
k k
!
X X
V fi = V (fi ) (6.43)
i=1 i=1
Xk
= λi (6.44)
i=1

Un autre résultat classique de l’algèbre linéaire, la trace d’une matrice carré est égale
à la somme de ses valeurs propres. Dans notre cas, on a donc :
k
X
T r(R) = λi (6.45)
i=1

On trouve donc que l’inertie associée à X (du moins à sa version centrée réduite) est
exactement égale à l’inertie dans la nouvelle base. La différence tient au fait que dans
la nouvelle base, les facteurs sont ordonnés par part d’inertie décroissante : du fait
de l’alogorithme de maximisation permettant de trouver la solution à notre problème
(alogrithme qui n’a pas été présenté ici), les vecteurs propres que l’on détermine arrive
par valeurs propres décroissantes. Autrement dit, le facteur 1 est associé au vecteur
propre pour lequel on a la plus grande valeur propre.

Pour résumer, l’ACP revient à remplacer les variables composant X qui sont corrélées,
par de nouvelles variables, les composantes principales qui sont combinaisons linéaires
des variables composant X, non corrélées entre elles, de variance maximale et les plus
liées en un certain sens aux variables composant X. L’ACP est ce qu’on appelle une
méthode factorielle linéaire.

6.2.2 Applications : les facteurs de la courbe des taux

On présente une courte application aux taux d’intéret de la méthode de l’ACP. On dis-
pose dans une matrice X de n observations pour des taux swap de maturité constante,
allant de 1 an à 30 ans. On obtient la matrice de corrélation suivante :
1 an 2 an 3 an 4 an 5 an 6 an 7 an 8 an 9 an 10 an 15 ans 20 ans 30 ans
1 an 1,00 0,21 0,24 0,27 0,27 0,23 0,25 0,25 0,26 0,23 0,24 0,22 0,24
2 an 0,21 1,00 0,92 0,89 0,86 0,83 0,81 0,79 0,77 0,80 0,77 0,74 0,70
3 an 0,24 0,92 1,00 0,93 0,90 0,88 0,86 0,84 0,83 0,85 0,81 0,79 0,75
6.2. ANALYSE DES DONNÉES

4 an 0,27 0,89 0,93 1,00 0,95 0,91 0,91 0,89 0,88 0,88 0,85 0,83 0,79
5 an 0,27 0,86 0,90 0,95 1,00 0,94 0,94 0,92 0,91 0,90 0,87 0,85 0,81
6 an 0,23 0,83 0,88 0,91 0,94 1,00 0,96 0,97 0,97 0,90 0,88 0,86 0,83
7 an 0,25 0,81 0,86 0,91 0,94 0,96 1,00 0,95 0,95 0,91 0,86 0,84 0,82
8 an 0,25 0,79 0,84 0,89 0,92 0,97 0,95 1,00 0,98 0,90 0,89 0,87 0,85
9 an 0,26 0,77 0,83 0,88 0,91 0,97 0,95 0,98 1,00 0,91 0,90 0,88 0,86
10 an 0,23 0,80 0,85 0,88 0,90 0,90 0,91 0,90 0,91 1,00 0,90 0,88 0,86
15 ans 0,24 0,77 0,81 0,85 0,87 0,88 0,86 0,89 0,90 0,90 1,00 0,98 0,94
20 ans 0,22 0,74 0,79 0,83 0,85 0,86 0,84 0,87 0,88 0,88 0,98 1,00 0,94
30 ans 0,24 0,70 0,75 0,79 0,81 0,83 0,82 0,85 0,86 0,86 0,94 0,94 1,00
167
168 CHAPITRE 6. BOITE À OUTILS STATISTIQUES

Les deux graphiques suivantes présentent les valeurs propres et les vecteurs propres
extraits de la base de données. Idéalement, on ne souhaite retenir que quelques uns de
ces facteurs pour décrire le comportement de la courbe des taux. La méthode usuelles
est la méthode du coude : on ne retient que les valeurs propres précédant la formation
d’un coude sur le graphique. Ici, on ne retiendrait que 3 ou 4 facteurs. On considère
en général que la courbe des taux est guidée par trois facteurs, dont le premier étant
la source principale de ses mouvements. Ce facteur est en général identifié comme la
politique monétaire.

Valeurs propres

●
10
8
6
valeur

4
2

●
●
●
● ● ● ● ● ● ● ● ●
0

0 5 10 15 20 25 30

maturities

Fig. 6.3 – Valeurs propres

1.0

Factor 1

Factor 2

●
Factor 3
0.5

●
Factor 4
●
Correlations

● ●
0.0

●
● ●
●

●
●
−0.5

●
−1.0

0 5 10 15 20 25 30

Maturities

Fig. 6.4 – Vecteurs propres

Bibliographie

Aboura, S. (2005). Les modèles de volatilité et d’options. Publibook.

Berndt, E. K., Hall, R. E., Hall, B., and Hausman, J. A. (1974). Estimation and infe-
rence in nonlinear structural models. Annals of Economic and Social Measurement,
3 :653–665.

Black, F. and Scholes, M. (1973). The Pricing of Options and Corporate Liabilities.
Journal of Political Economy, (81) :637–654.

Bollen, B. and Inder, B. (2002). Estimating Daily Volatility in Financial Market Utili-
zing Intra Day Data. Journal of Empirical Finance, 9 :551–562.

Bollerslev, T. (1986). Generalized Autoregressive Conditional Heteroscedasticity. Jour-

nal of Econometrics, 31 :307–328.

Cherubini, U., Luciano, E., and Vecchiato, W. (2005). Copula Methods in Finance.
Wiley.

Cochrane, J. (2002). Asset Pricing. Princeton University Press.

Cochrane, J. (2005). Time series for macroeconomics and finance - Manuscrit.

http ://[Link]/fac/[Link]/research/Papers/time series [Link].

Crépon, B. (2005). Econométrie linéaire. Cours ENSAE deuxième année,

http ://[Link]/pageperso/crepon/[Link].

Davidson, R. and MacKinnon, J. (1993). Estimation et inférence en Économétrie.

Oxford University Press. http ://[Link]/EIE/.

Deschamps, P. (2004). Cours d’économétrie. Université de Neuchâtel.

http ://[Link]/Philippe Deschamps/[Link].

Duflo, M. (1996). Algorithmes stochastiques. Springer, Berlin, Heidelberg, New York.

Embrechts, P., Lindskog, F., and McNeil, A. (2001). Modelling dependance with copulas
and applications to risk management. Preprint ETZH.

Embrechts, P., McNeil, A., and Straumann, D. (1999). Correlation and dependency
in risk management : properties and pitfalls. Departement of Mathematik , ETHZ,
Zürich, Working Paper.

Engle, R. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the

Variance of United Kingdom Inflation. Econometrica, 50 :987–1007.

169
170 BIBLIOGRAPHIE

Engle, R., Lilien, D., and Robbins, R. (1987). Estimating Time Varying Risk Premia
in the Term Structure : the ARCH-M Model. Econometrica, 55 :391–407.

Faraway, J. (2002). Practical regression and anova using R. http ://cran.r-

[Link]/doc/contrib/[Link].

Garman, M. and Klass, M. (1980). On the Estimation of Security Price Volatilities

from Historical Data. Journal of Business, 53 :67–78.

Glosten, L., Jagannathan, R., and Runkle, D. (1993). On the Relation between the
Expected Value and the Volatility of the Nominal Excess Return on Stocks. Journal
of Finance, 48 :1779–1801.

Gourieroux, C. (1992). Modèles ARCH et applications financières. Economica.

Gourieroux, C. and Jasiak, J. (2001). Econometrics of Finance. Princeton University.

Gourieroux, C., Montfort, A., and Trognon, A. (1984). Pseudo Maximum Likelihood
Methods : Applications to Poisson Models. Econometrica, 52 :701–720.

Greene, W. H. (2002). Econometric analysis. Prentice Hall.

Hamilton, J. D. (1994). Time Series Analysis. Princeton University Press.

Harvey, A. C. (1990). The econometric analysis of time series. LSE Handbooks in

economics.

Lopez, J. (2001). Evaluating the Predictive Accuracy of Volatility Models. Journal of

Forecasting, 20 :87–109.

Metropolis, N., Rosenbluth, A., Rosenbluth, M., Teller, M., and Teller, E. (1953). Equa-
tions of state calculations by fast computing machines. Journal of Chemical Physics,
21 :1087–1092.

Münk, C. (2004). Asset Pricing Theory. Lectures Notes for PhD Students.

Nelson, D. (1991). Conditional Heteroscedasticity in Asset Returns : a New Approach.

Econometrica, 59 :347–370.

Pagès, J. (2005). Statistiques Générales pour Utilisateurs - Tome 1 & 2. Presses

Universitaires de Rennes.

Paradis, E. (2005). R pour les débutants. http ://cran.r-

[Link]/doc/contrib/Paradis-rdebuts [Link].

Parkinson, M. (1980). The Extreme Value Method for Estimating the Variance of the
Rate of Return. Journal of Business, 53 :61–65.

Poon, S.-H. (2005). A Practical Guide to Forecasting Financial Market Volatility. Wiley
Finance.

Quinn, K. (2001). The newton raphson algorithm for function optimization.

http ://[Link]/quinn/classes/536/notes/[Link].
BIBLIOGRAPHIE 171

Robert, C. (1996). Méthodes de Monte Carlo par Chaı̂nes de Markov. Economica.

Saporta, G. (1988). Probabilités, Analyse des Données et Statistiques. Technip.

Taylor, S. (1986). Modelling Financial Time Series. Wiley.

Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.

VonSachs, R. and VanBellegem, S. (2002). Méthodes stochastiques appliquées

à la prévision, séries chronologiques. Université Catholique de Louvain,
http ://[Link]/cours/stat2414/[Link].

Wang, P. (2003). Financial Econometrics. Routledge.

Vous aimerez peut-être aussi

Économétrie Financière: Concepts et Modèles
Pas encore d'évaluation
Économétrie Financière: Concepts et Modèles
171 pages
Econometrie
100% (7)
Econometrie
128 pages
Introduction à l'économétrie moderne
Pas encore d'évaluation
Introduction à l'économétrie moderne
122 pages
Francq Et Zakoïan (Modèles GARCH)
Pas encore d'évaluation
Francq Et Zakoïan (Modèles GARCH)
634 pages
Monte Carlo en Finance: Méthodes et Applications
Pas encore d'évaluation
Monte Carlo en Finance: Méthodes et Applications
72 pages
Méthodes de Monte Carlo Pour La Finance
Pas encore d'évaluation
Méthodes de Monte Carlo Pour La Finance
72 pages
Modèles Économétriques Dynamiques
Pas encore d'évaluation
Modèles Économétriques Dynamiques
44 pages
Modélisation financière : Approches stochastiques et économétriques
Pas encore d'évaluation
Modélisation financière : Approches stochastiques et économétriques
78 pages
Économétrie Linéaire Appliquée
Pas encore d'évaluation
Économétrie Linéaire Appliquée
253 pages
Econométrie Linéaire Appliquée (PDFDrive)
Pas encore d'évaluation
Econométrie Linéaire Appliquée (PDFDrive)
253 pages
Cours de Finance: Processus Stochastiques
Pas encore d'évaluation
Cours de Finance: Processus Stochastiques
90 pages
Econometrie
Pas encore d'évaluation
Econometrie
118 pages
Modèles Économétriques et Séries Chronologiques
Pas encore d'évaluation
Modèles Économétriques et Séries Chronologiques
138 pages
Cours Processus Et Calcul Stochastique
Pas encore d'évaluation
Cours Processus Et Calcul Stochastique
79 pages
Monte Carlo et Finance Quantitative
Pas encore d'évaluation
Monte Carlo et Finance Quantitative
103 pages
SERIES - TEMPORELLES - PDF 2 PDF
50% (2)
SERIES - TEMPORELLES - PDF 2 PDF
141 pages
Cours M2: Processus Stochastiques
Pas encore d'évaluation
Cours M2: Processus Stochastiques
79 pages
Économétrie Financière : Concepts Clés
Pas encore d'évaluation
Économétrie Financière : Concepts Clés
101 pages
DS Math BELGUERNA Abderrahmane
Pas encore d'évaluation
DS Math BELGUERNA Abderrahmane
112 pages
Introduction aux processus stochastiques
Pas encore d'évaluation
Introduction aux processus stochastiques
156 pages
Calibration de Mod'eles Et Couverture de Produits D Erivés
Pas encore d'évaluation
Calibration de Mod'eles Et Couverture de Produits D Erivés
143 pages
Modèles Stochastiques Et Applications À La Finance PDF
Pas encore d'évaluation
Modèles Stochastiques Et Applications À La Finance PDF
147 pages
Calcul Stochastique et Finance
Pas encore d'évaluation
Calcul Stochastique et Finance
197 pages
Polycopié Série Temporelles Univarié
Pas encore d'évaluation
Polycopié Série Temporelles Univarié
137 pages
Économétrie des Variables Qualitatives
Pas encore d'évaluation
Économétrie des Variables Qualitatives
174 pages
Rammah2 PDF
Pas encore d'évaluation
Rammah2 PDF
225 pages
Méthodes Statistiques et Estimation
Pas encore d'évaluation
Méthodes Statistiques et Estimation
225 pages
Calcul Stochastique en Finance
Pas encore d'évaluation
Calcul Stochastique en Finance
97 pages
Mathématiques Et Statistiques de La Finance
Pas encore d'évaluation
Mathématiques Et Statistiques de La Finance
171 pages
Bon Varqual Avoir
Pas encore d'évaluation
Bon Varqual Avoir
174 pages
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
Pas encore d'évaluation
Master 1 MMD - Séries Temporelles (Paris-Dauphine)
196 pages
Modèles ARCH-GARCH en Finance
Pas encore d'évaluation
Modèles ARCH-GARCH en Finance
85 pages
Econométrie Cours de Bruno Crepon
Pas encore d'évaluation
Econométrie Cours de Bruno Crepon
279 pages
ARMA
Pas encore d'évaluation
ARMA
141 pages
Modèles de Prévision Séries Temporelles Arthur Charpentier
0% (1)
Modèles de Prévision Séries Temporelles Arthur Charpentier
196 pages
Stat F 508
Pas encore d'évaluation
Stat F 508
157 pages
Méthodes numériques en finance et simulation
Pas encore d'évaluation
Méthodes numériques en finance et simulation
36 pages
Poly Cours - Simulation Et Discrétisation d'EDS Fichier
Pas encore d'évaluation
Poly Cours - Simulation Et Discrétisation d'EDS Fichier
27 pages
Param
Pas encore d'évaluation
Param
145 pages
Modèles ARCH-GARCH en Finance
Pas encore d'évaluation
Modèles ARCH-GARCH en Finance
80 pages
Introduction à l'économétrie linéaire
Pas encore d'évaluation
Introduction à l'économétrie linéaire
283 pages
Evaluation Des Options Américaines (ATTALLAH Sabrina)
Pas encore d'évaluation
Evaluation Des Options Américaines (ATTALLAH Sabrina)
130 pages
Table Des Matières
Pas encore d'évaluation
Table Des Matières
6 pages
Ts
Pas encore d'évaluation
Ts
178 pages
Cours de Series Temporelles Theorie Et Applications
Pas encore d'évaluation
Cours de Series Temporelles Theorie Et Applications
178 pages
Cours de Series Temporelles
Pas encore d'évaluation
Cours de Series Temporelles
178 pages
Martingale Prolongée en Calcul Stochastique
Pas encore d'évaluation
Martingale Prolongée en Calcul Stochastique
96 pages
Main
Pas encore d'évaluation
Main
133 pages
Pdf2star TheseFinaleEntiere BAPTISTE 2018 05 02
Pas encore d'évaluation
Pdf2star TheseFinaleEntiere BAPTISTE 2018 05 02
148 pages
Calcul Stochastique en Économie et Finance
Pas encore d'évaluation
Calcul Stochastique en Économie et Finance
93 pages
Évaluation des actifs dérivés par calcul stochastique
Pas encore d'évaluation
Évaluation des actifs dérivés par calcul stochastique
213 pages
Sujets de recherche en didactique et éducation
Pas encore d'évaluation
Sujets de recherche en didactique et éducation
2 pages
Electricite Et Magnetisme
Pas encore d'évaluation
Electricite Et Magnetisme
48 pages
Pertes de charge en mécanique des fluides
Pas encore d'évaluation
Pertes de charge en mécanique des fluides
50 pages
Introduction aux systèmes d'exploitation
Pas encore d'évaluation
Introduction aux systèmes d'exploitation
42 pages
Résultats des étudiants TI11 2023-2024
Pas encore d'évaluation
Résultats des étudiants TI11 2023-2024
2 pages
TSTI2D-2020 Chap-5 - Flux Et Transfert Thermique
Pas encore d'évaluation
TSTI2D-2020 Chap-5 - Flux Et Transfert Thermique
14 pages
Statistique Appliquee Aux Affaires Et A L'economie
Pas encore d'évaluation
Statistique Appliquee Aux Affaires Et A L'economie
2 pages
Formation SolidWorks 2007 Monastir
Pas encore d'évaluation
Formation SolidWorks 2007 Monastir
53 pages
Test de Puissances Mathématiques 6ème Année
Pas encore d'évaluation
Test de Puissances Mathématiques 6ème Année
4 pages
TP Maintenance 3
Pas encore d'évaluation
TP Maintenance 3
6 pages
INGUN - SB P SI 170 4A 0,6 - 13515 - FR - Datasheet
Pas encore d'évaluation
INGUN - SB P SI 170 4A 0,6 - 13515 - FR - Datasheet
1 page
Moteurs LSMV pour entraînement variable
Pas encore d'évaluation
Moteurs LSMV pour entraînement variable
4 pages
Chap-2 Puissance Electrique
Pas encore d'évaluation
Chap-2 Puissance Electrique
30 pages
Introduction aux Mémoires ROM et RAM
Pas encore d'évaluation
Introduction aux Mémoires ROM et RAM
5 pages
B 22650775
67% (3)
B 22650775
330 pages
PDF - 20150225161506 PDF Entete
Pas encore d'évaluation
PDF - 20150225161506 PDF Entete
24 pages
Modicon X80 BMXAMI0810: Module Entrées Analogiques
Pas encore d'évaluation
Modicon X80 BMXAMI0810: Module Entrées Analogiques
5 pages
COURS ET EXOS Corrigés Thermique de Bâtiment
Pas encore d'évaluation
COURS ET EXOS Corrigés Thermique de Bâtiment
62 pages
Uml Diagramme de Classes & Diagramme D'objets
Pas encore d'évaluation
Uml Diagramme de Classes & Diagramme D'objets
25 pages
Variables et Expressions dans SSIS
Pas encore d'évaluation
Variables et Expressions dans SSIS
14 pages
Communications, 16, 1970. Recherches Rhétoriques
Pas encore d'évaluation
Communications, 16, 1970. Recherches Rhétoriques
264 pages
Consommation de matière organique et énergie
Pas encore d'évaluation
Consommation de matière organique et énergie
14 pages
Diagrammes de Classes UML : Concepts et Exemples
Pas encore d'évaluation
Diagrammes de Classes UML : Concepts et Exemples
28 pages
Analyse de Fourier et Traitement du Signal
Pas encore d'évaluation
Analyse de Fourier et Traitement du Signal
21 pages
s2016 Crpe Math gr1 575638
Pas encore d'évaluation
s2016 Crpe Math gr1 575638
11 pages
Réservoirs Galvanisés pour Eau Froide
Pas encore d'évaluation
Réservoirs Galvanisés pour Eau Froide
4 pages
Cours - Math Résumé - Partie I - CH 02 - Dérivabilité - Bac Techniques - Bac Technique (2016-2017) MR Benjeddou Saber
100% (3)
Cours - Math Résumé - Partie I - CH 02 - Dérivabilité - Bac Techniques - Bac Technique (2016-2017) MR Benjeddou Saber
6 pages
Le Cytosol: Clé Cellulaire Liquide
Pas encore d'évaluation
Le Cytosol: Clé Cellulaire Liquide
9 pages
Addition et Soustraction de Nombres Relatifs
Pas encore d'évaluation
Addition et Soustraction de Nombres Relatifs
9 pages
02 - Algorithme de Chiffrement DES
Pas encore d'évaluation
02 - Algorithme de Chiffrement DES
30 pages

Hasbnclic 708

Transféré par

Hasbnclic 708

Transféré par

Econométrie de la Finance

0.1 Introduction de la deuxième édition . . . . . . . . . . . . . . . . . . . . 7

1 Rappels de mathématiques et probabilité 11

2 Retour sur le modèle linéaire : cas univarié et multivarié 21

2.4.4 Calcul des alpha . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

3 Extensions du modèle de base 43

4 Optimisation de fonctions à plusieurs variables par algorithme 55

5 Introduction aux modèles de séries temporelles 69

[Link] Estimation d’un MA(q) . . . . . . . . . . . . . . . . . . 93

[Link].2.2 VaR dans le cas bivarié : VaR par simu-

6 Boite à outils statistiques 159

0.1 Introduction de la deuxième édition

– Un chap de rappels, référence.

A ceci s’ajoute le mémoire à rendre.

0.2 Introduction de la première édition

encadrées par des intervalles de confiance.

La philosophie de ce cours se veut naturellement pratique : par la compréhension des

La lecture de ces notes de cours ce nécessitent pas de connaissance mathématiques

Enfin, ces notes de cours sont certainement entachées d’inexactitudes ou d’erreurs.

Celles-ci sont entièrement miennes : tout commentaires/signalement d’erreurs sont bien

1.1 Des variables aléatoires et des hommes

1.1.2 A chacun sa tribu

2. Pour toute partie A de A, A ∈ A.

Les exemples les plus courants de sigma-algèbre sont :

– A = { , Ω} est la tribu grossiere.

Globalement, deux types de tribu peuvent nous interesser :

(Axiome de simple additivité).

Définition 1.1.4. L’espace (Ω, A, P ) est appelé espace probabilisé.

Ajoutons les deux définitions suivantes :

1.1.4 Variables aléatoires

Définition 1.1.8. Toute application X telle que :

est appelée variable aléatoire, ou plus précisement variable aléatoire réelle.

Il est possible de généraliser le concept de variable aléatoire à celui de vecteur aléatoire :

1.1.5 Les moments

Le moment centré d’ordre k peut se calculer comme suit :

Le moment centré d’ordre 2 est la variance :

La variance mesure l’étalement de la distribution autour de l’espérance. En finance,

Le moment d’ordre 3 normé est la skewness ou coefficient d’asymétrie :

1.1.6 Distribution, fonction de répartition et densité

Une fonction de répartition a les caractéristiques suivantes :

1.1.7 Loi conditionnelle et lemme des espérances itérées

P (X = {tirer un bon éléve}|il s’agit d’un homme)

E[X] = EY [E[X|Y ]] (1.8)

Ceci vient du fait que :

Ajoutons un petit théorème très utile : le théorème de changement de variable.

1.1.8 Fonction génératrice des moments et fonction caractéristique

Exercice : déterminer la fonction caractéristique d’une loi normale.

1.2 Le petit monde tres fermé des convergences

1.2.1 Convergence en probabilité et presque sure

La convergence en probabilité permet d’établir différentes versions de la loi faible des

Définition 1.2.3 (Estimateur convergent/cohérent). Un estimateur θ̂n d’un paramètre

1.2.2 Convergence en distribution et TCL

1.3 Vous reprendrez bien un petit peu de calcul matri-

r(A) ≤ min(n, p). (1.30)

AA−1 = A−1 A = I, (1.31)

où I est la matrice identité.

Soit le produit matriciel suivant :

avec A une matrice n × p et x une matrice colonne n × 1. Si A ne dépend pas de x,

avec A une matrice p × p et x une matrice colonne de taille p. Alors, on a :

Retour sur le modèle linéaire :

On présente dans ce qui suit :

– Quelques rappels sur le modèle de régression linéaire multiple : spécification, inférence

2.1 Le modèle de régression linéaire simple

y = f (x1 , x2 , ..., xn ) +  (2.1)

yi = β1 xi,1 + β2 xi,2 + ... + βn xi,n + i (2.3)

2.1.1 Les hypothèses du modèle linéaire simple

H 1 (Linéarité). La relation entre y et les xj est linéaire.

H 4 (Homoscédasticité et absence d’autocorrélation). V[] = σ 2 est stable au cours du

H 5 (Données générées de manière exogène). Les observations de {x1 , x2 , ..., xn } peuvent

H 6 (Distribution normale). La perturbation suit une loi normale, en générale centrée

On notera ici que β est le vecteur ligne des paramètres :

β = (β1 , β2 , ..., βn ) (2.5)

Quelques remarques générales sur les hypothèse citées plus haut :

– L’hypothèse de linéarité (H1) implique également l’additivité du terme d’erreur.

– La nullité de l’espérance conditionnelle des  implique également la nullité de l’espérance

E[] = Ex [E[|x1 , x2 , ...xn ]] (2.6)

y = f (x1 , x2 , ..., xn ) + (2.1)

yi = β1 xi,1 + β2 xi,2 + ... + βn xi,n + i (2.3)

H 4 (Homoscédasticité et absence d’autocorrélation). V[] = σ 2 est stable au cours du

– La nullité de l’espérance conditionnelle des implique également la nullité de l’espérance

E[] = Ex [E[|x1 , x2 , ...xn ]] (2.6)

V[] = E[V[|X]] + V[E[|X]] (2.13)

– E[βb0 ] = E[(X 0 X)−1 X 0 Y ] = (X 0 X)−1 X 0 Xβ + E[(X 0 X)−1 X 0 ] = β

y = Xβ 0 + = X1 β10 + X2 β20 + (2.21)