Économétrie Box Jenkins
Économétrie Box Jenkins
Réalisé par :
Étudiants :
AHMED EL BADMOUSSI
MOHAMED SAIDI
ILYAS ALAOUI
ADIL LFAOUT
ISMAIL EL HARRAK
Encadrée par :
Dr. Soumaya FELLAJI
1
7. Predictions .................................................................................................................. 89
8. Équation du Modèle Final ........................................................................................... 95
Conclusion générale ................................................................................................................... 98
Bibliographie ............................................................................................................................... 99
2
Remerciements
Avant de commencer notre projet de fin de module, nous souhaitons exprimer notre
reconnaissance à toutes les personnes qui ont contribué à sa réussite.
Tout d'abord, nous tenons à remercier chaleureusement Madame Soumaya FELLAJI pour son
encadrement précieux et son soutien constant.
Nous sommes également profondément reconnaissants envers ceux qui nous ont aidés tout au
long de la rédaction et de la compréhension des éléments du projet, ainsi que pour leur soutien
émotionnel durant cette expérience.
Nous apprécions énormément le temps et les précieux conseils que chacun nous a accordés,
contribuant ainsi à notre développement continu.
3
4
Introduction
Dans l’analyse des marchés financiers, il est important de comprendre et prévoir les évolutions
des données au fil du temps. Ce rapport présente des méthodes avancées pour étudier et
modéliser ces données, en se concentrant sur la méthode Box-Jenkins (ARIMA), qui est très
utiles et important pour les analystes financiers.
La première partie de ce rapport commence par une présentation des éléments et des
caractéristiques des séries chronologiques. Ensuite, nous montrons les séries non stationnaires
et leurs types TS et DS, Nous décrivons aussi les transformations et ajustements nécessaires
pour rendre les stationnaire (une condition essentielle pour utiliser efficacement la méthodes
Box-Jenkins), Nous parlerons aussi de l’hétéroscédasticité et solutions possibles.
Nous avons aussi plusieurs concepts clés comme les tests de stationnarité, les tests de
normalité, ainsi que les différentes transformations possibles des données et les critères pour
choisir la meilleure méthode. La stabilité des modèles AR, l’inversibilité des modèles MA, la
parcimonie et la qualité des prévisions seront aussi étudiées, nous présenterons le critère de
sélection du modèle ARIMA avant de nous intéresser aux spécificités des séries financières,
notamment la volatilité et la différence entre les modèles ARCH et GARCH.
La deuxième partie de ce rapport est axée sur la pratique. Nous allons appliquer les concepts
théoriques à des données réelles du taux de change de MAD par apport USD ($), afin de montrer
concrètement l’utilité des modèles et des méthodes étudiés.
Ce rapport a pour objectif de répondre aux exigences académiques tout en montrant comment
ces outils avancés sont utilisés concrètement dans l’analyse financière.
5
Partie 1 :
Partie théorique
6
Les notions de base
Définition des séries temporelles
Une série temporelle est une collection d'observations ou de données collectées pour une
variable spécifique à des différents moments, organisées de manière chronologique. Ces
observations sont enregistrées à des intervalles de temps définis, séquentiels et spécifique,
permettant d’analyser l'évolution d'un phénomène au fil du temps.
L’utilisation : Les séries temporelles sont normalement utilisées pour analyser l'évolution des
phénomènes dans l’intervalle de temps et pour faire des prévisions futures.1
1. Tendance : La tendance montre La direction générale dans laquelle les données évoluent
à long terme, c-à-d si les valeurs augmentent, diminuent ou restent stables sur une
période de long terme.
3. Variation cyclique : Les modèles cycliques sont les mouvements alternatifs à la hausse
et à la baisse dans une série chronologique.
1 https://ensai.fr/wp-content/uploads/2019/06/Polyseriestemp.pdf / Page 5
7
2
Le bruit blanc est une suite de variables aléatoires non corrélées dans le temps, avec une
espérance nulle et une variance constante, le bruit blanc est un élément fondamental en
modélisation des séries temporelles, car il représente un signal purement aléatoire. Il est utilisé
comme terme d'erreur dans les modèles AR, MA et ARIMA.3
2
Ibid. / Page 6
3
Modélisation de séries stationnaires MAP-STA2 : Séries chronologiques / Y. Goude - [email protected] / 2023-2024 / Page
1
8
Une série temporelle est stationnaire si sa moyenne, sa variance et son autocorrélation restent
constantes dans le temps. En d'autres termes, une série est stationnaire si elle ne présente ni la
tendance, ni la saisonnalité, et que ses fluctuations restent stables au fil du temps.4
Si une série temporelle présente une structure claire avant différenciation (comme tendance,
saisonnalité et cycles), la différenciation modifie ou élimine certaines de ces composantes :
2. Variation saisonnière : Une différenciation (ex. Y’t = Yt – Yt-1) peut être utilisée pour
supprimer des effets saisonniers.
3. Variation cyclique : Les cycles de longue durée peuvent être réduits après
différenciation, mais peuvent encore être présents sous une forme atténuée.
La Différenciation:
Y’ t = Y t – Y t-1
Pour effectuer une différenciation sur une séries chronologiques. L’un des moyens les plus
simples consiste à utiliser la bibliothèque pandas dans python, qui fournit une fonction
appelée diff() pour la différenciation. On peut spécifier l’ordre de différenciation en
transmettant un paramètre appelé periods, dont la valeur par défaut est 1. Par exemple, si on a
un objet Pandas Series appelé sales, vous pouvez le différencier en utilisant le code suivant :
4
Ibid. /Page 4
5
https://fr.linkedin.com/advice/1/what-advantages-disadvantages-
differencing?lang=fr&lang=fr#:~:text=Par%20exemple%2C%20si%20vous%20avez,est%20une%20nouvelle%20s%C3%A9rie%2
0chronologique.
9
On peut également utiliser la bibliothèque numpy, qui fournit une fonction appelée diff() pour
la différenciation. On peux spécifier l’ordre de différenciation en transmettant un paramètre
appelé n, dont la valeur par défaut est 1. Par exemple, si on a un objet tableau numpy appelé
sales, vous pouvez le différencier à l’aide du code suivant :
10
1. Différence entre TS et DS et l'utilisation de
chaque type
• Le processus stationnaire autour d’une tendance, Processus TS (Trend Stationary)
Un processus stationnaire en tendance (TS) est une série temporelle et non stationnaire à la
cause de la présence d’une tendance déterministe* (La tendance est significative), ce type de
séries devient stationnaire après la suppression de la tendance directement car il n’y a pas un
effet d’une choc stochastique. 6
*Une tendance déterministe est une tendance qui évolue de manière prévisible et fixe dans le
temps.
𝑌𝑡 = 𝐹(𝑡) + ℇ𝑡
Ou : 𝑌𝑡 = 𝑎 + 𝑏𝑡 + ℇ𝑡
Où :
𝐸𝑠𝑝é𝑟𝑎𝑛𝑐𝑒(𝑌𝑡 ) = 𝑎 + 𝑏𝑡
Car la moyenne de ℇ𝑡 = 0, donc le processus n’est pas stationnaire car l’espérance dépend du
temps (𝑡) et n’est pas nulle, donc pour le rendre stationnaire, il est nécessaire d’éliminer la
tendance.
𝑌′𝑡 = 𝑌𝑡 − 𝐹(𝑡)
Ou : 𝑌′𝑡 = ℇ𝑡
Où :
Utilisation :
6
Chapitre 3 Introduction aux tests de racine unitaire / Ahmed Bensalma / 30 Apr 2022
11
➢ Dans le cas où normalement la série est stationnaire car la racine unitaire est absente
mais il y a une tendance que on a besoin de l’éliminer avant de passer à la modélisation.
Un processus stationnaire en différence (DS) présente une série temporelle et non stationnaire,
à la cause de la présence d’une racine unitaire, ce type de série temporelle devient stationnaire
après application de la différenciation pour supprimer les sources non-stationnarité dans les
séries temporelles.
* RACINE UNITAIRE indique qu’un choc stochastique aura un effet permanent sur la serie.
𝑌𝑡 = 𝑎 + 𝑏𝑡 + 𝑌𝑡−1 + ℇ𝑡
𝑌𝑡 = 𝑎 + 𝑌𝑡−1 + ℇ𝑡
𝑌𝑡 = 𝑌𝑡−1 + ℇ𝑡
Où :
• 𝑎 + 𝑏𝑡 Est la tendance
Donc pour rendre le processus stationnaire, il est nécessaire de prendre les différences
premières de la série par la formule :
𝑌′𝑡 = 𝑌𝑡 + 𝑌𝑡−1 = 𝑎 + 𝑏 + ℇ𝑡
7
ECONOMETRIE DES SERIES TEMPORELLES / Hélène Hamisultane / 24 Jan 2016
12
Type 2 : il existe seulement une constante (DS avec dérive).
𝑌′𝑡 = 𝑌𝑡 + 𝑌𝑡−1 = 𝑎 + ℇ𝑡
𝑌′𝑡 = 𝑌𝑡 + 𝑌𝑡−1 = ℇ𝑡
Où :
Utilisation :
Il est utilisé pour modéliser des données stationnaires présentant une dépendance temporelle.
actuelle de la série et ses valeurs passées (c.-à-d. l’effet des valeur précédant).
8
Les Processus AR / Gilbert Colletaz / 10 octobre 2018
9
IBM / Qu’est-ce qu’un modèle autorégressif ? / Joshua Noble (Data Scientist) / 12 juin 2024
13
εT : est un bruit blanc, une erreur aléatoire avec une moyenne de zéro et une variance constante.
L’ordre (P) :Le modèle AR(p) suppose que la valeur actuelle de la série dépend des p valeurs passées.
YT= 0.7YT-1+εT
• Dans ce modèle, la valeur actuelle de YT dépend uniquement de la valeur passée YT-1
et du bruit blanc εT.
• Le coefficient 0.7 est appelé coefficient autorégressif, il indique l'impact de YT-1 sur la
valeur actuelle YT
• εT est un bruit blanc (avec une moyenne nulle et une variance constante),
• Cela signifie que YT est une combinaison pondérée de sa valeur précédente YT-1, avec
un facteur d'atténuation de 0.7, plus une erreur aléatoire.
YT= 0.7YT-1+0.5YT-2+εT
• Dans ce modèle, la valeur actuelle de YT dépend de deux valeurs passées : YT-1, YT-2
et du bruit blanc εT.
• Les coefficients 0.7 et 0.5 associés à YT-1, YT-2, indiquent l'impact de ces valeurs passées
sur la valeur actuelleYT
• εT est un bruit blanc (avec une moyenne nulle et une variance constante),
• Cela signifie que YT est une combinaison pondérée de ses deux valeurs passées avec les
facteurs d'atténuation de 0.7 et 0.5, plus une erreur aléatoire .
14
• Définitions de Moyenne Mobile
Le modèle Moyenne Mobile (MA) est un modèle de séries temporelles (à condition d’être
stationnaire) dans lequel la valeur actuelle d'une variable dépend linéairement de ses erreurs
passées.10
• εT est le bruit blanc actuelle (avec une moyenne nulle et une variance constante),
• Cela signifie que YT est une combinaison pondérée de l'erreur à l'instant actuel et de
l'erreur passée , avec un facteur d'atténuation 0.5.
10
Les Processus MA / Gilbert Colletaz / 24 octobre 2019
15
• Les coefficients 0.5 et 0.8 sont des coefficients de moyenne mobile qui représente
l'impact des erreurs passées sur la valeur actuelle.
• εT est le bruit blanc actuelle (avec une moyenne nulle et une variance constante),
• Cela signifie que YT est une combinaison pondérée de l'erreur à l'instant actuel et de
deux erreurs passées, avec les facteurs d'atténuation 0.5et 0.8 .
• Modèle ARIMA (p, d, q) : ajoute un paramètre de différenciation pour rendre une série
stationnaire avant modélisation.
Une série TS est stationnaire après la suppression de la tendance déterministe. Cela signifie
qu'on peut directement appliquer un modèle AR(p) ou ARMA(p,q).
Pour les déjà TS et DS qui sont déjà stationnaire soit avec la différenciation ou avec l’élimination
de la tangence
Cependant, si la série ne dépend pas de ses erreurs passées, un modèle MA sera inutile.
Cependant, si la série ne dépend pas de ses erreurs passées, un modèle MA sera inutile.
11
IBM / Qu’est-ce qu’un modèle ARIMA ? / Joshua Noble (Data Scientist) / 24 mai 2024
16
L'utilisation d'un modèle AR(p) avec une série TS (Trend Stationary) est courante. Après
suppression de la tendance, si la série stationnaire obtenue dépend de ses valeurs passées, un
modèle AR(p) est approprié.
3. Hétéroscédasticité et solutions
• Définition :
L’hétéroscédasticité désigne une situation où la variance des erreurs n’est pas constante dans le
temps ou en fonction des variables explicatives.
Cela viole l’hypothèse de homoscédasticité, qui suppose une variance constante des erreurs
dans un modèle de régression linéaire. 12
12
Économétrie, cours et exercices corrigés 9éme édition/ Régis BOURBONNAIS / 7 Jan 2015/ Page 142
17
Ce qui peut entraînant Des estimations inefficaces et mauvaise
➢ Test de White :
Hypothèses :
• H1 : Hétéroscédasticité.
➢ Test de Breusch-Pagan
➢ Test ARCH14
Utile lorsque le test white est significative mais le test ARCH est none significative.
➢ Modèles ARCH/GARCH
Si l’hétéroscédasticité est conditionnelle (le model ARCH est significative), on utilise un modèle
ARCH ou GARCH :
ARCH(q) :
13
Économétrie, cours et exercices corrigés 9éme édition/ Régis BOURBONNAIS / 7 Jan 2015/ Page 162
14
Économétrie, cours et exercices corrigés 9éme édition/ Régis BOURBONNAIS / 7 Jan 2015/ Page 164
18
𝑞
𝑉𝐴𝑅(ℇ𝑡 ) = 𝑎0 + ∑ 𝑎𝑖 ℇ2𝑡−𝑖
𝑖=1
GARCH(p,q) :
𝑞 𝑝
➢ Erreurs Robustifiées 15
La méthode des Moindres Carrés Généralisés (GLS) est utilisée pour corriger
l’hétéroscédasticité en prenant en compte la variation de la variance des erreurs dans un
modèle de régression. Contrairement aux Moindres Carrés Ordinaires, qui supposent une
variance constante des erreurs, Cette méthode est particulièrement utile lorsque le test de
White détecte une hétéroscédasticité, mais que le test ARCH ne montre pas d’effet
conditionnel.
Mais dans le cas où les deux tests sont significatifs, il est possible d’utiliser CLS La méthode des
Moindres Carrés conditionnel lors de l’estimation du modèle, ce qui permet de corriger
automatiquement l’hétéroscédasticité et d’améliorer la fiabilité des résultats.
15
https://fr.statisticseasily.com/ Qu'est-ce que c'est : les erreurs types robustes
19
Pour un décalage de plusieurs unités, on utilise plusieurs fois de suite cet opérateur, ce que l'on
note L élevé à une certaine puissance (l'exposant doit s'entendre au sens de la composition).
Ainsi
𝑳𝒌 𝒙𝒕 = 𝒙𝒕−𝒌
Une généralisation est de décaler non-plus dans le passé mais dans le futur, par un exposant
négatif. Par exemple, on pose
𝑳−𝟏 𝒙𝒕 = 𝒙𝒕+𝟏
• Propriété
L'opérateur des retards et l'opérateur de multiplication sont commutatifs:
𝑳(𝜷𝒙𝒕 ) = 𝜷. (𝑳𝒙𝒕 )
L'opérateur des retards est distributif par rapport à l'opérateur d'addition:
• Polyn𝒐
̂me de retard
On peut combiner les propriétés précédentes pour former un polynôme retard, appelé encore
polynôme caractéristique. Ce genre de polynôme est utilisé pour simplifier l'écriture des
modèles de classe ARMA (autorégressifs et moyenne mobile). Par exemple, pour le
modèle AR(1):16
𝒙𝒕 = 𝑪 + 𝝋𝒙𝒕−𝟏 + 𝜺𝒕 ⇒ (𝟏 − 𝝋𝑳)𝒙𝒕 = 𝒄 + 𝜺𝒕
𝒙𝒕 = ∑ 𝝋𝒙𝒕−𝟏 + 𝜺𝒕 ⇒ (𝟏 − 𝝋𝟏 𝑳𝟏 𝝋𝟐 𝑳𝟐 − ⋯ − 𝝋𝑷 𝑳𝑷 ) 𝒙𝒕 = (𝟏 − ∑ 𝝋𝟏 ⋅ 𝑳𝒊 ) 𝒙𝒕 = 𝜺𝒕
𝒊=𝟏 𝒊=𝟏
Cela permet d'avoir une notation très concise d'un modèle ARMA(p,q):
𝛷𝑥𝑡 = Θ𝜀𝑡
16
https://fr.m.wikipedia.org/wiki/Op%C3%A9rateur_retard#:~:text=En%20l'analyse%20des%20s%C3%A9ries,%2C%
20associe%20l'observation%20pr%C3%A9c%C3%A9dente.
20
où Φ et Θ représentent les polynômes retard associés aux composantes autorégressives (AR)
et en moyenne mobile (MA)
𝑷
𝜱=𝟏− ∑ 𝝋𝒊 𝑳𝒊
𝒊=𝟏
Et
𝒒
𝚯 = 𝟏 + ∑𝒊=𝟏 𝜽𝑳𝒊
• Equation caractéristique
L'équation caractéristique se trouve très facilement depuis le polynôme caractéristique en
substituant à l'opérateur des retards L la variable x. Pour le modèle AR(p):
(1 − 𝜑1 𝐿1 −𝜑2 𝐿2 − ⋯ − 𝜑𝑃 𝐿𝑃 )
devient (1 − 𝜑1 𝑥 1 − 𝜑2 𝑥 2 − ⋯ − 𝜑𝑝 𝑥 𝑝 )
Opérateur de différence
𝛥𝑥𝑡 = 𝑥𝑡 − 𝑥𝑡−1
𝛥𝑥𝑡 = (1 − 𝐿) 𝑥𝑡
De manière similaire, l'opérateur de différence seconde est
𝛥2 𝑋𝑡 = (1 − 𝐿)𝛥𝑥𝑡
𝛥2 𝑋𝑡 = (1 − 𝐿)(1 − 𝐿)𝑋𝑡
𝛥2 𝑋𝑡 = (1 − 𝐿)2 𝑋𝑡
L’approche précedente se généralise à la i-ème différence
21
𝛥𝑖 𝑋𝑡 = (1 − 𝐿)𝑖 𝑥𝑡
5. Statistique de Stationnarité :
La stationnarité est la propriété d'une série temporelle à garder ses caractéristiques inchangées
au passage du temps.
Elle implique l'absence de tendance dans les données ainsi qu'une moyenne et une variance
constantes pour la série temporelle
Cela signifie que toutes les statistiques d'ordre supérieur (moyenne, variance, skewness,
kurtosis, etc.) sont invariantes dans le temps. Un bruit blanc gaussien est un exemple de
processus strictement stationnaire, car toutes ses statistiques restent constantes. Cependant,
cette condition est souvent difficile à vérifier en pratique, car elle impose une constance de
toutes les distributions jointes du processus.
1. Moyenne constante
2. Variance constante
3. Autocovariance ne dépend que du décalage
Statistiques de Stationnarité :
22
Moyenne constante :
Une série temporelle est stationnaire si sa moyenne reste stable dans le temps. Elle ne
doit pas présenter de tendance à la hausse ou à la baisse. Formellement :
𝑦𝑘
𝜌𝑠 = Cor(𝑦𝑡 , 𝑦𝑡−𝑘 ) =
𝑦0
ces moments de la population peuvent être calculés en utilisant les données d'échantillonnage
avec les formules suivantes:
𝑇
∑𝑡=1(𝑦𝑡 −𝑦̅)2
la variance : 𝑦̂0 =
𝑇
𝑇
∑𝑡=1(𝑦𝑡 −𝑦̅)(𝑦𝑡+𝑘 −𝑦̅)
L’autocovariance d’ordre k : 𝑦̂𝑘 =
𝑇
𝑦̂𝑘
L’autocorrélation d’ordre k : 𝜌̂𝑘 =
𝑦̂0
23
➢ Si la série temporelle est stationnaire, alors tout choc au temps t aura un effet
décroissant qui finira par disparaitre au temps t + s lorsque s → ∞
➢ Tout processus bruit blanc est stationnaire, mais toute série temporelle stationnaire
n'est pas nécessairement un bruit blanc.
24
Pour une série temporelle qui est la réalisation d’un processus stationnaire, les
autocorrélations déclinent rapidement et de manière exponentielle avec le nombre de
décalages (partie a).
Ceci n’est pas le cas pour un processus non stationnaire (partie b). 17
17
Bourbonnais, R., & Terraza, M. (2020). Analyse des séries temporelles : Stationnarité, modèles ARMA et
prévisions. Dunod.
18
https://fr.wikipedia.org/wiki/Test_de_Dickey-Fulleer
25
Ce test repose sur l’estimation d’un modèle autorégressif simple (AR(1)) et l’examen du
coefficient de l’autoregression. Il existe trois versions du test, selon les caractéristiques de la
série analysée :
o Le test vérifie si elle suit une marche aléatoire avec une constante.
o Si H₀ est rejetée, la série est stationnaire avec une moyenne stable.
3. Cas 3 : Série avec une tendance linéaire
o La moyenne de la série augmente ou diminue au fil du temps.
o Le test vérifie si la série suit une marche aléatoire avec une tendance linéaire.
o Si H₀ est rejetée, la série est stationnaire après suppression de la tendance.
26
Les hypothèses du test de Dickey-Fuller Augmenté se définissent de la façon suivante :
Où 𝜌 = 0 , ø =1 et ηt ~>iid(0, σ2 η)
H1 : ø1 < 1
Table de ADF ( t tab) : Comparaison de la statistique t avec la valeur critique tabulée (t-tab)
pour tester la significativité de la tendance et de la constante, afin de déterminer le type de
série (Ts, Ds, Ds avec dérive, Ds sans dérive).
27
Limites du test ADF :
Bien que le test ADF soit une méthode largement utilisée pour tester la stationnarité, il a ses
limites. Une limitation importante est sa sensibilité au choix de la longueur du décalage, qui
peut affecter la puissance et les résultats du test. De plus, le test ADF peut ne pas fonctionner
correctement en présence de ruptures structurelles ou lorsque la série chronologique présente
des tendances. Les analystes devraient envisager de compléter le test ADF avec d'autres tests
de stationnarité, tels que le test de Kwiatkowski-Phillips-Schmidt-Shin (KPSS) ou le test de
Phillips-Perron, pour acquérir une compréhension plus complète des propriétés des séries
chronologiques. 19
• Test de Phillips-Perron : 20
1) Estimation par la méthode des moindres carrés ordinaires les trois modèles du test
de Dickey-Fuller simple et calcul des résidus . 𝜀̂𝑡2
𝑛
1
𝜎̂ 2 = ∑ 𝜀̂𝑡2
𝑛
𝑡=1
𝑏
1 𝑛 𝐽 1 𝑛
= ∑𝑡=1 𝜀̂𝑡2 +2 ∑ (1 − ) ∑𝑡=𝑘=𝑘 𝜀̂𝑡 𝜀̂𝑡−𝑗
𝑛 𝑗=1 𝑏+1 𝑛
Ou
𝑛 2⁄9
B ≈ 4( )
100
19
https://fr.statisticseasily.com/glossaire/qu%27est-ce-que-le-test-Dickey-Fuller-augment%C3%A9/
20
https://shs.hal.science/cel-01261174/document
28
4) Calcul de la statistique de Phillips et Perron :
(𝜙1 − 1) 𝑛(𝑘 − 1)𝜎̂𝜙̂1
𝑡𝜙′ 1 = √𝑘 +
𝜎̂𝜙̂1 √𝑘
Avec
̂2
𝜎
K=
𝑠𝑡2
6. est de normalité
Le test de normalité est utilisé normalement pour vérifier si le bruit est gaussier
(P>0,05).
L'une des hypothèses les plus courantes pour les procédures de test statistique est que les
données utilisées doivent être normalement distribuées. Par exemple, si un test t ou
une ANOVA doit être calculé, il faut d'abord vérifier si les données ou les variables sont
normalement distribuées .
Si la distribution normale des données n'est pas donnée, les procédures ci-dessus ne peuvent
pas être utilisées et les tests non paramétriques, qui ne nécessitent pas une distribution
normale des données, doivent être utilisés.
Dans le cas d'une analyse de régression, les hypothèses de distribution normale sont également
importantes, mais il est important que l'erreur commise par le modèle soit normalement
distribuée et non les données elles-mêmes.
La distribution normale peut être testée de manière analytique ou graphique. Les tests
analytiques les plus courants pour vérifier la distribution normale des données sont les suivants
:
▪ Le test de Kolmogorov-Smirnov
▪ Le test de Shapiro-Wilk
29
▪ Le test d'Anderson-Darling.
Pour le test graphique, on utilise soit un histogramme, soit le graphique Q-Q. Q-Q est
l'abréviation de Quantile Quantile Plot, il compare la distribution réelle observée et la
distribution théorique attendue.
Avec tous ces tests, vous testez l'hypothèse nulle selon laquelle vos données sont normalement
distribuées. L'hypothèse nulle est donc que la distribution des fréquences de vos données est
normalement distribuée. Pour rejeter ou ne pas rejeter l'hypothèse nulle, vous obtenez
une valeur p à partir de tous ces tests. La grande question est de savoir si cette valeur p est
inférieure ou supérieure à 0,05.
Si la valeur p est inférieure à 0,05, elle est interprétée comme un écart significatif par rapport à
la distribution normale et vous pouvez supposer que vos données ne sont pas normalement
30
distribuées. Si la valeur p est supérieure à 0,05 et que vous voulez être complètement propre
d'un point de vue statistique, vous ne pouvez pas nécessairement dire que la distribution des
fréquences correspond à la distribution normale, vous ne pouvez simplement pas réfuter
l'hypothèse nulle.
Dans la pratique, même si la distribution n'est pas complètement propre, elle est toujours
traitée de telle sorte qu'une valeur supérieure à 0,05 est supposée être une distribution
normale. Néanmoins, il convient toujours d'examiner la solution graphique.
Le problème est que la valeur p calculée est affectée par la taille de l'échantillon. Par
conséquent, si vous avez un très petit échantillon, votre valeur p peut être beaucoup plus grande
que 0,05, mais si vous avez un très très grand échantillon de la même population, votre valeur
p peut être plus petite que 0,05.
Pour résoudre ce problème, vous devez utiliser de plus en plus les méthodes graphiques.
Si la distribution normale est testée graphiquement, on examine soit l'histogramme, soit, mieux
encore, le graphique QQ.
Si vous optez pour l'histogramme, vous tracez la distribution normale sur l'histogramme de vos
données et vous voyez si la courbe de la distribution normale correspond à peu près à celle de
la courbe de la distribution normale.
Toutefois, il est préférable d'utiliser ce que l'on appelle le tracé des quantiles ou tracé QQ en
abrégé. Il s'agit ici de comparer les quantiles théoriques que les données devraient avoir si elles
étaient parfaitement distribuées normalement et les quantiles des valeurs mesurées .
32
Si les données sont parfaitement normales, tous les points se situent sur la ligne. Plus les
données s'écartent de la ligne, moins elles sont normalement distribuées.
Si vous testez la distribution normale de vos données avec DATAtab, vous obtenez l'évaluation
suivante: vous obtenez d'abord les procédures de test analytiques clairement organisées dans
un tableau, puis les procédures de test graphiques.
33
Si vous souhaitez tester la distribution normale de vos données, il vous suffit de copier vos
données dans le tableau de DATAtab, de cliquer sur Statistiques descriptives et de sélectionner
la variable dont vous souhaitez tester la distribution normale. Cliquez ensuite sur Test de la
distribution normale et vous obtiendrez les résultats.
En outre, si vous calculez un test d'hypothèse avec DATAtab, vous pouvez tester les conditions
préalables pour chaque test d'hypothèse. Si l'une des conditions préalables est la distribution
normale, vous obtiendrez le test de distribution normale de la même manière. 21
Le test de Shapiro-Wilk est le plus utilisé pour évaluer la distribution Normale d’un échantillon.
Il est adapté aussi bien aux petits qu’aux grands échantillons. Ce test réalisable sur un logiciel
de statistique donne directement la p-value.
21
https://datatab.fr/tutorial/test-of-normality
34
Hypothèse nulle H0 : La variable dont provient l’échantillon suit une loi Normale. Versus
hypothèse alternative H1 : La variable dont provient l’échantillon ne suit pas une loi Normale.
Soit p-value > 0,05 (avec le niveau de signification alpha=5%), dans ce cas l’hypothèse nulle H0
est acceptée. Nous pouvons conclure que les données suivent une distribution Normale. Soit
la p-value est ≤ 0,05. L’hypothèse H0 est rejetée et les données n’ont pas une distribution
normale.
Ci-dessous le tableau des résultats d’un test de Shapiro-Wilk. W est la valeur du test et la p-value
est égale à 0,423. Elle est inférieure à 0,05. Nous acceptons donc l’hypothèse nulle et nous
concluons que la distribution de la variable « Height » suit une loi Normale.
Le tracé Q-Q plot montre que les valeurs de la variable « Height » sont bien alignées sur la droite
du graphique.
35
Par contre le test de Shapiro-Wilk appliqué à la variable Cytorachie (c/ul), donne une p-value <
0,0001. Les données de cette variable ne suivent pas une distribution normale . 22
22
https://statinferentielle.fr/normalite/
36
différence absolue maximale entre ces deux fonctions, qui est ensuite comparée à une valeur
critique pour déterminer la signification du résultat.
distribution sous-jacente des données et peuvent être appliqués dans divers scénarios.
Dans le test de normalité de Kolmogorov Smirnov, la distance maximale (D) entre les fonctions
de distribution cumulative (FDC) indique la probabilité que deux échantillons proviennent de la
même distribution ; plus la valeur D est petite, plus les distributions sont similaires.
La statistique d'AD est utilisée pour calculer la valeur de p du test d'adéquation de l'ajustement,
ce qui vous aide à identifier la loi qui s'ajuste le mieux à vos données. Par exemple, la statistique
d'AD est calculée pour chaque loi lorsque vous exécutez la commande Identification de loi
individuelle. Les valeurs de p calculées à partir de cette statistique permettent d'identifier le
23
https://fr.statisticseasily.com/glossario/what-is-kolmogorov-smirnov-test/#google_vignette
24
https://support.minitab.com/fr-fr/minitab/help-and-how-to/quality-and-process-improvement/capability-
analysis/supporting-topics/distributions-and-transformations-for-nonnormal-data/anderson-darling-and-
distribution-fit/
37
modèle de loi à utiliser pour une analyse de capabilité ou une analyse de fiabilité. La statistique
d'AD est également utilisée pour vérifier si un échantillon de données provient d'une population
avec une distribution spécifique. Par exemple, vous pouvez avoir besoin de vérifier que vos
données sont conformes à l'hypothèse de normalité pour un test t.
Si vous comparez l'ajustement de plusieurs lois, celle ayant la valeur de p la plus élevée est
généralement celle qui est la mieux ajustée aux données. Si les lois présentent des valeurs de p
similaires, choisissez-en une en fonction de vos connaissances pratiques.
7. Types de transformations :
Les séries temporelles sont des suites de données chronologiques souvent influencées par des
tendances et des variations saisonnières. Pour analyser ces séries de manière efficace, il est
essentiel de transformer les données afin de les rendre stationnaires, c'est-à-dire sans tendance
ni saisonnalité. Si le type de série est (Ts), les transformations avec moindres carrés sont
appréciées. En revanche, s'il est de type (Ds), on procède à la différenciation.
Bien que les séries les plus intéressantes ne soient pas stationnaires, le modèle ARIMA est
efficace tant que la série peut être rendue stationnaire par l'application de transformations
comme :
38
Transformations de stabilisation de variance (méthode de Box-Cox ) : Il est souvent possible de
stabiliser les séries dans lesquelles la variance évolue dans le temps à l'aide d'une
transformation par le logarithme naturel ou par la racine carrée. Ces transformations sont
également appelées transformations fonctionnelles.
Moindres carrés :
Si une série suit une tendance (par exemple, une température qui augmente progressivement
chaque année), elle n'est pas stationnaire. Une première étape consiste à ajuster une tendance
linéaire avec la méthode des moindres carrés, puis à la retirer.
Racine carrée :La fonction racine carrée est appliquée aux valeurs de la série.
Il n'est pas possible d'utiliser les transformations par le logarithme naturel et par la racine carrée
pour les séries comportant des valeurs négatives.
La différenciation vise à éliminer les tendances et/ou les composantes saisonnières d'une série
temporelle en calculant les différences entre les observations successives. Cette méthode est
particulièrement utile pour stabiliser la moyenne d'une série non stationnaire.
39
Types de différenciation :
- Différenciation simple : Elle consiste à soustraire chaque valeur de la série par la précédente,
éliminant ainsi les tendances linéaires. Mathématiquement, cela s'exprime par : 𝑦𝑡 = 𝑥𝑡 −
𝑥𝑡−1
Il est crucial de ne pas sur-différencier une série, car cela peut introduire une complexité inutile
et affecter la qualité des prévisions. Une différenciation excessive peut transformer une série
stationnaire en une série non stationnaire.
• Dé-trend et désaisonnalisation :
Ces techniques visent à isoler et supprimer les composantes de tendance et saisonnières d'une
série temporelle, facilitant ainsi l'analyse des composantes résiduelles.
40
b) Désaisonnalisation (Suppression de la saisonnalité) :
La désaisonnalisation vise à éliminer les effets saisonniers récurrents. Une méthode courante
est celle des moyennes mobiles, où l'on calcule la moyenne des observations sur une période
complète du cycle saisonnier et on soustrait cette moyenne de la série originale. Par exemple,
pour des données mensuelles avec une saisonnalité annuelle, on calcule la moyenne sur 12 mois
et on l'enlève de chaque observation correspondante
Ces transformations sont appliquées pour stabiliser la variance des séries temporelles. La
transformation logarithmique, par exemple, est définie par : 𝑦𝑡 = log(𝑥𝑡 ) . Elle est
particulièrement utile lorsque la variance augmente avec le niveau de la série. La transformation
de Box-Cox est une généralisation qui inclut la transformation logarithmique comme cas
𝑥𝑡𝜆 −1
particulier et est définie par : 𝑦𝑡 = 𝑝𝑜𝑢𝑟 𝜆 ≠ 0 25
𝜆
• Méthodes de lissage :
Le lissage est une technique utilisée en analyse des séries temporelles pour atténuer les
variations aléatoires, révéler les tendances sous-jacentes et faciliter l’identification des
composantes principales (tendance, saisonnalité, bruit). Le lissage permet de rendre une série
plus stationnaire en supprimant certaines structures persistantes. Il existe plusieurs types de
méthodes de lissage, chacune ayant ses propres formules et propriétés.
La méthode de la moyenne mobile consiste à remplacer chaque valeur d'une série par la
moyenne des n valeurs précédentes, réduisant ainsi les fluctuations aléatoires.
25
https://www.ibm.com/docs/fr/spss-modeler/saas?topic=data-series-transformations
41
La moyenne mobile simple est définie par :
𝑛−1
1
𝑦𝑡 = ∑ 𝑋𝑡−𝑖
𝑛
1=0
1
𝑦𝑡 = ∑𝑛𝑖=−𝑛 𝑥𝑡+𝑖
2𝑛+1
Cela permet d’obtenir un lissage plus équilibré en conservant le centre des données.
𝑦𝑡 = ∑ 𝑤𝑖 𝑋𝑡−𝑖 𝑎𝑣𝑒𝑐 ∑ 𝑤𝑖 = 1
1=0 1=0
Les poids peuvent être déterminés empiriquement ou selon une règle spécifique.
2. Lissage exponentiel
42
Le lissage exponentiel est une méthode qui applique un coefficient de pondération exponentiel
décroissant sur les observations passées. Contrairement aux moyennes mobiles, il ne nécessite
pas de stocker un grand nombre d’observations passées.
La constante α
Le modèle de Holt est particulièrement utile pour les séries présentant une tendance linéaire.
43
𝑥𝑡
𝑆𝑡 = 𝛾 + (1 − 𝛾 )𝑠𝑡−𝑠
𝑦𝑡
Où :
Cette méthode est particulièrement efficace pour les séries avec une tendance et une
saisonnalité marquée. 26
Le filtrage par différences est efficace pour éliminer une tendance monotone croissante ou
décroissante, voire une tendance de forme quelconque, mais dont la courbure varie lentement
(signal à très haute fréquence). Dans ce cas, la méthode est très efficace pour stationnariser une
série. Dans le cas de la superposition d’un cycle, on peut indiquer un décalage lag= d’un demi-
cycle pour épargner au mieux le cycle dans le filtrage.
• Filtres linéaires :
Les filtres linéaires, tels que les moyennes mobiles, sont utilisés pour lisser les séries temporelles
et réduire le bruit aléatoire. Une moyenne mobile simple est calculée en prenant la moyenne
des n observations précédentes :
𝑛−1
1
𝑦𝑡 = ∑ 𝑋𝑡−𝑖 . Cette technique est utile pour révéler les tendances sous-jacentes en
𝑛 𝑖=𝑜
atténuant les fluctuations à court terme.
26
https://fr.wikipedia.org/wiki/Lissage_exponentiel#:~:text=Le%20lissage%20exponentiel%20est%20une%20des%2
0m%C3%A9thodes%20de%20fen%C3%AAtrage%20utilis%C3%A9es,fr%C3%A9quences%20%C3%A9lev%C3%A9es
%20du%20signal%20initial.&text=%2C%20d%C3%A9barrass%C3%A9%20des%20al%C3%A9as%20(en%20traitem
ent,bruit)%20en%20fonction%20du%20pass%C3%A9.
27
https://wp.sciviews.org/sdd-umons3-2023/filtrage-dune-s%C3%A9rie.html
44
𝑇 𝑇−1
b) Filtre de Kalman
Le filtre de Kalman est une méthode récursive qui met à jour l'estimation de l'état latent d'un
processus stochastique :
𝑋𝑡 = 𝐴𝑥𝑡−1 + 𝑤𝑡
𝑌𝑡 = 𝐻𝑋 + 𝜈𝑡
Où : 𝑋𝑡 est l’état latent,
𝑌𝑡 est l’observation,
Le filtre de Kalman permet une mise à jour dynamique des prédictions et du lissage.
• Critières de choix :
- Différenciation : Utilisée lorsque la série présente une tendance non stationnaire, c'est-à-dire
une croissance ou une décroissance systématique au fil du temps. Elle consiste à calculer la
différence entre valeurs successives pour éliminer cette tendance. Une différenciation d'ordre 1
45
(𝑥𝑡 − 𝑥𝑡−1 ) est souvent suffisante, mais une différenciation d'ordre 2 peut être nécessaire si la
tendance est quadratique.
- Detrending : Appliqué lorsque la série est affectée par une tendance déterministe,
généralement modélisée par une fonction linéaire ou polynomiale. Cette méthode consiste à
ajuster et soustraire cette tendance (𝑥𝑡 = 𝑚𝑡 + 𝜖𝑡 ), où 𝑚𝑡 est la tendance estimée. Elle est utile
lorsque la tendance est stable et peut être estimée précisément.
- Lissage : Appliqué lorsque la série contient des variations aléatoires bruyantes, mais qu'une
tendance ou une saisonnalité doit être préservée. Il existe différentes méthodes de lissage
(moyennes mobiles, lissage exponentiel), adaptées selon la nature de la série. Par exemple, le
lissage exponentiel simple est utilisé pour des séries sans tendance, tandis que le modèle de
Holt-Winters est plus adapté aux séries avec tendance et saisonnalité.
- Filtrage : Utilisé pour extraire une composante spécifique d’une série, comme la tendance ou
le cycle. Le filtre de Hodrick-Prescott est couramment utilisé pour séparer la tendance et le cycle
dans les séries macroéconomiques, tandis que le filtre de Kalman est préféré pour les séries
irrégulières nécessitant une mise à jour dynamique des estimations.
46
d’hétéroscédasticité (transformation logarithmique), de bruit (lissage) ou de structures
complexes nécessitant une modélisation plus avancée (filtrage). 28
8. Stabilité du modèle AR :
Les modèles AutoRégressifs (AR) sont couramment utilisés en analyse des séries temporelles
pour modéliser la dépendance entre une observation et ses valeurs passées. Cependant, pour
assurer leur pertinence, il est essentiel de vérifier leur stabilité. Un modèle AR instable peut
produire des prédictions erronées ou non stationnaires, rendant l’interprétation des résultats
problématique.
Un modèle autorégressif (AR) est considéré comme stable lorsque l’impact des observations
passées sur les valeurs futures diminue progressivement au fil du temps, permettant ainsi à la
série de converger vers un équilibre. À l’inverse, si cet effet persiste de manière significative, la
série peut devenir instable et difficile à contrôler. 29
La stabilité d’un modèle AR est essentielle pour garantir la fiabilité des prévisions à long terme
et éviter des projections erronées ou excessives. Pour qu’un modèle AR soit stable, il est
nécessaire que les racines de son polynôme caractéristique se situent à l’extérieur du cercle
unité dans le plan complexe. Cette condition assure la stationnarité du modèle, c’est-à-dire que
ses propriétés statistiques restent constantes au cours du temps.
28
Box, G. E. P., & Cox, D. R. (1964). "An Analysis of Transformations." Journal of the Royal Statistical Society: Series
B, 26(2), 211–252.
29
Université de Cambridge – Stability of Autoregressive Processes
47
On peut le transformer en une équation caractéristique en introduisant le décalage temporel 𝐿
(opérateur lag) : 30
(1 − 𝜙1 𝐿 − 𝜙2 𝐿2 − … − 𝜙p 𝐿𝑃 ) 𝑦𝑡 = 𝜀𝑡
(1 − 𝜙1 𝑧 −1 −𝜙2 𝑧 −2 − … − 𝜙p 𝑧 −𝑃 ) = 0
1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 −…. −𝜙𝑝 𝑧 𝑝 = 0
Le paramètre 𝑧 représente donc les racines de cette équation, qui sont des valeurs complexes
ou réelles associées à la dynamique du modèle.
1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 −…. −𝜙𝑝 𝑧 𝑝 = 0
Le modèle AR est stable si toutes les racines de ce polynôme sont strictement à l’extérieur du
cercle unité (∣𝑧 ∣>1)
Si au moins une racine est dans le cercle unité (∣ 𝑧 ∣ ≤1), le modèle est instable, ce qui signifie
que la série peut dégrader sa stationnarité ou diverger dans le temps.
Cas AR (1)
Si le processus suit :
𝑦𝑡 = 𝜙 + 𝜙1 𝑦𝑡−1 + 𝜀𝑡
48
Si ∣𝜙1 ∣ ≥1, le processus est instable et peut diverger.
Cas AR (2)
Si le processus suit :
𝑦𝑡 = 𝜙 + 𝜙1 𝑦𝑡−1 + 𝜙2 𝑦𝑡−2 + 𝜀𝑡
1 − 𝜙1 𝑧 − 𝜙2 𝑧 2 = 0
1. ∣𝜙2 ∣ <1
2. 𝜙1 + 𝜙2 <1
3. 𝜙2 − 𝜙1 <1
Si ces trois conditions sont respectées, alors le modèle est stable.
1 − ∑ 𝜙𝑖 𝑧 𝑖 = 0
𝑖=1
Cela peut être vérifié en calculant les racines de l’équation caractéristique et en s’assurant que
leur module est supérieur à 1.
49
Tout comme nous pouvons définir un processus de moyenne mobile d'ordre infini, nous
pouvons également définir un processus autorégressif d'ordre infini, AR(∞). Il s'avère que tout
processus MA(q) stationnaire peut être exprimé comme un processus AR(∞). Par exemple,
supposons que nous ayons un processus MA(1) avec
μ = 0.
𝑦𝑖 = 𝜀𝑖 + 𝜃1 𝜀𝑖−1
Donc
𝜀𝑖 = 𝑦𝑖 𝑦𝑖−1 + 𝜃12 𝑦𝑖−2 − 𝜃13 𝑦𝑖−3 + −𝜃1 … + (−𝜃1 )𝑛 𝑦𝑖−𝑛 + (−𝜃1 )𝑛+1 𝜀𝑖−𝑛−1
𝑛
=∑𝑖=1(−𝜃1 )𝑗 𝑦𝑖−𝑗 + (−𝜃1 )𝑛+1 𝜀𝑖−𝑛−1
Ou de manière équivalente
∞
𝑦𝑖 = 𝜃1 𝑦𝑖−1 − 𝜃12 𝑦𝑖−2 + 𝜃13 𝑦𝑖−3 − ⋯ + 𝜀𝑖 = ∑𝑗=1(−𝜃1 )𝑗 𝑦𝑖−𝑗 + 𝜀𝑖
Il s'avère que si |θ1| < 1, alors cette série infinie converge vers une valeur finie. De tels
processus MA(q) sont appelés inversibles. 32
• Propriétés
* Propriété 1 : Si |θ1| < 1, alors le processus MA(1) est inversible.
• Exemples :
* Exemple 1 : Déterminer si le processus MA(3) suivant est inversible.
50
Nous insérons la formule de tableau =MARoots(B3:B5) dans la plage D3:F5 pour obtenir les
résultats présentés dans la Figure 1.
* Nous constatons que les trois racines de l'équation caractéristique sont 0.605828
–1.23715i, 0.605828 + 1.23715i ,et -0.87832. Puisque la valeur absolue de la racine réelle est
inférieure à 1, nous concluons que le processus n'est pas inversible. 33
𝑦𝑖 = 𝜀𝑖 − 1𝜀𝑖−1 + 21𝜀𝑖−2
En utilisant la même approche que pour l'exemple 1, nous constatons que les racines du
polynôme caractéristique sont 10/3 et 10/7, qui sont toutes deux supérieures à un. Nous
concluons donc qu'il s'agit d'un processus inversible.
33Brockwell, P. J. and Davis, R. A. (2002) Introduction to time series and forecasting, 2nd
Ed. Springer.
51
Justifications théoriques et pratiques de la parcimonie
Dans le contexte des modèles ARIMA(p,d,q), la parcimonie implique de minimiser les ordres
p, d et q :
Exemple concret
Supposons que nous ayons les résultats suivants pour différents modèles d'une même série
temporelle :
c) Implications mathématiques
52
11. Qualité de prévision
La qualité de prévision évalue la capacité d'un modèle à prédire correctement les valeurs
futures d'une série temporelle. C'est un aspect crucial car l'objectif principal de nombreux
modèles de séries chronologiques est justement la prévision.
➢ Prévision récursive : Le modèle est estimé une seule fois sur l'échantillon
d'entraînement, puis utilisé pour générer des prévisions multi-horizons.
➢ Fenêtre glissante : Le modèle est ré-estimé à chaque pas de temps en incorporant les
nouvelles observations et en éliminant les plus anciennes.
53
➢ Erreur Absolue Moyenne (MAE - Mean Absolute Error)
➢ **U de Theil**
• Biais : Mesure si les prévisions sont systématiquement trop hautes ou trop basses
• Variance : Mesure si l'amplitude des fluctuations des prévisions correspond à celle des
observations
• Covariance : Mesure si les fluctuations des prévisions sont synchronisées avec celles des
observations
54
Analyse graphique des prévisions
L'évaluation graphique est également importante pour identifier les patterns dans les erreurs de
prévision:
Dans cet exemple, l'ARIMA(2,1,1) présente les meilleures performances selon tous les critères
d'erreur.
55
12. Critères de sélection du modèle ARIMA
La sélection du modèle ARIMA optimal implique de trouver les valeurs appropriées pour les
paramètres p, d et q. Plusieurs critères peuvent être utilisés pour comparer différents modèles
candidats.
a) Critères d'information
Le BIC impose une pénalité plus sévère pour les modèles complexes, surtout quand n est grand
(ln(n) > 2 pour n > 8).
Pour les petits échantillons, l'AIC peut être biaisé. L'AICc corrige ce biais :
L'AICc est plus adapté que l'AIC lorsque n est petit ou que k est grand par rapport à n.
56
c) Stratégies de sélection automatique du modèle ARIMA
57
13. Définition et Caractéristiques des séries
financières :
1. Les séries financières 34: sont des séries chronologiques qui représentent l'évolution
d'une variable financière dans le temps (ex. : prix des actions, taux de change, taux
d'intérêt, PIB, inflation, etc.).
Autrement dit, Une série financière est une suite chronologique de données financières
observées à intervalles réguliers (par exemple, quotidiennement, mensuellement,
annuellement). Elle est utilisée pour analyser l’évolution d’une variable financière dans le
temps.
Les séries financières sont très reconnu par la volatilité, c’est à dire ils sont très volatile.
Parce qu’il s’agit d’un variable monétaire et financière.
---> Les séries financières sont souvent analysées à l’aide de modèles statistiques et
d’apprentissage automatique comme les moyennes mobiles, les modèles ARIMA, GARCH,
ou encore les réseaux de neurones pour prédire les mouvements futurs.
Les séries financières sont un cas particulier des séries chronologiques. Voici la distinction
principale :
34
Tsay, R. S. (2010). "Analysis of Financial Time Series" (3rd Edition). Wiley.
35
Statistics for Business and Economics de Paul Newbold, William L. Carver, et Richard E. M.
58
Une série chronologique : est une série de données qui décrit la variation d’un élément par
ràpport au temps.
Caractèristiques : Peut être stationnaire ou non stationnaire, il peut également contenir une
tendance ou une saisonnalité.
Une série Financière : Une série chronologique appliquée aux données financières. Il décrit la
variation d’un actif financière en fonction de temps.
Les caractèristiques : Les séries financières sont volatilité, souvent non stationnaire, présence
de "bruits" et d’effets de marché.
→ En résumé : Une série financière est une sous-catégorie de série chronologique appliquée
aux marchés financiers.
Les séries financières possèdent plusieurs caractéristiques spécifiques qui les distinguent des
autres types de séries temporelles. Voici les principales :
• Non-stationnarité
Un série stationnare : est une serié chronologique avec un moyenne et une variance qui sont
constantes et ne dépendent pas de temps.
➔ Les séries financières (prix des actions, taux de change) présentent souvent une
moyenne et une variance qui varient dans le temps.
➔ Une différenciation (ex: calcul des rendements au lieu des prix) est souvent
nécessaire pour obtenir une série stationnaire.
36
Tsay, R. S. (2002). Analysis of Financial Time Series. Wiley.
59
• Asymétrie et queues épaisses
Un rendement financier est asymétrique, cela signifie que ses variations (les gains ou les pertes)
ne sont pas équilibrées autour de la moyenne. Autrement dit, il y a plus de chances d’avoir des
rendements très élevés ou très faibles d’un côté par rapport à l’autre.
Un rendement est symétrique si ses variations c’est à dire (les gains et les pertes) sont répartis
de manière équilibrée autour de la moyenne.
60
➔ Les séries financières sont souvent impactées par des événements
macroéconomiques, politiques ou même psychologiques (ex: annonces de taux
d’intérêt, crises financières).
Définition de l'Autocorrélation 37 :
L’autocorrélation mesure la corrélation entre les valeurs successives d’une même série
temporelle. Autrement dit, elle permet d’analyser si une variable (comme le rendement d’un
actif financier) à un instant t est influencée par ses valeurs passées (t-1, t-2, etc.).
• Une autocorrélation positive signifie que si une variable a une valeur élevée aujourd’hui,
elle a tendance à rester élevée demain. Inversement, si elle est basse, elle a tendance à
rester basse.
• Une absence d’autocorrélation signifie que les valeurs passées n’ont aucune influence
sur les valeurs futures (ce qui est le cas d’un mouvement brownien, où les prix suivent
une marche aléatoire).
L’asymétrie : L’asymétrie (skewness) des rendements excédentaires des actifs financiers est une
mesure statistique qui indique la dissymétrie de la distribution des rendements autour de leur
moyenne. Elle permet d’évaluer si la distribution des rendements présente une queue plus
longue à gauche ou à droite, influençant ainsi l’évaluation des risques et des opportunités
d’investissement.
1. La formule l’asymétrie :
𝑵
̅ )𝟑 / (𝑵 − 𝟏). 𝝈𝟑
𝝁 ̃𝟑 = ∑ (𝑿𝒊 − 𝑿
𝒊
Avec :
37
Box, G. E. P., & Jenkins, G. M. (1976). Time Series Analysis: Forecasting and Control. Holden-Day (resumé)
61
Si :
• L’asymétrie > 0 : distribution asymétrique à droite (queue plus longue à droite, gains
extrêmes possibles).
• L’asymétrie < 0 : distribution asymétrique à gauche (queue plus longue à gauche, risques
de pertes extrêmes).
14. Volatilité :
La volatilité est une mesure de la dispersion des rendements d'un actif financier, c'est-à-dire
son niveau de variation ou d’instabilité sur une période donnée. Elle indique à quel point le prix
d’un actif (comme une action, une devise ou une matière première) fluctue autour de sa
moyenne.
--> La volatilité historique est une mesure de la variation des prix d’un actif financier sur une
période donnée
La volatilité fait partie des principaux paramètres utilisés dans la gestion des risques pour
estimer le rendement futur d’un instrument financier et pour comparer différentes
opportunités d’investissement.
62
L’objectif : la volatilité donne une indication de l’ampleur et de la fréquence des
changements par rapport à la valeur moyenne de la période de référence.
En général, la volatilité financière est considérée comme un indicateur mesurant
l’incertitude du rendement d’un instrument donné.
Interprétation :
volatilité élevée : L’actif connaît de fortes variations de prix (plus risqué mais aussi
potentiellement plus rentable).
Autrement dit, plus la volatilité est élevée, plus l’actif en question est risqué
volatilité faible : L’actif évolue de manière plus stable avec peu de fluctuations
plus elle est élevée, plus l’actif en question est risqué.
Autrement dit, le moins elle est faible, plus l’actif en question de stabilité.
L'hétéroscédasticité 38:
L'hétéroscédasticité est un concept en économétrie et en statistique qui désigne une situation
où la variance des erreurs d'un modèle de régression n'est pas constante à travers les
observations. Autrement dit, les résidus (ou erreurs) du modèle ont une dispersion variable
selon les valeurs des variables explicatives.
38
Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of United
Kingdom Inflation." Econometrica, 50(4), 987-1007 ( Article).
63
→Les modèles économiques et financiers utilisent la volatilité pour prédire les
tendances futures des marchés en aide des modèles comme GARCH (Generalized
Autoregressive Conditional Heteroskedasticity) aident à analyser la volatilité future
en fonction des fluctuations passées.
Exemple : Un trader quantitatif utilise un modèle GARCH pour anticiper les
variations de volatilité et ajuster ses positions.
• Calcul des indicateurs financiers :La volatilité est utilisée dans des indicateurs
comme :
o Ratio de Sharpe (rendement ajusté au risque)
o Value-at-Risk (VaR) (perte potentielle maximale sur une période donnée)
La formule de calcule de la volatilité39 : c’est l’écart type qui va mesurer la dispersion d’un actif
autour de son moyenne.
Interprétation pricisé :
39
Google chrome : page officiel + connaissance académique.
64
• Actif très stable : faible risque, peu de fluctuations. Typique des grandes
capitalisations stables et des obligations.
• Actif relativement stable : fluctuations modérées. Correspond souvent aux grandes
actions bien établies (blue chips).
• Actif modérément volatil. : niveau courant pour les actions de croissance et les
indices boursiers en période normale.
• Actif très volatil, fluctuations marquées : Typique des petites capitalisations, des
actions spéculatives et de certaines crypto-monnaies stables.
• Actif extrêmement volatil, à haut risque : Typique des crypto-monnaies, des actions
spéculatives et des marchés en crise.
Les cas de l’utilisation de la volatilité : les actions, les marchés financières, les marchès des
capitaux, trading .
40
Université paris dauphine : cours de séries temporelles théorie et application.
65
𝑽𝒂𝒓 = 𝑬[(𝑿 − 𝑬[𝑿])𝟐 ]
Avec :
Var(X) : mesure la dispersion d'une variable aléatoire X autour de son espérance E[X].
• 𝑬[. ]: Opérateur d'espérance, représentant la moyenne attendue d'une variable
aléatoire.
• X : Variable aléatoire.
• 𝑬[𝑿]: Espérance mathématique de X, sa moyenne.
• (𝑿 − 𝑬[𝑿]) ∶Écart entre X et sa moyenne.
• (𝑿 − 𝑬[𝑿])𝟐 : Carré de l'écart, utilisé pour mesurer la dispersion.
• 𝑽𝒂𝒓 = 𝑬[(𝑿 − 𝑬[𝑿])𝟐 ]: Espérance de cet écart quadratique, définissant la variance.
La variance constante : on peut dire qu’il est constante si la distribution des données (Points)
ne change pas au cours du temps. Par exemple, si on suppose que X suit une loi normale
avec une variance fixe, alors cette variance est indépendante du temps.
Cependant, dans les séries temporelles financières et économiques, les fluctuations des
données changent au fil du temps. C’est là qu’intervient la notion de variance conditionnelle
non constante.
→ les modèles Arch et Garch considèrent que la variance est conditionnelle et la moyenne
est constante. C’est à dire il s’approach de zero.
→Les deux modèles considèrent que la moyenne est contanste et la variance changeant car il
est conditionnelle.
→ Les modèles GARCH nécessitent généralement moins de décalages que les modèles ARCH
pour bien ajuster les données, ce qui les rend plus parcimonieux et plus faciles à estimer et à
interpréter.
66
→ Arch dépend uniquement des chocs passés (En revanche Garch dépend des chocs passés et
de la volatilité passée
→ la mémoire de la volatilité en cas de Arch est Courte (dépend uniquement des erreurs
passées.) par contre Garch est Longue (prend en compte la persistance de la volatilité passée.)
→en terme de stabilité : ARCH est moins stable si q est élevé. Par contre GARCH est Plus stable
𝒑
grâce à la prise en compte de la volatilité passé → ∑𝒊=𝟏 𝛃𝒋 𝝈𝟐 𝒕−𝟏
→pour l’utilisation, Arch Utile pour des séries avec des changements de volatilité courts et
brusques. En revanche, Garch est Meilleur pour modéliser la volatilité persistante, comme dans
les séries financières (ex. marché boursier).
→Arch depend des chocs passés par contre Garch depend des chocs et de la volatilité passé
d’un actif financière.
Formule de Arch41 :
𝒒
𝒂𝟐𝒕 = 𝜶 + ∑. ∝ 𝒊 ⋅ 𝜺𝟐𝒕−𝟏
𝒊=𝟏
avec :
• 𝜶 : Constante.
41
Time Series Analysis and Its Applications: With R Examples: par Shumway et Stoffer
42
Time Series Analysis and Its Applications: With R Examples: par Shumway et Stoffer
67
𝒒 𝒑
𝒂𝟐𝒕 = 𝜶 + ∑𝒊=𝟏. ∝ 𝒊 ⋅ 𝜺𝟐𝒕−𝟏 +∑𝒊=𝟏 𝛃𝒋 𝝈𝟐 𝒕−𝟏
avec :
Discussion et analyse :
Après avoit traité les élements suivantes ( Caractèristiques d’un serie financière, volatilité et
les modèles Arch et garch) dont l’objectif principale est de savoir comment les series financères
se fonctionne afin de modéliser la volatilité des ces seriès qui sont connu par la volatilité élevé
en raison de la variance conditionnelle qui n’est pas constante et qui dépend des chocs et de la
volatilité passés de meme serie ou bien de chque variable de la série.
En fait, l’élimination de la volatilité peut etre fait par pluseiurs méthodes, c’est dire les methodes
pratique tels que celle de Eviews.
___________________________________________________________________________
68
Aller au serie étudié → Equation estimation → options → methode → cliquer sur CLS
Donc une nouvelle équation va apparaitre sans heterodaciticity, c’est à dire l’effet de la
volatilité est éliminé.
Methode de differenciation :
Cette methode est utilisé pour rendre une série stationnaire, c’est à dire ( un serie avec and
variance et moyenne constante), mais il est essentielemnt utilisé pour éliminer les tendences
et réduire la volatilité .
dX=X-X(-1)
dx=d(X)
Genr t=@trend
Ces deux modèles sont connus par la modélisation de la volatilité comme on a déja mentioné
Serie étudié → Quick → estimate équation → y c AR(-) MA(-) puis sélectionner ARCH dans les
option
Les méthodes qu’on a mentionné sont des méthodes purement technique pour éliminer par
les méthodes (moindre carré conditionnelle, différenciation) et modéliser la volatilité
l’hétéroscédasticité, alors que la question qui se pose danc cette context qui comment gérer
la volatilité et les fluctuation en terme stratégique surtout dans les cas des crises ou des
changement dynamiques?!
En fait, il n’exist pas un methode spécifique qui permet d’éliminer la volatilité surtout dans le
cadre des modèls ARCH et GARCH, ces deux modéls ne éliminent pas la volatilité directement
mais plus tot permet de le modéliser et le mesurer pour gérer les risques (gestion de
69
portefeuille) future probable d’un actif financières, ce qui permet aux ainvesstisseurs de
prendre les mailleurs décisions càd de l’invesstissement.
Exemple : un invesstisseur qui veut invesstir dans les marchès boursièrs, la connaissance de la
fluctuation de marches et la volatilité modelisé par ARCH et GARCH permet à cet invesstisseur
de savoir le risque et le rendement de l’actif concerné à travers les donnés de present et passé
pour meiux prédire les valeurs future de l’actif grare à le modèle GARCH, y donc prendre les
mailleurs décision d’invesstissemnt en prendre en considération des les facteurs.
Diversification du portefeuille
Investir dans plusieurs actifs (actions, obligations, matières premières) pour réduire l’impact
de la volatilité d’un seul actif.
Par exemple, un portefeuille avec des actions + obligations est moins volatil qu’un portefeuille
composé uniquement d’actions.
Utilisation de modèles comme Value at Risk (VaR), Expected Shortfall, Stress Testing pour
ajuster l’exposition au risque.
Exemple : Réduire l’exposition aux actifs risqués lorsque la volatilité prévue par un modèle
GARCH augmente.
Dans le cas la volatilité des marchés est fort, l’etat répresenté dans les régulateurs les banques
centrales peuvent intervenir pour faire face à l’effet de la volatilité en but de controller le
marchés et gérer le risque, par mettre en place pleusierus procedures.
Principalement la baisse des taux d’intérêt pour encourager les invesstisseurs de prendre les
crédit et investir dans le cas ou la volatilité est plus élevé, c’est à dire un risque probable ce qui
fait les invesstisseur faissent pas confiance aux marchès.
De autre coté, en cas la volatilité est causé par l’inflation, les banques centrales peur proceder
en augmentant le taux directeur, pour controller la masse monétaire, et réduire l’effet
inflationiste.
Exemple : Pendant la crise financière de 2008, la FED et la BCE ont injecté de la liquidité pour
calmer les marchés. En réduissant le taux l’interet pour encourager l’endettement et la
motorisation de l’économie.
70
-→ le gouvernemet peur créer des réglementation exceptionnele dans les cas d’urgences pour
gérer le risque.
Partie 2 :
Partie pratique
71
Cas pratique :
Taux de change (MAD/dollar)
72
1. Visualisation de la série (graphique)
73
2. Type de série et la stationnarité
(corrélogramme, ADF)
74
43
43
Source: Fuller W.A., Introduction to Statistical Times Series, John Wiley, 1976
75
Alors qu’on a trouvé que ni la
constante ni la tendance affecte
notre série, se qui signifie que la
série s’agit d’un série DS sans
dérive.
Donc la question que se pose, est comment rendre la série temporelle stationnaire ?
Lorsqu’on travaille sur une série qu’il s’agit d’un type DS sans dérive ou avec dérive, la
seule méthode pour rendre une série stationnaire est la différenciation.
Command :
Sachant que notre série s’appelle ‘change’ et la série après la différenciation appelé
dchange.
76
Dans la fenêtre de WorkFile, on
constate qu’un nouveau fichier
s’apparait avec le nom dchange.
77
Dans le corrélogramme on constate
que la probabilité est généralement
est supérieur de 5% donc la série est
stationnaire
78
Et pour mieux préciser on
applique le test ADF sur la série
différenciée pour vérifier la
stationnarité.
79
4. Chercher le modèle meilleur (ARIMA)
Selon le corrélogramme on constate que les seule modelé significative son AR (1) et
MA (1)
Avec les command ci-dessus on estimer les équations de tous les candidats possibles :
Ls dchange MA (1)
Ls dchange AR (1)
80
Le test de la combinaison AR (1)
MA (1) montre que ni AR ni MA
sont significative donc le modèle
ARIMA (1,1,1) n’est pas possible
81
Pour choisir le modèle meilleur on sélection le modèle avec R2 maximum est les
valeur AIC, schwarz critérion, hannan-Quinn minimum
Est une méthode pour estimer le modèle efficace pour la série automatiquement
Donc après avoir analyser les résultats de test manuellement avec les résultats estimer
automatiquement par Eviews on conclut que MA (1) est le model meilleur dans les deux cas de
test.
82
5. Tester l’hétéroscédasticité (white, ARCH)
Premièrement, on a le
corrélogramme qui affiche une
proba supérieur de 5% donc le
bruit est sans mémoire
Et on a le corrélogramme
squard qui affiche une proba
supérieur de 5% donc le bruit
est blanc
83
Et maintenant on passe vers
les tests de
l’heteroskedasticity :
Donc on a une
heteroskedasticity
significative
84
Et pour le test ARCH qui
affiche une proba supérieur
de 5%
85
6. Correction (GLS Conditional Least Squares)
Donc pour corriger l’effet de
l’heteroskedasticity on va
appliquer la méthode de moindre
carrée générale
86
Dans cette nouvelle équation on
constate que le bruit est sans
mémoire
87
Apres on a le test White qui
montre un proba Supérieur de 5%
donc le modèle est
homoscédastiques.
88
7. Predictions
Après on utilise le command
Expand
1970-2023 → 1970-2030
89
Par exemple pour faire les
prévisions on sélection un
sample de 2023 2026
90
Ou on peut utiliser la Automatic
ARIMA Forecasting pour faire les
prévisions pour les 7 ans prochain,
on sélection none car on n’a pas
besoin d’autres transformation car
l’erreur est blanc
91
Dans ce graph on constate les
prévisions pour la série
différencie
On utilise le command
92
On constate ici les prévisions
pour les années prochaine de
puis l’année 2024 jusqu’à
2030
93
Dans les deux graphs au-dessus on a (CHANG) la présentation graphique des valeurs
d’origine et (CHANGE_F) la présentation graphique des valeurs ajuster + les prévisions :
94
8. Équation du Modèle Final
DCHANGE = 0 + MA (1)
On a (MA) est un modèle dans lequel la valeur actuelle d'une variable dépend linéairement de
ses erreurs passées.
95
YT= θ1 εT-1+εT
96
97
Conclusion générale
En conclusion, ce rapport a permis d'aborder de manière complète et détaillée les différentes
techniques théoriques et pratiques utilisées dans l'analyse des séries chronologiques appliquées
à la modélisation financière. Dans la première partie, nous avons exploré les concepts
fondamentaux tels que la différence entre les séries chronologiques en niveaux et en différences
(TS et DS), la relation entre ces séries et les modèles AR et MA, ainsi que les questions de
stationnarité, de normalité, et de volatilité. Nous avons également traité des modèles ARIMA,
ARCH et GARCH, offrant ainsi une base solide pour comprendre et résoudre les défis liés à
l’analyse des séries financières.
Dans la deuxième partie, nous avons appliqué ces concepts théoriques à des données réelles,
en commençant par la visualisation et l’analyse de la stationnarité des séries. Nous avons
ensuite effectué des transformations nécessaires pour rendre les séries stationnaires, cherché
le modèle ARIMA le plus adapté, et testé l’hétéroscédasticité à l'aide des tests de White et ARCH.
La correction de l’hétéroscédasticité a été réalisée à l’aide de la méthode GLS, et les prédictions
ont été effectuées avec le modèle final.
Les résultats obtenus ont démontré l’efficacité des méthodes théoriques et pratiques étudiées.
Les modèles appliqués ont montré leur pertinence pour l’analyse des séries chronologiques et
leur capacité à fournir des prévisions fiables. Ce rapport, tout en répondant aux exigences
académiques, illustre également l’application concrète de ces outils avancés dans l'analyse des
données financières, offrant ainsi une compréhension plus approfondie de la dynamique des
marchés financiers et des fluctuations économiques.
98
Bibliographie
Références en ligne :
2. Ibid., Page 6.
4. https://fr.wikipedia.org/wiki/Test_de_Dickey-Fuller
5. https://fr.statisticseasily.com/glossaire/qu%27est-ce-que-le-test-Dickey-Fuller-augment%C3%A9/
7. https://fr.statisticseasily.com/glossario/what-is-kolmogorov-smirnov-test/#google_vignette
8. https://support.minitab.com/fr-fr/minitab/help-and-how-to/quality-and-process-improvement/capability-
analysis/supporting-topics/distributions-and-transformations-for-nonnormal-data/anderson-darling-and-distribution-fit/
9. https://www.ibm.com/docs/fr/spss-modeler/saas?topic=data-series-transformations
10. https://fr.wikipedia.org/wiki/Lissage_exponentiel#:~:text=Le%20lissage%20exponentiel%20est%20une%20des%20m%
C3%A9thodes%20de%20fen%C3%AAtrage%20utilis%C3%A9es,fr%C3%A9quences%20%C3%A9lev%C3%A9es%20
du%20signal%20initial.&text=%2C%20d%C3%A9barrass%C3%A9%20des%20al%C3%A9as%20(en%20traitement,br
uit)%20en%20fonction%20du%20pass%C3%A9
11. https://wp.sciviews.org/sdd-umons3-2023/filtrage-dune-s%C3%A9rie.html
12. https://fr.m.wikipedia.org/wiki/Op%C3%A9rateur_retard#:~:text=En%20l'analyse%20des%20s%C3%A9ries,%2C%20as
socie%20l'observation%20pr%C3%A9c%C3%A9dente
Références académiques :
2. Ibid., Page 4.
8. Bourbonnais, R. "Économétrie, cours et exercices corrigés 9ème édition", 7 Jan 2015, Page 142.
9. Bourbonnais, R. "Économétrie, cours et exercices corrigés 9ème édition", 7 Jan 2015, Page 162.
10. Bourbonnais, R. "Économétrie, cours et exercices corrigés 9ème édition", 7 Jan 2015, Page 164.
11. Box, G. E. P., & Cox, D. R. (1964). "An Analysis of Transformations." Journal of the Royal Statistical Society: Series B,
26(2), 211–252.
12. Peiris, M. S. (2013). "Invertibility of MA processes." Time series concepts & methods.
13. Tsay, R. S. (2010). "Analysis of Financial Time Series" (3rd Edition). Wiley.
99
14. Brockwell, P. J. and Davis, R. A. (2002). "Introduction to time series and forecasting," 2nd Ed. Springer.
16. Box, G. E. P., & Jenkins, G. M. (1976). "Time Series Analysis: Forecasting and Control." Holden-Day.
17. Engle, R. F. (1982). "Autoregressive Conditional Heteroskedasticity with Estimates of the Variance of United Kingdom
Inflation." Econometrica, 50(4), 987-1007.
18. Peiris, M. S. (2013). "Invertibility of MA processes. Time series concepts & methods."
Autres sources :
3. "Time Series Analysis and Its Applications: With R Examples" par Shumway et Stoffer
100
101