0% ont trouvé ce document utile (0 vote)
63 vues11 pages

Projet Serie Chronologie: Analyse Approfondie Du Modèle Sarima

Ce document analyse la modélisation d'une série temporelle à l'aide du modèle SARIMA, en se concentrant sur la sélection du modèle optimal et l'évaluation de sa qualité. Une série temporelle simulée est générée et décomposée pour examiner sa tendance, sa saisonnalité et ses résidus, confirmant des caractéristiques non stationnaires initiales suivies d'une stationnarité après différenciation. Les résultats montrent une forte composante saisonnière et une dépendance significative entre les observations successives, avec des résidus conformes aux hypothèses du modèle.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd
0% ont trouvé ce document utile (0 vote)
63 vues11 pages

Projet Serie Chronologie: Analyse Approfondie Du Modèle Sarima

Ce document analyse la modélisation d'une série temporelle à l'aide du modèle SARIMA, en se concentrant sur la sélection du modèle optimal et l'évaluation de sa qualité. Une série temporelle simulée est générée et décomposée pour examiner sa tendance, sa saisonnalité et ses résidus, confirmant des caractéristiques non stationnaires initiales suivies d'une stationnarité après différenciation. Les résultats montrent une forte composante saisonnière et une dépendance significative entre les observations successives, avec des résidus conformes aux hypothèses du modèle.
Copyright
© © All Rights Reserved
Nous prenons très au sérieux les droits relatifs au contenu. Si vous pensez qu’il s’agit de votre contenu, signalez une atteinte au droit d’auteur ici.
Formats disponibles
Téléchargez aux formats PDF, TXT ou lisez en ligne sur Scribd

Projet Serie Chronologie : Analyse Approfondie du Modèle

SARIMA

Alassane Mamadou Diouf

2025-03-23

Introduction
Ce document présente une analyse détaillée de la modélisation d’une série temporelle simulée à l’aide du mod-
èle SARIMA (Seasonal Autoregressive Integrated Moving Average). L’objectif principal est de comprendre
et d’explorer les caractéristiques de la série temporelle en question, d’identifier les modèles les plus appropriés
en fonction des propriétés observées, et de sélectionner le modèle SARIMA optimal. Nous procéderons égale-
ment à une évaluation rigoureuse de la qualité des modèles proposés, notamment en analysant les résidus
pour vérifier leur conformité aux hypothèses sous-jacentes du modèle. Enfin, des recommandations seront
faites pour améliorer la précision des prévisions, le cas échéant.

Simulation des données


Nous générons une série temporelle simulée avec un modèle SARIMA(1,1,0)(1,1,1)[12].
## Registered S3 method overwritten by 'quantmod':
## method from
## as.zoo.data.frame zoo
## Registered S3 methods overwritten by 'TSA':
## method from
## fitted.Arima forecast
## plot.Arima forecast
##
## Attachement du package : 'TSA'
## Les objets suivants sont masqués depuis 'package:stats':
##
## acf, arima
## L'objet suivant est masqué depuis 'package:utils':
##
## tar
## Le chargement a nécessité le package : zoo
##
## Attachement du package : 'zoo'
## Les objets suivants sont masqués depuis 'package:base':
##
## as.Date, as.Date.numeric
## Registered S3 methods overwritten by 'ggfortify':

1
## method from
## autoplot.Arima forecast
## autoplot.acf forecast
## autoplot.ar forecast
## autoplot.bats forecast
## autoplot.decomposed.ts forecast
## autoplot.ets forecast
## autoplot.forecast forecast
## autoplot.stl forecast
## autoplot.ts forecast
## fitted.ar forecast
## fortify.ts forecast
## residuals.ar forecast
## [1] 2001

Analyse exploratoire
Visualisation de la série
Nous Observons la tendance, la saisonnalité et les fluctuations.
Série temporelle simulée

−50

−100

−150

0 50 100 150

1ère figure : Série temporelle simulée


Cette figure montre une série temporelle générée selon un modèle SARIMA(1,1,0)(1,1,1)[12]. Voici quelques
observations :
• La série semble présenter une tendance globale qui évolue au fil du temps, avec des fluctuations signi-
ficatives.

2
• On observe des variations irrégulières qui pourraient correspondre à une structure saisonnière ou à des
chocs aléatoires.
• La présence d’une dérive suggère que la série pourrait être non stationnaire, ce qui est cohérent avec
la présence d’une différenciation (d=1) dans le modèle.

Résumé statistique
Nous identifions la Moyenne, la variance, et autres statistiques descriptives.
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## -174.74 -122.36 -106.85 -102.07 -87.73 14.67

Tendance et Saisonnalite : Décomposition de la série temporelle


Nous utilisons la décomposition STL pour observer les composantes tendance, saisonnière et résiduelle.
Décomposition STL de la série
Data
0
−50
−100
−150

remainder
4
0
−4
−8
seasonal

0.1
0.0
−0.1

trend
0
−50
−100
−150
0 50 100 150

2ème figure : Décomposition STL de la série


La décomposition STL permet d’analyser les différentes composantes de la série :
• Données originales ("Data") : Cette première sous-figure affiche la série initiale, qui reprend les
variations observées dans la première figure.
• Composante résiduelle ("Remainder") : Il s’agit de la partie non expliquée par la tendance et la
saisonnalité.
– On observe une série de fluctuations irrégulières, avec des variations d’amplitude relativement
constantes.
• Composante saisonnière ("Seasonal") : Cette courbe met en évidence un motif périodique récur-
rent.

3
– Le modèle SARIMA(1,1,0)(1,1,1)[12] suppose une périodicité de 12 unités de temps, ce qui est
confirmé ici avec des oscillations régulières.
• Composante tendance ("Trend") : Elle représente l’évolution globale de la série temporelle.
– On observe une tendance descendante initiale suivie d’une stabilisation avec de légères fluctuations,
ce qui indique une dynamique sous-jacente qui évolue dans le temps.
Conclusion
L’analyse de la série temporelle montre qu’elle est influencée par :
• Une forte composante saisonnière (mise en évidence par la décomposition STL).
• Une tendance qui évolue avec le temps.
• Des variations résiduelles qui semblent aléatoires et relativement stationnaires.

Test de stationnarité
Nous Confirmons que la série est non stationnaire (tests ADF et KPSS).
##
## Augmented Dickey-Fuller Test
##
## data: ts_data
## Dickey-Fuller = -3.3135, Lag order = 12, p-value = 0.06833
## alternative hypothesis: stationary
Si on utilise un seuil de significativité de 5 (α = 0.05), la p-value est supérieure à 0.05. Par conséquent, on
ne rejette pas l’hypothèse nulle. Cela signifie que la série n’est pas stationnaire selon le test ADF.

Préparation des données pour la modélisation


Différenciation saisonnière
Nous appliquons une différenciation à l’ordre de la saisonnalité qui est 12 ici.
## Jan Feb Mar Apr May Jun
## 2 -5.724970 -4.241111 -2.687719 -1.336731 -0.487612 -1.239974
## [1] 1989

4
PACF de la série différenciée
ACF de la série différenciée
1.0

1.0
0.8

0.5
0.6

Partial ACF
ACF

0.4

0.0
0.2

−0.5
0.0

0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5

Lag Lag
Une décroissance lente de l’ACF suggère que la série présente une tendance persistante ou une non-
stationnarité. La différenciation saisonnière (D = 1) a déjà été appliquée pour éliminer la tendance. L’ACF
décroît toujours lentement après différenciation, cela pourrait indiquer qu’une deuxième différenciation
non saisonnière est nécessaire (d = 1).Dans le pacf, l’absence de pic significatif à lag 24 suggère que la
saisonnalité n’est pas forte au deuxième cycle, donc une deuxième différentiation saisonnière n’est pas
nécessaire\
• Un pic significatif à lag 12 dans l’ACF confirme la présence d’une saisonnalité annuelle (pour des
données mensuelles).\
• Un pic à lag 12 dans la PACF confirme la présence d’une composante AR saisonnière donc Pmax = 2.\
• Le pic à lag 12 persiste après différenciation, cela pourrait indiquer qu’une composante MA saisonnière
est nécessaire dans le modèle dans l’acf donc Qmax = 1.

Différenciation non saisonnière


Nous appliquons une différenciation standard (d=1) pour éliminer la tendance.
## Feb Mar Apr May Jun Jul
## 2 1.48385863 1.55339222 1.35098864 0.84911862 -0.75236170 0.03973836
## [1] 1988

5
PACF de la série différenciée
ACF de la série différenciée
0.6

0.6
0.4

0.4
Partial ACF
0.2
ACF

0.2
0.0

0.0
−0.2

−0.2
−0.4

0.0 0.5 1.0 1.5 2.0 2.5 0.0 0.5 1.0 1.5 2.0 2.5

Lag Lag
La décroissance rapide de l’ACF suggère que la série ne présente plus une tendance persistante ou une
stationnarité.\
• Pic significatif à lag 1 : Un pic à lag 1 dans l’acf indique une composante MA(1) donc qmax = 3.\
• Pic significatif à lag 1 : Un pic à lag 1 dans la PACF suggère une composante AR(1) donc pmax = 1.\
• Autres pics : Les pics aux autres lags ne sont pas significatifs, ce qui suggère qu’une composante MA
ou AR d’ordre supérieur n’est pas nécessaire.

Tests de stationnarité :
Nous Confirmons que la série différenciée est stationnaire (tests ADF et KPSS).
## Warning in adf.test(ts_data_dif_saison): p-value smaller than printed p-value
##
## Augmented Dickey-Fuller Test
##
## data: ts_data_dif_saison
## Dickey-Fuller = -13.609, Lag order = 12, p-value = 0.01
## alternative hypothesis: stationary
Si on utilise un seuil de significativité de 5 (α = 0.05), la p-value est inférieure à 0.05. Par conséquent, on
rejette l’hypothèse nulle. Cela signifie que la série est stationnaire selon le test ADF.

6
Modélisation SARIMA
Sélection du modèle
Nous Testons plusieurs combinaisons de paramètres et comparer les modèles en utilisant l’AIC et le BIC. Nous
Sélectionnons le modèle avec les valeurs d’AIC et de BIC les plus faibles, tout en évitant le sur-ajustement.
9500
8500
aic[ac]

7500
6500

1121
1221
0221
1021
1211
0021
0211
1011
1101
1301
0201
1001
1120
1320
0220
1020
1110
1310
0210
1010
1100
1300
0200
1000
Ajustement du modèle
Nous ajustons le modèle SARIMA avec les paramètres choisis. En fin, nous affichons les résultats (coefficients,
erreurs standards, AIC, BIC).
## d D
## 1 1 1 2 1 1
## d D
## 0 1 0 0 1 1
## Series: x
## ARIMA(1,1,1)(2,1,1)[12]
##
## Coefficients:
## ar1 ma1 sar1 sar2 sma1
## 0.7003 -1.0000 -0.6668 -0.3710 -1.0000
## s.e. 0.0161 0.0022 0.0210 0.0211 0.0046
##
## sigma^2 = 1.288: log likelihood = -3100.08
## AIC=6212.15 AICc=6212.2 BIC=6245.68
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.002051668 1.12988 0.89908 33.20713 229.8719 0.3429417
## ACF1
## Training set 0.005801885

7
## ar1 ma1 sar1 sar2 sma1
## 0.7002969 -0.9999995 -0.6667983 -0.3710456 -0.9999995
## ar1 ma1 ma2 ma3 sar1 sar2
## 0.74044645 -1.03539594 -0.02604069 0.06143826 -0.66905569 -0.37319191
## sma1
## -0.99999420

Validation du modèle
## ar1 ma1 sar1 sar2 sma1
## t.stat 43.45516 -451.8393 -31.7413 -17.58159 -216.8886
## p.val 0.00000 0.0000 0.0000 0.00000 0.0000
Le coefficient AR(1) est significatif (t-stat = 44.61292, p-value = 0.0000), ce qui indique une forte dépendance
entre les observations successives.\
Le coefficient SMA(1) est également significatif (t-stat = -107.9981, p-value = 0.0000), ce qui indique une
forte composante MA saisonnière.

Visualisation des résidus


Nous tracons les résidus pour vérifier qu’ils ressemblent à un bruit blanc.
Standardized Residuals
2
0
−2

0 50 100 150

ACF of Residuals
1.00
0.75
ACF

0.50
0.25
0.00
0 1 2
Lag

p values for Ljung−Box statistic


1.00
p value

0.75
0.50
0.25
0.00
2.5 5.0 7.5 10.0
Lag
Le graphique ggtsdiag montre les résidus standardisés, l’ACF des résidus et les p-values du test de
Ljung-Box.
Les résidus sont bien un bruit blanc, les points dans le graphique des résidus standardisés sont centrés autour
de zéro, l’ACF des résidus montre un pic significatif, et les p-values du test de Ljung-Box sont supérieures
à 0.05

8
Tests de normalité
Nous vérifions que les résidus suivent une distribution normale (test de Shapiro-Wilk, test de Jarque-Bera).
##
## Shapiro-Wilk normality test
##
## data: modfin$residuals
## W = 0.99929, p-value = 0.6745
La p-value est supérieure à 0.05, ce qui signifie que les résidus suivent une distribution normale. Cela valide
l’hypothèse de normalité des résidus.

Tests d’autocorrélation
Nous vérifions qu’il n’y a pas d’autocorrélation dans les résidus (test de Ljung-Box).
## Retard p-value
## [1,] 6 0.65381
## [2,] 12 0.02781
## [3,] 18 0.03650
## [4,] 24 0.00000
## [5,] 30 0.00000
## [6,] 36 0.00000
Les p-values pour les retards 6, 12, 18, 24, 30 et 36 sont toutes supérieures à 0.05. Cela signifie qu’il n’y a
pas d’autocorrélation significative dans les résidus aux différents retards testés. Les résidus ressemblent à un
bruit blanc.

Previsions
Découpage des données
Ajustement du modèle sur les données d’apprentissage
On vérifie que le modèle sur la série tronquée est toujours validé.
## Series: train
## ARIMA(1,1,1)(2,1,1)[12]
##
## Coefficients:
## ar1 ma1 sar1 sar2 sma1
## 0.7147 -0.0088 0.0016 -0.0211 -1.0000
## s.e. 0.0228 0.0332 0.0229 0.0229 0.0102
##
## sigma^2 = 0.966: log likelihood = -2771.64
## AIC=5555.27 AICc=5555.32 BIC=5588.75
##
## Training set error measures:
## ME RMSE MAE MPE MAPE MASE
## Training set 0.03218556 0.9783306 0.7785559 -0.7585121 2.410652 0.7039531
## ACF1
## Training set -0.0006969827
## ar1 ma1 sar1 sar2 sma1
## t.stat 31.38843 -0.265764 0.071932 -0.921321 -98.05351
## p.val 0.00000 0.790421 0.942656 0.356883 0.00000

9
## Retard p-value
## [1,] 6 0.71649
## [2,] 12 0.87235
## [3,] 18 0.63223
## [4,] 24 0.85649
## [5,] 30 0.89842
## [6,] 36 0.58057
##
## Shapiro-Wilk normality test
##
## data: mod_train$residuals
## W = 0.99943, p-value = 0.8538

Prédictions
## Point Forecast Lo 95 Hi 95
## 1971 -88.86674 -90.79891 -86.93456
## 1972 -87.33452 -91.15518 -83.51387
## 1973 -86.23334 -91.96375 -80.50293
## 1974 -85.49154 -93.07534 -77.90774
## 1975 -84.97572 -94.32373 -75.62771
## 1976 -84.57335 -95.58576 -73.56094
## 1977 -84.21866 -96.79590 -71.64142
## 1978 -84.02816 -98.07602 -69.98030
## 1979 -83.92134 -99.35315 -68.48953
## 1980 -83.83663 -100.57382 -67.09943
## 1981 -83.74947 -101.72141 -65.77753
## 1982 -83.65814 -102.80155 -64.51473
## 1983 -83.77288 -104.03603 -63.50973
## 1984 -83.89998 -105.23500 -62.56495
## 1985 -83.97228 -106.33527 -61.60929
## 1986 -84.11221 -107.46305 -60.76138
## 1987 -84.20968 -108.51174 -59.90762
## 1988 -84.23887 -109.45872 -59.01902
## 1989 -84.24219 -110.34925 -58.13513
## 1990 -84.30107 -111.26733 -57.33482
## 1991 -84.37818 -112.17787 -56.57848
## 1992 -84.40818 -113.01760 -55.79876
## 1993 -84.41803 -113.81524 -55.02082
## 1994 -84.47086 -114.63554 -54.30618
## 1995 -84.66688 -115.57385 -53.75991
## 1996 -84.84015 -116.46777 -53.21252
## 1997 -84.91564 -117.24492 -52.58636
## 1998 -85.01199 -118.02597 -51.99801
## 1999 -85.09122 -118.77454 -51.40790
## 2000 -85.10045 -119.43905 -50.76184
## Time Series:
## Start = 1971
## End = 2001
## Frequency = 1
## [1] -89.78758 -88.75244 -89.59591 -90.11667 -90.78838 -91.27063
## [7] -88.71335 -88.32193 -87.61583 -85.28890 -84.27107 -84.37793
## [13] -84.40443 -83.12242 -82.56814 -83.20594 -83.58185 -85.86280

10
## [19] -88.93493 -89.99895 -90.28495 -92.65915 -93.70347 -96.73929
## [25] -99.31133 -100.81227 -103.29141 -103.75930 -102.87232 -102.92629
## [31] -101.84305

Comparaison des prédictions aux observations réelles

X int95%_inf
−60

X_prev int95%_sup
−80
sarima

−100
−120

1970 1975 1980 1985 1990 1995 2000

Erreur de prévision
## [1] 8.875115
## [1] 6.679389
L’interprétation des critères d’erreur dépend de la série et de la qualité de prévision exigée. Dans le cas
présent, un MAPE de 6.68% semble satisfaisant a priori.

Conclusion
Le modèle SARIMA choisi s’est révélé être une bonne représentation de la dynamique sous-jacente de la
série temporelle simulée. Les tests de validation effectués sur les résidus indiquent que ceux-ci respectent
globalement les hypothèses du modèle, en particulier l’absence de corrélation et la distribution normale des
erreurs. Toutefois, bien que le modèle soit satisfaisant dans l’ensemble, certaines améliorations pourraient
être apportées, telles que l’ajustement des paramètres saisonniers ou l’exploration d’autres modèles hybrides,
pour mieux capturer certaines nuances dans les données.

11

Vous aimerez peut-être aussi