Introducción
El presente trabajo pretende explicar detalla mente que es en si el método ARIMA,
conocida también como modelo ARIMA o Método Box-Jenkins que surgió durante los años
1970 por los profesores, G.E.P Box (profesor de estadística de la Universidad de Wisconsin), y
G.M Jenkins (profesor de ingeniería de sistemas de la universidad de Lancaster).
La aplicación de este método es básicamente en los series de tiempo; el cual proporciona
predicciones óptimas en el plazo inmediato y en el corto plazo. Esto se debe a que la
metodología Box-Jenkins nos permite elegir entre un amplio rango de distintos modelos según
represente mejor el comportamiento de los datos. El sentido de predicciones óptimas significa
que ningún modelo univariante puede ofrecer mejores predicciones que un modelo ARIMA.
Esto no se cumple si ampliamos el modelo ARIMA con regresión múltiple o utilizamos
metodología multivariante. Este método resulta más sencillo el análisis de los datos de series e
tiempo.
Objetivos
1. A través de lo investigado conocer detalladamente de que es el método ARIMA
2. Al finalizar el trabajo conocer el protocolo para identificar mencionado método
3. Demostrar con ejercicios la aplicación el método ARIMA
METODO MODELO AUTOREGRESICO INTEGRADO DE MEDIA MOVIL -
(ARIMA)
Historia del método ARIMA
Según [ CITATION Arm94 \l 10250 ] a comienzos de la década de los años 1970,
G.E.P Box, profesor de estadística de la Universidad de Wisconsin, y G.M Jenkins,
profesor de ingeniería de sistemas de la universidad de Lancaster, realizan un estudio
sobre el comportamientos de smog en la bahía de San Francisco, California. Los datos
disponibles eran series temporales conformadas por la observación de los niveles de
contaminación. Para establecer un mecanismo de pronóstico y control, desarrollan un
nuevo enfoque en el tratamiento de series temporales discretas, la modelación de series
con el método “integrativo de autorregresiones y Medias Móviles”, que se difundirá con
el nombre de “ARIMA” de sus siglas inglesas, con el de “Método Box-Jenkins”.
En 1977, C.W.J Granger y P.Newbold aplican el método ARIMA al pronóstico sobre
series de indicadores econoicos (Granger y Newbold, 1977). En España se realizan
aplicaciones de este tipo, como los trabajos de D. Peña sobre proyecciones de consumo
de gasolina (Peña, 1978), y el estudio de A.B Treadway sobre los efectos en la
economía española de las devaluaciones de la peseta (Treadway. 1978).
En 1981, K. Choi, del Buró de Epidemiología de los Centrol de Control de
Enfermedades de EE.UU, y S.B Thacker, de la universidad de Emory, en Atlanta,
Georgia, publican un trabajo donde combinan el enfoque matemático y epidemiología
en un estudio de evaluación de mortalidad por influencia y neumonía en 121 ciudades
norteamericanas. Aplicando el método ARIMA sobre series semanales recopiladas entre
1962 y 1979. En 1982 los centros de control de enfermedades sustituyen el método de
análisis de series empleados entonces, que había sido propuesto por Serfling en 1963,
por el método ARIMA.
La principal ventaja de esta metodología es que proporciona predicciones óptimas en el
plazo inmediato y en el corto plazo. Esto se debe a que la metodología Box-Jenkins (BJ
en adelante) nos permite elegir entre un amplio rango de distintos modelos según
represente mejor el comportamiento de los datos. El sentido de predicciones óptimas
significa que ningún modelo univariante puede ofrecer mejores predicciones que un
modelo ARIMA. Esto no se cumple si ampliamos el modelo ARIMA con regresión
múltiple o utilizamos metodología multivariante. La principal desventaja de estos
modelos es que la determinación del modelo que mejor se adecua a la serie de datos no
es trivial y, por tanto, se requiere que la persona que realice predicciones tenga amplios
conocimientos sobre esta metodología. Esto ha inhibido el uso de esta metodología para
realizar predicciones en el mundo de la empresa, ya que el aumento de precisión de las
mismas no compensaba el coste de implantación. No obstante, es posible manejar
algoritmos automáticos, que permiten que la persona que utilice estas técnicas no tenga
que tener conocimientos extensos sobre esta materia. Así se lograrán mejores modelos
y, por tanto, mejores predicciones, sin necesidad de ese aumento del coste de
implantación.
Etimología
El término ARIMA proviene del inglés, “autoregressive integrated moving average”,
que significa: Modelo autorregresivo integrado de media móvil
Aplicación del método ARIMA
El modelo ARIMA necesita identificar los coeficientes y número de regresiones que se
utilizarán. Este modelo es muy sensible a la precisión con que se determinen sus
coeficientes.
Se suele expresar como ARIMA (p, d, q) donde los parámetros p, d y q son números
enteros no negativos que indican el orden de las distintas componentes del modelo.
Respectivamente, las componentes autorregresivo, integrada y de media móvil. Cuando
alguno de los tres parámetros es cero, es común omitir las letras correspondientes del
acrónimo — AR para la componente autorregresiva, I para la integrada y MA para la
media móvil. Por ejemplo, ARIMA (0, 1,0) se puede expresar como I (1) y ARIMA (0,
0,1) como MA (1).
El modelo ARIMA puede generalizarse aún más para considerar el efecto de
la estacionalidad. En ese caso, se habla de un modelo SARIMA (seasonal
autoregressive integrated moving average).
El modelo ARIMA (p, d, q) se puede representar como:
p
Y t =−( ∆d Y t −Y t ) +∅ 0 + ∑ ∅ ∆d Y q ¿
i=1 t −¿−¿ ∑ θi E t−i − Et ¿
i=1
en donde d corresponde a las d diferencias que son necesarias para convertir la serie
original en estacionaria, ∅ 1 ; … … ; ∅ p son los parámetros pertenecientes a la parte
"autorregresiva" del modelo, ∅ 1 ; … … ; ∅ q los parámetros pertenecientes a la parte
"medias móviles" del modelo, ∅ 0es una constante, y Et es el término de error (llamado
también innovación o perturbación estocástica esta última asociada más para modelos
econométricos uniecuacionales o multiecuacionales).
Se debe tomar en cuenta que:
∆ Y t =Y t −Y t −1
Expresión General de un Modelo ARMA
El acrónimo ARIMA significa modelo autorregresivo integrado de media móvil
(AutoRegresive Integrated Moving Average). Cada una de las tres partes del acrónimo
se le denomina componente y modela un comportamiento distinto de la serie.
Sea la serie temporal (Y t ) . La expresión típica de un modelo ARMA en notación
algebraica es la siguiente.
Este modelo se nota abreviadamente ARMA (p,q). Un modelo ARMA es un modelo
lineal. Esto significa que la variable que define la serie temporal Yt depende de una
constante C, linealmente de valores pasados de la misma variable y linealmente de una
ponderación de errores de ajuste realizados en el pasado. A continuación se definen
algunos términos de común uso sobre modelos ARMA. A la dependencia de la serie
temporal con los valores pasados de la misma serie temporal se le denomina
componente autorregresiva del modelo (AR). El número de retrasos de la serie temporal
Yt que se introducen en el modelo se denomina orden autorregresivo del modelo y se
denota mediante la letra p. La palabra autorregresivo viene de que se modela este
comportamiento como una regresión lineal múltiple (regresivo) con valores propios de
la misma serie temporal (auto) retrasados un periodo de muestreo T (T=1,2,...,p).
Siguiendo un desarrollo paralelo al anterior, se denomina componente de media móvil
de un modelo ARMA a la dependencia de la serie temporal Yt con valores pasados de
los errores (MA). El número de errores pasados que se introducenen el modelo se llama
orden de media móvil, y se nota con la letra q.
Expresión General de un Modelo ARIMA
Los modelos ARIMA se construyen a partir de los modelos ARMA, pero considerando
que la serie en estudio para que sea estacionaria en media tendrá que diferenciarse una
serie de veces. Un modelo ARIMA (p,d,q) es un modelo ARMA(p,q) sobre la serie
diferenciada d veces. Es decir, su expresión algebraica, será:
donde Y (d) (d)
t es la serie de las diferencias de orden d y Et es la serie de los errores que se
cometen en la serie anterior.
Habitualmente el orden de diferenciación d, entero, oscila entre 0 y 2. Una vez hemos
visto el comportamiento de un modelo ARIMA, podemosafirmar que éste se puede
definir como un modelo de regresión lineal múltiple, dondela variable dependiente es la
propia serie (diferenciada o no) y las variablesindependientes son valores de la serie y
valores de los errores de ajuste retrasados hasta unos órdenes p y q, respectivamente.
De hecho, una vez hemos identificado el modelo, que equivale a identificar los órdenes
p, q y el orden de diferenciación (si es requerido), la determinación de los p+q
parámetros usados en el modelo (φ’s y θ’s) se realiza de igual forma que en el caso de la
regresión múltiple, es decir, mediante minimización del error cuadrático.
Como se ha comentado previamente, la gran ventaja de los modelos ARIMA con
respecto a los ARMA es la incorporación de esta diferenciación dentro del modelo,
dentro de la parte de integración. Para calcular tanto el orden de diferenciación óptimo
como el cambio devariable necesario para estabilizar la serie se dispone de varios
algoritmos.
Otras cuestiones sobre Modelos ARIMA
Algunas Propiedades de un modelo ARIMA óptimo
A continuación se verán las características generales que ha de tener un buen modelo
ARIMA. Estas características nos servirán para posteriormente poder identificar,
estimar y verificar el comportamiento de un modelo ARIMA que ha sido optimizado.
Parsimonia (Parquedad)
Box y Jenkins ponen énfasis en que la clave de un buen modelo ARIMA es que cumpla
el principio de parsimonia, que significa sencillez. Así, un modelo se dice que es
parsimonioso si se ajusta a la serie de forma adecuada sin usar coeficientes
innecesarios .Por ejemplo, si un modelo AR(1) y un modelo AR(2) se comportan de
forma prácticamente idéntica, elegiremos el modelo AR(1) ya que así tendremos que
estimar un coeficiente menos. El principio de parsimonia es importante porque, en la
práctica, un modelo parsimonioso suele generar mejores predicciones. La idea de la
parsimonia nos da una fuerte orientación práctica a la hora de modelar e identificar una
modelo ARIMA. Así, no tendremos que buscar el proceso ARIMA que realmente
genera la serie temporal, sino que nos conformaremos con encontrar un modelo que se
aproxime correctamente, tanto práctica como estadísticamente, al comportamiento de la
serie temporal que estudiamos. Una idea importante es que el principio de parsimonia
no tiene que ser sobrevalorado. También tenemos que tener en cuenta el resto de
propiedades de un buen modelo ARIMA y valorarlas equitativa y proporcionalmente.
Estacionariedad
Otra condición de gran importancia para lograr un buen modelo ARIMA es que la serie
sea estacionaria.
Asumir que una serie sea estacionaria nos permite desarrollar un marco de trabajo
bastante simple y usar herramientas estadísticas de muestreo de gran potencia. Así, si la
media de un proceso es constante, podremos usar N observaciones para estimarla,
mientras que sería mucho más complicado si la media no fuese estacionaria.
Las técnicas más comunes para conocer si una serie temporal es estacionaria son los
contrastes de existencia de raíces unidad. Si una serie no es estacionaria podemos
modificar dicha serie para convertirla en estacionaria. Dado que las modificaciones son
conocidas, podemos posteriormente invertirlas para obtener las predicciones en la
misma métrica que la serie original. Existen distintas técnicas para estabilizar la media y
la varianza, como ya se ha comentado.
Buenos coeficientes estimados
Que un modelo tenga unos buenos coeficientes estimados, está relacionado con dos
vertientes distintas.
La primera es que los coeficientes, tanto los de la componente autorregresiva (φ’s)
como los de la componente de media móvil (θ’s) sean significativamente distintos de
cero. Esto se realiza mediante contrastes de hipótesis.
La segunda es que las estimaciones de los coeficientes φ’s y θ’s no deben estar
altamente correladas entre sí. Si están muy correladas, tienden a ser inestables, incluso
siendo estadísticamente significativos.
Los residuos son ruido blanco
Esta proposición es muy importante a la hora de verificar un modelo ARIMA, una vez
se han realizado las etapas de identificación y ajuste.
La hipótesis crítica es la de incorrelación. Para comprobar esta hipótesis se utilizan
distintos métodos de inferencia estadística (típicamente contrastes t y chi-cuadrado)
aplicados a cada coeficiente de la función de autocorrelación y a la función de
autocorrelación completa.
Debe ajustarse bien a los datos
Que un modelo se ajuste todo lo bien posible a los datos de los que es generado, es una
hipótesis asumible y lógica. Esta bondad del ajuste se mide en términos de error.
Distintas medidas de error son computables en la etapa de ajuste y se han analizado
previamente.
Los márgenes asumibles del valor de estos errores de ajuste dependen, ciertamente, de
la naturaleza de la serie, por lo que no hay un criterio unívoco de comprobación de la
adecuación del ajuste.
Debe dar buenas predicciones
Aunque el modelo haya sido ajustado y prediga el pasado de una forma suficientemente
correcta, lo que realmente se requiere de cualquier modelo de predicción es que realice
predicciones satisfactorias.
La evaluación de un modelo según este criterio se debe realizar mediante el uso durante
un periodo de prueba o de verificación.
Esquema de Identificación − Optimización- Comprobación
Nuestro fin a la hora de emplear un modelo ARIMA es obtener un modelo que cumpla
las hipótesis formuladas en el apartado anterior.
Box y Jenkins proponen un procedimiento práctico en tres etapas para hallar el modelo
ARIMA óptimo. Su esquema simplificado se muestra en la Figura 1. Analicemos de
manera más pormenorizada cada etapa.
Etapa1.- Identificación
En esta etapa analizamos mediante distintas técnicas cual es el modelo ARIMA que, a
prioridad, mejor se puede ajustar a la serie. Según la metodología clásica, las
herramientas que permiten identificar el patrón que sigue la serie son las funciones de
autocorrelación.
La idea básica para utilizar estas funciones de autocorrelación es la siguiente: cada
modelo ARIMA tiene asociadas unas funciones de autocorrelación teóricas. En esta
etapa comparamos las funciones de autocorrelación estimadas con las teóricas y
elegimos como modelo tentativo aquel al que más se aproximen ambas. El modelo que
obtengamos es, como se ha dicho anteriormente, tentativo y debemos realizar el resto
delas etapas para comprobar que realmente es el adecuado.
Etapa 2.- Estimación
En esta etapa obtenemos las estimaciones de los parámetros del modelo ARIMA, una
vez hemos fijados en la etapa de identificación los órdenes autorregresivo y de media
móvil. Esta estimación se realiza mediante minimización cuadrática del error de ajuste.
Esta etapa nos proporciona señales de aviso sobre si el modelo es adecuado o no. En
particular, si los coeficientes no cumplen ciertas inecuaciones derivadas de la
invertibilidad y la estacionariedad, el modelo ajustado debe ser rechazado.
Etapa 3.- Comprobación
Box y Jenkins proponen algunas comprobaciones de hipótesis que deben ser realizadas
para comprobar que el modelo estimado es estadísticamente adecuado. Algunas de las
comprobaciones que se deben realizar son que los residuos cumplen las hipótesis de
ruido blanco o que no existen coeficientes no significativos.
Una vez hemos comprobado que el modelo es correcto, podemos realizar predicciones
usando el mismo.
Para solventar el problema de la identificación mediante comparación defunciones de
autocorrelación, hay desarrollos de algoritmos que unen la etapa de identificación y
estimación. Así se logra poder orientar el desarrollo del algoritmo a medidas de error y
comprobación de hipótesis del modelo. Mediante estos algoritmos podemos ajustar de
una manera correcta modelos ARIMA con órdenes altos.
Equivalencia de modelos ARIMA con alisados exponenciales
La formulación ARIMA permite incluir algunos de los modelos de alisado exponencial.
Sus predicciones son idénticas a las del modelo ARIMA asociado. Consultar Mc
Kenzie, E. (1984), General exponential smoothing and the equivalent ARIMA process,
Journal of Forecasting. Las equivalencias 2más importantes son:
La predicción de un alisado exponencial simple es equivalente a la de un
ARIMA (0, 1,1). El parámetro de media móvil θ coincide con 1 − α, siendo
α el parámetro de alisado.
El método de Holt lineal es equivalente a un modelo ARIMA (0, 2,2). Los
valores de los parámetros de media móvil seránθ1=2−α −β−θ 2=α −1,
siendo α y β los parámetros de alisado.
La gran ventaja de estas equivalencias es que permiten calcular intervalos de predicción
mediante los modelos ARIMA. Dado que ningún alisado exponencial es un modelo
estadístico, el cálculo de los intervalos de predicción es tarea muy complicada. De
hecho, se dice que los alisados exponenciales dan predicciones punto a punto. Debe
quedar claro que estas equivalencias son en el sentido de que las predicciones que
generan ambas metodologías son las mismas, pero esto no implica que los modelos que
generan esas predicciones sean iguales.
Predicción mediante un modelo ARIMA
Para realizar predicciones puntuales mediante un modelo ARIMA, se utiliza la notación
algebraica. Se resuelve la ecuación para Yt. Para ello se introducen las estimaciones de
la constante del modelo y de los parámetros φ y θ y se asigna cero como valor esperado
del error εt. Lo que se realiza a continuación es insertar los valores pasados de Yt y de
los errores. En la práctica debemos usar como errores los obtenidos en la etapa de
estimación y, si el periodo de predicción es mayor que el orden de media móvil,
asignaremos a las estimaciones de los errores el valor nulo. De igual modo utilizaremos
las predicciones de Yt en el caso de que el periodo de predicción sea mayoral orden
autorregresivo.
Protocolo para la identificación de modelos ARIMA en series temporales (según
los pasos de Box-Jenkins)
Según [ CITATION luc06 \l 10250 ], Representar gráficamente la serie, su función de
autocorrelación simple (FAS) y su función de autocorrelación parcial (FAP). La gráfica
de la serie nos indica si la serie es estacionaria o no. Según los motivos por los que la
serie no es estacionaria, tendremos que aplicar uno de los siguientes procedimientos
hasta hacerla estacionaria.
a) Si tiene tendencia: Tomaremos diferencias regulares hasta que desaparezca.
Normalmente el orden de la diferencia será 1, y raramente será mayor a 3.
b) Si es heterocedástica, es decir, no tiene varianza constante, habrá que transformar la
serie. Con tomar el logaritmo es suficiente en nuestro caso, aunque existen algunas
transformaciones más complejas, como las de Box-Cox.
c) Si es estacional: Tomaremos diferencias estacionales hasta que desaparezca el
patrón que se repite. En la práctica es muy raro tener que aplicar más de una
diferencia estacional.
Conclusiones:
A través la historia de este método y realizando una comparación con respecto a
métodos anteriores, llegamos a la conclusión que este método es más sencillo y
más eficaz a la hora de realizar predicciones.
Tenemos las conclusión de que este método hace más sencillo las predicciones y
la toma de decisiones en el ámbito empresarial
Recomendación
Si bien se tiene una desventaja de estos modelos el cual es que la determinación del
modelo que mejor se adecua a la serie de datos no es trivial y, por tanto, se recomienda
al investigador tener amplio conocimientos sobre la metodología
Para la predicción y la toma de decisiones en el ámbito empresarial es benéfico
el uso del método ARIMA
Referencia Bibliográfica
Jaime, A. A. (1994). introducción al tratamiento de series temporale: aplicación a las ciencias .
Madrid - España : Dias de santos .
lucas, D. C. (2006). Protocolo para la identificación de modelos ARIMA en series temporales.
Madrid : Universidad Carlos III de Madrid .
Marketing4food. (2020). ARIMA. Marketing4food, 1.
Anexos
Figura 1 : Esquema de Identificación − Optimización- Comprobación
Ejercicio del método ARIMA