TRABAJO FINAL DE
ASIGNATURA
TÉCNICAS DE PREDICCIÓN
Estudio de series temporales univariantes
Arturo Martínez Barea
818782
1. Introducción
El objetivo de este trabajo es analizar una serie temporal económica mediante
técnicas de análisis univariante.
En primer lugar, estudiaremos por encima la naturaleza y características de la
variable seleccionada: ocupados/as en el sector de la construcción. A
continuación, el grueso del trabajo consistirá en identificar qué proceso ARIMA,
tanto regular como estacional, sigue nuestra variable para poder modelizarla.
Finalmente realizaremos predicciones para el próximo año y estudiaremos su
precisión.
2. Estudio de la variable
Hemos tomado como objeto de estudio la variable de ocupados/as (en miles) en
el sector de la construcción. Se trata de una serie de datos trimestrales que van
desde 1995 hasta el final de 2023. Ha sido extraída de los componentes del
empleo de la base de datos del Instituto Nacional de Estadística.
Esta variable es de gran interés puesto que guarda mucha relación con la marcha
general de la economía y el desempleo y fue de especial relevancia para la
historia económica de nuestro país en el siglo XXI. Además, a priori se puede
decir que sufrirá un cierto efecto estacional.
Tal y como hemos dicho, el número de ocupados y ocupadas en el sector
acompaña como causa y consecuencia al crecimiento económico del país, incluso
exagerando el crecimiento en los tiempos de bonanza y burbuja, y la caída tras
el estallido de la burbuja y la crisis en 2008, así como la posterior recuperación
paulatina. Sigue, por tanto, una evolución cíclica y podemos decir que tiene
tendencia creciente.
La media de ocupados durante este periodo se sitúa en 1618 personas, pero ha
presentado gran volatilidad en las últimas décadas, el coeficiente de variación,
es decir la desviación típica entre la media, ha sido del 32% y el coeficiente de
curtosis negativo, lo que significa que los datos se alejan de la media y la curva
es más aplanada (aunque la variable no sigue una distribución normal).
3. Identificación del proceso ARIMA regular y estacional
i. Identificación forma funcional
Haremos el gráfico de dispersión de rango-media, para ver si el rango de los
datos aumenta conforme aumenta la media de los valores de la serie. Si la
relación, es decir, la pendiente (𝜆), es distinta de cero, la serie tiene más
dispersión y deberemos tomar la variable en logaritmos para intentar
suavizar la serie.
Lo contratamos:
𝐻0 : 𝜆 = 0. 𝑃𝑒𝑛𝑑𝑖𝑒𝑛𝑡𝑒 𝑐𝑒𝑟𝑜
𝐻𝐴 : 𝜆 ≠ 0
La pendiente encontrada es de 0,26 y el p-valor del contraste es 0.49, por lo
que rechazamos la hipótesis nula para un error del 5%. Es recomendable usar
el logaritmo de la serie, la llamaremos “𝑙𝑛𝑁”
ii. Orden de integración
Procedemos a determinar el orden de integración de la variable, esto es, el
número de veces que hay que diferenciar la serie para que sea estacionaria.
La “𝑑” en 𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞)
A simple vista en el gráfico de series temporales podemos ver que la serie
no es estacionaria ni en media ni en varianza. Del mismo modo, la Función
de Autocorrelación desciende muy paulatinamente hacia cero y la parcial es
muy próxima a uno en el primer retardo. Este correlograma es típico de una
serie no estacionaria. Sin mayor estudio, ya sabemos que hay que tomar por
lo menos una diferencia.
Pasamos a analizar la primera diferencia de la serie, lo que es la tasa de
crecimiento del número de trabajadores de la construcción, ya que está en
logaritmos.
Δ𝑙𝑛𝑁𝑡 = 𝑙𝑛𝑁𝑡 − 𝑙𝑛𝑁𝑡−1
Observando el correlograma de la nueva serie, vemos que la correlación desciende
lentamente hacia cero, además presenta una forma sinusoidal, lo que puede
significar que aún no es estacionario y da pistas de la presencia de estacionalidad.
De todos modos, contrataremos el orden de integración mediante el contraste de
raíz unitaria de Dick y Fuller. Hacemos el contraste para la primera diferencia en
un modelo con constante y sin tendencia, aunque en el gráfico parezca que la
variable se mueve entorno a cero.
Δ𝑙𝑛𝑁𝑡 = 𝜇 + 𝛼𝑙𝑛𝑁𝑡−1 + 𝑢𝑡
𝐻0 : 𝛼 = 1. 𝐿𝑎 𝑠𝑒𝑟𝑖𝑒 𝑛𝑜 𝑒𝑠 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎. 𝑑 > 1
𝐻𝐴 : 𝛼 < 1. 𝐿𝑎 𝑠𝑒𝑟𝑖𝑒 𝑒𝑠 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎. 𝑑 = 1
Vemos que el p-valor es 0.31, mayor que nuestro margen del 5% de error. No
rechazamos nuestra hipótesis nula, el orden de integración es mayor que 1
Volvemos a diferenciar la serie, ahora estudiaremos Δ2 𝑙𝑛𝑁𝑡 ,
El correlograma ya muestra una forma más típica estacionaria, y se puede ver la
fuerte presencia de estacionalidad. Repetimos el contraste, esta vez sobre un
modelo sin constante.
Δ2 𝑙𝑛𝑁𝑡 = 𝛼Δ𝑙𝑛𝑁𝑡−1 + 𝑢𝑡
𝐻0 : 𝛼 = 1. 𝐿𝑎 𝑠𝑒𝑟𝑖𝑒 𝑛𝑜 𝑒𝑠 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎. 𝑑 > 2
𝐻𝐴 : 𝛼 < 1. 𝐿𝑎 𝑠𝑒𝑟𝑖𝑒 𝑒𝑠 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑎. 𝑑 = 2
Ahora vemos que el p-valor es prácticamente cero, rechazamos la hipótesis nula.
El orden de integración de la serie es 2.
𝐴𝑅𝐼𝑀𝐴(𝑝, 2, 𝑞)
iii. Orden de integración estacional
Al tratarse de datos trimestrales, también debemos identificar un proceso
ARIMAs(P,D,Q) que recoja los efectos de la estacionalidad. Ahora es turno de
seleccionar el orden de integración de esta parte estacional, es decir cuantas
diferencias estacionales son necesarias para que la serie -por trimestres- sea
estacionaria.
Para la identificación usamos el contraste HEGY, que precisamente contrasta
si el orden de integración estacional (la “D” en ARIMAs(P,D,Q)) es cero, en
caso de no serlo, podríamos estar bastante seguros de que es 1.
𝐻0 : 𝐷=0
𝐻𝐴 : 𝐷≠0⇒𝐷=1
Vemos que al menos uno de los estadísticos mostrados es significativo, los
p-valores de “t1”y “F1” son menores que nuestro nivel de significación, 0,05.
Por tanto, rechazamos la hipótesis nula y concluimos que debemos tomar
diferencias estacionales: 𝐷 = 1.
Nos quedamos entonces con la serie con dos diferencias regulares y una
estacional (1 − 𝐿4 )(1 − 𝐿)2 𝑙𝑛𝑁 = ∆4𝑠 ∆2 𝑙𝑛𝑁
A primera vista, la serie se mueve entorno a la media de cero, pero también
parece que la varianza aumenta con el tiempo, esto puede ser problemático
y ser consecuencia de que haya aumentado la volatilidad estacional con los
años, lo cual tiene sentido económico.
Comprobamos mediante el contraste de la t que la media es efectivamente
cero:
𝐻0 : 𝜇 = 0
𝐻𝐴 : 𝜇 ≠ 0
𝜇
𝑡= < 1,96.
𝜎
No rechazamos la hipótesis nula de media cero.
El correlograma tiene forma estacionaria, aunque con gran presencia de
autocorrelación.
iv. Identificación del proceso ARIMA estacional:
Una vez determinado el orden de integración y habiendo obtenido las
variables estacionarias, nos disponemos a encontrar los órdenes de los
procesos autorregresivos y medias móviles. De momento conocemos esta
parte del proceso:
𝐴𝑅𝐼𝑀𝐴(𝑝, 2, 𝑞 ) × 𝐴𝑅𝐼𝑀𝐴𝑠(𝑃, 1, 𝑄)
Lo que nos queda un modelo de esta forma:
ΦP (𝐿4 )𝜙𝑝 (𝐿)(1 − 𝐿4 )(1 − 𝐿)2 𝑙𝑛𝑁𝑡 = 𝜇 + Θ𝑄 (𝐿4 )𝜃𝑞 (𝐿)𝑢𝑡
Empezaremos por la parte estacional buscando los órdenes P y Q mediante
el método de sobreajuste, consistente en probar varios modelos e ir
descartando los peores ajustados atendiendo a distintos criterios.
Comenzamos estimando el modelo 1 (M1)
𝑀1: 𝐴𝑅𝐼𝑀𝐴(1,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (1,1,1)
Tiene un 𝑅2 corregido muy alto, pero también observamos que ni el
término constante ni los términos autorregresivos (“phi_1” y “Phi_1”)
son significativos individualmente ya que el p-valor de los contrastes t
̂
𝛽
de significatividad individual de los parámetros (𝑡𝛽
̂ = ) dan muy
𝜎𝛽
̂
por encima de 0,05.
Vamos a reducir el orden autorregresivo estacional:
𝑀2: 𝐴𝑅𝐼𝑀𝐴(1,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)
Los criterios de información: SBIC (Schwarz), AIC (Akaike) y H-Q (Hannan-
Quinn) presentan valores menores en el segundo modelo, y los 𝑅2
corregidos son muy parecidos. El segundo modelo presenta mejor ajuste
que el primero, por tanto, lo descartamos.
Vamos a probar añadiendo otro factor de media móvil estacional:
𝑀3: 𝐴𝑅𝐼𝑀𝐴(1,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,2)
Como vemos, el p-valor del contraste de significatividad individual del
nuevo regresor de media móvil estacional (Θ2 ) es muy superior a 0,05, no
es significativo individualmente.
Los criterios de información mencionados presentan valores mayores,
por lo que el modelo 2 sigue siendo preferido. Concluimos que la parte
estacional es un proceso 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)
v. Identificación proceso ARIMA regular:
Vamos ahora con la parte regular del proceso. Como en el primer
modelo, 𝐴𝑅𝐼𝑀𝐴(1,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1), hemos visto que la parte
autorregresiva regular no era significativa individualmente, lo
eliminaremos:
𝑀4: 𝐴𝑅𝐼𝑀𝐴(0,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)
Comparando los criterios de información con el mejor modelo obtenido en el
apartado anterior (Modelo 2: 𝐴𝑅𝐼𝑀𝐴(1,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)), observamos
que este presenta menores valores en los tres criterios y un 𝑅2 corregido
similar. Por tanto, escogemos este modelo sin parte autorregresiva como
preferido.
A continuación, nos aseguraremos de encontrar el orden de la media móvil
adecuado añadiendo un factor más:
𝑀5: 𝐴𝑅𝐼𝑀𝐴(0,2,2) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)
El nuevo regresor “theta_2” no es significativo individualmente y los valores de
los criterios son mayores, el modelo anterior es preferido. Así, concluimos que la
serie sigue un proceso:
𝐴𝑅𝐼𝑀𝐴(0,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1)
vi. Comprobación de existencia de constante
Ya hemos encontrado el proceso de series temporales que sigue nuestro
modelo univariante, pero hasta ahora hemos estado considerando un modelo
con constante. Sin embargo, en todos los modelos estimados, la hipótesis nula
del contraste de significatividad individual para el término constante no ha sido
rechazada. Para asegurarnos, estimaremos el modelo, pero sin término
constante y lo compararemos con el modelo 4.
𝑀6: 𝐴𝑅𝐼𝑀𝐴(0,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1) 𝑠𝑖𝑛 𝑐𝑜𝑛𝑠𝑡𝑎𝑛𝑡𝑒
Efectivamente, este modelo presenta valores más bajos para los tres criterios de
información utilizados, por lo que lo seleccionamos como preferido.
Nuestro modelo definitivo queda, por tanto:
(1 − 𝐿4 )(1 − 𝐿)2𝑙𝑛𝑁 = (1 + 0,841𝐿4 )(1 + 0,599𝐿)𝑢𝑡
4. Comprobación de los residuos del modelo:
Una vez seleccionado el modelo 6, pasamos a chequear el cumplimiento de las
hipótesis relativas a los residuos del modelo (𝑢̂)
i. Media cero
Realizamos el contraste para la media de los residuos
𝐻0 : 𝜇𝑢̂ = 0
𝐻𝐴 : 𝜇𝑢̂ ≠ 0
El estadístico del contraste queda:
0,00093815
𝑡 = |− | < |1,96|
0,024710
No rechazamos la hipótesis nula de media cero.
ii. Varianza constante
Contrastamos si la varianza de los residuos es independiente de los
valores de la variable: 𝑢̂𝑡 = 𝜎 ∀𝑡
A primera vista no se puede asegurar que la dispersión de los residuos de
𝑙𝑛𝑁, aunque es posible que se observe mayor dispersión en los valores
más bajos. Haremos uso del gráfico rango-media de los residuos:
No rechazamos la hipótesis de pendiente cero. Concluimos que la
varianza es constante
iii. Normalidad
Contrastamos si los residuos siguen una distribución normal:
𝐻0 : 𝑢̂~𝑁(0, 𝜎)
𝐻𝐴 : 𝑁𝑜 𝐻0
El p-valor del contraste es 0,0079 por lo que rechazamos la hipótesis nula,
los residuos no siguen una distribución normal.
iv. No autocorrelación
Comprobamos si se cumple la importante hipótesis de no
autocorrelación entre los residuos: 𝐶𝑜𝑣(𝑢̂𝑡 , 𝑢̂𝑡−𝑗 ) = 0 ∀𝑗 ≠ 0
Sobra con echar un vistazo al correlograma para decir que no existe
autocorrelación significativa de ningún orden, ya que ninguno de los
valores de las funciones de autocorrelación supera las bandas de
significatividad.
5. Predicción
Antes de estimar de predecir valores futuros, mediremos la bondad de ajuste de
las estimaciones del modelo con los datos reales (de la variable en logaritmos)
utilizando el error cuadrático medio: 𝐸𝐶𝑀 = (0.018764)2 = 0,000352. En
términos porcentuales, el error medio ha sido del 16%.
Finalmente, utilizaremos el modelo para predecir, con un nivel de confianza del
95%, los valores del año siguiente al último año de la muestra, es decir, el número
de ocupados en la construcción de cada trimestre de 2024.
Deshaciendo la transformación logarítmica, obtenemos las predicciones en miles
̂
̂ = 𝑒 𝑙𝑛𝑁
de personas: 𝑁
2024T1 1455,816
2024T2 1512,303
2024T3 1550,491
2024T4 1590,195
6. Conclusiones
En conclusión, el número de ocupados en el sector de la construcción se puede
modelizar y predecir a corto plazo de forma más o menos fiable mediante un
proceso ARIMA con parte estacional. En concreto, los logaritmos de la variable
siguen un 𝐴𝑅𝐼𝑀𝐴(0,2,1) × 𝐴𝑅𝐼𝑀𝐴4 (0,1,1).
Este proceso no tiene parte autorregresiva, lo que quiere decir que el número de
trabajadores en construcción no depende directamente de los trabajadores de
trimestres anteriores, sino de los shocks económicos que afectan al sector y su
persistencia en el tiempo, tanto a lo largo de los años, como de forma interanual.