0% encontró este documento útil (0 votos)
28 vistas135 páginas

Ibañez Quispe Vladimiro

La tesis de Vladimiro Ibañez Quispe presenta modelos de series de tiempo utilizando técnicas de machine learning para analizar el costo de consumo de agua comercial y doméstico en la región de Puno entre 2015 y 2020. Se abordan metodologías como ARIMA, redes neuronales y Random Forest, con el objetivo de predecir costos y validar modelos a través de datos históricos. El trabajo busca contribuir al entendimiento y gestión del consumo de agua en la región.

Cargado por

yudisarela100
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
28 vistas135 páginas

Ibañez Quispe Vladimiro

La tesis de Vladimiro Ibañez Quispe presenta modelos de series de tiempo utilizando técnicas de machine learning para analizar el costo de consumo de agua comercial y doméstico en la región de Puno entre 2015 y 2020. Se abordan metodologías como ARIMA, redes neuronales y Random Forest, con el objetivo de predecir costos y validar modelos a través de datos históricos. El trabajo busca contribuir al entendimiento y gestión del consumo de agua en la región.

Cargado por

yudisarela100
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIVERSIDAD NACIONAL DEL ALTIPLANO

ESCUELA DE POSGRADO

DOCTORADO EN ESTADÍSTICA APLICADA

TESIS

MODELOS DE SERIES DE TIEMPO CON MACHINE LEARNING DEL


COSTO DE CONSUMO DE AGUA COMERCIAL Y DOMÉSTICO DE LA
REGIÓN DE PUNO: 2015-2020

PRESENTADA POR:

VLADIMIRO IBAÑEZ QUISPE

PARA OPTAR EL GRADO ACADÉMICO DE:

DOCTORIS SCIENTIAE EN ESTADÍSTICA APLICADA

PUNO, PERÚ

2025
UNIVERSIDAD NACIONAL DEL ALTIPLANO
ESCUELA DE POSGRADO
DOCTORADO EN ESTADÍSTICA APLICADA

TESIS
MODELOS DE SERIES DE TIEMPO CON MACHINE LEARNING DEL
COSTO DE CONSUMO DE AGUA COMERCIAL Y DOMÉSTICO DE LA
REGIÓN DE PUNO: 2015-2020

PRESENTADA POR:
VLADIMIRO IBAÑEZ QUISPE
PARA OPTAR EL GRADO ACADÉMICO DE:
DOCTORIS SCIENTIAE EN ESTADÍSTICA APLICADA

APROBADA POR EL JURADO SIGUIENTE:

PRESIDENTE

………………..………….
Dr. LEONEL COYLA IDME

PRIMER MIEMBRO

………………..……………………...
Dr. MILTON ANTONIO LOPEZ CUEVA

SEGUNDO MIEMBRO

………………..…………….
Dr. JOSE PANFILO TITO LIPA

ASESOR DE TESIS

………………..……………….
Dr. BERNABE CANQUI FLORES

Puno, 13 de marzo de 2025.

ÁREA: Estadística Aplicada.


TEMA: Series de tiempo.
LÍNEA: Modelos predictivos uni y multivariantes.
DEDICATORIA

Dedico a mis padres que están en el cielo Clemente y Martina por darme la vida, y por
el apoyo que me brindaron en todo momento para encaminarme en la formación
profesional y lograr los grados con su esfuerzo, sacrificio, paciencia, y
constancia para lograr mi proyecto de vida.

Vladimiro Ibañez Quispe.

i
AGRADECIMIENTOS

Universidad Nacional del Altiplano de Puno, por la formación especializada.

Escuela de Posgrado de la Universidad Nacional del Altiplano de Puno, por brindarme la


especialización en el Programa Doctorado de Estadística Aplicada.

Docentes del Programa de Doctorado en Estadística Aplicada, por sus excelentes


enseñanzas y experiencias que me brindaron para la culminación del doctorado.

Agradezco a mi Asesor Dr. Bernabé Canqui Flores por sus orientaciones,


recomendaciones para la culminación de trabajo de investigación.

A los compañeros que iniciaron el Programa de Doctorado en Estadística Aplicada de la


Facultad de Ingeniería Estadística e Informática que supieron entender y comprender que
la investigación es la generación de conocimientos para la región y del país.

Vladimiro Ibañez Quispe

ii
ÍNDICE GENERAL

Pág.

DEDICATORIA i
AGRADECIMIENTOS ii
ÍNDICE GENERAL iii
ÍNDICE DE TABLAS vi
ÍNDICE DE FIGURAS vii
ÍNDICE DE ANEXOS x
ACRÓNIMOS xi
RESUMEN 1
ABSTRACT 2
INTRODUCCIÓN 3
CAPÍTULO I
REVISIÓN DE LITERATURA
1.1 Marco teórico 5
1.1.1 Fundamentos teóricos del consumo de agua potable 5
1.1.2 Serie de tiempo 9
1.1.3 Proceso estocástico 12
1.1.4 Estacionalidad 13
1.1.5 La función de autocorrelación (acf) 13
1.1.6 La función de autocorrelación parcial muestral (pacf) 15
1.1.7 Modelos de series temporales 15
1.1.8 Modelos de series de tiempo univariados 16
1.1.9 Operador de retardo y diferenciación de una serie 16
1.1.10 Modelos para series de tiempo univariadas AR, MA, ARMA y ARIMA 17
1.1.11 Modelos lineales no estacionarios 22
1.1.12 Modelos ARIMA estacionales 24
1.1.13 La metodología de Box-Jenkins 26
1.1.14 Redes neuronales 28
1.2 Antecedentes 32
1.2.1 Internacionales 32
1.2.2 Nacionales 35

iii
1.2.3 Locales 36

CAPÍTULO II
PLANTEAMIENTO DEL PROBLEMA
2.1 Identificación del problema 38
2.2 Enunciados del problema 38
2.2.1 Problema general 38
2.2.2 Problemas específicos 39
2.3 Justificación 39
2.4 Objetivos 39
2.4.1 Objetivo general 39
2.4.2 Objetivos específicos 40
2.5 Hipótesis 40
2.5.1 Hipótesis general 40
2.5.2 Hipótesis específicas 40

CAPÍTULO III
MATERIALES Y MÉTODOS
3.1 Lugar de estudio 41
3.2 Población 41
3.3 Muestra 41
3.4 Método de investigación 42
3.5 Descripción detallada de métodos por objetivos específicos 42
3.5.1 Diseño de la investigación 42
3.5.2 Tipo de investigación 42
3.5.3 Técnicas de recolección de datos, instrumentos y análisis. 42
3.5.4 Variables de estudio. 43
3.5.5 Metodología de Box-Jenkins 43
3.6 Modelo de Redes Neuronales Artificiales 48
3.6.1 Arquitectura de una Red Neuronal Artificial (RNA) 50
3.6.2 Propagación de una Red Neuronal Artificial (RNA) 50
3.7 Modelo de predicción de Facebook Prophet 51
3.8 Metodología de Random Forest (RF) 53

iv
CAPÍTULO IV
RESULTADOS Y DISCUSIÓN
4.1 Resultados 55
4.1.1 Serie histórica de datos de consumo de agua doméstico 55
4.1.2 Identificación del modelo para costo del consumo de agua doméstico 55
4.1.3 Estimación del modelo para costo del consumo de agua doméstico 62
4.1.4 Validación del modelo estimado para el consumo de agua doméstico 62
4.1.5 Pronóstico del modelo validado para consumo de agua doméstico 66
4.1.6 Redes Neuronales Artificiales para consumo de agua doméstico. 68
4.1.7 Prophet para costo de consumo de agua doméstico. 71
4.1.8 Random Forest (RF) para costo de consumo de agua doméstico. 74
4.1.9 Serie histórica de datos del costo de consumo de agua comercial 75
4.1.10 Identificación del modelo para el costo del consumo de agua comercial 76
4.1.11 Estimación del modelo para el costo del consumo de agua comercial 82
4.1.12 Validación del modelo estimado para consumo de agua comercial 82
4.1.13 Pronóstico del modelo validado para consumo de agua comercial 88
4.1.14 Redes Neuronales Artificiales para consumo de agua comercial 89
4.1.15 Prophet para costo de consumo de agua comercial. 92
4.1.16 Random Forest (RF) para costo de consumo de agua comercial. 95
4.2 Discusión 96
CONCLUSIONES 100
RECOMENDACIONES 101
BIBLIOGRAFÍA 102
ANEXOS 109

v
ÍNDICE DE TABLAS

Pág.
1. Serie histórica del costo (S/) de consumo de agua doméstico 55
2. Coeficientes del modelo ARIMA(0,1,1) (1,0,0)12 de consumo de agua 62
3. Pronóstico de serie para 2021 del costo de agua doméstico(ARIMA1, h = 12)
67
4. Métricas de los modelos ARIMA(0,1,1)(1,0,0)[12] y Red Neuronal Artificial
NNAR(2,1,2)[12] del costo de consumo de agua doméstico 70
5. Evaluación de métricas para la técnica de PROPHET del costo de consumo
de agua doméstico 73
6. Evaluación de métricas para la técnica de RANDOM FOREST del costo de
consumo de agua doméstico 74
7. Resumen de evaluación de métricas del costo de consumo de agua doméstico
75
8. Serie histórica del costo (S/) de consumo de agua comercial 75
9. Resultados de ARIMA(0,1,2)(1,0,0)12 de consumo de agua comercial 82
10. Coeficientes significativvos del ARIMA(0,1,2)(1,0,0)12 del costo de
consumo de agua comercial 87
11. Pronóstico de serie para 2021 del costo de consumo de agua comercial
(ARIMA1, h = 12) 88
12. Métricas de los modelos ARIMA(0,1,2)(1,0,0)[12] y Red Neuronal Artificial
NNAR(3,1,2)[12] del costo de consumo 91
13. Evaluación de métricas de precisión para la técnica de PROPHET del costo
de consumo de agua comercial 95
14. Evaluación de métricas RANDOM FOREST del costo de consumo de agua
comercial 96
15. Resumen de la evaluación del costo de consumo de agua comercial 96

vi
ÍNDICE DE FIGURAS

Pág.
1. Red neuronal de una capa de entrada, una oculta y una salida 28
2. Ubicación de la EPS EMSA-Puno de la región de Puno 41
3. Fases de elaboración de un modelo ARIMA 48
4. Arquitectura de una capa de red neuronal artificial 50
5. Serie histórica del costo mensual (S/) de consumo de agua doméstico de la
región de Puno, según año y mes del periodo: 2015-2020 56
6. Función de Autocorrelación del costo mensual (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 57
7. Función de Autocorrelación parcial del costo mensual (S/) de consumo de
agua doméstico de la región de Puno, periodo: 2015-2020 57
8. Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo
de agua doméstico de la región de Puno, periodo: 2015-2020 58
9. Función de Autocorrelación estimada para la primera diferencia del costo (S/)
de consumo de agua doméstico de la región de Puno periodo: 2015-2020 59
10. Función de Autocorrelación parcial (pacf) estimada para la primera diferencia
del costo (S/) de consumo de agua doméstico de la región de Puno periodo:
2015-2020 60
11. Serie histórica real y estimada del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020 61
12. Distribución de los residuales de consumo de agua doméstico de la región de
Puno, según año y mes del periodo: 2015-2020 63
13. Errores residuales para la serie del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020 64
14. Función de autocorrelación (acf) del costo (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 64
15. Función de autocorrelación parcial del costo (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 65
16. Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua doméstico, periodo: 2015-2020
66

vii
17. Pronósticos del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020 68
18. Pronósticos de ajuste del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020 69
19. Residuales de verificación para costo (S/) de consumo de agua doméstico con
Redes Neuronales Artificiales, periodo: 2015-2020 70
20. Serie histórica del costo de consumo de agua doméstico de la Región de Puno
con técnica de Machine Learning - Prophet 71
21. Descomposición de la serie histórica del costo de consumo de agua doméstico
de la Región de Puno con técnica de Machine Learning – Prophet 72
22. Predicción del costo de consumo de agua doméstico de la Región de Puno
con Prophet, periodo: 2015-2020 72
23. Pronóstico del costo de consumo de agua doméstico de la Región de Puno
con Prophet, periodo: 2015-2020 73
24. Pronóstico del costo de consumo de agua doméstico de la Región de Puno
con Random Forest, periodo: 2015-2020 74
25. Serie histórica del costo mensual (S/) de consumo de agua comercial de la
región de Puno, según año y mes del periodo: 2015-2020 76
26. Función de Autocorrelación del costo mensual (S/) de consumo de agua
comercial de la región de Puno, periodo: 2015-2020 77
27. Función de Autocorrelación parcial del costo mensual (S/) de consumo de
agua comercial de la región de Puno, periodo: 2015-2020 78
28. Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo
de agua comercial de la región de Puno, periodo: 2015-2020 79
29. Función de Autocorrelación estimada para la primera diferencia del costo (S/)
de consumo de agua comercial de la región de Puno periodo: 2015-2020 79
30. Función de Autocorrelación parcial (pacf) estimada para la primera diferencia
del costo (S/) de consumo de agua comercial de la región de Puno periodo:
2015-2020 80
31. Serie histórica real y estimada del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 81
32. Evaluación de la normalidad de consumo de agua comercial de la región de
Puno, según año y mes del periodo: 2015-2020 83

viii
33. Errores residuales para la serie del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 84
34. Función de autocorrelación (acf) del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 84
35. Función de autocorrelación parcial del costo (S/) de consumo de agua
comercial de la región de Puno, periodo: 2015-2020 85
36. Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua comercial, periodo: 2015-2020
86
37. Serie de tiempo pronosticada con límites de confianza del 95% del costo (S/)
de consumo de agua comercial de la región de Puno periodo: 2015-2020 88
38. Pronósticos del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020 89
39. Pronósticos de ajuste del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020 90
40. Residuales de verificación para costo (S/) de consumo de agua comercial con
Redes Neuronales Artificiales, periodo: 2015-2020 91
41. Serie histórica del costo de consumo de agua comercial de la Región de Puno
con técnica de Machine Learning - Prophet 92
42. Descomposición de la serie histórica del costo de consumo de agua comercial
de la Región de Puno con técnica de Machine Learning - Prophet 93
43. Predicción del costo de consumo de agua comercial de la Región de Puno con
Prophet, periodo: 2015-2020 94
44. Pronóstico del costo de consumo de agua comercial de la Región de Puno con
Prophet, periodo: 2015-2020 94
45. Pronóstico del costo de consumo de agua comercial de la Región de Puno con
Random Forest, periodo: 2015-2020 95

ix
ÍNDICE DE ANEXOS

Pág.
1. Matriz de consistencia 109
2. Pronósticos con prophet – consumo de agua doméstico 110
3. Códigos de R para series de tiempo ARIMA de consumo de agua doméstico 111
4. Códigos de R para Redes Neuronales Artificiales de consumo de agua
doméstico 114
5. Códigos de Prophet para el costo de consumo de agua doméstico 116
6. Declaración Jurada de Autenticidad de tesis 119
7. Autorización para el depósito de tesis en el Repositorio Institucional 120

x
ACRÓNIMOS

acf : Función de autocorrelación


AR(1) : Proceso Autorregresivo de primer orden
AR(2) : Proceso Autorregresivo de segundo orden
ARMA(p,q) : Modelo mixto de autorregresivo y medias móviles
ARIMA(p,d,q) : Modelo mixto integrado de autorregresivo y medias móviles
EPG : Escuela de Posgrado
EPS EMSAPUNO : Empresa Prestadora de Servicios de Saneamiento de Puno
MA(1) : Proceso de medias móviles de primer orden
MA(2) : Proceso de medias móviles de segundo orden
MAE : Error Absoluto Medio
MAPE : Error Porcentual Absoluto Medio
MEF : Ministerio de Economía y Finanzas
MINAM : Ministerio del Ambiente
MSE : Cuadrado Medio del Error
OMS : Organización Mundial de la Salud
pacf : Función de autocorrelación parcial
Random Forest : Bosque Aleatorio
RNE : Reglamento Nacional de Edificaciones
R2 : Coeficiente de Determinación
RMSE Raíz Cuadrado Medio del Error
UNA Universidad Nacional del Altiplano

xi
RESUMEN

La comparación de modelos de series de tiempo y las técnicas de machine learning son


desarrollados actualmente para realizar los pronósticos y obtener mejores resultados a través
de entrenamiento y prueba con algoritmos de machine learning. El objetivo de la
investigación fue determinar el modelo univariante con Machine Learning para ajustar la
serie de consumo de agua doméstico y comercial de la EPS EMSA de la Región de Puno,
periodo 2015 - 2020. La metodología fue no experimental de tipo analítica, retrospectiva,
longitudinal y cuantitativa con enfoque de Box-Jenkins y las técnicas de Redes Neuronales,
Facebook Prophet, y Random Forest con los que se buscó el modelo más adecuado para
realizar pronósticos. Los resultados del modelo para el costo de consumo de agua doméstico
fue ARIMA(0,1,1)(1,0,0)12, y las métricas de evaluación RMSE, MAE y MAPE para Redes
Neuronales, Prophet y Random Forest fueron variables, y para el costo de consumo de agua
comercial se obtuvo modelo ARIMA(0,1,2)(1,0,0)12 con métricas de evaluación RMSE,
MAE y MAPE diferentes. Las conclusiones de los modelos ARIMA(0,1,1)(1,0,0)12, y
ARIMA(0,1,2)(1,0,0)12, fueron evaluados con las métricas para costo de consumo de agua
doméstico con RMSE, MAE y MAPE, se concluye que el modelo ARIMA(0,1,1)(1,0,0)12
resultó con el menor valor de MAPE de 1.945 frente a los demás modelos, y para el costo
de consumo de agua comercial Facebook Prophet que resultó con el menor valor de MAPE
de 5.313 frente a los demás modelos, por consiguiente los dos modelos son considerados
como adecuados.

Palabras clave: agua doméstico y comercial, ARIMA, Prophet, Random Forest,


Machine Learning, Redes Neuronales

1
ABSTRACT

Series time models, comparisons, and machine learning techniques are currently being
developed to make forecasts and obtain better results through training and testing from
machine learning algorithms. The objective of the research was to determine one machine
learning univariate model to adjust the series of domestic and commercial water
consumption of EPS EMSA in the Puno Region between 2015 and 2020. To find the most
appropriate model for forecasting, the methodology was non-experimental, analytical,
retrospective, longitudinal, and quantitative, employing a Box-Jenkins approach and
techniques of neural networks, Facebook Prophet, and random forest. The cost of the
domestic water consumption model was ARIMA(0,1,1)(1,0,0,0)12, and the evaluation
metrics of RMSE, MAE, and MAPE for neural networks, Prophet, and random forest were
variable. The commercial water consumption cost model, ARIMA(0,1,2)(1,0,0,0)12, was
obtained with different evaluation metrics: RMSE, MAE, and MAPE. Conclusions of the
ARIMA(0,1,1)(1,0,0,0)12 and ARIMA(0,1,2)(1,0,0,0)12 models were evaluated with the
metrics for domestic water consumption cost (RMSE, MAE, and MAPE). The
ARIMA(0,1,1)(1,0,0,0)12 model had a MAPE value of 1.945, while that for commercial
water consumption cost, Facebook Prophet had a MAPE value of 5.313; both results were
the lowest compared with other models. Consequently, the two models are considered
adequate.

Keywords: domestic and commercial water, ARIMA, Prophet, Random Forest, Machine
Learning, Neural Networks

2
INTRODUCCIÓN

El análisis de datos temporales con Machine Learning, se estableció como una


técnica esencial para predecir y comprender los patrones en el consumo de recursos hídricos,
los trabajos recientes demuestran que los diferentes métodos ofrecen una precisión
notablemente superior a los enfoques estadísticos tradicionales en la previsión del consumo
de agua.

El enfoque puede proporcionar el costo mensual del consumo de agua doméstico y


comercial con investigaciones de Machine Learning presentan modelos avanzados para la
gestión eficiente de recursos hídricos en regiones con alta variabilidad climática, como es el
caso de Puno.

Los modelos de series temporales con Machine Learning, tales como redes
neuronales artificiales, Facebook prophet y Random Forest permitieron procesar datos
históricos sobre el consumo de agua y costos asociados. Los modelos estimados han
identificado las tendencias estacionales, patrones cíclicos y anomalías que podrían pasar
desapercibidas con métodos convencionales.

Para la Región de Puno, los modelos pueden considerarse como factores que son las
variaciones climáticas estacionales, crecimiento poblacional y desarrollo urbano que
generan los cambios en las tarifas de agua, por la presencia de COVID-19 en los años 2020
a 2022.

El desarrollo económico y cambios en la actividad comercial son aplicables con


Machine Learning de redes neuronales recurrentes (RNN), modelos ARIMA, con
componentes de aprendizaje automático con algoritmos de bosques aleatorios para series
temporales para lograr la profundización de los patrones de consumo y costos del agua en
Puno.

Los modelos sugieren en las investigaciones recientes a predecir las tendencias


futuras en el costo del consumo de agua para ayudar a las autoridades encargadas de servicios
públicos para optimizar los recursos hídricos y planificar infraestructuras de manera más
eficiente.

En el capítulo I, es la revisión del marco teórico que sustenta la investigación, en el


capítulo II, planteamiento del problema es el inicio a la investigación con la identificación

3
del problema, enunciados, la justificación, los objetivos e hipótesis. El capítulo III,
corresponde al lugar de estudio, población, muestra, los materiales y métodos para la
investigación, y capítulo IV, los resultados de la investigación y la discusión que son
comparados con otros trabajos similares.

4
CAPÍTULO I

1REVISIÓN DE LITERATURA

1.1 Marco teórico

1.1.1 Fundamentos teóricos del consumo de agua potable

A. Agua potable

El agua potable es un elemento vital para el consumo de los seres


humanos, sin generar efectos en el organismo. El elemento líquido no tratada
o sin purificar contiene microrganismos y minerales en cantidades distintas
de las requeridas, entonces se realiza el tratamiento de agua para
descontaminar y purificar apta y saludable para el consumo humano. El agua
potable es dulce después de un proceso de potabilización que se convierte
para el consumo humano y equilibrio de los minerales, por esta razón el agua
es consumida sin ningún tipo de restricciones, la potabilización es para
realizar el análisis fisicoquímico y bacteriológico de la fuente a tratar, y en la
mayoría se usa de la captación con sulfato de aluminio que facilitar la
separación de partículas en la floculación y se decanta, filtra y desinfecta con
cloro u ozono, incolora e insípida (EMSA & PUNO, 2022)

B. Dotación de agua

De acuerdo a la Norma (OS.010, 2014), la dotación de agua es la


cantidad promedio de agua diaria anual por habitante, se fija en base al
consumo técnicamente justificados, se realiza en base a estudios sustentados
con informaciones estadísticas, los valores se ajustan a la norma IS.010 del
Reglamento Nacional de Edificaciones.

C. Consumo de agua

Conagua (2007) reporta en su trabajo que el consumo de agua es el


volumen de agua utilizado por habitante en un día para satisfacer sus
necesidades, y lo expresa la medida en Litros por habitante por día. (L/hab.
x día), y se obtiene de las mediciones en el medidor de la conexión
domiciliaria de los lotes de las viviendas.

5
Arocha (2006) describe cinco tipos de consumo:

• Agua doméstica que comprende para el consumo de hog ar, s e


ut i l i za para di fe re nt es usos en l as act i vi dades de l a
vi vi enda y uso predominante para los diseños.
• El agua comercial, comprende el gasto para el área industrial o
comercial. Los consumos de agua varían en la industria y comercio en
hoteles, estaciones de gasolina, talleres de automotriz, lavaderos de
vehículos.
• Público, se destina para regar a las zonas verdes, parques, jardines
públicos, y limpieza de calles.
• Pérdida de la red, ocurre cuando se obstruye las juntas en mal estado,
válvulas y conexiones defectuosas de 1 0 a 1 5 % del consumo total.
• Incendio, es usado para apagar fuego de los incendios, y para el
abastecimiento de agua.

De acuerdo a la Organización Mundial de la Salud (OMS, 2022), el


promedio de consumo es 100 litros de agua/persona al día para cubrir todas
las necesidades básicas; sin embargo, Dumler Cuya & SEDAPAL (2019) da
a conocer que el consumo promedio elevado se registra en el distrito de San
Isidro con 346 litros de agua potable, tres veces más el consumo promedio,
por lo que Lima es la segunda ciudad más grande en el mundo ubicada en un
desierto y carece de precipitaciones, por tal razón invoca a la población
realizar uso responsable y solidario del agua potable.

D. Demanda de agua

El agua doméstico y comercial presenta problemas en Texcoco y


plantearon modelos de regresión lineal múltiple para resolver las políticas de
precios, administración y uso eficiente del agua que genera la demanda
inelástica de precio del sector doméstico con coeficiente de elasticidad de
precio de -0.43 y -1.03 que es elástico para el sector comercial para el ahorro
de agua. La elasticidad para el ingreso del sector doméstico es un bien normal
en su punto medio de 0.40. En el sector comercial la elasticidad de ingreso es
1.22, el agua es un bien superior, por lo que sugieren que el acceso al agua

6
está delimitado por el ingreso, los comercios con mayor ingreso tienen mayor
oportunidad de acceso al recurso, similarmente la electricidad resultó un bien
complementario en el consumo de agua, con elasticidades de -0.055 y -0.25
para uso doméstico y comercial respectivamente, variables con influencia
menos significativas en la demanda (Gomez-Ugalde et al., 2012).

El trabajo realizado por Adams & sociedad (2010) calculó la demanda


de agua para uso doméstico en la ciudad de México con bases de datos
agregados a escala local, lo que ha demostrado resultados significativos de
los factores de elasticidad precio estimada -0.33, y la elasticidad ingreso de
0.2 asociados a la demanda, lo que debe ser para la planeación y
administración de los servicios de agua potable en México.

E. Disposición a pagar

Existen factores asociados para pagar por la calidad de agua en


México, se han encuestado a 400 hogares y encontraron agua embotellada (99
%); el agua con olor que huele mal (53 %) y contaminada (69 %), las personas
que beben del grifo (74 %), son dispuestos a beber agua de calidad que
mejoraría el (77 %). Sin embargo, más de la mitad no están dispuesta a pagar
para mejorar la calidad del agua., estimaron un modelo logit ordenado para la
disposición a pagar por calidad del agua y estar abierto a tomar agua del grifo
si esto sucede, y solicitan a las autoridades mejorar por las personas con
problemas de salud en casa, y al nivel de ingresos (Briseño & Macedo, 2021).

Existe la disposición para el pago de agua potable en el distrito de


Samán del sur de Perú, ejecutado con una muestra de 79 habitantes del
poblado de Chucaripo, para tal efecto estimaron a través de una regresión
lineal dicotómico para los resultados de pago con promedio de S/ 2.19 de
agua potable, asimismo existen varios servicios como factores económicos de
ingreso para la sostenibilidad de agua potable, sociales, carga familiar, nivel
de instrucción, y género para mejorar la calidad del agua con la disposición
de pago. Por otra parte, fortalecer las políticas públicas con mayor inversión
pública en proyectos de agua potable para mejorar el nivel de vida de los
habitantes (Sucasaca et al., 2024).

7
F. Tasa de crecimiento

En el crecimiento puede presentarse variaciones en el tiempo, por


cuestiones de que la población se mantenga constante, ya que puede ser
afectado por eventos que puede influir en las variaciones de disminución o
aumento, por eso es importante conocer en un tiempo y espacio de estabilidad.
Para estimar la población futura, se usa la tasa de crecimiento de la
poblacional en determinado periodo, por consiguiente, la tasa de crecimiento
de la población censada del sector rural fue de 700,091 habitantes y urbana
de 588,350 habitantes para el año 2007, y para el año 2017 la población
urbana de 630,648 habitantes y para sector rural de 542,049 habitantes con
un total de población para el año 2007 de 1268,441 habitantes y para el año
2017 con un total de población de 1’172,697 habitantes con una tasa de
crecimiento promedio anual para urbana 1.0% y para sector rural de -2.5%
(INEI, 2017)

G. Población futura o población de diseño

Conagua (2007) define a la población final como la cantidad de


personas que se espera tener en una localidad al finalizar el periodo de diseño.
La población futura se calcula a partir de la población actual y la tasa de
crecimiento, considerando el período de diseño, también Agüero (2010)
menciona que para el cálculo de la población futura, existen diversos métodos
de cálculos: racional, analítico, y comparativo, los cuales presentan
variaciones de acuerdo a la información existente y el análisis que se desee
realizar.

H. Las normas del sistema de agua potable

Se establecen normas en diseño de sistemas de agua potable en función


al tamaño de la población. Decreto Legislativo N° 1240 (2017) prioriza al sector
rural c o n poblaciones menores de 2000 habitantes y urbano superior a los
2000 habitantes, además los diseños y alcantarillado en el sector rural debe
realizarse con materiales fabricados que a cargo del Programa Nacional de
Saneamiento Rural-PNSR y los diseños urbanos a través del Reglamento
Nacional de Edificaciones-RNE.

8
Para la aducción, el proceso implica la captación de la fuente hídrica,
el transporte del fluido a través de conductos, la elevación de la presión
mediante estaciones de bombeo, el almacenamiento en reservorios, el
tratamiento en plantas potabilizadoras para garantizar la calidad del agua, la
distribución mediante una red y la conexión al usuario a través de acometidas
domiciliarias. El Reglamento Nacional de Edificaciones establece los
estándares normativos para las infraestructuras de saneamiento, y se
componen de los elementos mencionados. Los componentes y sus
características técnicas se encuentran en la normativa:

• La norma OS. 010 regula la captación y conducción de agua para


consumo humano.
• La norma OS. 020 establece la forma de tratamiento de agua para
consumo humano.
• La norma OS. 030 regula el almacenamiento de agua para consumo
humano.
• La norma OS. 040 son las estaciones de Bombeo de agua para consumo
humano.
• La norma OS. 050 presenta a las redes de distribución de agua para
consumo humano.
• La norma OS. 060 es utilizado para el drenaje pluvial urbano.

1.1.2 Serie de tiempo

Las series temporales es una sucesión de realizaciones en varios instantes de


tiempo que son igualmente espaciados y registran en intervalos de tiempo regulares
(diario, semanal, semestral, anual). Las series son las realizaciones o una secuencia
de datos empíricos que son ordenados en función del tiempo, y se usa para los datos
cuantitativos registrados periódicamente. Los periodos de tiempo pueden ser días,
semanas, meses, estaciones, trimestres, semestres, años. En el análisis de series de
tiempo, interesa estudiar los cambios en la variable con respecto al tiempo y predecir
sus valores futuros (Montenegro, 2011).

9
A. Componentes de una serie de tiempo

Según Peña (2010) consiste en explicar el comportamiento de las


realizaciones de las series históricas que comprende la descomposición que
consiste en componentes de tendencia, ciclo, estacionalidad, aleatoriedad o
irregularidad, los métodos señalados establecen la combinación de las
proyecciones de cada uno de los componentes para describir los movimientos
y componentes presentes:

A.1 Tendencia

Se conceptualiza como una serie a largo plazo, así el crecimiento


ascendente o descendente de la serie de tiempo denominado evolución a
mediano y largo plazo que puede aumentar, decrementar o ser estable en
diferentes años de tiempo, se puede mencionar la aceptación de un producto,
cambios en la productividad a largo plazo, tendencias demográficas, y
cambios tecnológicos.

A.2 Cíclico

Presenta oscilaciones de tipo ondas o ciclos que puede durar un año o


más que son generados por diferentes cambios en economía, negocios, bolsa
de valores y la vida útil de los productos.

A.3 Estacionalidad

Presentan los fenómenos que en cada año se repiten en forma de


constancia o fluctuaciones estacionales u oscilaciones en los datos
clasificados por trimestres, meses o semanas, también se denomina como
componente estacional de patrón de cambio que se presenta cada año, y se
menciona al clima o año calendario, precio de productos agrícolas, fiestas
patrias, venta de útiles escolares, navidad, semana santa, venta de sombrillas.

A.4 Aleatoriedad o irregular

Es el comportamiento irregular, que sirve para caracterizar los


movimientos causadas por acontecimiento no previstos o fenómenos
aleatorios que se presentan por la dispersión de la serie de datos que son

10
eliminados por otros componentes ajenos a la tendencia, estacionalidad,
ciclos de la variable, tales como: el clima, las guerras, las elecciones,
fenómenos del niño, los sismos, las huelgas, los rumores, cambio de leyes,
los incendios y Tsunami.

B. Análisis histórico de serie de tiempo

Según Otero (1993) menciona que la serie histórico de tiempo se


realiza con datos independientes correlacionados y existe una dependencia
entre las observaciones como una secuencia de niveles establecidos en
intervalos iguales de tiempo de los datos, además se puede establecer la
relación causa-efecto; sin embargo, no permite extrapolar los hallazgos de la
población a individuos específicos.

Según Guerrero (2009) señala que existe dos:

B.1 Enfoque descriptivo

La estadística descriptiva busca resumir datos de forma clara y


concisa en forma de representaciones visuales como gráficas que describen
las características de los datos. Es importante analizar los datos a través de
gráficas, antes de realizar cálculos y verificar si los datos tienen sentido y a
identificar patrones importantes.

B.2 Enfoque de inferencia

La estadística inferencial busca usar información obtenida de una


muestra para obtener conclusiones válidas sobre una población más grande.
Utiliza técnicas para responder preguntas sobre la población basándose en la
muestra.

C. Estimación de la tendencia

Los mínimos cuadrados es para estimar los parámetros del modelo


que mejor ajuste a una línea o curva a un conjunto de datos, también para
establecer la relación entre una variable dependiente e independientes. El
criterio del método es usar la recta del modelo: Y = a + bX, cuya suma de los
cuadrados de los errores sea mínima (Uriel, 1985).

11
𝑛 𝑛
(∑𝑖=1 𝑋𝑖 )(∑𝑖=1 𝑌𝑖 )
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −
Pendiente b: 𝑏 = 𝑛
2 , 𝑎 = 𝑌̅ − 𝑏𝑋̅
∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 −(∑𝑖=1 𝑋𝑖 ) ⁄𝑛

El modelo estimado es: 𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖

Donde:

• a: Intercepto con el eje vertical.


• b: Pendiente de la línea de regresión
• n: número de observaciones de la muestra.
• X: Variable predictora o independiente.
• Y: Variable explicativa o dependiente.

1.1.3 Proceso estocástico

Un proceso estocástico son variables aleatorias formado por {𝑍(𝜏); 𝜏𝜖𝑇},


donde “T” un conjunto de índice y 𝑍(𝜏) variable aleatoria que pertenece a 𝜏 de T. La
T representa al intervalo de números reales del proceso estocástico continuo, pero
numerable cuando el proceso estocástico es discreto. El hecho de que el proceso
estocástico sea continuo o discreto, no indica nada acerca de la naturaleza de las
variables aleatorias involucradas, ya que éstas pueden continuas o discretas
(Guerrero, 2009).

A. Proceso estocástico estacionario

Un proceso estocástico {𝑌𝑡 } es estrictamente estacionario si sus


propiedades estadísticas o probabilísticas no cambian con el tiempo: esto es,
si su función de distribución acumulativa es independiente del tiempo
(Montenegro, 2011). En símbolos, se expresa como:

𝐹(𝑌1 , 𝑌2 , 𝑌3 , ⋯ , 𝑌𝑛 ) = 𝐹(𝑌1+𝑡 , 𝑌2+𝑡 , ⋯ , 𝑌𝑛+𝑡 ) para todo “n” y rezago t


finitos admisibles.

Una definición menos restrictiva, y menos difícil de probar, si existe


estacionariedad de orden m si para cualquier n y rezago t, todos los momentos
conjuntos hasta de orden m de {𝑌1 , 𝑌2 , 𝑌3 , ⋯ , 𝑌𝑛 } existen y son iguales a los
conjuntos de orden m de {𝑌1+𝑡 , 𝑌2+𝑡 , ⋯ , 𝑌𝑛+𝑡 }, esto es:

12
𝑚 𝑚1 𝑚 𝑚 𝑚 𝑚
𝐸(𝑌1 1 𝑌2 ⋯ 𝑌𝑛 1 ) = 𝐸(𝑌1+𝑡1 𝑌2+𝑡2 ⋯ 𝑌𝑛+𝑡𝑛 )

Para todos los enteros no negativos 𝑚1 , 𝑚2 , … , 𝑚𝑛 que satisfagan:

𝑚1 + 𝑚2 + ⋯ + 𝑚𝑛 ≤ 𝑚

Un caso particular es cuando m=2, conocido como estacionariedad


débil o de orden dos que posee la estacionariedad débil en la media, varianza
y las covarianzas finitos e independientes del tiempo. Un proceso gaussiano
débilmente estacionario es porque todos los momentos superiores en un
proceso gaussiano son funciones de los dos primeros y al ser dos primeros
estacionarios, los demás también lo serán.

B. Proceso de ruido blanco

Se llama ruido blanco cuando la esperanza es igual a cero, la varianza


es constante y las variables del proceso no son correlacionadas para todo los
retardos Peña (2010). Las propiedades de un proceso estacionario son:

1a. 𝐸(𝜀𝑡 ) = 0, 𝑡 = 1,2, …

2a. 𝑉𝑎𝑟(𝜀𝑡 ) = 𝜎 2 , 𝑡 = 1,2, …

3a. 𝐶𝑜𝑣(𝜀𝑡 , 𝜀𝑡−𝑘 ) = 0, 𝑘 = ±1, ±2, …

1.1.4 Estacionalidad

La estacionalidad de la serie es relacionado con el calendario que se repite en


un intervalo de tiempo secuencial en diferentes estaciones del año, datos trimestrales
que presentan estacional, primeros trimestres, segundos trimestres emulan a la serie
de datos, y así sucesivamente, hasta obtener un coeficiente significativo en el rezago
cuatro. Además, se analizan datos mensuales que aparece un coeficiente de
autocorrelación significativo en el retraso de tiempo 12 (Hanke & Wichern, 2010).

1.1.5 La función de autocorrelación (acf)

La (acf) explica el error que se relaciona consigo mismo en diferentes tiempos


(uno anterior y uno después). Las barras deben caer dentro de los límites de intervalos
de confianza, entonces es un ruido blanco, lo cual demuestra que no presenta
autocorrelaciones significativas. Si cualquiera de las barras cruza los límites de

13
intervalos de confianza, entonces existe autocorrelaciones significativas en la serie
(Guerrero, 2009).

Parámetros:

a) La media de Yt es: E(Yt) = t


b) Varianza del proceso: 𝛾0 = 𝐸[(𝑌𝑡 − 𝜇)2 ]
c) Al considerar todas las variables Y1, ..., YN, se necesita de la covarianza
entre Yt y Yt+k para k = 1, 2, ..., esto es: 𝛾𝑘 = 𝐸[(𝑌𝑡 − 𝜇)(𝑌𝑡+𝑘 − 𝜇)] =
𝐶𝑜𝑣 (𝑌𝑡 , 𝑌𝑡+𝑘 )

El promedio μ y la autocovarianza {γk}, se caracteriza por completo cuando


presenta la serie estacionaria: La acf es:

𝐸[(𝑌𝑡 − 𝜇)(𝑌𝑡+𝑘 − 𝜇)] 𝛾𝑘


𝜌𝑘 = = , k = 0, ± 1, ± 2,...
𝐸[(𝑌𝑡 − 𝜇)2 ] 𝛾0

Se quiere estimar: , a2 y {k} a partir de la muestra ρk como un número


puro que se encuentra entre -1 ρk  1.

Estimador:

1
a) Promedio: 𝜇̂ = 𝑌 = 𝑁 ∑𝑁
𝑡=1 𝑌𝑡 ,

∑𝑁−𝑘
𝑡=1 (𝑌𝑡 −𝑌)(𝑌𝑡+𝑘 −𝑌)
b) Autocovarianza: 𝛾̂𝑘 = 𝐶𝑘 = 𝑁
̂𝑘
𝛾 𝐶𝑘 ∑𝑁
𝑡=1(𝑌𝑡 −𝑌)
2
c) Autocorrelación: 𝜌̂𝑘 = 𝑟𝑘 = ̂0
= , Donde: 𝛾̂0 = = 𝜎𝑡2
𝛾 𝐶0 𝑁

Para calcular la autocovariancia k , se necesita el número de componentes


debe ser N > k+1, y se recomienda que N  50 y k  N/4.

Hipótesis a contrastar:

Se realiza el contraste de hipótesis a un nivel de significación de () dado, si


el 𝜌̂𝑘 se encuentra dentro del intervalo definido, entonces se acepta la hipótesis nula
(H0:) respecto al verdadero calculado de ρk que es igual a 0.

𝐻0 : 𝜌𝑘 = 0
𝐻1 : 𝜌𝑘 ≠ 0

14
El estadístico Box y Pierce (Q), evalúa a los acf que deben ser iguales a cero.
𝑄 = 𝑁 ∑𝑚 ̂𝑘2
𝑘=1 𝜌

Donde: “m” es la longitud del rezago. La prueba Ji-cuadrado se distribuye χ2


con m grados de libertad.

Cuando el Qcalculado excede al Qcrítico, para un determinado , entonces no es


cierto que Ho: ρk = 0, entonces se rechaza la Ho:

Existe una modificación de la prueba Q que es conocida como Ljung, Box y


Pierce (LBP). La prueba estadística modificada se define como:

𝑚
𝜌̂𝑘2 2
𝑄𝐿𝐵𝑃 = 𝑁(𝑁 + 2) ∑ ≈ 𝜒𝑚
𝑁−𝑘
𝑘=1

1.1.6 La función de autocorrelación parcial muestral (pacf)

Existe la otra (pacf) que es una medida de la correlación diferente, analiza


correlaciones después de controlar y evaluar la serie en los puntos de tiempo
intermedios. La pacf se estima a partir de la muestra ρk en el rezago k son las
correlaciones de las observaciones que están rezagados en k periodos, y se mantienen
constantes las correlaciones en los rezagos intermedios. La pacf es la correlación de
̂ 𝑘𝑘 ,
Yt y Yt-k una vez eliminado el efecto de las Y intermedias. La muestra de (pacf) ∅
se obtiene sustituyendo 𝜌𝑖 por 𝜌̂𝑖 del cálculo complicado para k (Wei, 2006). Un
̂11 = 𝜌̂1 para calcular ∅
método recursivo inicial con ∅ ̂ 𝑘𝑘 es con la siguiente ecuación:

𝑘 ̂
̂ 𝑘+1,𝑘+1 = 𝜌̂𝑘+1−∑𝑗=1
∅ 𝑘 ̂ ̂
̂ 𝑘+1−𝑗
∅𝑘𝑗 𝜌
,
1−∑𝑗=1 ∅𝑘𝑗 𝜌𝑗

̂ 𝑘+1,𝑗 = ∅
y∅ ̂ 𝑘𝑗 − ∅
̂ 𝑘+1,𝑘+1 ∅
̂ 𝑘,𝑘+1−𝑗 , j= 1,2,…k

̂ 𝑘𝑘 ) ≅ 1,
Con varianza: 𝑉𝑎𝑟(∅ con ±2⁄√𝑛 que es usado como límites
𝑛

críticos en ∅𝑘𝑘 para la prueba de hipótesis de un proceso de ruido blanco.

1.1.7 Modelos de series temporales

Según Uriel (1995) ha desarrollado las teorías determinísticas y/o aleatorias


para realizar el análisis y se clasifica de dos formas:

15
Variables temporales son observaciones a lo largo del tiempo denotado por
Yt que es la variable Y en el momento t.

La serie de datos es el conjunto formado por “t” realizaciones por cada una
de las variables: Y1 , Y2,…, Y t denominados como la serie cronológica.

Es importante observar que una serie de tiempo observada no es más que una
realización de un proceso estocástico, lo cual significa que bien pudo haberse
observado otra realización del mismo proceso, pero cuyo comportamiento fue
distinto del que se observó en la realidad (Guerrero, 2009).

1.1.8 Modelos de series de tiempo univariados

Las series de datos en el tiempo {𝑌𝑡 }, son todos que tienen una variable observada
en el tiempo. Las series de tiempo son técnicas univariantes de proceso autorregresivo
de primer orden AR(1), el modelo de tendencia lineal o exponencial, entre otros (Cryer
& Chan, 2008). Los modelos más exigentes para la predicción univariante con el enfoque
de Box-Jenkins para construir modelos ARIMA que conforman un conjunto más amplio,
como el modelo ARIMA univariantes que es una parte de los modelos univariantes que
se clasifican en:

- Los procesos Autorregresivos, Medias Móviles y procesos Mixtos


ARMA(1,1), ARMA(1,2),…..,ARMA(p,q) son modelos no-integrados que
no se ha realizado la diferenciación y la estacionalidad de la serie.
- El ARIMA, conocido con el nombre de modelo univariante integrado que
son modelos que no cumplen con la estacionariedad de la serie, para lo cual
se debe realizar la diferenciación de la serie o integración, también se
denominan modelos no estacionarios.
- Los procesos estacionales mixtos integrados de ARIMA(p,d,q)(P,D,Q), con
medias móviles Integrado representado por IMA, otro proceso de Medias
Móviles, y los procesos de autorregresivos son los modelos integrados.

1.1.9 Operador de retardo y diferenciación de una serie

Según Guerrero (2009) establece la densidad conjunta para la notación de


operadores de rezago (B: Backward)

𝐵 𝑘 𝑍𝑡 = 𝑍𝑡−𝑘 para k = 0, 1, 2, ...

16
𝐿𝑘 𝑦𝑡 = 𝑦𝑡−𝑘

La aplicación sucesiva del operador B (Backward), se calcula:

𝐵1 𝑍𝑡 = 𝐵(𝑍𝑡 ) = 𝑍𝑡−1, 𝐵 2 𝑍𝑡 = 𝐵(𝐵𝑍𝑡 ) = 𝑍𝑡−2 , 𝐵 3 𝑍𝑡 = 𝐵(𝐵2 𝑍𝑡 ) = 𝑍𝑡−3

𝐵 4 𝑍𝑡 = 𝐵(𝐵 3 𝑍𝑡 ) = 𝑍𝑡−4 , ….., 𝐵 𝑘 𝑍𝑡 = 𝐵(𝐵 𝑘−1 𝑍𝑡 ) = 𝑍𝑡−𝑘

En forma general, se puede expresar como:

𝐵 𝑘 𝑍𝑡 = 𝑍𝑡−𝑘 𝑝𝑎𝑟𝑎 𝑘 = 0,1,2, . . . . 𝑦 𝑡𝑜𝑑𝑎 𝑡

Se debe multiplicar Bk por Zt, para obtener la variable rezagada de “k”


periodos (B0 = 1), entonces se obtiene: B0Zt = Zt,, se denota como: B0 =I.

Al aplicar Bk a {Z1, Z2, ..., Zt, ..., ZN} se obtiene {Z1-k, Z2-k, ..., Zt-k, ..., ZN-k},
con lo que se pierden k observaciones, y Z1-k, ..., Z0 no existen.

El operador para la diferenciación (), expresa las relaciones de Yt = Zt –


Zt-1. Zt representa a una variable. 𝛻𝑍𝑡 = 𝑍𝑡 − 𝑍𝑡−1 ∀t.

Yt, se expresa como Yt = Zt es la relación a  (nabla) con Backward (B):


𝛻 = 1−B y ∇𝑍𝑡 = (1 − 𝐵)𝑍𝑡 .

En forma general, se obtiene para k

𝑘
𝑘!
𝛻𝑘 𝑍𝑡 = ∑ (−1)𝑗 𝑍𝑡−𝑗 para k = 0,1,2,... y toda t
𝑗! (𝑘 − 𝑗)!
𝑗=0

La expresión anterior, se puede comprobar con el Teorema del Binomio, k


que es expresado como un binomio de la k-ésima potencia que se expresa como:
𝛻𝑘 𝑍𝑡 = (1 − 𝐵)𝑘 𝑍𝑡 .

1.1.10 Modelos para series de tiempo univariadas AR, MA, ARMA y ARIMA

Según Peixeiro (2022) los procesos de serie de tiempo ARIMA es expresado


por la parte autorregresivo AR(p), integración o diferenciación (d) y medias móviles
MA(q) basado en el enfoque de Box-Jenkins para series estacionarias, además, se
denomina estacionaria cuando el valor promedio es nulo y no cambia en el tiempo.
17
En el grupo se incluyen a los modelos autorregresivo, medias móviles, los términos
de promedio móvil y modelos integrados ARIMA, para tal efecto en enfoque Box-
Jenkins ayuda a seleccionar el modelo con el mejor ajuste a los datos, los cuales son
dos:

A. Modelos lineales estacionarios

Los procesos AR son una familia de procesos en la que una


observación depende de las observaciones anteriores. Los procesos AR, son
caracterizados de acuerdo a su orden.

A.1 Modelo autorregresivo de primer orden: AR(1)

Se denomina proceso AR de primer orden denotado como AR(1) que


es representado a una variable actual que es relacionado con el valor anterior
mediante un modelo de regresión.

𝑌𝑡 = 𝛿 + ∅1 𝑌𝑡−1 + 𝜀𝑡 ,

Donde: ∅1 determina la velocidad de la variable, y debe estar en el


intervalo: 0<1<1, 𝜀𝑡 ~𝑁(0,1), o también se puede representar como:

𝑌𝑡 = ∅1 𝑌𝑡−1 + 𝜀𝑡 ó (1 − ∅1 𝐵)𝑌𝑡 = 𝜀𝑡

Los modelos AR(1), son evaluados con acf infinita y pacf para
eliminar a partir del segundo rezago, cuando los datos tienen media es
importante especificar en el modelo un término constante.

A.2 Modelo autorregresivo de segundo orden: AR(2)

El proceso AR(2) es estacionario con raíces de la ecuación


característica están fuera del círculo unitario: ∅2 + ∅1 < 1, ∅2 − ∅1 < 1, y
−1 < ∅2 < 1. El modelo: 𝑌𝑡 = 𝛿 + ∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + 𝜀𝑡 , o también se
puede expresar como:

(1-∅1 B-∅2 𝐵 2 )𝑌̃𝑡 = 𝜀𝑡 , ∅2 ≠ 0

Si es estacionario el modelo, entonces sólo requiere conocer:

Media: E(𝑌𝑡 ) = 0, E(𝑋𝑡 ) = 0

18
Varianza: γ0 = ∅1 𝛾1 + ∅2 𝛾2 + 𝜎𝑎2
Autocovarianza: 𝛾𝑘 = ∅1 𝛾k-1 + ∅2 𝛾𝑘−2 , 𝑘>0

Ecuaciones de Yule-Walker (relacionan las ’s con las ’s)

𝜌1 = ∅1 + ∅2 𝜌1
𝜌2 = ∅1 𝜌1 + ∅2

La función de autocorrelación (acf) satisface la ecuación: (1 − ∅1 𝐵 −


∅2 𝐵2 )𝜌𝑘 = 0.

Las ecuaciones de Yule-Walker conducen a:

∅1 ∅2 + ∅12
𝜌1 = 𝑦 𝜌2 =
1 − ∅2 1 − ∅2

Las condiciones de estacionariedad son:

𝜌2 + 1
𝜌2 < 1, 𝜌12 < 𝑦 − 1 < 𝜌1 < 1
2

A.3 Modelo autorregresivo de orden p: AR(p), caso general p1

El modelo AR(p) de orden “p”, se escribe la ecuación siguiente:

𝑌𝑡 = ∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ∅3 𝑌𝑡−3 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡


(1-∅1 B-∅2 𝐵 2 -...-∅𝑝 𝐵 𝑝 )𝑌̃𝑡 = 𝜀𝑡 , ∅𝑝 ≠ 0

Un modelo autorregresivo general AR(p), es estacionario si las raíces


de la ecuación característica es cero: 1 − ∅1 𝑥 − ∅2 𝑥 2 − ⋯ − ∅𝑝 𝑥 𝑝 = 0.

Otra forma de comprobar el supuesto de estacionariedad con


autocorrelaciones de Yule-Walker para AR(p).

𝜌1 = ∅1 + ∅2 𝜌1 + ... + ∅𝑝 𝜌𝑝−1
𝜌2 = ∅1 𝜌1 + ∅2 + ... + ∅𝑝 𝜌𝑝−2
...
𝜌𝑝 = ∅1 𝜌p-1 + ∅2 𝜌𝑝−2 + ... + ∅𝑝

En las ecuaciones anteriores se realiza “p” primeras autocorrelaciones


con autorregresivos 1, 2,…, p, y las otras autocorrelaciones se obtienen:

19
𝜌𝑘 = ∅1 𝜌𝑘−1 + ∅2 𝜌𝑘−2 + ∅3 𝜌𝑘−3 + ⋯ + ∅𝑝 𝜌𝑘−𝑝 , 𝑘 ≥𝑝+1

La forma de escribir la acf con diferencia es:

(1-∅1 B-∅2 𝐵 2 -...-∅𝑝 𝐵 𝑝 )𝜌𝑘 = 0, 𝑘 = 𝑝 + 1, 𝑝 + 2, . . . . ..

El proceso autorregresivo general AR(p) es estacionario de choques


aleatorios con ponderaciones convergentes. En forma alternativa se
representa las ecuaciones: ∅(𝐵)𝑌̃𝑡 = 𝜀𝑡 y ̃
Y𝑡 = 𝜓(𝐵)𝜀𝑡 , con:

1
𝜓(𝐵) = ∅(𝐵) 𝑜 1 = ∅(𝐵)𝜓(𝐵),

Donde: ∅(𝐵) = (1-∅1 B-∅2 𝐵 2 -...-∅p-1 𝐵p-1 − ∅𝑝 𝐵 𝑝 )

Para que se cumpla, todos los coeficientes que aparecen multiplicando


a Bi deben ser cero, para toda i1, lo cual implica que:

𝜓1 = −∅1
𝜓2 = ∅1 𝜓1 − ∅2

𝜓p-1 = ∅1 𝜓p-2 + ∅2 𝜓p-3 + ⋯ − ∅p-1
𝜓𝑝 = ∅1 𝜓p-1 + ∅2 𝜓p-2 + ⋯ + ∅p-1 𝜓1 − ∅𝑝

En forma general: 𝜓𝑖 = ∅1 𝜓𝑖−1 + ∅2 𝜓𝑖−2 + ⋯ + ∅𝑖−1 𝜓1 −


∅𝑖 , 𝑖≥2

B. Modelos de Medias Móviles (MA)

Los modelos de MA (Moving Average) es representado por un


proceso estocástico {Yt}, cuyas observaciones son dependientes de la suma
finita ponderada de choques aleatorios independientes {t}, cuya ecuación:

𝑍̃𝑡 = (1 − 𝜃1 𝐵 − 𝜃2 𝐵 2 − 𝜃3 𝐵 3 − ⋯ − 𝜃𝑞 𝐵 𝑞 )𝜀𝑡 = 𝜃(𝐵)𝜀𝑡

Donde: {𝑍̃𝑡 } son las desviaciones de {Zt} y su nivel promedio  y θ1,


θ2,…., θq son parámetros de medias móviles (MA) relacionado con los
choques aleatorios de los periodos t-1, t-2,…,t-q, respectivamente.

20
C. Modelos mixtos de Autorregresivos y Promedios Móviles
ARMA(p,q)

El modelo ARMA, es un proceso que tiene en cuenta la parte


Autorregresiva y Media Móvil ARMA(p,q) que debe cumplir con la
estacionariedad para aplicar el modelo ARMA.

Una generalización de los modelos AR y MA descritos, consiste en


combinar ambas clases de modelos (mixto) para obtener los modelos
Autorregresivos y de Promedios Móviles (ARMA)(Hamilton, 2020).

En promedios móviles (MA), cada valor de la serie es influenciado


por los retardos de los errores del modelo. El retardo entre el error y valor
actual de la serie determina el orden del Moving Average: 𝑌𝑡 = 𝜀𝑡 − ∅1 𝜀𝑡−1 .

El proceso mixto ARMA(p,q), es representado mediante la ecuación:

∅(𝐵)𝑍̃𝑡 = 𝜃(𝐵)𝜀𝑡 ; ∅(𝐵)𝑋𝑡 = 𝜃(𝐵)𝜀𝑡 ; ∅(𝐵)𝑌𝑡 = 𝜃(𝐵)𝜀𝑡

Donde: (B) y θ(B) expresan polinomios de rezago de orden p y q.

𝜀𝑡 : ruido blanco, 𝑍̃𝑡 : desviaciones de la variable 𝑍𝑡 , con respecto a su


promedio.

𝑌𝑡 = ∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞 , o

2 𝑝 2 𝑞
(1
⏟ − ∅1 𝐵 − ∅2 𝐵 + ⋯ + ∅𝑝 𝐵 ) 𝑌𝑡 = (1
⏟ − 𝜃1 𝐵 − 𝜃2 𝐵 − ⋯ − 𝜃𝑞 𝐵 )𝜀𝑡
⇓ ⇓
𝑃𝑎𝑟𝑡𝑒 𝐴𝑢𝑡𝑜𝑟𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑣𝑎 𝑃𝑎𝑟𝑡𝑒 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚ó𝑣𝑖𝑙𝑒𝑠
𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑒𝑑𝑎𝑑 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑣𝑒𝑟𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑
𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑒𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑎 𝑑𝑒 𝑙𝑎 𝑎𝑐𝑓 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑎𝑢𝑠𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑒𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑎 𝑑𝑒 𝑎𝑐𝑓

Los modelos de orden (p=1, q=1) representan al proceso


autorregresivo y medias móviles que es más sencillo al modelo mixto ARMA,
y es de interés práctico para las representaciones adecuadas de fenómenos
reales. El modelo ARMA(1,1) se define como:

𝑌𝑡 = ∅1 𝑌𝑡−1 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 o también se expresa (1 − ∅𝐵)𝑌𝑡 = (1 −


𝜃𝐵)𝜀𝑡 o bien: (1 − ∅𝐵)𝑍̃𝑡 = (1 − θB)𝜀𝑡

21
Cuando la raíz 1 – x = 0, se ubica fuera del círculo unitario, la serie
es estacionario, y si la raíz 1 – θx = 0, el proceso es invertible.

La forma general del AR(p) y MA(q) de orden “p” y “q”, se representa


ARMA(p,q), cuya ecuación es:

𝑌𝑡 = ∅1 𝑌𝑡−1 + ∅2 𝑌𝑡−2 + ⋯ + ∅𝑝 𝑌𝑡−𝑝 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞

𝑌𝑡 − ∅1 𝑌𝑡−1 − ∅2 𝑌𝑡−2 − ⋯ − ∅𝑝 𝑌𝑡−𝑝 = 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞

(1 − ∅1 𝐵 − ∅2 𝐵 2 − ⋯ − ∅𝑝 𝐵𝑝 )𝑌𝑡 = (1 − 𝜃1 𝐵 − 𝜃2 𝐵 2 − ⋯ − 𝜃𝑞 𝐵 𝑞 )𝜀𝑡

∅𝑝 (𝐵)𝑌𝑡 = 𝜃𝑞 (𝐵)𝜀𝑡

O bien: ∅(𝐵)𝑋𝑡 = 𝜃(𝐵)𝜀𝑡

(B) y de θ(B) polinomios de orden “p” y “q” respectivamente.

𝑌𝑡 − ∅1 𝑌𝑡−1 − ∅2 𝑌𝑡−2 − ⋯ − ∅𝑝 𝑌𝑡−𝑝 = 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞

Cuando las raíces se expresa como (x) = 0 y θ(x) = 0, se encuentra


fuera del círculo unitario, el proceso es apropiado:

𝜃(𝐵) 𝜃(𝐵)
𝑌𝑡 = 𝜀𝑡 = 𝜓(𝐵)𝜀𝑡 𝑌 = 𝜋(𝐵)𝑋𝑡 = 𝜀𝑡
∅(𝐵) ∅(𝐵) 𝑡

(B) = θ(B)/(B) y (B)Yt= θ(B)/(B), son las ponderaciones que


surgen al igualar los coeficientes de las potencias de B en:

(1 − 𝜓1 𝐵 − 𝜓2 𝐵2 − ⋯ )(1 − ∅1 𝐵 − ∅2 𝐵2 − ⋯ − ∅𝑝 𝐵𝑝 ) = 1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞

(1 − 𝜋1 𝐵 − 𝜋2 𝐵2 − ⋯ )(1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞 ) = 1 − ∅1 𝐵 − ∅2 𝐵2 − ⋯ − ∅𝑝 𝐵𝑝

1.1.11 Modelos lineales no estacionarios

A. Modelos autorregresivo de promedio móvil integrado: ARIMA


(p,d,q)

Son modelos complejos para modelar series de tiempo; proporcionan


un mayor control de la tendencia y los componentes estacionales, que los

22
modelos de suavizamiento exponencial, que está representado por la parte
regular autorregresivo integrado y medias móviles (ARIMA: Autorregresive
integrated moving - average) es una clase especializada de técnicas de
filtración que ignoran por completo a las variables independientes en la
formulación de pronósticos (De Losso, 2012).

El modelo es usado para describir como una función lineal de datos


anteriores y errores debidos al azar, y utilizado para una serie estacionaria con
50 datos como mínimo.

B. Componentes del Modelo ARIMA. Está formado por tres


componentes:

𝐴𝑅
⏟ ⏟
𝐼 𝑀𝐴

⇓ ⇓ ⇓
𝐴𝑢𝑡𝑜𝑟𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑣𝑜 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑑𝑜 𝑀𝑒𝑑𝑖𝑎 𝑚ó𝑣𝑖𝑙
(𝐴𝑅) (𝐼) (𝑀𝐴)

El modelo, puede tener uno, una combinación de dos, o tres


componentes.

𝐴𝑅𝐼𝑀𝐴( ⏟
𝑝, ⏟,
𝑑 𝑞)

⇓ ⇓ ⇓
𝑂𝑟𝑑𝑒𝑛 𝑂𝑟𝑑𝑒𝑛 𝑂𝑟𝑑𝑒𝑛
𝐴𝑅 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑐𝑖ó𝑛 𝑀𝐴

C. Determinación de la Integración (I)

En caso de no lograrse la estacionariedad, se debe realizar una


segunda diferencia sobre la primera diferencia realizada ARIMA(p,2,q). Se
debe realizar primero la diferenciación y seguidamente se realizan las (acf) y
(pacf).

Según Perez (2008), los procesos no estacionarios más importantes


son los procesos integrados, que tienen la propiedad fundamental que al
diferenciarlos se obtienen procesos estacionarios, también se puede indicar
que existe una propiedad que diferencia a los procesos integrados de los
estacionarios que desaparece la dependencia con el tiempo.

Se tiene el modelo: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 + 𝛽3 𝑌𝑡−1 + 𝜀𝑡

23
La tendencia determinista ocurre si 𝛽1 ≠ 0, 𝛽2 ≠ 0, y 𝛽3 ≠ 0,
entonces la ecuación anterior, se convierte: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 + 𝜀𝑡 que se
convierte en un proceso estacionario para estimar la tendencia y al proceso se
quita la tendencia: 𝑌𝑡 − 𝛽1 − 𝛽2 𝑡 = 𝜀𝑡 , entonces el proceso 𝑌𝑡 es estacionario
al quitar la tendencia estimada, y se logra una serie estacionaria con
tendencia.

D. La caminata aleatoria

Si 𝛽1 = 0, 𝛽2 = 0, y 𝛽3 = 1, entonces la ecuación 𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 +
𝛽3 𝑌𝑡−1 + 𝜀𝑡 es de la forma 𝑌𝑡 − 𝑌𝑡−1 = 𝜀𝑡 , donde: 𝜀𝑡 : es un ruido blanco,
entonces el proceso presenta estacionario al realizar una diferenciación, se
logra que el proceso 𝑌𝑡 es estacionario.

Cuando se tiene una serie original 𝑌𝑡 , se denomina homogénea de


orden “d” que es expresado como ∆𝑑 𝑌𝑡 = 𝑊𝑡 ,

t = 1,2,..,T es estacionaria, y se admite que 𝑊𝑡 es sujeto a un proceso


ARMA(p,q), entonces: Φ(𝐵)𝑊𝑡 = Θ(𝐵)𝜀𝑡 ,

Donde: Φ(𝐵) = 1 − ∅1 𝐵 − ⋯ − ∅𝑝 𝐵 𝑝 , y Θ(𝐵) = 1 − 𝜃1 𝐵 − ⋯ −


𝜃𝑞 𝐵 𝑞 , entonces: Φ(𝐵)∆𝑑 𝑌𝑡 = Θ(𝐵)𝜀𝑡 , y la 𝑌𝑡 es un proceso ARIMA(p,d,q)
de autorregresivo integrado de promedio móvil. El ARIMA(1,1,1), se puede
expresar como:

(1 − ∅1 𝐵)(1 − 𝐵)𝑌𝑡 = (1 − 𝜃1 𝐵)𝜀𝑡

Los procesos integrados ARIMA (p,d,q) representan a los procesos no


estacionarios que se considera como modelo estocástico general que contiene a
los modelos restantes. Cuando p = d = 0 es un modelo ARIMA(0,0,q) o un
modelo MA(q), cuando q=d=0 es un modelo ARIMA(p,0,0) o un modelo AR(p);
y por último si d=0, entonces ARIMA(p,0,q) o ARMA(p,q).

1.1.12 Modelos ARIMA estacionales

Un modelo estacional puro se caracteriza porque existe una relación entre las
observaciones que distan entre sí “s” periodos o múltiplos de “s” que son
oscilaciones o ciclos periódicas, en la que el periodo es igual o inferior al año (Tsay,

24
2014). El periodo estacional es denotado con la letra latina “s” que se representa para
los datos trimestrales (s = 4), y se denota para los datos anuales (s=12).

Los modelos ARIMA(p,d,q)(P,D,Q) son expresados como procesos


multiplicativos con componente estacional con la estructura regular que es examinado
a las observaciones estacionales de funciones de autocorrelación con rezagos 4, 8, 12,
…,sucesivamente, para los datos trimestrales 12, 24, 36, …,sucesivamente para
observaciones mensuales, además la serie puede ser diferenciado en la parte estacional,
pero los valores estacionales de la acf no decaen rápidamente a cero.

El proceso integrado, se expresa como ARIMA (p,d,q)(P,D,Q), entonces:

𝐴𝑅𝑀𝐴(𝑃, 𝑄)𝑆

𝛷𝑃 (𝐿𝑆 )𝑋𝑡 = 𝛿 + 𝛩𝑄 (𝐿𝑆 )𝑎𝑡

𝛷𝑃 (𝐿𝑆 ) = 1 − 𝛷1 𝐿𝑠 − 𝛷2 𝐿2𝑠 − ⋯ − 𝛷𝑃 𝐿𝑃𝑠


𝛩𝑄 (𝐿𝑆 ) = 1−1 𝛩𝐿𝑠 − 𝛩2 𝐿2𝑠 − ⋯ − 𝛩𝑄 𝐿𝑄𝑠

𝐴𝑅𝐼𝑀𝐴(𝑃, 𝐷, 𝑄)𝑆

𝛷𝑃 (𝐿𝑆 )𝛥𝐷𝑠 𝑋𝑡 = 𝛿 + 𝛩𝑄 (𝐿𝑆 )𝑎𝑡

𝛥𝑠 ≡ (1 − 𝐿𝑆 )

𝛥𝑠 𝑋𝑡 = 𝑋𝑡 − 𝑋𝑡−𝑠

La serie de datos es estacional y no estacional denominado como la parte


regular de un proceso con ARIMA(p,d,q) que presentan dos partes e interactuan en
forma multiplicativa expresado como modelo ARIMA(p,d,q)(P,D,Q)s

𝛷𝑃 (𝐿𝑆 )∅𝑝 (𝐿)∆𝐷 𝑑 𝑠


𝑠 ∆ 𝑌𝑡 = 𝛿 + Θ𝑄 (𝐿 )𝜃𝑞 (𝐿)𝜀𝑡

Los modelos presentan los “efectos satélites”, tales como: 𝐴𝑅𝑀𝐴(0,1) ×


𝑆𝐴𝑅𝑀𝐴(0,1)

𝑧𝑡 = (1 − 𝛩1 𝐿𝑠 )(1 − 𝜃1 𝐿)𝜀𝑡

= (1 − 𝜃1 𝐿 − Θ1 𝐿𝑠 + 𝜃1 Θ1 𝐿𝑠+1 )𝜀𝑡

= 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − Θ1 𝜀𝑡−1 + 𝜃1 Θ1 𝜀𝑡−(𝑆+1)

25
El término θ1ϴ1t-(s+1) es la (acf) y (pacf) que son asociados a los rezagos
próximos y son múltiples de S; sin embargo, se tiene procesos adicionales de
MA(0,1) y SMA(0,1).

Una notación corta y general del modelo estacional está representado como:

𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞)(𝑃, 𝐷, 𝑄)𝑆 ó 𝑆𝐴𝑅𝐼𝑀𝐴(𝑝, 𝑑, 𝑞)(𝑃, 𝐷, 𝑄)

Donde: S: Es el número de periodos por estación.

Se tiene el modelo: ARIMA(1,1,1)(1,1,1)4, puede escribirse como:

𝑦𝑡 = (1 + ∅1 )𝑦𝑡−1 − ∅1 𝑦𝑡−2 + (1 + 𝛷1 )𝑦𝑡−4 − (1 + ∅1 + 𝛷1 + ∅1 𝛷1 )𝑦𝑡−6


−𝛷1 𝑦𝑡−8 + (𝛷1 + ∅1 𝛷1 )𝑦𝑡−9 − ∅1 𝛷1 𝑦𝑡−10 + 𝑒𝑡 − 𝜃1 𝑒𝑡−1 − 𝛩1 𝑒𝑡−4 + 𝜃1 𝛩1 𝑒𝑡−5

Donde los coeficientes: 1, Ф1, θ1, y 1 son estimados a partir de los datos, la
ecuación anterior puede ser usado para la predicción.

1.1.13 La metodología de Box-Jenkins

El enfoque de Box-Jenkins establece cuatro etapas: identificación,


estimación, validación y predicción. Identificar una serie temporal consiste en
inducir, a partir de los datos, utilizando la función de autocorrelación (acf) y la
función de autocorrelación parcial (pacf) muestrales, qué modelo o modelos de los
que aparecen en (Perez, 2008), se adaptarían mejor a las características de la serie,
identificar modelos que describan aceptablemente comportamientos de las series
financieras reales no suele ser una tarea simple. En la práctica, es frecuente que el
analista seleccione varios modelos, para decidir que los resultados de la estimación
de modelos se decantan en la elección.

A. Identificación

Se analiza primeramente la estacionariedad de la serie en media y


varianza, y la conversión de datos para la serie no estacionaria, también se
realiza las diferencias ordinarias y la transformación de Box-Cox adecuada.
Además, se examinan en forma gráfica o se realiza la prueba estadística para
afirmar que la serie es estacionaria. En caso de no cumplirse la

26
estacionariedad, se realiza la diferencia (D) de orden estacional. El problema
es decidir si el modelo es estacionario en el componente estacional en base a
unos pocos coeficientes de autocorrelación correspondientes a los retardos
múltiplos del período estacional (Perez, 2008).

B. Estimación

Los modelos ARIMA no estacionales deben tener consideraciones de


incorporación de parámetros estimados estacionales al proceso. El proceso
de estimación se realiza con componente estacional y no estacional. La
estimación del proceso es condicionada a autorregresivos estacionales que se
pierden D x s datos iniciales. La utilización de métodos de estimación no
condicionada requiere el cálculo hacia atrás de muchos términos que en los
procesos no estacionales (Asteriou & Hall, 2022).

C. Validación

Para la validación de modelos estacionales se aplican las técnicas


descritas anteriormente para la validación de modelos ARIMA no
estacionales. Específicamente, se debe examinar si después de ajustado el
modelo seleccionado, subsiste en los residuos algún componente de carácter
estacional. Cuando la FACE de los residuos presente valores significativos
en algún retardo múltiplo del período estacional será indicativo de que el
modelo seleccionado no explica completamente el componente estacional.
Una forma alternativa para detectar si aún subsisten periodicidades sin
explicar es mediante el periodograma acumulativo normalizado, según Box-
Jenkins.

D. La predicción

El proceso ARIMA es denominado como el modelo para la


predicción. En muchos casos las predicciones obtenidas por el método son
más confiables de modelos particularmente para predicciones de corto plazo,
un modelo definido se procede a realizare los pronósticos a futuro haciendo
uso del modelo obtenido en el procedimiento (Pérez López, 2012).

27
1.1.14 Redes neuronales

Según Raita et al. (2019) explican que la redes neuronales artificiales es un


modelo estadístico no lineal, denotado por:

𝑌 = 𝑓(𝑋) + 𝜀 = 𝑔 𝑠 [𝛽0𝑘 + 𝛽𝑘𝑇 𝜎(𝑤0𝑚 + 𝑤𝑚


𝑇
𝑋)] + 𝜀

Donde: 𝑋 ∈ ℜ𝑝 es un vector aleatorio o entradas; 𝑌 ∈ ℜ, es la variable


dependiente, llamada también salida; 𝑔 𝑠 = 𝑔° 𝑔° 𝑔° . . . 𝑔, composición de función g
por s-veces, aproximaciones no-lineales; 𝑔 𝑠 , 𝜎 funciones de activación; 𝛽, 𝑤
vectores de pesos o coeficiente, y 𝑠: es el número de capas ocultas.

La salida de la red neuronal (Figura 1) de una capa de entrada, una oculta y


una capa de salida se expresa mediante:

𝑓𝑘 (𝑋) = 𝑔[𝛽0𝑘 + 𝛽𝑘𝑇 𝜎(𝑤0𝑚 + 𝑤𝑚


𝑇
𝑋)] = 𝑔(𝑁𝑒𝑡𝑘 )

Figura 1
Red neuronal de una capa de entrada, una oculta y una salida

Nota. Martín del Brío & Sanz Molina (2007).

Los datos deben someterse al entrenamiento E = (𝑥𝑖 , 𝑦𝑖 ) / i=1,…N , se


propaga mediante las conexiones de la red, generando una Net de las M neuronas de
la capa oculta:

28
𝑝
𝑇
𝑁𝑒𝑡𝑚𝑖 = 𝑤𝑚 𝑥𝑖 + 𝑤0𝑚 = ∑ 𝑤𝑚𝑙 𝑥𝑖𝑙 + 𝑤0𝑚 , 𝑚 = 1, ⋯ 𝑀, 𝑖 = 1, … , 𝑁,
𝑙=1

𝑇
𝑤𝑚 = (𝑤𝑚1 , . . , 𝑤𝑚𝑙 , . , 𝑤𝑚𝑝 ),

La salida de neuronas de la capa oculta, se obtiene mediante:

𝑍𝑚𝑖 = 𝜎(𝑁𝑒𝑡𝑚𝑖 ) = 𝜎(∑𝑃𝑙=1 𝑤𝑚𝑙 𝑥𝑖𝑙 + 𝑤𝑜𝑚 ),

El proceso es recursivo, las salidas 𝑍𝑚𝑖 son neuronas de las capas ocultas que
se convierten en entradas de la capa de salida, entonces:

𝑁𝑒𝑡𝑘𝑖 = 𝛽0𝑘 + 𝛽𝑘𝑇 𝑍𝑖 = ∑𝑀


𝑚=1 𝛽𝑘𝑚 𝑍𝑚𝑖 + 𝛽0𝑘 , 𝛽𝑘 = (𝛽1𝑚 , . . . , 𝛽𝑘𝑚 , . . . , 𝛽𝑘𝑀 )

Finalmente, la salida final de la red para cada observación de este dado por:
𝑓𝑘 (𝑥𝑖 ) = 𝑔(𝑁𝑒𝑡𝑘𝑖 ), 𝑘 = 1,2, … , 𝑘

𝑓𝑘 (𝑥𝑖 ) = 𝑔(𝑁𝑒𝑡𝑘𝑖 ) = 𝑔(𝛽0𝑘 + 𝛽𝑘𝑇 𝑍) = 𝑔(𝛽0𝑘 + 𝛽𝑘𝑇 𝜎(𝑤0𝑚 + 𝑤𝑚


𝑇
𝑥))

La función de error o perdida de la salida es cualitativa, que está definida por


la entropía o deviance que es medido como la cantidad de información que posee en
el proceso de aprendizaje.

𝐾 𝐾

𝐿(𝐺𝑖𝑘 , 𝑓𝑘 (𝑥𝑖 )) = − ∑ 𝐼(𝐺𝑖𝑘 = 𝑘) 𝑙𝑜𝑔 𝑓𝑘 (𝑥𝑖 ) = − ∑ 𝐺𝑖𝑘 𝑙𝑜𝑔 𝑓𝑘 (𝑥𝑖 )


𝑘=1 𝑘=1

Para ajustar la red neuronal artificial, se debe minimizar la función de error:


𝜃 = arg 𝑀𝑖𝑛 𝑅(𝜃). Donde:

𝑅(𝜃) = ∑𝑁
𝑖=1 𝐿(𝑦𝑖𝑘 , 𝑓𝑘 (𝑥𝑖 )) y 𝜃 = (𝑤𝑚𝑙 , 𝑤0𝑚 /𝑚 = 1, . . . 𝑀; 𝛽𝑘𝑚 , 𝛽𝑘0 /𝑘 = 1, . . . , 𝐾)

El algoritmo de Backpropagation es un método orientado a la solución del


problema, considerando la salida de la red:

29
𝑓𝑘 (𝑋) = 𝑔(𝛽𝑜𝑘 + 𝛽𝑘𝑇 𝜎(𝑤𝑜𝑚 + 𝑤𝑚
𝑇
𝑋)) = 𝑔(𝑁𝑒𝑡𝑘 )

Asumiendo que la función de activación es exponencial definida por:

𝑇
𝜎(𝑤𝑜𝑚 + 𝑤𝑚 𝑋) = 𝜎(𝑁𝑒𝑡𝑚 ) = 1/(1 + 𝑒𝑥𝑝( − 𝑁𝑒𝑡𝑚 )),

Para la capa oculta se considera la función softmax expresado por:

𝑒 𝑁𝑒𝑡𝑘𝑖
𝑔(𝑁𝑒𝑡𝑘𝑖 ) = ∑𝐾 𝑁𝑒𝑡𝑘𝑖 , 𝑁𝑒𝑡𝑘 = 𝛽𝑜𝑘 + 𝛽𝑘𝑇 𝜎(𝑤𝑜𝑚 + 𝑤𝑚
𝑇
𝑋), donde:
𝑘=1 𝑒

k representa el número de clases.

Las salidas de la red 𝑓𝑘 (𝑋), k=1,2…,K, representa una distribución de


probabilidades que cumplen con:

0 ≤ 𝑓𝑘 (𝑋) ≤ 1 y ∑𝐾
𝑘=1 𝑓𝑘 (𝑋) = 1

Para estimar el error, debe compararse con la salida real G de la red 𝑓𝑘 (𝑋) =
𝑔(𝑁𝑒𝑡𝑘 ), por medio de la función de error: 𝐿(𝐺, 𝑓𝑘 (𝑋)) = − 𝑙𝑜𝑔 𝑃 (𝐺),

Donde:

𝑃(𝐺): es la función de probabilidad, dado por: 𝑃(𝐺) = ∏𝐾


𝑘=1(𝑓𝑘 (𝑋))
𝐺𝑘

𝐿(𝐺, 𝑓𝑘 (𝑋)) = − 𝑙𝑜𝑔 𝑃 (𝐺) = − 𝑙𝑜𝑔 ∏𝐾


𝑘=1(𝑓𝑘 (𝑋))
𝐺𝐾
=
− ∑𝐾 𝐾
𝑘=1 𝐺𝑘 . 𝑙𝑜𝑔( 𝑓𝑘 (𝑋)) 𝐿(𝐺, 𝑓𝑘 (𝑋)) = − ∑𝑘=1 𝐼(𝐺 = 𝑘) 𝑙𝑜𝑔 𝑓𝑘 (𝑋),

La finalidad es minimizar el error: 𝑅 = − ∑𝑁 𝐾


𝑖=1 ∑𝑘=1 𝐺𝑘𝑖 𝑙𝑜𝑔 𝑓𝑘 (𝑥𝑖 )

El aprendizaje de la red neuronal artificial, es observado con la generación de


los pesos.

La capa es utilizada por el método de gradiente descendiente:

𝑁
𝜕𝑅 𝜕𝑅𝑖
𝛥𝛽𝑘𝑚 = −𝛾 = −𝛾 ∑
𝜕𝛽𝑘𝑚 𝜕𝛽𝑘𝑚
𝑖=1

30
𝜕𝑅𝑖 𝜕𝑅𝑖 𝜕𝑁𝑒𝑡𝑘𝑖
=− .
𝜕𝛽𝑘𝑚 𝜕𝑁𝑒𝑡𝑘𝑖 𝜕𝛽𝑘𝑚

𝐾
𝜕𝑅𝑖 𝜕𝑅𝑖 𝜕𝑓𝑘 (𝑥𝑖 )
= −𝑍𝑚𝑖 ∑ .
𝜕𝛽𝑘𝑚 𝜕𝑓𝑘 (𝑥𝑖 ) 𝜕𝑁𝑒𝑡𝑘𝑖
𝑘=1

𝜕𝑅𝑖
= −(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 ))𝑍𝑚𝑖 = 𝛿𝑘𝑖 𝑍𝑚𝑖 ,
𝜕𝛽𝑘𝑚

Los pesos son utilizado para la actualización, mediante:

𝑁
(𝑟+1) (𝑟) 𝜕𝑅𝑖
𝛽𝑘𝑚 = 𝛽𝑘𝑚 −𝛾∑
𝜕𝛽𝑘𝑚
𝑖=1

𝑁
(𝑟+1) (𝑟)
𝛽𝑘𝑚 = 𝛽𝑘𝑚 + 𝛾 ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 ))𝑍𝑚𝑖
𝑖=1

Para la capa oculta, el proceso es similar

𝑁
𝜕𝑅 𝜕𝑅𝑖
𝛥𝑤𝑚𝑙 = −𝛾 = −𝛾 ∑
𝜕𝑤𝑚𝑙 𝜕𝑤𝑚𝑙
𝑖=1

𝜕𝑅𝑖 𝜕𝑅 𝜕𝑁𝑒𝑡
= −𝑥𝑖𝑙 ∑𝐾 𝑖
𝑘=1 𝜕𝑁𝑒𝑡 . 𝜕𝑁𝑒𝑡
𝑘𝑖
𝜕𝑤𝑚𝑙 𝑘𝑖 𝑚𝑖

𝐾
𝜕𝑅𝑖
= −𝑥𝑖𝑙 𝑍𝑚𝑖 (1 − 𝑍𝑚𝑖 ) ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 )) 𝛽𝑘𝑚 = 𝑠𝑚𝑙 𝑥𝑖𝑙
𝜕𝑤𝑚𝑙
𝑘=1

Los pesos de la capa oculta son actualizados iterativamente:

𝑁
(𝑟+1) (𝑟) 𝜕𝑅𝑖
𝑤𝑚𝑙 = 𝑤𝑚𝑙 −𝛾∑
𝜕𝑤𝑚𝑙
𝑖=1

𝑁 𝐾
(𝑟+1) 𝑟 (𝑟+1)
𝑤𝑚𝑙 = 𝑤𝑚𝑙 + 𝛾 ∑ ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 )) 𝛽𝑘𝑚 𝑍𝑚𝑖 (1 − 𝑍𝑚𝑖 ) 𝑥𝑖
𝑖=1 𝑘=1

31
1.2 Antecedentes

1.2.1 Internacionales

Durán (2015) manifiesta una relación entre agua y pobreza como un indicador
de desgaste, e inequidad en la sociedad urbana en Santiago de Chile, además el
consumo de agua sobresale y revela la vida de los pobres que consistió en una
tendencia para disminuir el consumo doméstico de agua, un proceso ligado a la
privatización del recurso esencial, lo que conllevó a su mercantilización en el ámbito
urbano.

Jiménez et al. (2017) estimaron la demanda de agua para uso residencial


urbano de la ciudad de Manizales, Colombia, usando un modelo estructural de
elección discreta para el consumo de demanda con modelos econométricos,
utilizando la base de datos del país sobre el consumo mensual de agua, el tamaño del
hogar, características de la vivienda, variables climáticas, precio marginal de
consumo e ingreso virtual para 490 hogares durante el período 1997-2013. El
modelo estructural de econometría recomiendan la maximización de agua de uso
residencial urbano, asimismo es representado como inelástica y es prioritario para
las políticas en la regulación del recurso hídrico en áreas urbanas de Colombia.

Schmidt et al. (2017) reportan que las facturas se calculan a partir de los
costos de la empresa de servicios públicos que pagan los usuarios la tarifa establecida
por los costos fijos y variables, la empresa garantiza el nivel de consumo de agua, las
tarifas del consumo es un medio para fijar el precio del agua.

Pérez et al. (2020) señalan que la cantidad de agua consumida en las labores
domésticas de un hogar, es la necesidad de tener información del consumo de agua
per cápita de una población para la planificación de la gestión integrada de los
recursos hídricos del agua de una región. Los factores climáticos, socioeconómicos
y culturales que influyeron en el consumo de agua de la ciudad de San Cristóbal,
Venezuela fueron determinados por encuesta aplicada a habitantes sobre hábitos de
consumo y uso semanal de las actividades del uso vital líquido. En las demás
actividades de uso habitual residencial, se estimula que el consumo per cápita es
307,6 l.hab-1.d-1,, se determinaron cuántos de los residentes poseen hábitos de
demanda de agua para la descarga.

32
Ristow et al. (2021) reportaron modelos para realizar pronósticos mensuales
de la demanda urbana de agua mediante modelos de series de tiempo, el ajuste y la
prueba por categoría de consumo de agua, utilizando el software libre R para la
ciudad de Joinville para el primer semestre de 2018, con resultados del modelo
ARIMA estacional para predecir el consumo de agua en cuatro de las cinco
categorías, con errores porcentuales absolutos medios que varían de 1,19 a 15,74%.

Zhang et al. (2021) investigaron problemas de disminución de fuerza laboral,


aumento de la fuerza laboral jubilada que se presentan en el entorno de mercado
complejo y cambiante, además la distribución irracional del personal, existen pocas
personas ocupadas en las horas y demasiadas personas en las horas ociosas, lo que
provoca un desperdicio de mano de obra, entonces se realiza el pronóstico con series
temporales el volumen de ventas en la industria minorista y datos de ingeniería para
pronosticar el volumen de ventas en la tienda en el futuro, también se añade el clima
y la temperatura para mejorar la precisión del modelo, usando la técnica XGBoost
como modelo de pronóstico con los datos del mundo real se verificaron un mejor
rendimiento del modelo propuesto en comparación con otros modelos de última
generación.

Alagarsamy et al. (2022) reportan que la mayor parte del agua que se utiliza
depende de la facturación a los usuarios por el consumo de una gran cantidad de la
factura que se entrega a los usuarios, y por la complejidad que se presentaron se ha
creado la automatización para calcular la factura del agua por uso. El usuario recibe
la notificación del consumo de agua diaria que se generó una factura para el usuario
y pagar la factura en línea.

Manaloto et al. (2022) realizaron la gestión de los recursos hídricos es una


operación diaria para el cálculo de consumos de agua y la recaudación de los pagos
de los consumidores de agua en las actividades de planificación, desarrollo,
distribución y gestión del uso óptimo de los recursos hídricos, y surgen dos
problemas en la gestión de los recursos hídricos de un sistema de facturación de agua
con inteligencia empresarial y análisis de datos, para lo cual se ha utilizado la
regresión lineal para pronosticar los patrones en el consumo de agua, recaudación de
ingresos y cobrables basados en tendencias de datos anteriores, además sugiere el
uso de la norma ISO-9126 como instrumento de evaluación.

33
Feng et al. (2022) desarrollaron modelos confiables a corto plazo para
pronosticar el número de lesiones por accidente de tráfico (RTI) en el noreste de
China, usando comparativos de los modelos (SARIMA), Long Short-Term Memory
(LSTM) y Facebook Prophet (Prophet) para pronosticar con series temporales el
número de pacientes hospitalizados con ITR. Los tres modelos fueron entrenados con
datos de 2015 a 2019, y su precisión de predicción se comparó con datos de 2020
para la prueba. El proceso SARIMA se determinó con las acf y pacf. Se utilizó LSTM
como función de activación, el cuadrado medio del error como función de pérdida y
el Adam para construir el modelo, mientras que el modelo Prophet, se basa en la
plataforma Python. El RMSE, MAE y MAPE se utilizaron como métricas de
evaluación para medir y comparar.

Kavya et al. (2023) manifiestan que la demanda del elemento vital refleja
crecimiento económico, en cambio la disponibilidad de agua se agota continuamente
por la demanda de agua, usaron modelos de aprendizaje automático y aprendizaje
profundo para pronosticar el consumo de agua durante el período de 2020 a 2021
para la ciudad de Hubli en Karnataka las series temporales univariados y
multivariados con lecturas de medidores de flujo a intervalos de 10 minutos es más
adecuado, utilizaron los modelos de series temporales univariados para pronosticar
la demanda de agua; sin embargo, los modelos de Deep learning fueron superiores a
los modelos de aprendizaje automático, y el modelo LSTM presentó el mejor
rendimiento de pronóstico en los dos escenarios con un error absoluto medio de 0,11
m3/h para el modelo univariado y 2,96 m3/h para el modelo multivariado, por lo
tanto, el mejor modelo predictivo para cualquier región y garantizar la gestión
sostenible del consumo de agua.

Según Singh et al. (2023) reportan que los modelos de pronóstico de series
temporales con variabilidad estacional son usados para sistemas automáticos de
control en tiempo real, el trabajo se enfoca en el análisis de rendimiento de varios
métodos de aprendizaje automático (SARIMA, Holt-Winters Exponential
Smoothing, ETS, Facebook Prophet, XGBoost y Long Short-Term Memory), cuyos
algoritmos son implementados con Python, el trabajo radica en utilizar conjuntos
limitados de datos históricos para obtener pronósticos con una precisión razonable.
Los algoritmos permitieron alcanzar una precisión de R-cuadrado de más de 0,95,

34
con los que se acorta el tiempo, y se puede utilizar para ejecutar el algoritmo en
tiempo real.

Kontopoulou et al. (2023) determinaron los modelos ARIMA y sus variantes;


sin embargo, los recientes avances en el desarrollo y la implementación eficiente de
modelos y técnicas de inteligencia artificial, la visión es dinámico y cambiante con
los enfoques de aprendizaje automático y profundo, realizaron una revisión de la
literatura científica para comparar el algoritmos ARIMA y aprendizaje automático
aplicados a problemas de pronóstico de series temporales, asimismo la combinación
de ambos modelos estadísticos-IA con una amplia variedad de aplicaciones a datos
(finanzas, predicción de salud, clima, servicios públicos y tráfico de red).

1.2.2 Nacionales

Ayala Bizarro et al. (2019) realizaron el pronóstico del sistema de suministro


de agua para la ciudad de Huancavelica, cuya población fue 5.0×104 habitantes y
comprende 1.068×104 que presta servicios de agua y alcantarillado. Los análisis
retrospectivos del consumo hídrico (periodo 2004-2018) revelaron que la categoría
de uso doméstico presentó el volumen total consumido más elevado con una media
de 1’152,123 m3. Para la modelización predictiva del consumo total y doméstico, y
considerando el incremento demográfico anual, se realizó las primeras diferencias de
la serie ARIMA. Se identificaron ARIMA (0,1,1)(2,0,0)12 para el consumo de agua y
ARIMA(0,1,2)(0,0,2)12 para el consumo doméstico. Las proyecciones derivadas de
los modelos sugieren la dotación promedio real para la ciudad de Huancavelica de
113,01 l/hab/d es inferior a 180 l/hab/d establecido por la Norma OS.100 y RNE para
climas fríos. La discrepancia observada implica una potencial reducción en los costos
asociados para las estructuras hidráulicas y obras de saneamiento y agua potable en
la región.

Alburqueque et al. (2021) reportan que un modelo de gestión sostenible del


agua para el desarrollo de la región Piura, el trabajo fue hipotético-deductivo de tipo
correlacional transversal, con una muestra de 220 familias para la obtención de
información sobre el consumo de agua, y una muestra de 36 profesionales en
ejercicio de la administración pública, los instrumentos fueron complementados con
fichas bibliográficas y Chi-cuadrada (𝜒𝑐2 ), con gl=32) con nivel de significación de
(α=0,05) para realizar el contraste de hipótesis planteadas, cuyos resultados fueron

35
contrastados y aceptado la hipótesis alterna para la gestión y el estudio de agua para
la contribución al desarrollo sostenible.

Limache Sandoval (2021) realizó la predicción del consumo de agua en la


ciudad de Tacna, utilizando series de tiempo que consideró patrones inherentes y
variables endógenas. El conjunto de datos analizado comprendió N=383
observaciones al periodo 2006-2018, con una muestra de n=139 observaciones desde
enero de 2006 hasta julio de 2017. Las variables económicas asociadas a los usuarios
con conexión al servicio público de agua, siendo el consumo mensual la variable
dependiente de interés. La metodología para la modelización predictiva se basó en el
enfoque de Box-Jenkins de ARIMA(01,1,1)(0,1,1)12 se realizó el pronóstico de
consumo de agua para la poblacional de Tacna.

Alexis et al. (2022) utilizaron la técnica de árbol de decisión para predecir la


potabilidad del agua, y evaluar el rendimiento de la clasificación del árbol de decisión
de dataset de Kaggle con 3276 muestras de agua divididas por la variable de
potabilidad, usando las librerías Pandas y Scikit Learn, con lo que se logró un modelo
de árbol de decisión que fue evaluado con métricas de precisión, exactitud,
exhaustividad y puntuación F1 de 0.77, 0.80, 0.85 y 0.81 respectivamente.

García-Soto et al. (2024) señalan que las predicciones son muy importantes
en los diferentes campos de aplicación: economía, medicina, biología, ciencias
ambientales o meteorología, entre otras. Las técnicas de predicción para la gestión
del agua pueden emplearse desde la planificación que respondan a la respuesta a
largo plazo. El trabajo fue diseñado a través de red neuronal profunda para realizar
el pronóstico del consumo de agua. Los resultados responden a la serie temporal de
consumo de agua durante un año y medio medido con frecuencia de 10 min en la
ciudad de Murcia (España). Los resultados con dos modelos de persistencia como
métodos naive, modelo de aprendizaje profundo propuesto los resultados más
precisos.

1.2.3 Locales

Laura Castillo (2015) realizó la caracterización de consumo volumétrico de


agua, estratificados por la actividad económica durante 2008 y 2012.
Adicionalmente, la investigación evaluó el impacto económico derivado del

36
subregistro en una población de 13,834 usuarios provistos de medidores para los
servicios de agua por EMSA Puno. Los resultados revelaron una heterogeneidad y
diferencia en los niveles de consumo hídrico entre las diversas actividades
económicas analizadas. Los usuarios hacen mal uso del agua que representa la
pérdida económica producto del subregistro de los micromedidores en la EPS EMSA
Puno que asciende a S/.329,123.06 anuales del periodo que abarca 58 meses (Enero
2008 – Octubre 2012) presentando perjuicios económicos a la EPS por el subregistro
de medidores que asciende a S/. 1’590,761.47 nuevos soles.

Huaquisto Cáceres & Chambilla Flores (2019) investigaron la influencia de


la renta económica y la densidad habitacional (número de habitantes por vivienda)
sobre el consumo hídrico en Salcedo-Puno para contrastar los valores obtenidos con
las recomendaciones de OMS, también cuantificaron la variabilidad diurna y el
horario de consumo de agua con una muestra de 1246 viviendas y se realizó un
seguimiento intensivo en 39 de ellas para registrar las fluctuaciones del consumo. El
consumo de agua y la variación fueron obtenidos por EMSA Puno mediante
observación directa. Los resultados por consumo promedio de agua de 67 l/hab/d,
que es influenciado por ingresos económicos, el número de hogares por vivienda y
la estacionalidad del meses y años. La constatación de valores de consumo es inferior
a 100 l/hab/d establecido por la OMS que se relacionaron con los factores de ingreso
económico y densidad habitacional. Además, registraron consumos mayores a
72.83l/hab/d para viviendas con 5 habitantes, mientras que el consumo mínimo
promedio fue de 50.55l/hab/d en hogares con 12 residentes.

Soncco Silva (2019) señala que la disponibilidad a pagar los hogares que
fueron instalados en la periferia de la ciudad de Juliaca que carecen del servicio de
agua y saneamiento, en efecto, se utilizó la metodología de valoración indirecta de
función de producción de salud para cambios no marginales de la calidad ambiental
con variable dependiente a conglomerados de los efectos a la salud de los hogares,
se usó 353 encuestas a hogares, cuyos resultados fueron la disponibilidad a pagar de
los hogares para evitar el riesgo de enfermarse es de S/ 19.25 soles mensuales, en
cambio, el valor económico total agregado es S/ 3,617,974.21 soles como beneficio
económico para un mejoramiento de la calidad de agua para consumo humano.

37
CAPÍTULO II

2 PLANTEAMIENTO DEL PROBLEMA

2.1 Identificación del problema

La aplicación de modelos de series de tiempo y Machine Learning ofrece una gran


potencial para abordar problemas de diferentes disciplinas o áreas del conocimiento para
generar modelos con una aproximación de mayor precisión en los parámetros y en el
entrenamiento (training) y prueba (test) con datos históricos para la estimación de redes
neuronales artificiales, Facebook Prophet y Random Forest, cuya evaluación se realizó a
través de las métricas de precisión (MSE, RMSE, MAPE), aplicados a problemas del costo
del consumo de agua doméstico y comercial para ayudar en la toma de decisiones con
indicadores reales para las instituciones públicas y privadas para que pueden crear sistemas
de gestión del agua más eficientes, sostenibles y equitativos a nivel de la Región y del país.

El costo de consumo de agua doméstico y comercial es un problema que no es


solucionado para los hogares de la zona sur y norte de Puno, según un estudio realizado en
Puno, el consumo de agua está sujeto al ingreso económico y habitantes por vivienda,
además, a la frecuencia de variación que presente en forma diaria y en diferentes horarios en
el consumo de agua. Por otra parte el costo de consumo de agua comercial y doméstico
presenta variabilidad según el tipo de usuario. Según MEF, la demanda doméstica de agua
obedece a una fórmula que incluye factores como el ingreso familiar o per cápita, existencia
de un sistema de alcantarillado.

El consumo de agua comercial y doméstico estuvieron medidos por metro cúbico de


agua consumida o contaminada. El consumo se mide en metros cúbicos (m3) son usados con
sistemas de medición de caudalímetros de magneto-inductivos o instrumentos de medidores,
en caso de presentarse que no es posible la medición de consumo de agua, entonces se puede
realizar la estimación con base en consumos promedios anteriores o aforos individuales.

2.2 Enunciados del problema

2.2.1 Problema general

• ¿Cuál es el modelo univariante con Machine Learning que se ajusta mejor a la


serie histórica de costo de consumo de agua doméstico y comercial de la región
de Puno, periodo 2015 – 2020?

38
2.2.2 Problemas específicos

• ¿Cuál es el modelo de serie tiempo y Machine Learning para describir el mejor


comportamiento en el costo de consumo de agua doméstico y comercial,
periodo 2015 – 2020?
• ¿El modelo identificado permite realizar los pronósticos de serie de tiempo con
Machine Learning para el costo de consumo de agua doméstico y comercial de
la Región de Puno, periodo 2015 – 2020?

2.3 Justificación

La predicción de series de tiempo tiene numerosas aplicaciones en el mundo real, por


lo que se menciona la predicción de ventas, energía, tráfico, clima, bolsa de valores, bitcoin
y otros con modelos de Machine Learning de redes neuronales artificiales, Facebook
prophet, y Random Forest que son evaluados con las métricas de precisión para realizar los
pronósticos en el futuro para el costo de consumo de agua doméstico y comercial que es un
tema muy importante que afecta a los hogares, centros comerciales, y empresas son afectados
por ingreso económico y habitantes por vivienda que son comparados con los valores
recomendados por la OMS, también se determina por el consumo de agua diaria y
racionamiento en diferentes horas.

El uso de agua en los hogares está constituido por los diferentes actividades de
higiene personal, preparación de alimentos, lavado de ropa, utensilios de cocina y riego de
jardines. Por otro lado, el costo del agua comercial y doméstico varía según la clasificación
del usuario. La demanda de agua doméstica obedece a una fórmula que incluye el ingreso
familiar o per cápita, existencia de un sistema de alcantarillado y otros otros. La técnica de
Machine Learning, se usa para realizar el pronóstico para determinar la demanda de la
población, por tal razón es importante realizar la predicción del costo de facturación en el
consumo de agua y tomar decisiones adecuadas.

2.4 Objetivos

2.4.1 Objetivo general

• Determinar el modelo univariante con Machine Learning para ajustar la serie


histórica del costo de consumo de agua doméstico y comercial de la región de
Puno, periodo 2015 - 2020.

39
2.4.2 Objetivos específicos

• Determinar el modelo de serie de tiempo con Machine Learning para describir


el comportamiento del costo de consumo de agua doméstico y comercial,
periodo 2015 - 2020.
• Realizar pronósticos del modelo de serie de tiempo con Machine Learning para
el costo de consumo de agua doméstico y comercial, periodo 2015 - 2020.

2.5 Hipótesis

2.5.1 Hipótesis general

• El modelo univariante con Machine Learning, que mejor se ajusta a la serie


histórica del costo de consumo de agua doméstico y comercial del modelo
multiplicativo estacional para la región de Puno, periodo 2015 - 2020.

2.5.2 Hipótesis específicas

• El modelo adecuado de metodología de Box-Jenkins y Machine Learning, se


ajusta mejor para describir el comportamiento del costo de consumo de agua
doméstico y comercial, periodo 2015 - 2020.
• Los pronósticos del modelo de serie de tiempo con Machine Learning para el
consumo de agua doméstico y comercial de la Región de Puno, es adecuado.

40
CAPÍTULO III

3MATERIALES Y MÉTODOS

3.1 Lugar de estudio

El trabajo se ejecutó en la ciudad de Puno, en el ámbito de servicio de la EPS EMSA-


Puno, ubicado a 3819 msnm de la ciudad y región de Puno que presentaron variaciones de
temperatura y clima que es propia del altiplano peruano, con latitud 15°50'31.9'' S y longitud
70°1.194' O.

Figura 2
Ubicación de la Empresa de Propiedad Social EMSA-Puno

Nota. Área de estudio https://www.google.com/maps/@-15.591656,-


70.259861,8.75z?entry=ttu&g_ep=EgoyMDI0MTAxNi4wIKXMDSoASAFQAw%3D%3D

3.2 Población

La población considerada para el trabajo es el total de conexiones en el domicilio de


la ciudad de Puno que realizan en forma mensual los pagos por consumo de agua doméstico
y comercial desde el registro de datos hasta diciembre de 2020.

3.3 Muestra

Para el desarrollo del trabajo, se ha considerado a toda la información a juicio del


investigador de los datos temporales longitudinales durante el periodo de 2015 a 2020, ya
que no se requiere de una muestra probabilística, son datos registrados de la EPS EMSA-

41
Puno y corresponde a datos retrospectiva, por tal razón se usó la técnica de muestreo no
probabilístico (Otzen & Manterola, 2017)

3.4 Método de investigación

La investigación corresponde al diseño de investigación no experimental de tipo


analítica, retrospectiva, longitudinal y cuantitativa, por lo que no se consideró técnicas de
muestreo al realizar el trabajo con el total de la población (Gonzalez & Draghi, 2021).

3.5 Descripción detallada de métodos por objetivos específicos

3.5.1 Diseño de investigación

El trabajo fue enmarcado en el contexto no experimental de nivel longitudinal


para el periodo: 2015-2020, cuyos elementos de análisis se encuentran registrados y
disponibles de la población en referencia, además el investigador no puede manipular
las variables independientes y dependientes, porque la información corresponde a
series históricas almacenados, y a partir del cual se realiza la producción de trabajos
de investigación para generar nuevos conocimientos.

3.5.2 Tipo de investigación

Se clasifica a la investigación aplicada con información a juicio del


investigador de muestreo no probabilístico.

3.5.3 Técnicas de recopilación de datos, instrumentos y análisis.

A. Técnicas

Se realizó con registros mensuales del costo de consumo de agua


doméstico y comercial almacenados como una lista de datos, los cuales
fueron extraídos de un archivo de datos de Excel de la EPS EMSA-Puno,
cuya técnica es documental con la finalidad de controlar a los usuarios el pago
mensual y obtener reportes para construir la conexión entre las variables.

B. Instrumentos

La herramienta empleada para recopilar la información fue Registro


total de facturación del costo mensual de agua doméstico y comercial de la
Región de Puno.

42
3.5.4 Variables de estudio.

• Variable independiente: Tiempo expresado en periodo mensual de


2015-2020
• Variable dependiente: Costo (S/) mensual del consumo de agua
doméstico y comercial.

3.5.5 Metodología de Box-Jenkins

Según Perez (2008) establece la metodología de Box-Jenkins en cuatro partes


bien definidos.

A. Identificación del modelo

Estacionariedad del proceso en varianza: identificación de . Una de


las transformaciones utilizadas para obtener una serie estacionaria en
varianza es la transformación Box-Cox que consiste en encontrar un número
(𝜆)
, tal que la serie 𝑌𝑡 tenga varianza constante, siendo:

𝑌𝑡𝜆 − 1
={ 𝜆 , 𝜆≠0
(𝜆)
𝑌𝑡
𝐿𝑛𝑌𝑡 , 𝜆 = 0

Asignando diferentes valores a , se obtiene diferentes


transformaciones en la serie de tiempo dada. En especial, los dos valores de
 que más frecuentemente se usan es =0 y =1; y en particular se usa =0
en series financieras, lo que se transforma en un proceso estacionario en
varianza aplicando logaritmos neperianos a la misma.

Estacionariedad del proceso en media es la identificación de la


diferenciación (d). El objetivo principal es identificar, cuál es el número de
diferencias adecuado para convertir una serie a un proceso estacionario con
media igual a cero. Se analizan tres elementos para visualizar, si es
estacionaria o no en media:

43
• Se debe realizar el gráfico para visualizar la serie dada para analizar la
tendencia, estacionalidad, ciclo e irregular comportamiento de la serie
que va oscilando sin alejarse de las observaciones, entonces la serie es
estacionaria en media, caso contrario realizar la diferenciación de la
serie hasta convertirla en proceso estacionario.
• Realizar el gráfico visual de función de autocorrelación. Si los valores
de autocorrelación son muy cercanos a uno a medida que aumenta t,
entonces el proceso no es estacionario, en cambio cuando los valores
de autocorrelación decae en forma rápida a cero, entonces el proceso es
estacionario.
• Realizar la prueba de raíz unitaria que es un complemento formal a la
gráfica de la serie, varianza muestral y autocorrelación muestral de la
serie para determinar el orden de diferencias para volver estacionaria
en nivel una serie. Entonces se requieren d ≥0 para la diferenciación
hasta convertir en proceso estacionario en media, lo que se denomina
la serie integrada de orden d y se denota 𝑌𝑡 ~𝐼(𝑑). De hecho, cuando d
> 0, entonces el proceso inicial es no estacionario.

B. Estimación

Realizado la identificación de posibles los procesos generadores de la


serie en estudio; se estiman los parámetros de los modelos. Se tiene el modelo
ARMA para el proceso 𝑍𝑡 = (1 − 𝐵)𝑑 𝑌𝑡 ,

𝑍𝑡 = ∅1 𝑍𝑡−1 + ∅2 𝑍𝑡−2 + ⋯ + ∅𝑝 𝑍𝑡−𝑝 + 𝛿 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 − ⋯ − 𝜃𝑞 𝜀𝑡−𝑞

El objetivo de la estimación es realizar los mejores estimadores de los


parámetros del modelo.

𝛽 ′ = (𝛿, ∅1 , ∅2 , ⋯ , ∅𝑝 , 𝜃1 , 𝜃2 , ⋯ , 𝜃𝑞 ) 𝑦 𝜎𝜀2

Existe dos métodos de estimación de parámetros del modelo que son


utilizados con mayor frecuencia son los mínimos cuadrados y máxima
verosimilitud, siendo el último recomendable, ya que cumple las propiedades
asintóticas óptimas. Para estimar por el método de máxima verosimilitud

44
deben cumplirse los siguientes supuestos: i) 𝜀𝑡 ~𝑁(0, 𝜎 2 ), ii) 𝑍𝑡 es un proceso
estacionario, iii) 𝑍𝑡 es un proceso invertible.

Antes de iniciar a describir el proceso de estimación, es importante


mencionar que las series financieras y económicas en su mayoría son no
estacionarias, para lo cual se debe realizar la transformación de las series en
estacionarias, haciendo la diferenciación (d), entonces se perderán d
observaciones. Por lo tanto, si el número de observaciones iniciales es N, una
vez efectuada las d diferenciaciones para convertir la serie en estacionaria, se
tendrán T = N – d observaciones disponibles.

C. Validación de modelo y criterios para seleccionar el mejor modelo

C.1 Validación del modelo

La validación se realiza con resultados que se somete a las pruebas


estadísticas o comprobación del diagnóstico antes de realizar el pronóstico.
El modelo ajustado es aceptable, cuando se cumplen con los requisitos de
forma implícita o explícitamente que son incorporados a las especificaciones
de hipótesis relativa a: los coeficientes y el término de error o innovación.

C.2 Prueba para los coeficientes

Todos los ∅𝑖 𝑦 𝜃𝑖 estimados en el modelo deben ser significativos.


Para probar, se realiza el siguiente contraste de hipótesis:

𝐻𝑜 : ∅1 = 0 𝑜 𝜃1 = 0 𝑣𝑠 𝐻𝑎 : ∅1 ≠ 0 𝑜 𝜃1 ≠ 0

Rechazar 𝐻𝑜 , indica que la variable 𝑌𝑡−𝑖 o 𝜀𝑡−𝑖 es significativo en el


modelo

No rechazar 𝐻𝑜 , indica que la variable 𝑌𝑡−𝑖 o 𝜀𝑡−𝑖 no es significativo


en el modelo y se puede eliminar del modelo.

Si un parámetro estimado no es significativo, se elimina y se estima


de nuevo el modelo. Si dos o más parámetros no son significativos, se debe
eliminar el que tenga mayor probabilidad y se estima de nuevo el modelo,
hasta lograr significativo en los parámetros.

45
C.3 Estacionariedad e invertibilidad

Los coeficientes del modelo ARMA(p,q) deben cumplir la


estacionariedad e invertibilidad que es sometido a la comprobación de las
condiciones p ≤ 2 y q ≤ 2, En los modelos de orden superior, se procede a
̂ (𝐵) = 0 y Θ
hallar las raíces de los polinomios de rezagos Φ ̂ (𝐵) = 0, si
alguna de esas raíces en valor absoluto no es mayor que uno, el modelo se
̂ (𝐵) = 0 son próximas a la unidad, es posible
rechaza. Cuando las raíces de Φ
que la serie original sea subdiferenciada, se debe precisar alguna
diferenciación adicional.

C.4 Análisis de los residuos

El análisis de error de un modelo, está sujeto a un proceso


normalmente distribuido en forma aleatorio con promedio cero, varianza
constante y covarianzas nulas, además no debe presentar autocorrelación y
correlación serial con la serie rezagada. Los errores (𝜀𝑖 ) no son observables,
entonces las pruebas son basados en los residuos estimados (𝜀̂𝑖 ). La forma de
verificar a los errores que presentan ruido blanco es con la prueba estadística
de Q de Ljung-Box como sigue:

𝑚
𝑟𝑘2
𝑄 = 𝑇(𝑇 + 2) ∑
𝑇−𝑘
𝑘=1

Donde: m representa el número de coeficientes de autocorrelación, k


número de rezagos y,

∑𝑇𝑡=𝑘+1(𝑌𝑡 − 𝑌̅)(𝑌𝑡−𝑘 − 𝑌̅)


𝑟𝑘 =
∑𝑇𝑡=1(𝑌𝑡 − 𝑌̅)2

Expresa el coeficiente de autocorrelación de orden k de los residuos.

La prueba estadística Q, se distribuye en forma asintótica con


2
𝜒𝑚−𝑝−𝑞 , para el contraste de hipótesis de Q expresado: 𝐻0 : 𝜌1 = 𝜌2 = ⋯ =
𝜌𝑚 = 0, no es rechazado (Ho), significa que no existe autocorrelación en los
errores residuos del orden m. Se selecciona a m en forma arbitraria, a mayores

46
valores de m la prueba se extiende a rezagos mayores; sin embargo, la
precisión en la estimación de 𝑟𝑘 disminuye.

C.5 Criterios para seleccionar el mejor modelo

El criterio Akaike (AIC) y Bayesiano Schwarz (SBC)

El AIC, está definido como: 𝐴𝐼𝐶 = 𝑇 ln 𝜎̂ 2 + 2𝑝

El SBC, está definido como: 𝑆𝐵𝐶 = 𝑇 ln 𝜎̂ 2 + 𝑝 ln 𝑇

Donde T: número de observaciones disponibles, y p: número de


parámetros estimados. Se elige el modelo estimado que tenga menor AIC y
SBC.

Elegir el modelo más parsimonioso. Si dos o más modelos estimados


satisfacen las condiciones expuestas en la parte a), se elige el proceso más
parsimonioso, significa seleccionar el modelo con menos parámetros
estimados.

D. Pronóstico

Estimado el modelo con diferentes comprobaciones para la validación


del modelo, se puede realizar pronósticos con lo que se concluye con el
análisis de series de tiempo univariante. El objetivo consiste en pronosticar
valores futuros de la serie temporal Zt observaciones al menor error posible,
concretamente, si se tiene la información disponible hasta el periodo T,
cuando se quiere pronosticar para el periodo T+B, B>0, En forma resumida
se presenta (Figura 3), la metodología de Box-Jenkins para el modelamiento
de serie tiempo (Uriel, 1985).

47
Figura 3
Metodología y fases de elaboración de un modelo ARIMA

DATOS DE LA SERIE

IDENTIFICACIÓN

Cálculo de Estadísticos de la Transformación de la


Serie Serie

¿Es la serie No
Estacionaria? Selección de d y λ

Si
Selección de p, q y decisión
sobre la inclusión de µ

ESTIMACIÓN
- cálculo de estimadores
- cálculo de estadísticos de los
estimadores y residuos.

VALIDACIÓN
No
¿Es el
modelo
adecuad
o?
Si
PREDICCIÓN
Selección de los periodos de predicción

- Cálculo de predicciones
- Cálculo de estadísticos para la evaluación de la
capacidad predictiva.

Usar el modelo No
¿Predice
para predicción
correctamente?

Si
FIN

Tareas realizadas por el analista Tareas realizadas por el ordenador

Nota. Uriel (1985). Análisis de series temporales: Modelos ARIMA

3.6 Modelo de Redes Neuronales Artificiales

El software estadístico R y Python son distribuidos en el mercado en forma libre y


gratuito en apoyo a los investigadores que contienen bibliotecas (librerías) que facilitan el
procesamiento de resultados para series de tiempo y Redes Neuronales, que fue usado como

48
el procedimiento Succetti et al. (2020) de tipo percepción multicapa con desempeño
adecuado, está basado en una secuencia de procedimientos de 8 etapas:

E-1: Elección de variables: La elección de las variables que influyen


significativamente en el pronóstico del costo de consumo de agua doméstico y
comercial de la Región de Puno.
E-2: Selección de variables corresponde a la obtención de los datos que son las
variables seleccionadas en E-1, se consideró la serie de datos de costo de
consumo de agua doméstico y comercial durante los periodos de 2015-2020.
E-3: Pre-procesamiento, consiste en analizar y realizar la transformación de las
variables de entrada con algoritmo de redes neuronales artificiales para
suavizamiento o eliminación de datos outliers.
E-4: Conjunto de entrenamiento, validación que consiste al total del conjunto de datos
se divide en dos partes: entrenamiento y validación. El conjunto de validación
(test) varia del 10% - 30% del conjunto de entrenamiento de datos para evaluar
la capacidad de generalización de una red neuronal artificial.
E-5: Elección de la configuración, se considera a la red neuronal artificial con los
parámetros de:
• Número de capas ocultas de la red para generalizar patrones de
comportamiento de los datos usados de una o dos capas ocultas.
• Número de neuronas ocultas representa al número de neuronas en las capas,
para lo cual no existen definidos las reglas generales para establecer el
número de neuronas en las capas.
• Número de neuronas de salida, consiste en una sola neurona de salida que
es un número real.
E-6: La evaluación corresponde al rendimiento de la red artificial que se ha entrenado
y verificar los resultados que se han calculado con el valor pronosticado y valor
real, haciendo uso de las métricas de: RMSE, MAE y MAPE y otras métricas.
E-7: La preparación de la red neuronal artificial busca encontrar un conjunto de pesos
sinápticos para minimizar las fallas en forma iterativa para mejorar al modelo
con resultados confiables en función de las entradas.
E-8: La activación de la red neuronal para realizar los pronósticos debe ser adecuado.

49
3.6.1 Arquitectura de una Red Neuronal Artificial (RNA)

Es la organización o configuración de conexiones dentro de una red neuronal


artificial, los nodos o unidades que se vinculan con sinapsis, y para el funcionamiento
se debe tener la disposición de las conexiones sinápticas.

3.6.2 Propagación de una Red Neuronal Artificial (RNA)

La conexión de los datos de una capa y la propagación en dos modalidades:


la primera propagación hacia adelante en la cual los datos fluyen de la entrada de
capa oculta a la capa de salida. El proceso termina con la predicción de la entrada
que puede ser precisa o imprecisa. La segunda propagación hacia atrás consiste en la
predicción de la capa de salida que retrocede desde el punto a la capa de entrada que
genera error. La información se usa para emular los pesos y errores de cada neurona,
otorgando mayor ajuste a la tasa de error más alta. La constante de reconfiguración
de los pesos para minimizar los errores y obtener una mayor precisión.

Figura 4
Arquitectura de una capa de red neuronal artificial

Nota. Succetti et al. (2020) (http://ieeexplore.ieee.org/document/9265261)

Una red neuronal artificial, se compone de neuronas dispuestas en capas que


se dividen en tres tipos: una capa de entrada, salida y una capa oculta (Figura 4).

50
3.7 Modelo de predicción de Facebook Prophet

Agyemang et al. (2023), explican que el modelo de regresión aditiva FB Prophet, fue
desarrollado por Facebook que tiene una gran demanda para fines de pronóstico debido a
sus tres características principales: tendencia, estacionalidad y festividad. El modelo se
expresa: 𝑦(𝑡) = 𝛼 (𝑡) + 𝛽 (𝑡) + 𝜂 (𝑡) + 𝜀 (𝑡)

Donde: 𝑦(𝑡) es el pronóstico; los parámetros del modelo 𝛼 (𝑡), 𝛽 (𝑡) y 𝜂 (𝑡) son
respectivamente los efectos de tendencia (cambios no periódicos), estacionales (cambios
periódicos) y festivos, lo que da lugar a horarios irregulares, 𝜀(𝑡) es el término de error del
pronóstico 𝑦(𝑡) que representa cualquier cambio. El modelo FB Prophet adopta una serie de
Fourier para ajustar modelos con efectos de estacionalidad 𝑠(𝑡) representados como:

𝑁
2𝜋𝑘𝑡 2𝜋𝑘𝑡
𝑠(𝑡) = ∑ 𝛼𝑘 𝑐𝑜𝑠 ( ) + 𝛽𝑘 𝑠𝑒𝑛 ( )
𝑝 𝑝
𝑘=1

Donde 𝑝 es el período del patrón estacional, 𝛼𝑘 y 𝛽𝑘 son los coeficientes de Fourier.


Empleando los puntos ascendentes de los datos como referencia, el modelo Prophet adopta
una tendencia de curva de crecimiento logístico para las tendencias. FB Prophet es experto
en la gestión de series temporales caracterizados por fluctuaciones estacionales significativas
y un lapso de datos históricos sustancial. En particular, el modelo Prophet gestiona
eficazmente los valores atípicos, incluso en escenarios que involucran datos faltantes o
cambios en las tendencias. La aplicación efectiva de un modelo Prophet necesita las
variables y (objetivo) y ds (Fecha Hora) en la serie temporal, además demuestra un
rendimiento adecuado cuando se realiza a un conjunto de datos múltiples en temporadas y
presentan impactos estacionales.

Según Sah et al. (2022), Prophet fue lanzado por un equipo de Facebook como un
sistema, y se utiliza para predecir una serie de tiempos. Funciona muy bien con series de
tiempo y es difícil perder valores de datos y transferirlos a la tendencia y a los valores
atípicos. Prophet es un modelo de regresión aditiva con componentes que consiste en una
curva de tendencia de ganancia logística y encuentra variaciones en las tendencias al elegir
los puntos de aumento de los datos. Se puede simular un componente estacional anual con
la ayuda de las series de Fourier. Se puede representar un elemento semanal estacional
utilizando variables ficticias y se puede dar al usuario una lista de días festivos. Funciona
bien con series temporales con mucha variación estacional y datos históricos de diferentes

51
estaciones. Prophet es robusto datos faltantes y los cambios que se puede presentar en la
tendencia para mejorar a los valores atípicos en la mayor parte del tiempo.

Prophet requiere los nombres de las variables y (objetivo) y ds (Fecha y hora) en la


serie temporal. Por lo tanto, el modelo Prophet funciona mejor con datos de numerosas
estaciones y series temporales con influencias estacionales significativas. Además, se
comparan con los métodos de suavizado exponencial tradicionales, el Prophet puede extraer
tendencias y señales periódicas en un rango más amplio de escalas temporales y no tiene
límites en la regularidad del espaciado de las mediciones. Por lo tanto, el modelo Prophet
simplifica varios análisis de series temporales.

Algunos parámetros de tendencia del Prophet son los siguientes:

• Crecimiento. El crecimiento es lineal o logístico para mostrar la tendencia. Se ajusta


una curva lineal por partes sobre la sección direccional o no periódica de la serie para
modelar la tendencia. El procedimiento de ajuste lineal muestra que se minimizan los
picos y los datos faltantes.
• Puntos de cambio. Incluye la lista de fechas. Estos puntos de cambio se eligen al azar.
Sin embargo, si es necesario, un usuario puede introducirlos manualmente. El ajuste
es mejor cuando aumenta el número de puntos de cambio permitidos. Al trabajar con
el componente de tendencia, un analista puede encontrarse con uno de dos problemas:
sobreajuste.
• Escala previa del punto de cambio. Este es el factor para transformar la elasticidad
de la selección automática en el punto de cambio. Un parámetro conocido como escala
previa del punto de cambio podría alterar la flexibilidad de la tendencia y resolver los
dos problemas anteriores. Un número más alto le dará a la serie temporal una curva
más flexible.
• Estacionalidad diaria, semanal y anual. Contiene patrones estacionales como datos
por hora, por día o por año. Prophet utiliza la serie de Fourier para ajustar y pronosticar
los impactos de la estacionalidad y brindar un modelo flexible. El orden de Fourier N
es un parámetro importante para elegir aquí, que determina si se pueden representar
más variaciones de frecuencia. Si el usuario considera más frecuencia, los
componentes en una serie temporal son solo ruido.

52
3.8 Metodología de Random Forest (RF)

El algoritmo de Randon Forest es un conjunto de árboles de decisión que son


formados por un algoritmo que se introduce la aleatoriedad para disminuir la relación entre
los árboles. Una vez construido el bosque, se utiliza para realizar la predicción (Mckinney,
2022).

El algoritmo de formación de Random Forest, está representado por cada árbol de


decisión que consta de:

• Existe un conjunto de N observaciones diferentes y se obtiene una muestra N en forma


aleatoria con reemplazo, además se usa bootstrapping en diferentes algoritmos, y se
introduce la aleatoriedad al algoritmo formado en cada árbol en forma distinta.
• Se tiene las M variables de entrada en cada nodo y se realiza la selección al azar con
p≤M variables. El p es el número de todo el proceso de formación del árbol y se ingresa
un segundo elemento al azar en el algoritmo.
• Se obtiene un árbol frondoso, sin realizar la poda hasta la máxima extensión posible.

Para la formación de Random Forest que es expresado en forma aleatoria para


disminuir la varianza del modelo. La aleatoriedad disminuye con la correlación entre árboles
en la formación en cada uno, se inicia con una muestra distinta, y en cada nodo se selecciona
a las variables que es diferente.

La integración de bosque aleatorio es similar a la clasificación de regresión en la que


se prepara las variables dependiente e independiente, seguidamente se realiza la construcción
del bosque para realizar la predicción, la media representa a las predicciones de cada árbol
en regresión. En problemas de clasificación cualitativas la predicción se realiza con la clase
más votada entre todos los árboles del bosque, por lo que se puede establecer que el bosque
aleatorio depende de dos parámetros:

- Ntree: representa al número de árboles del bosque.


- Mtree: representa al número de variables “p” que es seleccionado en cada nodo.

La tasa de error de los bosques aleatorios es relacionada con los parámetros al


disminuir el número “p” de variables, asimismo se reduce la correlación entre los árboles en
cada nodo presenta la menor posibilidad de ser elegidos, por otro parte, al reducir “p”, se
reduce la precisión del árbol; en la aplicación práctica el valor de Mtree depende del

53
problema, además al disminuir la correlación entre árboles, también disminuye la
variabilidad para lograr la precisión del árbol, los valores que sugiere es √𝑝 para un
problema de clasificación y 𝑝⁄3 para la regresión.

El Ntree (número de árboles) presenta la precisión en la predicción y mejora con la


mayor cantidad de árboles para la predicción; el número de datos para calcular el promedio
es mayor; sin embargo, existe un valor de error que no disminuye y se paraliza, lo cual
incrementa el tiempo de entrenamiento del algoritmo.

54
CAPÍTULO IV

4RESULTADOS Y DISCUSIÓN

4.1 Resultados

4.1.1 Serie histórica de datos de consumo de agua doméstico

Los resultados se exponen en forma detallada la serie histórica del costo


mensual en soles de consumo de agua doméstico durante el periodo: 2015-2020.

Tabla 1
Serie histórica del costo (S/) de consumo de agua doméstico de la región de Puno,
según año y mes del periodo: 2015-2020
Meses 2015 2016 2017 2018 2019 2020
Ene 426775,62 445131,70 486828,80 520192,22 546175,55 546031,46
Feb 395193,15 455054,19 478257,58 488173,08 492004,45 518581,59
Mar 377573,09 415610,86 449983,06 437091,51 495638,72 502086,70
Abr 391844,35 458215,16 448155,14 525731,09 484642,35 491240,91
May 390665,99 462844,19 467510,37 487080,43 540584,10 495448,85
Jun 399276,24 450177,28 446301,52 460722,65 504814,15 479048,68
Jul 403020,57 454470,10 478474,85 477617,35 513932,66 503085,90
Ago 403834,99 465308,79 484583,76 476469,01 515640,49 492108,79
Set 412494,75 480284,97 497590,65 494225,72 519187,31 532810,28
Oct 475208,51 473960,81 463339,70 517378,75 527682,29 499967,59
Nov 429864,49 462290,17 492604,41 518492,93 516688,48 521566,01
Dic 463916,01 478984,03 491930,14 509623,44 509785,27 508903,68
Nota. Datos registrados en la EPS EMSA-Puno, periodo: 2015 – 2020

4.1.2 Identificación del modelo para costo del consumo de agua doméstico

La Figura 5, presenta la serie histórica del costo de consumo de agua


doméstico, presentó una tendencia creciente en diferentes tiempo y decreciente en
otros periodos. La serie histórica presentó una media diferente y varianza no
constante en los periodos largos, también dentro de cada periodo presenta variaciones
similares. En forma general la serie presenta tendencia pronunciada y no es
estacionaria, entonces se deber realizar la diferenciación de la serie para eliminar la
tendencia.

La serie histórica de costo de consumo de agua doméstico, presenta una serie


de tendencia irregular en forma general; sin embargo, existe una caída en enero a
marzo de 2015, también en enero a febrero de 2016, y fuerte descenso en enero a

55
marzo 2018, y durante el año 2020 y 2021 que se presentó la pandemia COVID-19,
por tal razón los pagos de consumo de agua doméstico de las familias han disminuido,
y seguidamente se recupera en forma gradualmente para los años posteriores.

Figura 5
Serie histórica del costo mensual (S/) de consumo de agua doméstico de la región
de Puno, según año y mes del periodo: 2015-2020

La Figura 6, presenta la función de autocorrelación (acf) para el costo


mensual de consumo de agua doméstico tiene un patrón de decrecimiento lento que
puede simularse a sinusoidal en forma general; sin embargo, los primeros 12 rezagos
están fuera de los límites de confianza y a partir de rezago 13 caen dentro de los
límites de confianza, pero en forma irregular las autocorrelaciones positivos y
negativos simulando casi a sinusoidal.

56
Figura 6
Función de Autocorrelación del costo mensual (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020

La Figura 7, se presenta (pacf) del costo mensual de consumo de agua


doméstico que tiene dos barras que están fuera de los límites de confianza y el resto
tienen un patrón irregular que está dentro de los límites de confianza, pero no tiene
decaimiento a cero, por lo que la serie tiene el típico función de autocorrelación (acf);
sin embargo, los dos primeros rezagos están fuera de los límites de confianza y a
partir de rezago 3 caen dentro de los límites de confianza, pero en forma irregular las
autocorrelaciones positivos y negativos.

Figura 7
Función de Autocorrelación parcial del costo mensual (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020

Prueba de Dickey – Fuller Aumentada del costo de consumo de agua doméstico de


la Región de Puno, periodo 2015-2020

57
Ho: la serie no es estacionaria: tiene raíz unitaria
Ha: la serie es estacionaria: no tiene raíz unitaria

ADF Augmented Dickey - Fuller Test


Dickey-Fuller = -3.1385, Lag order = 4, p-value = 0.1118
alternative hypothesis: stationary

Se realizó la hipótesis con la prueba de Dickey-Fuller (ADF) con lo que se


obtuvo un p-valor = 0.1118 >  = 0.05, se acepta la Ho: de consumo de agua
doméstico de la región de Puno que no es estacionaria, por lo tanto, se debe realizar
una diferenciación para eliminar la tendencia (d=1).

La Figura 8, muestra el consumo de agua doméstico, en la que fue eliminada


la tendencia de la serie con la primera diferencia (d=1) con media cero, varianza
estable y covarianzas nulas, como resultado la serie es estacionaria.

Figura 8
Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo de
agua doméstico de la región de Puno, periodo: 2015-2020

La Figura 9, establece la (acf) de costo de consumo de agua doméstico con


diferencia (d=1), en la cual la primera barra de autocorrelación se encuentra fuera de
los límites de confianza; sin embargo, el resto de las barras de autocorrelaciones no
caen rápidamente a cero, entonces las primeras autocorrelaciones no tienen un patrón

58
establecido y van seguidos de decrecimiento exponencial o sinusoidal en forma
amortiguada a cero, entonces podemos indicar que es ARIMA diferenciada.

Figura 9
Función de Autocorrelación estimada para la primera diferencia del costo (S/) de
consumo de agua doméstico de la región de Puno periodo: 2015-2020

La Figura 10, representa a la (pacf) de costo de consumo de agua doméstico


diferencia (d=1), lo cual tiene la misma función de autocorrelación (acf) en la que la
primera barra de autocorrelación se encuentra fuera de los límites de confianza; sin
embargo, el resto de las barras de autocorrelaciones no caen rápidamente a cero,
entonces no poseen en los primeros un patrón establecido, y van seguidos de
decrecimiento exponencial o sinusoidal en forma amortiguada a cero, entonces se
afirma que es un modelo integrado de ARIMA.

59
Figura 10
Función de Autocorrelación parcial (pacf) estimada para la primera diferencia del
costo (S/) de consumo de agua doméstico de la región de Puno periodo: 2015-2020

Para comprobar la estacionariedad de la serie con media cero y varianza


constante con primera diferencia (d=1) para el costo de consumo de agua doméstico,
se ha usado la prueba Aumentada de Dickey – Fuller (ADF).

Prueba de Dickey – Fuller para la serie diferenciada

Ho: La serie no es estacionaria con la primera diferencia: Tiene raíz unitaria

Ha: La serie es estacionaria con la primera diferencia: No tiene raíz unitaria

Augmented Dickey-Fuller Test – Resultado R


Dickey-Fuller = -4.746, Lag order = 4, p-value = 0.01
alternative hypothesis: stationary

Se realizó el contraste de hipótesis con la prueba aumentada de Dickey-Fuller


(ADF), con lo que se obtuvo un p-valor = 0.01 <  = 0.05, se rechaza la Ho:, y se
confirma que la serie de consumo de agua doméstico es estacionaria.

Seguidamente, se realizó la búsqueda del modelo con auto.arima para la serie


del costo de consumo de agua doméstico, y el modelo adecuado con el Software R
versión 4.4.1 es un ARIMA(0,1,1)(1,0,0)[12], y los coeficientes estimados del
modelo son:

60
Coefficients - Resultado de R
ma1 sar1
-0.6769 0.3357
s.e. 0.0871 0.1255
sigma^2 = 4.54e+08: log likelihood = -808.4
AIC=1622.79 AICc=1623.15 BIC=1629.58

En la Figura 11, se puede observar a datos reales de costo mensual de


consumo de agua doméstica y la estimación de parámetros del modelo, denotado con
línea roja, en la que se puede observar la proyección de la serie se asemeja a los datos
reales, por consiguiente, se confirma que la suavización del modelo es adecuada.

Figura 11
Serie histórica real y estimada del costo (S/) de consumo de agua doméstico de la
región de Puno, periodo: 2015-2020

La serie se ajusta mejor para el costo de consumo de agua doméstico estimado


frente a datos reales por un modelo multiplicativo ARIMA (0,1,1) (1,0,0)12,
representado por una ecuación: 𝑍𝑡 = 𝑍𝑡−1 + Φ1 𝑍𝑡−12 − Φ1 𝑍𝑡−13 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1

61
4.1.3 Estimación del modelo para costo del consumo de agua doméstico

La Tabla 2, presenta al modelo ARIMA(0,1,1)(1,0,0)12, para el costo de


consumo de agua doméstico con los coeficientes de estimación de parámetros
MA(1), SAR(1), error estándar, valor Z, valor-p, y significación, ambos parámetros
estimados fueron significativos (p=0.00).

Tabla 2
Coeficientes del modelo ARIMA(0,1,1) (1,0,0)12 del costo de consumo de agua
doméstico
Proceso Estimado Error Estándar Valor Z Pr(>|z|) Signific.
ma1 -0.676948 0.087136 -7.7689 7.92E-15 ***
sar1 0.335662 0.125460 2.6755 0.007463 **
Nota: Códigos de significación: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1.Software de
procesamiento: R versión 4.4.1.

La representación del modelo identificado con parámetros estimados para


realizar los pronósticos, fue expresado como una ecuación:

𝑍𝑡 = 𝑍𝑡−1 + 0.33566𝑍𝑡−12 − Φ13 𝑍𝑡−13 + 0.6769𝜀𝑡−1

4.1.4 Validación del modelo estimado para el costo del consumo de agua
doméstico

El modelo ARIMA(0,1,1)(1,0,0)12, tiene las propiedades para la aplicación de


los pronósticos:

El valor absoluto de los parámetros estimados de la serie temporal analizada


resultó ser inferior a la unidad:

|𝜃1 | = |−0.676948| < 1 y |𝜙1 | = |0.335662| < 1

La condición de invertibilidad de un modelo MA(1) es equivalente a la


estacionariedad de un AR(1). El proceso de medias móviles MA(1) es estacionario e
invertible al pasar a un modelo AR(∞). Por consiguiente, la serie histórica del costo
de consumo de agua doméstico es estacionaria.

Los coeficientes estimados del proceso SAR(1) = 0.335662 y MA(1) = -


0.676948 son significativos con p =0.00000 <  = 0.05, para ambos procesos.

62
El estadístico de Prueba de Box- Ljung con valor calculado de 𝜒𝑐2 = 21.37 al
nivel de significación de p-valor = 0.876 >  = 0.05, lo cual confirmó que los
residuales son aleatorios y el modelo es adecuado para realizar el pronóstico de la
serie.

La Figura 12, presenta la distribución de los residuales a través de la gráfica


de QQ-plot, lo que confirma que los errores descansan sobre la recta y se afirma que
los errores se distribuyen en forma aleatoriamente para la serie del costo de consumo
de agua doméstico para la Región de Puno.

Figura 12
Distribución de los residuales de consumo de agua doméstico de la región de Puno,
según año y mes del periodo: 2015-2020

La Figura 13, presenta los residuales del modelo con propiedades de esperanza
matemática igual a cero, varianza constante y las covarianzas son nulas, lo que
confirma que los residuales son distribuidos en forma aleatoriamente durante el
periodo 2015-2020 para el costo del consumo de agua doméstico para la Región de
Puno.

63
Figura 13
Errores residuales para la serie del costo (S/) de consumo de agua doméstico de la
región de Puno, periodo: 2015-2020

La Figura 14, presenta la (acf) de los errores que caen dentro de los límites de
confianza, por consiguiente, los errores se distribuyen en forma aleatoriamente en
todo el periodo de 2015 – 2020 con rezagos de hasta 25, por lo tanto, el modelo
estimado se valida.

Figura 14
Función de autocorrelación (acf) del costo (S/) de consumo de agua doméstico de
la región de Puno, periodo: 2015-2020

La Figura 15, es similar a la (acf) con algunas diferencias en los retardos, lo


que confirma que la (pacf), se encuentra dentro de los límites de confianza, y se

64
confirma que la serie cumple con la prueba de Box-Ljung para la variable consumo
de agua coméstico.

Figura 15
Función de autocorrelación parcial del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020

La Figura 16, presenta la forma resumida de las diferentes distribuciones de


los residuales, para lo cual se realizó la prueba de Box-Ljung para confirmar que los
errores se distribuyen en forma aleatoriamente para la serie del costo de consumo de
agua doméstico para la Región de Puno.

Ljung-Box test – Resultados con R


data: Residuals from ARIMA(0,1,1)(1,0,0)[12]
Q* = 7.0186, df = 12, p-value = 0.8564
Model df: 2. Total lags used: 14

Como el p-value = 0.8564 >  = 0.05, entonces se confirma y se valida que


los residuales cumplen con esperanza matemática igual a cero, varianza constante y
la covarianza son independientes, lo que confirma que el modelo estimado es
adecuado para realizar pronósticos hacia el futuro.

65
Figura 16
Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua doméstico, periodo: 2015-2020

4.1.5 Pronóstico del modelo validado para costo del consumo de agua
doméstico

La Figura 17, muestra el pronóstico de costo de consumo de agua doméstico


para 12 meses (un año), en la que la tendencia disminuye en forma gradual y luego
se recupera el pronóstico para fines del año 2021, lo cual es muy importante para la
Empresa y tomar decisiones coherentes en el futuro, además los datos pronosticados
por el modelo se encuentran en la Tabla 3.

66
Figura 17
Serie de tiempo pronosticada con límites de confianza del 95% del costo (S/) de
consumo de agua doméstico de la región de Puno periodo: 2015-2020

Tabla 3
Pronóstico de la serie para el año 2021 del costo de consumo de agua doméstico
de la Región de Puno (forecast(ARIMA1, h = 12)
Pronóstic
Mes Año o Lo 80 Hi 80 Lo 95 Hi 95
Jan 2021 520356,7 493049,2 547664,2 478593,5 562119,9
Feb 2021 511142,8 482445,7 539839,9 467254,4 555031,2
Mar 2021 505606,1 475583,7 535628,5 459690,8 551521,4
Apr 2021 501965,5 470673,9 533257,2 454109,1 549822,0
May 2021 503378,0 470866,6 535889,4 453656,1 553099,9
Jun 2021 497873,1 464186,1 531560,1 446353,3 549392,9
Jul 2021 505941,5 471118,5 540764,4 452684,4 559198,5
Aug 2021 502256,9 466333,9 538179,8 447317,4 557196,3
Sep 2021 515918,8 478928,5 552909,1 459347,0 572490,6
Oct 2021 504894,8 466867,1 542922,5 446736,4 563053,1
Nov 2021 512144,5 473107,0 551182,1 452441,8 571847,3
Dec 2021 507894,3 467872,4 547916,2 446686,1 569102,5
Fuente: Resultados del pronóstico de la serie con software R versión 4.4.1.

67
4.1.6 Redes Neuronales Artificiales para costo de consumo de agua doméstico.

La Figura 18, representa a la serie de costo de consumo de agua doméstico


con tendencia irregular en los diferentes periodos del año; sin embargo, usando la
Red Neuronal Artificial de (2,1,2) se realizó el entrenamiento y aproximación del
pronóstico de la serie.

Figura 18
Pronósticos del costo (S/) de consumo de agua doméstico con Redes Neuronales
Artificiales, periodo: 2015-2020

La Figura 19, establece el ajuste de tendencia de la serie muy cercano a la


serie observado con el ensamble de la Red Neuronal Artificial, lo que permite afirmar
que no existe variabilidad entre los datos y ajuste de la serie en la cual las líneas de
pronóstico poseen un comportamiento similar a los datos reales.

68
Figura 19
Pronósticos de ajuste del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020

La Figura 20, representa a la validación de la serie a través de los residuales


para la serie de tiempo de costo de consumo de agua, en la cual la tendencia de la
serie fue eliminada, lo que confirma que la media es cero, varianza constante y
covarianzas nulas, también la función de autocorrelación (acf) están dentro de los
límites de confianza y se confirma que el correlograma representa un ruido blanco,
por lo tanto, los errores se asemejan a una distribución normal.

69
Figura 20
Residuales de verificación para costo (S/) de consumo de agua doméstico con
Redes Neuronales Artificiales, periodo: 2015-2020

Se realizó la comparación de modelo estimado con ARIMA(0,1,1)(1,0,0)[12]


y la Red Neuronal Artificial NNAR(2,1,2)[12] que fueron evaluados con las métricas
de RMSE, MAE y MAPE para verificar y represente un buen ajuste de serie
univariante de costo de consumo de agua.

Tabla 4
Métricas de los modelos ARIMA(0,1,1)(1,0,0)[12] y Red Neuronal Artificial
NNAR(2,1,2)[12] del costo de consumo de agua doméstico de la Región de Puno
Theil's
ARIMA ME RMSE MAE MPE MAPE MASE ACF1 U
-
Training set 2434.1326 20859.51 15743.447 0.38085 3.294622 0.5989 0.0679 NA
Test set 125.6304 12143.87 9947.026 -0.05981 1.945070 0.3784 0.1306 0.4578

RED Theil's
NEURONAL ME RMSE MAE MPE MAPE MASE ACF1 U
-
Training set 18.45922 15253.93 12062.07 -0.11402 2.471553 0.4589 0.0505 NA
Test set -7960.959 13722.20 12432.35 -1.64679 2.473363 0.4730 0.0660 0.6083

70
4.1.7 Prophet para costo de consumo de agua doméstico.

La Figura 21, representa la tendencia de costo de consumo de agua doméstico,


en la que se observa que existe un comportamiento de tendencia ascendente con
periodos irregulares de la serie, también una disminución en el periodo de 2016,
2018, 2019, y en 2020 se presentó la pandemia de COVID-19, lo cual ha causado
problemas de salud y generó gastos de hospitalización, medicamentos entre otros.

Figura 21
Serie histórica del costo de consumo de agua doméstico de la Región de Puno con
técnica de Machine Learning - Prophet

La Figura 22, muestra la descomposición de la serie de costo de consumo de


agua doméstico en sus tres componentes de tendencia, estacionalidad, y errores, los
cuales permiten visualizar la estacionalidad y los errores se distribuyen
aleatoriamente con aproximación a la distribución normal.

71
Figura 22
Descomposición de la serie histórica del costo de consumo de agua doméstico de
la Región de Puno con técnica de Machine Learning – Prophet

La Figura 23, incorpora la predicción de la serie de costo de consumo de agua


doméstico y observaciones (actual), lo que significa que la técnica de Facebook
Prophet también se puede usar para ajustar la serie histórica de datos con un
comportamiento que tenga la tendencia (cambios no periódicos), estacionalidad
(cambios periódicos), y días festivos, lo que da lugar a horarios irregulares.

Figura 23
Predicción del costo de consumo de agua doméstico de la Región de Puno con
Prophet, periodo: 2015-2020

72
En la Figura 24, se presenta la proyección para el año 2021 del costo de
consumo de agua doméstico que es derivada del análisis de la serie temporal
histórica. La tendencia proyectada sugiere una leve disminución económico asociado
al consumo hídrico durante el año 2021. Asimismo, se anticipa una estabilización en
el consumo de agua por la población a lo largo del año 2022.

Figura 24
Pronóstico del costo de consumo de agua doméstico con Prophet, periodo: 2015-
2020

La Tabla 5, refleja las métricas de evaluación para el pronóstico de serie con


MAPE = 1.96 y RMSE = 12348.012 que son los errores estimados del modelo y el
Coeficiente de Determinación de R2 = 90.44% depende de la variabilidad del costo
de consumo de agua doméstico y 9.56% es explicado por otros factores extraños al
modelo, por consiguiente el modelo es aceptable para la realizar la predicción o
puede recomendarse para otros trabajos similares.

Tabla 5
Evaluación de métricas para la técnica de PROPHET del costo de consumo de
agua doméstico, periodo: 2015-2020

PROPHET MSE RMSE MAE MAPE R2


Test set 152473409.3 12348.012 9507.2052 1.96282 0.904398

73
4.1.8 Random Forest (RF) para costo de consumo de agua doméstico.

La Figura 25, presenta una estimación del modelo con la serie de costo del
consumo de agua doméstico, y Random Forest, no representa una mejor estimación
a la serie de datos, por lo tanto, podemos afirmar que para Random Forest, se necesita
mayor cantidad de variables y serie de datos para que pueda ensamblarse mejor en la
estimación del modelo.

Figura 25
Pronóstico del costo de consumo de agua doméstico con Random Forest, periodo:
2015-2020

La Tabla 6, muestra las métricas de evaluación para el pronóstico con MAPE


= 2.46675) y RMSE=15233.08 son errores estimados y R2 = 13.26% que es muy bajo
para el costo de consumo de agua doméstico, por lo tanto, el modelo no es confiable
para realizar el pronóstico o no se recomienda para otros trabajos similares.

Tabla 6
Evaluación de métricas para la técnica de RANDOM FOREST del costo de
consumo de agua doméstico, periodo: 2015-2020
RANDOM
FOREST MSE RMSE MAE MAPE R2
Test set 232046831.36 15233.083 12595.864 2.46675 0.132617

74
En la Tabla 7, se efectuó una comparación de métricas de precisión para
ambos modelos con RMSE=12143.87 para el modelo ARIMA y Prophet RMSE =
12348.012, superando el modelo ARIMA a Prophet; los otros modelos presentaron
métricas de evaluación superiores, por tal razón no se recomienda para la predicción
hacia el futuro.

Tabla 7
Resumen de la evaluación de métricas del costo de consumo de agua doméstico,
periodo: 2015-2020
DESCRIPCIÓN MSE RMSE MAE MAPE R2
ARIMA - Test 147473578.577 12143.87 9947.026 1.945070 ---
RED NEURONAL -
Test 188298772.840 13722.20 12432.35 2.473363 ---
PROPHET - Test 152473409.28 12348.012 9507.2052 1.9628225 0.904398
RANDOM FOREST -
Test 232046831.36 15233.083 12595.864 2.4667469 0.132617

4.1.9 Serie histórica de datos del costo de consumo de agua comercial

La Tabla 8, muestra los datos recopilados de la serie de costo de consumo de


agua comercial, periodo: 2015-2020.

Tabla 8
Serie histórica del costo (S/) de consumo de agua comercial de la región de Puno,
según año y mes del periodo: 2015-2020

Meses 2015 2016 2017 2018 2019 2020


Ene 226479,75 249728,71 284651,42 288550,80 306187,14 306960,79
Feb 219922,07 254155,25 280284,76 277521,50 301380,46 315699,23
Mar 191917,41 219016,67 244203,24 253072,45 269164,66 243162,14
Abr 218232,18 243172,80 250498,90 299478,45 297006,58 158641,31
May 224364,94 250510,42 272429,92 295159,30 324624,41 151950,29
Jun 223654,35 252934,81 271771,01 273008,67 299717,91 167005,84
Jul 225316,33 252661,44 284139,71 298589,76 308066,90 194697,68
Ago 232718,74 274189,69 313787,11 313334,77 331828,00 177008,91
Set 252111,23 271345,81 293420,55 309994,96 322003,52 187221,65
Oct 265502,02 269540,20 281764,83 321306,18 319658,61 191336,35
Nov 246433,93 258826,03 293027,39 305753,36 322128,01 206204,12
Dic 227976,58 244639,12 265894,35 284746,47 286616,49 211429,26
Fuente: Datos registrados en la EPS EMSA-Puno, periodo: 2015 – 2020

75
4.1.10 Identificación del modelo para el costo del consumo de agua comercial

La Figura 26, presenta la serie histórica de costo de consumo de agua


comercial que tiene tendencia ascendente en diferentes periodos de tiempo, tal como
se observa para periodo 2019 y decreciente en 2020 hasta el mes de abril por
presentarse el COVID-19, por lo que la población no registró pagos del servicio de
agua comercial. La serie histórica no cumple con media cero, varianza constante y
covarianzas independientes en los periodos de tiempo largos, también cada periodo
presentó variaciones similares con lo que se puede afirmar que la serie presentó
periodos estacionales y no estacionales con una tendencia pronunciada o significativa
que debe ser eliminado la tendencia con la integración a la serie hasta convertir a una
serie estacionaria.

Figura 26
Serie histórica del costo mensual (S/) de consumo de agua comercial de la región
de Puno, según año y mes del periodo: 2015-2020

La Figura 27, se visualiza en forma de barras la función de autocorrelación


(acf) de costo de consumo de agua comercial que tiene un patrón de decrecimiento
lento hasta el retardo 5, y los siguientes rezagos de las correlogramas son positivos y
negativos que no se elimina rápidamente, sin embargo, la función de autocorrelación
está dentro de los límites de confianza, pero en forma irregular las autocorrelaciones
positivos y negativos parecen a sinusoidal.

76
Figura 27
Función de Autocorrelación del costo mensual (S/) de consumo de agua comercial,
periodo: 2015-2020

La Figura 28, representa en forma de barras a la (pacf) de costo mensual de


consumo de agua comercial, en la que se visualiza un rezago está fuera de los límites
de confianza y el resto reflejan un patrón irregular, pero está dentro de los límites de
confianza que no tiene decaimiento rápidamente a cero, por lo que la serie es atípico
con la (acf); sin embargo, a partir de rezago 2 los correlogramas son positivos y
negativos, entonces podemos afirmar que es un ARMA(p,q).

77
Figura 28
Función de Autocorrelación parcial del costo mensual (S/) de consumo de agua
comercial, periodo: 2015-2020

Prueba de Dickey – Fuller Aumentada de costo de consumo de agua comercial,


periodo 2015-2020

Ho: la serie no es estacionaria: tiene raíz unitaria


Ha: la serie es estacionaria: no tiene raíz unitaria

Augmented Dickey-Fuller Test - Resultado de R


Dickey-Fuller = -1.5323, Lag order = 4, p-value = 0.7657
alternative hypothesis: stationary

Se contrastó la hipótesis con Dickey-Fuller (ADF), con p-valor = 0.7657 > 


= 0.05 se acepta la Ho:, lo que significa que la serie de consumo de agua comercial
no es estacionaria, entonces se debe realizar a los datos la primera diferencia (d=1)
para eliminar la tendencia y obtener una serie estacionaria.

La Figura 29, muestra la serie de costo de consumo de agua comercial,


después de eliminar la tendencia con la primera diferencia (d=1) con media cero,
varianza constante y las covarianzas independientes, y se confirma la serie es
estacionaria.

78
Figura 29
Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo de
agua comercial, periodo: 2015-2020

La Figura 30, refleja la (acf) de la serie de costo de consumo de agua


comercial diferenciada (d=1) en el primer y 10 rezago caen fuera de los límites de
confianza; sin embargo, el resto de autocorrelaciones no caen a cero, entonces las
autocorrelaciones no presentan un patrón fijo, alternando las autocorrelaciones
positivos y negativos simulando a la forma de decrecimiento exponencial o
sinusoidal en forma amortiguada a cero, entonces es una ARIMA diferenciada.

Figura 30
Función de Autocorrelación estimada para la primera diferencia del costo (S/) de
consumo de agua comercial, periodo: 2015-2020

La Figura 31, representa a la (pacf) de la serie de costo de consumo de agua


comercial diferenciada (d=1), es similar al comportamiento de la función de
autocorrelación (acf), el primero y sexto rezago están fuera de los límites de

79
confianza; sin embargo, el resto de autocorrelaciones no caen a cero, entonces a partir
del rezago 6 los valores son positivos y negativos que no siguen a un patrón
establecido y presentan decrecimiento exponencial o sinusoidal en forma
amortiguada a cero.

Figura 31
Función de Autocorrelación parcial (pacf) estimada para la primera diferencia del
costo (S/) de consumo de agua comercial, periodo: 2015-2020

Para confirmar la estacionariedad de la serie con media cero, varianza


constante y covarianzas independientes con la primera diferencia (d=1) para el costo
de consumo de agua comercial, se ha usado la prueba Aumentada de Dickey – Fuller
(ADF).

Prueba de Dickey – Fuller para la serie diferenciada

Ho: La serie no es estacionaria con la primera diferencia: Tiene raíz unitaria


Ha: La serie es estacionaria con la primera diferencia: No tiene raíz unitaria
Augmented Dickey-Fuller Test - Resultado de R
Dickey-Fuller = -3.638, Lag order = 4, p-value = 0.03648
alternative hypothesis: stationary

Se realizó el contraste de hipótesis con la prueba aumentada de Dickey-Fuller


(ADF), con lo que se obtuvo un p-valor = 0.03648 <  = 0.05, se rechaza la Ho:, y
se confirma que el consumo de agua comercial es estacionaria o ruido blanco.

80
Seguidamente, se realiza, la búsqueda del modelo de serie de tiempo con
auto.arima para la serie del costo de consumo de agua comercial, y el modelo
adecuado con el Software R versión 4.4.1 es un ARIMA(0,1,2)(1,0,0)[12], y los
coeficientes estimados del modelo son:

Coeficientes - Resultado de R
ma1 ma2 sar1
0.1769 -0.3242 0.4576
s.e. 0.1104 0.1054 0.1231
sigma^2 = 386805514: log likelihood = -802.72
AIC=1613.44 AICc=1614.05 BIC=1622.49

La Figura 32, muestra a los datos reales u observaciones de costo mensual de


consumo de agua comercial, y se compara con parámetros del modelo (línea roja),
cuya proyección es muy interesante con los datos reales, por consiguiente, se
confirma que la suavización del modelo es adecuada.

Figura 32
Serie histórica real y estimada del costo (S/) de consumo de agua, periodo: 2015-
2020

Se obtuvo un modelo de mejor ajuste a la serie de tiempo estimado para el


costo de consumo de agua comercial que es representado en forma de un modelo
multiplicativo ARIMA(0,1,2)(1,0,0)[12], con la ecuación de: 𝑍𝑡 = 𝑍𝑡−1 +
Φ1 𝑍𝑡−12 − Φ13 𝑍𝑡−13 + 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2

81
4.1.11 Estimación del modelo para el costo del consumo de agua comercial

En la Tabla 9, se presenta los procesos de medias móviles y autorregresivo


estaciona identificado como ARIMA(0,1,2)(1,0,0)[12], para el costo (S/) de consumo
de agua comercial expresados con la notación MA(2) y SAR(1), error estándar, valor
Z, valor-p, y el respectivo significación de los parámetros estimados que son
significativos (p=0.00), excepto medias móviles MA(1) que no resultó significativo,
por lo que se debe eliminar del modelo.

Tabla 9
Resultados del ARIMA(0,1,2)(1,0,0)12 del costo de consumo de agua comercial

Proceso Estimado Error Estándar Valor Z Pr(>|z|) Signific.


ma1 0.176920 0.110420 1.602200 0.109106 ns.
ma2 -0.324150 0.105440 -3.074300 0.002110 **
sar1 0.457630 0.123140 3.716500 0.000202 ***
Nota. Códigos de significación: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Software de procesamiento: R versión 4.4.1.

La representación del modelo identificado con parámetros estimados de


consumo de agua comercial es representado con la ecuación de pronóstico siguiente:

𝑍𝑡 = 𝑍𝑡−1 + 0.45763𝑍𝑡−12 − Φ13 𝑍𝑡−13 + 𝜀𝑡 − 0.1769𝜀𝑡−1 + 0.32415𝜀𝑡−2

4.1.12 Validación del modelo estimado para el costo del consumo de agua
comercial

El modelo identificado fue estimado como ARIMA(0,1,2)(1,0,0)[12], y debe


ajustarse a las propiedades de pronósticos.

Un modelo MA(2) es definido por: 𝑌𝑡 = 𝜀𝑡 − 𝜃1 𝜀𝑡−1 − 𝜃2 𝜀𝑡−2 es invertible


con 𝜀𝑡 ~𝑅𝐵(0, 𝜎 2 ), si cumple las tres condiciones:

|𝜃2 | < 1, 𝜃2 + 𝜃1 < 1 𝑦 𝜃2 − 𝜃1 < 1, entonces:

|𝜃2 | = |−0.32415| < 1 cumple

𝜃2 + 𝜃1 < 1 entonces -0.32415 + 0.1769 < 1 cumple

82
𝜃2 − 𝜃1 < 1 entonces -0.32415 - 0.1769 < 1 cumple

Se debe cumplir la invertibilidad de un modelo de medias móviles MA(1) que


es equivalente a la estacionariedad del proceso AR(1). El modelo de MA(1) siempre
es estacionario e invertible para pasar a un modelo AR(∞). Por consiguiente, la serie
histórica del costo de consumo de agua comercial es estacionaria.

Los coeficientes estimados del proceso MA(1) = 0.1769, no es significativo


p-value = 0.109, y los demás procesos SAR(1) = 0.4576, y MA(2) = -0.32415 son
significativos con p =0.00000 <  = 0.05, para ambos modelos.

La prueba de Box- Ljung calculado con 𝜒𝑐2 = 15.811 con p-valor = 0.9843 >
 = 0.05, por lo tanto, los residuales son aleatorios, y el modelo es adecuado para el
pronóstico de la serie.

La Figura 33, presenta la distribución de los residuales, con lo que se confirma


los errores descansan sobre la recta y podemos afirmar que los errores se distribuyen
en forma aleatoriamente para la serie del costo de consumo de agua comercial.

Figura 33
Evaluación de la normalidad de consumo de agua comercial, periodo: 2015-2020

La Figura 34, presenta a los residuales del modelo esperanza matemática


cero, varianza constante y covarianzas independientes y se confirma que los

83
residuales se distribuye en forma aleatoriamente durante el periodo 2015-2020 para
el costo del consumo de agua comercial.

Figura 34
Errores residuales para la serie del costo (S/) de consumo de agua comercial,
periodo: 2015-2020

La Figura 35, muestra la (acf) de residuales que caen dentro de los límites de
confianza; sin embargo, las autocorrelaciones se alternan en forma positivos y
negativos que no se eliminan a cero, por lo que los errores se distribuyen en forma
aleatoriamente en todo el periodo de 2015 – 2020 con rezagos de hasta 25, por lo
tanto, se valida el modelo estimado.

Figura 35
Función de autocorrelación (acf) del costo (S/) de consumo de agua comercial,
periodo: 2015-2020

84
La Figura 36, muestra la (pacf) con correlogramas positivos y negativos
dentro de los límites de confianza con algunas diferencias en los rezagos que
confirma que la función de autocorrelación (acf) es similar y cumple con los
requisitos establecidos con Box-Ljung para el costo de consumo de agua comercial.

Figura 36
Función de autocorrelación parcial del costo (S/) de consumo de agua comercial,
periodo: 2015-2020

La Figura 37, presenta en forma resumida las diferentes distribuciones de los


residuales, para lo cual se realizó la prueba de Box-Ljung para confirmar que los
errores se distribuyen en forma aleatoriamente para el costo de consumo de agua
comercial para la Región de Puno.

Ljung-Box test – Resultado con R


data: Residuals from ARIMA(0,1,2)(1,0,0)[12]
Q* = 7.1373, df = 11, p-value = 0.7879
Model df: 3. Total lags used: 14

Como el p-value = 0.7879 >  = 0.05 confirma que los residuales son
aleatorios media cero, varianza constante y la covarianza nula, entonces el modelo
estimado es adecuado para realizar los pronósticos.

85
Figura 37
Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua comercial, periodo: 2015-2020

Los resultados de la Tabla 9, presenta el proceso para MA(1) con p-value =


0.109106 >  = 0.05 no significativo, por consiguiente se realiza la eliminación para
medias móviles de orden 1, lo que se logra haciendo tender a cero el parámetro
estimado para MA(1) con siguiente resultado:

Coefficients – Resultado con R


ma1 ma2 sar1
0 -0.3291 0.4427
s.e. 0 0.1098 0.1277

La Tabla 10, se presentan los coeficientes estimados que son


significativos para el modelo de costo de consumo de agua comercial, y se logró
obtener un modelo parsimonioso que facilita la escritura de la ecuación y la
interpretación.

86
Tabla 10
Coeficientes significativvos del ARIMA(0,1,2)(1,0,0)12 del costo de consumo de
agua comercial

Proceso Estimado Error Estándar Valor Z Pr(>|z|) Signific.


ma2 -0.329140 0.109830 -2.996900 0.002728 **
sar1 0.442750 0.127690 3.467300 0.000526 ***
Nota. Códigos de significación: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Software de procesamiento: R versión 4.4.1.

La representación del modelo identificado de los parámetros estimados de la


serie de consumo de agua comercial, se obtuvo con la ecuación de pronóstico
siguiente: 𝑍𝑡 = 𝑍𝑡−1 + 0.44275𝑍𝑡−12 − Φ13 𝑍𝑡−13 + 𝜀𝑡 + 0.32914𝜀𝑡−2

Los coeficientes estimados del proceso (Tabla 10) para MA(2) = -0.32914 es
significativo con p-value = 0.0027, y el proceso estacional para SAR(1) = 0.44275
es significativo con p =0.000526 <  = 0.05, para ambos procesos.

El estadístico de Prueba de Box- Ljung con valor calculado de 𝜒𝑐2 = 17.473


al nivel de significación de p-valor = 0.9665 >  = 0.05, lo cual afirma que los
residuales son aleatorios, por consiguiente, se puede realizar el pronóstico de la serie.

Se realizó la prueba de Box-Ljung para confirmar que los errores se


distribuyen en forma aleatoriamente para la serie del costo de consumo de agua
comercial para la Región de Puno.

Ljung-Box test – Resultado con R


data: Residuals from ARIMA(0,1,2)(1,0,0)[12]
Q* = 9.6879, df = 11, p-value = 0.5587
Model df: 3. Total lags used: 14

Como el p-value = 0.5587 >  = 0.05, entonces se valida que los residuales
son aleatorios con media cero, varianza estable y la covarianza nula, entonces, el
modelo estimado es adecuado para realizar los pronósticos.

87
4.1.13 Pronóstico del modelo validado para el costo del consumo de agua
comercial

La Figura 38, muestra el pronóstico de costo de consumo de agua comercial


para un año (12 meses) en la que la tendencia disminuye en forma gradual y luego se
recupera para fines del año 2021, lo cual es muy importante para la Empresa y tomar
decisiones coherentes en el futuro.

Figura 38
Serie de tiempo pronosticada con límites de confianza del 95% de costo (S/) de
consumo de agua comercial, periodo: 2015-2020

Tabla 11
Pronóstico de la serie para el año 2021 del costo de consumo de agua comercial de
la Región de Puno (ARIMA1, h = 12)

Mes Año Pronóstico Lo 80 Hi 80 Lo 95 Hi 95


Jan 2021 215555,3 190350,5 240760,0 177007,9 254102,6
Feb 2021 214947,9 176021,9 253874,0 155415,7 274480,1
Mar 2021 181752,4 137286,5 226218,4 113747,6 249757,3
Apr 2021 143072,8 93684,4 192461,1 67539,8 218605,7
May 2021 140010,7 86148,0 193873,5 57634,8 222386,7
Jun 2021 146900,7 88907,7 204893,6 58208,1 235593,2
Jul 2021 159573,4 97725,5 221421,4 64985,2 254161,7
Aug 2021 151478,4 86002,1 216954,8 51341,0 251615,9
Sep 2021 156152,1 87238,1 225066,1 50757,3 261547,0
Oct 2021 158035,2 85847,0 230223,3 47632,9 268437,4
Nov 2021 164839,2 89519,1 240159,2 49647,1 280031,3
Dec 2021 167230,4 88903,5 245557,2 47439,8 287021,0
Fuente: Resultados del pronóstico de serie con software R versión 4.4.1.Resultados
88
4.1.14 Redes Neuronales Artificiales para costo de consumo de agua comercial

La Figura 39, representa la serie de costo de consumo de agua comercial con


tendencia irregular hasta diciembre de 2019, y a partir 2020 durante todo el año se
presentó una caída abrupta de la serie por la presencia de pandemia COVID-19, y a
partir de marzo de 2020 el gobierno ha decretado confinamiento en sus hogares, por
lo que el consumo de agua comercial ha disminuido con retraso de pago mensual en
los locales, las personas no concurrieron a realizar labores en su centro de trabajo;
sin embargo, usando la Red Neuronal Artificial de (3,1,2) se realizó el entrenamiento
y aproximación a través de algoritmo el pronóstico de la serie.

Figura 39
Pronósticos del costo (S/) de consumo de agua comercial con Redes Neuronales
Artificiales, periodo: 2015-2020

La Figura 40, ensambla el ajuste que representa muy cercano a las


observaciones con la Red Neuronal Artificial que permite afirmar que no existe
mucha variabilidad entre los datos y ajuste de la serie en la cual las líneas de
pronóstico poseen un comportamiento muy similar a las observaciones, por lo tanto,
el pronóstico tiende al crecimiento para los siguientes años.

89
Figura 40
Pronósticos de ajuste del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020

La Figura 41, muestra la verificación y validación de la serie a través de los


errores para la serie de tiempo de costo de consumo de agua comercial, en la cual la
tendencia de la serie fue eliminada, lo que confirma que la media es cero, varianza
constante y covarianzas nulas, también la función de autocorrelación (acf) caen
dentro de los límites de confianza y se confirma que el correlograma presentó un
ruido blanco o los errores se distribuye en forma aleatoria y aproximadamente a una
distribución normal.

90
Figura 41
Residuales de verificación para costo (S/) de consumo de agua comercial con
Redes Neuronales Artificiales, periodo: 2015-2020

Se realizó la comparación de los modelos estimados con


ARIMA(0,1,2)(1,0,0)[12] y la Red Neuronal Artificial NNAR(3,1,2)[12] a través de
la evaluación de métricas RMSE, MAE y MAPE para validar el modelo con valores
bajos de MAPE de ambos modelos y el modelo con buen ajuste de costo de consumo
de agua comercial.

Tabla 12
Métricas de los modelos ARIMA(0,1,2)(1,0,0)[12] y Red Neuronal Artificial
NNAR(3,1,2)[12] del costo de consumo de agua comercial, periodo 2015-2020
Theil's
ARIMA ME RMSE MAE MPE MAPE MASE ACF1 U
Training set -922.2888 19113.25 14082.16 -0.8402 5.894785 0.392 -0.0008 NA
Test set 42647.4222 50572.14 42647.42 18.6737 18.67367 1.187 0.6265 1.295

RED Theil's
NEURONAL ME RMSE MAE MPE MAPE MASE ACF1 U
Training set -11.92167 12206.74 9070.29 -0.3491 3.619669 0.252 0.087 NA
Test set 967.41397 61026.16 49377.74 -5.1544 21.9998 1.374 0.652 1.477

91
4.1.15 Prophet para costo de consumo de agua comercial.

La Figura 42, representa la tendencia de costo de consumo de agua comercial,


en la cual existe un comportamiento de tendencia ascendente con periodos irregulares
de la serie, también se observa la variabilidad durante los periodos de 2015 hasta
2019, y en año 2020 se presentó la pandemia de COVID-19, lo cual ha causado
problemas de salud, aislamiento, hospitalización, compra de medicamentos; por tal
razón el consumo de agua comercial en los diferentes establecimiento fue cerrado y
los pagos no fueron normales.

Figura 42
Serie histórica del costo de consumo de agua comercial con Machine Learning -
Prophet

La Figura 43, presenta la descomposición de costo de consumo de agua


comercial divididos en tendencia, estacionalidad, y errores, los cuales permiten
visualizar la estacionalidad, la distribución de los errores que se distribuyen en forma
aleatoriamente lejos de la línea horizontal del gráfico.

92
Figura 43
Descomposición de la serie histórica del costo de consumo de agua comercial con
Machine Learning - Prophet

La Figura 44, muestra la predicción de costo de consumo de agua comercial


que es muy similar a la serie real (actual), lo que significa que la técnica de Facebook
Prophet presenta un mejor ajuste a la serie de datos con comportamientos de la
tendencia (cambios no periódicos), estacionalidad (cambios periódicos), y días
festivos, lo que demuestra una estimación coherente con los datos reales y la
predicción de la serie.

93
Figura 44
Predicción del costo de consumo de agua comercial con Prophet, periodo: 2015-
2020

La Figura 45, presenta el pronóstico para el año 2021, en la que aparece la


tendencia ascendente hasta diciembre de 2019 y a partir de enero a diciembre del año
2020 tiende al decaimiento en los pagos del consumo de agua comercial en los
diferentes establecimientos.

Figura 45
Pronóstico del costo de consumo de agua comercial con Prophet, periodo: 2015-
2020

94
En la Tabla 13, las métricas de evaluación para la predicción, indican que
para el MAPE = 5.31 y RMSE=18593.92 que son los errores estimados para el
modelo y el Coeficiente de Determinación de R2 = 81.70% depende de la variabilidad
de costo de consumo de agua comercial y 18.30% es explicado por otros factores
extraños al modelo, por consiguiente el modelo es aceptable para realizar la
predicción o puede recomendarse para otros trabajos similares.

Tabla 13
Evaluación de métricas de precisión para la técnica de PROPHET del costo de
consumo de agua comercial, periodo: 2015-2020

PROPHET MSE RMSE MAE MAPE R2


Test set 345733689.255 18593.915 12706.727 5.31334 0.817016

4.1.16 Random Forest (RF) para costo de consumo de agua comercial.

La Figura 46, presenta la tendencia de la estimación del modelo de costo de


consumo de agua comercial con Random Forest, no se obtuvo una mejor estimación
a la serie de datos, por lo que se afirma que Random Forest necesita mayor cantidad
de variables y observaciones para que se ensamble mejor en la estimación del
modelo.

Figura 46
Pronóstico del costo de consumo de agua comercial con Random Forest, periodo:
2015-2020

En la Tabla 14, las métricas de evaluación para el pronóstico, indican que el


MAPE = 16.3287 y RMSE=48097.941 que son los errores estimados del modelo y

95
R2 = 4.32% que es muy bajo para el costo de consumo de agua comercial, por
consiguiente, el modelo no es recomendable para realizar pronósticos o adaptaciones
para otros trabajos similares.

Tabla 14
Evaluación de métricas para RANDOM FOREST del costo de consumo de agua
comercial, periodo: 2015-2020
RANDOM
FOREST MSE RMSE MAE MAPE R2
Test set 2313411937.740 48097.941 37100.607 16.3287 0.043199

En la Tabla 15, se realizó la comparación de evaluación de las métricas para


cada uno de los modelos estimados con el menor RMSE=18593.915 presentó el
modelo prophet, y seguidamente Random Forest con RMSE=48097.94, los demás
modelos son mayores a los anteriores y por consiguiente no se recomienda para el
pronóstico hacia el futuro.

Tabla 15
Resumen de la evaluación de métricas del costo de consumo de agua comercial,
periodo: 2015-2020

DESCRIPCIÓN MSE RMSE MAE MAPE R2


ARIMA - Test 2557541344.180 50572.140 42647.420 18.6737 ---
RED NEURONAL -
Test 3724192204.346 61026.160 49377.740 21.9998 ---
PROPHET - Test 345733689.255 18593.915 12706.727 5.31334 0.817016
RANDOM FOREST -
Test 2313411937.740 48097.941 37100.607 16.3287 0.043199

4.2 Discusión

El trabajo realizado con datos de costos de consumo de agua doméstico con enfoque
de Box-Jenkins fue ARIMA(0,1,1)(1,0,0)12 que concuerda con Limache Sandoval (2021)
que pronosticó para la ciudad de Tacna un ARIMA (0,1,1)(0,1,1)12, también Ristow et al.
(2021) reportaron pronósticos de la demanda de agua para la ciudad de Joinville en el primer
semestre de 2018, con resultados de modelo ARIMA estacional para predecir el consumo de
96
agua con errores porcentuales absolutos medios (MAPE) que varían de 1,19 a 15,74% que
son superiores al presente trabajo con (MAPE) que varían desde 1,95 a 2.47 para modelos
ARIMA (1.95), Red Neuronal Artificial (2.47), Prophet (1.96) y Random Forest (2.47),
demostrando que la Red Neuronal Artificial y Random Forest coinciden con MAPE para la
serie de tiempo de costo de consumo de agua doméstico.

Los modelos de series de tiempo desarrollado en el presente trabajo fue ARIMA, Red
Neuronal Artificial, Facebook Prophet y Random Forest con sus métricas de precisión, lo
cual concuerda con Feng et al. (2022) quienes desarrollaron modelos similares para
pronosticar el número de lesiones por accidente de tráfico (RTI). Los parámetros del modelo
SARIMA determinaron a través de la funciones de (acf) y (pacf), mientras que el modelo
Prophet implementaron con Python. El error cuadrático medio (RMSE), error absoluto
medio (MAE) y el Error Porcentual Absoluto Medio (MAPE) usaron para medir y comparar
los modelos estimados, también corrobora Kavya et al. (2023) que la demanda de agua
aumenta con el crecimiento económico y la población, el pronóstico de modelos univariados
fueron para pronosticar la demanda de agua con un error absoluto medio (MAE) de 0,11
m3/h para la demanda de agua a corto plazo y garantizar los recursos hídricos.

Los resultados estimados para serie histórica del costo de consumo de agua
doméstico es concordante con Singh et al. (2023) quienes estimaron modelos de pronóstico
de series temporal estacional, además realizaron varios métodos de aprendizaje automático
(SARIMA, Holt-Winters Exponential Smoothing, ETS, Facebook Prophet, XGBoost y Long
Short-Term Memory) que fueron implementados con Python, lo cual concuerda con la
implementación del trabajo realizado con Python, asimismo reportaron el coeficiente de
determinación de R2 de más de 0,95, que es mayor a Prophet con R2 de 90.44% con una
diferencia de 4.56%, lo que podría atribuirse que los autores han estimado el modelo con
mayor cantidad de datos. También Ayala Bizarro et al. (2019) estimaron para agua potable
de Huancavelica para la categoría de consumo de agua para 2004-2018 con ARIMA (0,1,1)
(2,0,0)12, y para el consumo de agua doméstico fue ARIMA (0,1,2) (0,0,2)12, comparados
con el presente trabajo son similares los modelos, pero con diferentes procesos de la parte
regular y estacional.

En el trabajo, se analizó con la técnica de Facebook Prophet para la predicción y se


comparó con el modelo ARIMA tradicional de mercado de valores, y se demostró que la
predicción realizada con Prophet fue cerca al valor real que presentó una mejor precisión de

97
predicción con una tasa de error menor, en comparación con modelos ARIMA y Prophet de
ticker hdfcbank que fueron analizados durante diez años con el uso de Prophet para mejorar
el rendimiento; sin embargo, la dificultad se presentó con grandes conjuntos de datos en la
escalabilidad, y para aumentar la escalabilidad y gestionar grandes conjuntos de datos,
Prophet puede utilizar la metodología de aprendizaje por transferencia Sharma et al. (2022),
realizaron en forma similar con modelos tradicionales ARIMA y la técnica de Prophet que
presentaron características diferentes para modelos de series de tiempo en la implementación
de los algoritmos realizado en el presente trabajo de investigación.

Las empresas de servicios públicos, según Schmidt et al. (2017), utilizaron tarifas
basadas en costos fijos y variables para fijar el precio del agua, garantizando un nivel de
consumo. Alagarsamy et al. (2022) añadieron que la mayor parte del agua utilizada se
basaron en la facturación automatizada que es notificado a los usuarios y facilita el pago en
línea. Además, Pérez et al. (2020) reportaron que el consumo doméstico depende de factores
climáticos, socioeconómicos y culturales. En San Cristóbal-Venezuela, el consumo fue de
307,6 l/hab/día en las actividades de cocina, inodoro, la ducha, y el lavado. Los autores
remarcan la educación ambiental para promover el uso racional y eficiente del agua, lo cual
corrobora el uso racional de agua doméstico y comercial para las actividades de cocina,
inodoro, ducha, lavado y para el regadío de las plantas.

Kontopoulou et al. (2023) destacan la Inteligencia Artificial (IA) con técnicas de


aprendizaje automático y profundo que son comparados con ARIMA y usaron el aprendizaje
automático para pronosticar en diversas áreas, lo cual se corrobora con los modelos de
ARIMA y aprendizaje automático en el presente trabajo de investigación, así Ayala Bizarro
et al. (2019) pronosticaron con ARIMA el consumo de agua en Huancavelica-Perú para
racionalizar una dotación menor a la normativa y se proyectaron al 2030, también García-
Soto et al. (2024) resaltaron la aplicación de modelos para gestión del agua con la red
neuronal profunda para pronosticar el consumo de agua en Murcia-España, obteniendo
resultados más precisos, resaltando la importancia de las técnicas de predicción para una
planificación y gestión eficientes del recurso hídrico, además Soncco Silva (2019) realizó la
evaluación de costo a pagar por agua y saneamiento en hogares de la periferia de Juliaca-
Perú, aplicando la metodología de valoración indirecta para los familias dispuestos a pagar
S/ 19.25 mensuales para evitar la contaminación de la salud y la calidad de agua potable con
un beneficio económico total de S/ 3,617,974.21, lo cual resalta la valoración económica del
acceso al agua y saneamiento, el trabajo realizado concuerda con los autores mencionados

98
en el uso de modelos de aprendizaje automático con fines de realizar los pronósticos y tomar
decisiones adecuadas.

Los resultados de comparación de modelos de costo de consumo de agua doméstico


y comercial con el enfoque de Box-Jenkins, y las técnicas de Redes Neuronales Artificiales,
Prophet, y Random Forest, aún presentan vacíos en la aplicación a datos reales en las
diferentes disciplinas del conocimiento, por tal razón es importante usar las técnicas de
machine learning para obtener mejores aproximaciones y precisión adecuada en los trabajos
de investigación.

99
CONCLUSIONES

PRIMERO: La serie de tiempo para el costo de consumo de agua doméstico es un modelo


ARIMA(0,1,1)(1,0,0)12 con una estimación de parámetros que se ajustó el
modelo para realizar el pronóstico para la Región de Puno:

𝑍𝑡 = 𝑍𝑡−1 + 0.33566𝑍𝑡−12 + 0.6769𝜀𝑡−1

SEGUNDO: La serie de tiempo para el costo de consumo de agua comercial para la Región
de Puno, es un modelo ARIMA(0,1,2)(1,0,0)12 con una estimación de
parámetros que se ajustó mejor el modelo para realizar el pronóstico:

𝑍𝑡 = 𝑍𝑡−1 + 0.44275𝑍𝑡−12 − Φ13 𝑍𝑡−13 + 𝜀𝑡 + 0.32914𝜀𝑡−2

TERCERO: Se realizó la evaluación de las métricas de precisión para costo de consumo


de agua doméstico con RMSE, MAE y MAPE para el modelo
ARIMA(0,1,2)(1,0,0)12, Red Neuronal Artificial, Prophet y Randon Forest,
se concluye con el menor valor de MAPE de 1.945 frente a los demás
modelos como modelo adecuado; para el costo de consumo de agua comercial
el modelo fue ARIMA(0,1,2)(1,0,0)12, que resultó el modelo Facebook
Prophet con el menor valor de MAPE de 5.313 frente a los demás modelos y
se considera como modelo adecuado.

100
RECOMENDACIONES

PRIMERO: Se recomienda a las instituciones del Estado y otros, la generación de datos


y la actualización para realizar la estimación de los modelos y pronosticar a
la serie de tiempo y tomar decisiones coherentes.

SEGUNDO: Se recomienda para las técnicas de redes neuronales, Prophet y Random


Forest, realizar con mayor cantidad de series históricas para una mejor
aproximación de algoritmos y obtener las métricas de precisión óptimas.

TERCERO: Se recomienda usar para el modelamiento de series temporales el software


libre R y Python en sus versiones actualizadas.

CUARTO: Realizar modelos de series de tiempo multivariados con varias variables


dependientes y con mayor cantidad de datos de series de tiempo.

101
BIBLIOGRAFÍA

Adams, A. S., & sociedad, N. P. P. (2010). Factores que afectan la demanda de agua para uso
doméstico en México. scielo.org.mx, 22(49).
https://www.scielo.org.mx/scielo.php?pid=S1870-
39252010000300001&script=sci_abstract&tlng=en

Aguero, J. C. (2010). Entre las demandas reivindicativas y ambientales: conflictos por el agua
en la zona metropolitana Córdoba-Orizaba, Veracruz, 1990-2006. www.uv.mx/bdh

Agyemang, E. F., Mensah, J. A., Ocran, E., Opoku, E., & Nortey, E. N. N. (2023). Time series
based road traffic accidents forecasting via SARIMA and Facebook Prophet model with
potential changepoints. Heliyon, 9, e22544.
https://doi.org/10.1016/j.heliyon.2023.e22544

Alagarsamy, S., Sreshta, D., & D. R. (2022). Pattern Recognition based Smart Billing System
for Water Consumption. ieeexplore.ieee.org.
https://ieeexplore.ieee.org/abstract/document/9835742/

Alburqueque, M., Ramos, J., Marchena, C., & Ramírez, E. (2021). Gestión y estudio evolutivo
del agua para el desarrollo sostenible de la región Piura, Perú. Revista Innova
Educación, 3(3), 109–122. https://doi.org/10.35622/J.RIE.2021.03.008

Alexis, A., Apaza, Z., Sair, S., Gárate, O., Javier, A. E., Cuadros, C., Miriam, P., & Ccasa, C.
(2022). Predictive model of water potability through a decision tree in Artificial
Intelligence. Innovation and Software, 3(2), 121–131.
https://doi.org/10.48168/innosoft.s9.a72

Arocha, S. (2006). Abastecimiento de Agua Potable. Lima: San Marcos.

Asteriou, Dimitrios., & Hall, S. G. (2022). Applied econometrics.


https://www.bloomsbury.com/us/applied-econometrics-9781352012026/

Ayala Bizarro, I., Contreras Espinoza, I., Aguirre Vera, C., López Barrantes, M., Ortega Vargas,
J., Olivera Quintanilla, A., Lujan Jeri, H., & Alcántara Espinoza, E. (2019).
Determination of the Real Dotation and Forecast of the Potable Water System in the
Huancavelica City, Peru. davidpublisher.com, IC Espinoza, CA Vera, ML Barrantes, JO

102
Vargas, AO Quintanilla, HL Jeri, EA Espinozadavidpublisher.com, 8, 241–248.
https://doi.org/10.17265/2162-5298/2019.06.002

Briseño, H., & Macedo, E. (2021). Disposición a pagar para mejorar la calidad del agua en
Zapopan. Tecnología y ciencias del agua, 12(1), 402–434. https://doi.org/10.24850/J-
TYCA-2021-01-10

Conagua. (2007). Manual de agua potable, alcantarillado y saneamiento MAPAS.


CONAGUA.

Cryer, J., & Chan, K.-S. (2008). Times Series Analysis with applications in R (Springer, Ed.;
Second).

De Losso, R. S. (2012). Econometria das Séries Temporais.


https://www.researchgate.net/publication/273449320_Econometria_de_series_tempor
ais

Decreto Legislativo N° 1240. (2017). Decreto Legislativo N.° 1240 - Normas y documentos
legales - Ministerio del Ambiente - Plataforma del Estado Peruano.
https://www.gob.pe/institucion/minam/normas-legales/3611-1240

Dumler Cuya, F., & (SEDAPAL), S. de A. P. y A. de L. (2019). Innovaciones para la gestión


de SEDAPAL.

Durán, G. (2015). Agua y pobreza en Santiago de Chile: Morfología de la inequidad en la


distribución del consumo domiciliario de agua potable. EURE (Santiago), 41(124),
225–246. https://doi.org/10.4067/S0250-71612015000400011

EMSA, & PUNO. (2022). MEMORIA ANUAL DE EMSA-PUNO - Búsqueda.


https://www.bing.com/search?q=MEMORIA+ANUAL+DE+EMSA-PUNO

Feng, T., Zheng, Z., Xu, J., Liu, M., Li, M., Jia, H., & Yu, X. (2022). The comparative analysis
of SARIMA, Facebook Prophet, and LSTM for road traffic injury prediction in
Northeast China. Frontiers in Public Health, 10.
https://doi.org/10.3389/FPUBH.2022.946563

103
García-Soto, C. G., Torres, J. F., Zamora-Izquierdo, M. A., Palma, J., & Troncoso, A. (2024).
Water consumption time series forecasting in urban centers using deep neural networks.
Applied Water Science, 14(2), 1–14. https://doi.org/10.1007/S13201-023-02072-
4/FIGURES/16

Gomez-Ugalde, Mora_Flores, García Salazar, & Valdivia Alcala. (2012). Demanda de agua
para uso residencial y comercial. https://www.scielo.org.mx/scielo.php?pid=S0187-
57792012000400337&script=sci_arttext

Gonzalez, C. E., & Draghi, R. (2021). Diseño de Muestreo. Manual de técnicas y protocolos
para el relevamiento y estudio de anfibios de Argentina, 24–32.
https://ri.conicet.gov.ar/handle/11336/156720

Guerrero, V. (2009). Análisis Estadístico y pronóstico de Series de Tiempo económicas (S. A.


de C. V. M. Alfa e Impresores, Ed.; Tercera Edición).

Hamilton, J. D. (2020). Time Series Analysis. https://doi.org/10.2307/J.CTV14JX6SM

Hanke, J., & Wichern, D. (2010). Pronósticos en los negocios (Printice Hall, Ed.; Novena).

Huaquisto Cáceres, S., & Chambilla Flores, I. G. (2019). ANÁLISIS DEL CONSUMO DE
AGUA POTABLE EN EL CENTRO POBLADO DE SALCEDO, PUNO.
INVESTIGACION & DESARROLLO, 19(1), 133–144.
https://doi.org/10.23881/IDUPBO.019.1-9I

INEI. (2017). RESULTADOS DEFINITIVOS - PUNO. RESULTADOS DEFINITIVOS -


PUNO.
https://view.officeapps.live.com/op/view.aspx?src=https%3A%2F%2Fwww.inei.gob.p
e%2Fmedia%2FMenuRecursivo%2Fpublicaciones_digitales%2FEst%2FLib1563%2
Fcuadros%2F21TOMO_01.xlsx&wdOrigin=BROWSELINK

Jiménez, D., Orrego, S., Vásquez, F., Ponce, R., Jiménez, D., Orrego, S., Vásquez, F., & Ponce,
R. (2017). Estimación de la demanda de agua para uso residencial urbano usando un
modelo discreto-continuo y datos desagregados a nivel de hogar: el caso de la ciudad
de Manizales, Colombia. Lecturas de Economía, 86(86), 153–178.
https://doi.org/10.17533/UDEA.LE.N86A06

104
Kavya, M., Mathew, A., Shekar, P. R., & P, S. (2023). Short term water demand forecast
modelling using artificial intelligence for smart water management. Sustainable Cities
and Society, 95, 104610. https://doi.org/10.1016/J.SCS.2023.104610

Kontopoulou, V. I., Panagopoulos, A. D., Kakkos, I., & Matsopoulos, G. K. (2023). A Review
of ARIMA vs. Machine Learning Approaches for Time Series Forecasting in Data
Driven Networks. Future Internet 2023, Vol. 15, Page 255, 15(8), 255.
https://doi.org/10.3390/FI15080255

Laura Castillo, M. V. (2015). Análisis económico del consumo medido de agua potable en la
ciudad de Puno. Revista Investigaciones Altoandinas, ISSN 2306-8582, ISSN-e 2313-
2957, Vol. 17, No. 1, 2015, págs. 117-124, 17(1), 117–124.
https://doi.org/10.18271/ria.2015.87

Limache Sandoval, E. (2021). MODELO “ARIMA” SOBRE EL CONSUMO DE AGUA DE


USO POBLACIONAL EN LA CIUDAD DE TACNA. revistas.upt.edu.pe, 10(1).
https://revistas.upt.edu.pe/ojs/index.php/vestsc/article/download/461/393?inline=1

Manaloto, R., Psychology, C. C.-J. of P. S., & 2022, undefined. (2022). Water Billing System
with Business Intelligence and Data Analytics. journalppw.com, 2022(5), 4554–4558.
https://www.journalppw.com/index.php/jpsp/article/view/7263

Martín del Brío, B., & Sanz Molina, A. (2007). Redes Neuronales y Sistemas Borrosos (Tercera
Edición). Alfaomega Grupo Editor, S.A. de C.V.

Mckinney, W. (2022). Python for Data Analysis Data Wrangling with pandas, NumPy &
Jupyter. 1–520.

Montenegro, Alvaro. (2011). Análisis de series de tiempo. 1–395.


https://www.bing.com/search?pglt=169&q=Montenegro+García+Alvaro+-
+Análisis+de+series+de+tiempo&cvid=a2dc78a24ae5463992befca3fd737736&gs_lcr
p=EgRlZGdlKgYIABBFGDkyBggAEEUYOdIBCTMzODU4ajBqMagCALACAA&
FORM=ANNTA1&PC=HCTS

OMS. (2022). Organización Mundial de Salud.

OS.010. (2014). Reglamento Nacional de Edificaciones, Titulo II Obras de Saneamiento,


normas OS.010 a la OS.100, julio 2014.

105
Otero, J. (1993). Econometría. Series temporales y predicción (Editorial AC, Ed.; Primera).

Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a Estudio.
International Journal of Morphology, 35(1), 227–232. https://doi.org/10.4067/S0717-
95022017000100037

Peixeiro, M. (2022). Time Series Forecasting in Python. Manning Publications Co., 23.
https://www.manning.com/books/time-series-forecasting-in-python-book

Peña, D. (2010). Análisis de Series Temporales. (Alianza Editorial, Ed.; Segunda Edición).
Alianza Editorial.

Perez, F. (2008). Modelos ARIMA-ARCH. Algunas aplicaciones a las series de tiempo


financieras (Sello Editorial, Ed.; Primera).

Pérez López, C. (2012). Econometría básica. https://www.marcialpons.es/libros/econometria-


basica/9788415452027/

Pérez, Z., González, M., Azul, D. R.-R. L., & 2020, undefined. (2020). Estimación y hábitos
del consumo de agua para fines domésticos en una zona residencial de San Cristóbal,
Venezuela. redalyc.orgZER Pérez, MJC González, DCR RomeroRevista Luna Azul,
2020•redalyc.org. https://doi.org/10.17151/luaz.2020.51.6

Raita, Y., Goto, T., Faridi, M. K., Brown, D. F. M., Camargo, C. A., & Hasegawa, K. (2019).
Emergency department triage prediction of clinical outcomes using machine learning
models. Critical Care, 23(1), 1–13. https://doi.org/10.1186/S13054-019-2351-
7/FIGURES/4

Ristow, D., Henning, E., … A. K.-J. of water, & 2021, undefined. (2021). Models for
forecasting water demand using time series analysis: a case study in Southern Brazil.
iwaponline.com. https://doi.org/10.2166/washdev.2021.208

Sah, S., Surendiran, B., Dhanalakshmi, R., Mohanty, S. N., Alenezi, F., & Polat, K. (2022).
Forecasting COVID-19 Pandemic Using Prophet, ARIMA, and Hybrid Stacked LSTM-
GRU Models in India. Computational and Mathematical Methods in Medicine, 2022.
https://doi.org/10.1155/2022/1556025

106
Schmidt, A., Research, L. L.-J. of C. W., & 2017, undefined. (2017). The Cost of Stability:
Consumption‐Based Fixed Rate Billing for Water Utilities. Wiley Online Library,
160(1), 5–24. https://doi.org/10.1111/j.1936-704X.2017.03237.x

Sharma, K., Bhalla, R., & Ganesan, G. (2022). Time Series Forecasting Using FB-Prophet.
ceur-ws.orgK Sharma, R Bhalla, G GanesanACM, 2022•ceur-ws.org. https://ceur-
ws.org/Vol-3445/PAPER_07.pdf

Singh, D., Werner, F., Kramar, V., & Alchakov, V. (2023). Time-Series Forecasting of Seasonal
Data Using Machine Learning Methods. Algorithms 2023, Vol. 16, Page 248, 16(5),
248. https://doi.org/10.3390/A16050248

Soncco Silva, Y. L. (2019). Valoración económica del efecto en la salud por el cambio en la
calidad del agua en la ciudad de Juliaca. Universidad Nacional del Altiplano.
https://repositorio.unap.edu.pe/handle/20.500.14082/13497

Sucasaca, Y., Parra, B., Mamani, J., & Alfa, I. C.-R. (2024). Disponibilidad a pagar por la
sostenibilidad del servicio de agua potable en el Centro Poblado Chucaripo, Perú.
revistaalfa.org, 8(22), 273–283.
https://revistaalfa.org/index.php/revistaalfa/article/view/352

Succetti, F., Rosato, A., & Araneo, R. (2020). Deep neural networks for multivariate prediction
of photovoltaic power time series. ieeexplore.ieee.orgF Succetti, A Rosato, R Araneo,
M PanellaIEEE Access, 2020•ieeexplore.ieee.org.
https://ieeexplore.ieee.org/abstract/document/9265261/

Tsay, R. S. (2014). Multivariate Time Series Analysis With R and Financial Applications. Syria
Studies, 7(1), 37–72. https://www.wiley.com/en-
it/Multivariate+Time+Series+Analysis%3A+With+R+and+Financial+Applications-p-
9781118617908

Uriel, E. (1985). Análisis de series temporales modelos ARIMA (S. A. Artes Gráficas Benzal,
Ed.; Primera).

Uriel, E. (1995). Análisis de datos. Series temporales y Análisis multivariante (Editorial AC,
Ed.; Primera).

107
Wei, W. (2006). Times series analysis. Univariate and multivariate (Pearson Addison Wesley,
Ed.; Second).

Zhang, L., Bian, W., Qu, W., Tuo, L., & Wang, Y. (2021). Time series forecast of sales volume
based on XGBoost. Journal of Physics: Conference Series, 1873(1).
https://doi.org/10.1088/1742-6596/1873/1/012067

108
ANEXOS

Anexo 1. Matriz de consistencia

Interrogantes Hipótesis Objetivos Prueba


específicas Estadística
especificas específicos Variables Indicadores Métodos
Inferencial

¿Cuál es el modelo de El modelo adecuado con Determinar el modelo VI: tiempo Facturación Metodología de Función de
serie tiempo y Machine enfoque de Box-Jenkins y para describir el expresado en autocorrelaciones,
mensual en S/. Box – Jenkins y
Learning para describir Machine Learning se modela comportamiento con periodo mensual de SARIMA(p,d,q)(P,
el mejor mejor en describir el Machine Learning en 2015-2020 Machine Learning D,Q)12, Enfoque
comportamiento en el comportamiento del consumo el consumo de agua de Box-Jenkins,
consumo de agua de agua doméstico y doméstico y VD: Costo (S/) Prueba Dickey-
doméstico y comercial, comercial, periodo 2015 - comercial, periodo mensual del Fuller (ADF),
periodo 2015 – 2020? 2020. 2015 - 2020. consumo de agua Prueba de Box-
doméstico y Ljung y las técnicas
¿El modelo identificado Los pronósticos del modelo Realizar pronósticos comercial de
permite realizar los de serie de tiempo con del modelo de serie de Machine Learning
pronósticos de serie de Machine Learning para el tiempo con Machine con R y Python.
tiempo y Machine consumo de agua doméstico y Learning de consumo
Learning de consumo comercial, se obtiene con la de agua doméstico y
de agua doméstico y metodología de Box-Jenkins. comercial de la
comercial, periodo Región de Puno,
2015 – 2020? periodo 2015 - 2020.

109
Anexo 2. Pronósticos con prophet – consumo de agua doméstico

ds yhat yhat_lower yhat_upper


0 2015-01-01 424145.826472 408708.638370 439215.870816
1 2015-02-01 400729.346874 384298.342398 416533.743033
2 2015-03-01 374590.964100 359066.218264 390613.240832
3 2015-04-01 391911.060221 376465.982624 406968.172874
4 2015-05-01 391389.320040 375026.883784 407762.608657
5 2015-06-01 397274.848865 381708.018926 414103.345834
6 2015-07-01 404695.921232 388688.303732 419892.614030
7 2015-08-01 400682.643998 384238.995270 415843.389344
8 2015-09-01 418163.766293 401302.280054 434761.580822
9 2015-10-01 463742.864130 448532.172724 479692.720201
10 2015-11-01 448250.733621 434029.179657 464801.694368
11 2015-12-01 456267.110420 439966.225029 471689.173814
12 2016-01-01 441846.471430 426894.890340 458130.250289
13 2016-02-01 447190.716631 431411.433708 463315.184395
14 2016-03-01 432314.763127 416432.011112 447645.327081
15 2016-04-01 454189.069423 438233.847169 469995.205409
16 2016-05-01 460307.082193 443381.682654 475792.908008
17 2016-06-01 450155.679811 433530.047495 464613.644536
18 2016-07-01 452844.013578 436205.740981 468445.087183
19 2016-08-01 468773.631817 452706.761138 484208.545007

110
Anexo 3. Códigos de R para series de tiempo ARIMA de consumo de agua doméstico

library(xts)
library(aTSA)
library(fable)
library(ggplot2)
library(fpp2)
library(forecast)
library(tsibble)
library(tseries)
library(tsbox)
library(plyr)
library(reshape)
library(RCurl)
library(quantmod)
library(lubridate)
library(dplyr)
library(ggplot2)
library(caret)
library(TSA)
library(Quandl)
library(readxl)
library(tidyverse)

# Lectura de datos originales


data1 = read.table("E:/data/costo_domestico.txt", header=TRUE)
attach(data1)
data1
View(data1)

# Exploración con datos a través de gráficas


model1 = ts(data1, start = c(2015,1), end = c(2020,12), frequency = 12)
model1

plot(model1, lwd=2, col=c("blue"), ylab="S/. consumo de agua", xlab="Años", main="")


plot(decompose(model1), lwd=2, col=c("blue"))

acf(model1, col="2", lwd=3,lag.max = 40, xlab="Rezagos", ylab="Valores", main="acf -


Correlograma")

pacf(model1, col="2", lwd=4,lag.max = 40, xlab="Rezagos", ylab="Valores",


main="pacf - Correlograma")

#library(feasts)
#library(ggpubr)
#forecast::ggsubseriesplot(ts(data1$DOMESTIC, start=c(2015,1),frequency=12))
ndiffs(model1)
# Augmented Dickey-Fuller test para ver la no estacionariedad
# Se observa la probabilidad de ser no estacionaria
# Si p-value >  = 0.05, la serie no es estacionaria (tiene tendencia)

111
# Si p-value <  = 0.05, la serie es estacionario (no hay tendencia)

adf.test(model1, alternative="stationary")

# Se realiza la diferenciación con el comando


tdiff = diff(model1); tdiff

# Graficar la serie diferenciada


plot(tdiff, xlab="Años", ylab="Serie diferencia d=1", main="", lwd=2, col=c("blue"))
# Se realiza las funciones de autocorrelaciones acf y pacf
acf(tdiff, col = "2", lwd=3, lag.max = 40, xlab="Lags ", ylab="Valores", main="acf -
Correlograma")

pacf(tdiff, col="2", lwd=3,lag.max = 40, xlab="Rezagos", ylab="Valores", main="pacf -


Correlograma")

# Prueba de Dick-Fuller para la serie diferenciada


# Ho: La serie en d = 1 no es estacionaria.
# Ha: La serie en d = 1 es estacionaria.

adf.test(tdiff, alternative="stationary")

# El uso de auto.arima para determinar el modelo adecuado


ARIMA1 = auto.arima(model1, allowdrift = F)
ARIMA1 # ARIMA(0,1,1)(1,0,0)12 MA(1)= -0.6769, SAR(1) = 0.3357

# ESTIMACION DE MODELO
arima1 = arima(model1, order = c(0,1,1), seasonal = c(1,0,0)); arima1
plot(arima1, lwd=2, xlab="Años", ylab="Costo de consumo en S/.", col=c("blue"))

library(lmtest)
coeftest(arima1)

# DIAGNOSTICO DEL MODELO O VALIDACIÓN DEL MODELO


plot.ts(arima1$residuals, main="Residuales del modelo", xlab="Años",
ylab="Residuales", lwd=2, col=c("blue"))

# Funciones de autocorrelaciones residuales acf y pacf


acf(arima1$residuals, main="Autocorrelación de los residuales", xlab="Rezagos",
ylab="autocorrelación acf", lag=30, lwd=3, col=c("red"))

pacf(arima1$residuals, main="Autocorrelaciones parciales", xlab="Rezagos",


ylab="autocorrelación pacf", lag=30, lwd=3, col=c("red"))

# Normalidad de los residuales


qqnorm(arima1$residuals, main="Gráfica Q para evaluar normalidad")
qqline(arima1$residuals, lwd=2, col=c("blue"))

library(nortest)
# Se realiza la prueba de shapiro.test(arima1$residuals)

112
lillie.test(arima1$residuals)

# PREDICCIÓN DEL MODELO


Box.test(arima1$residuals, lag = 30, type = "Ljung-Box")

# Se realiza el pronóstico
# forecast(arima1, 12)
# plot(forecast(arima1, h = 12))

# Metodo 1: son gráficas que se debe presenta en pantalla completa


tsdiag(ARIMA1, lwd=3, col=c("blue"))

Box.test(ARIMA1$residuals, la g = 30, type = "Ljung-Box")


#=== Box-Ljung Test, su p-value = 0.5503 > 0.05, entonces
# la serie no tiene autocorrelacion y existe ruido blanco.

# Método 2
Checkresiduals (ARIMA1, lwd=2, col=c("blue"))

# El p-value= 0.233 es mayor  = 0.05, entonces cumple con ruido blanco


# Modelo para apropiado para proyecciones

# Observaciones versus valores esperados del modelo


plot(ARIMA1$x, col = "blue", lwd = 2, main = "", ylab="Costo consumo (S/)",
xlab="Tiempo en Años")
lines(fitted(ARIMA1), col="red", lwd=2)

### Prediccion del modelo identificado


forecast(ARIMA1, h = 12)
autoplot(forecast::forecast(ARIMA1, h=12, lwd = 2, col = c("red")),
main="Pronóstico de la Serie ARIMA(0,1,1)(1,0,0)[12]", xlab = "Tiempo en Años",
ylab = "Pronóstico de costo")
airpass = as.data.frame(forecast(ARIMA1,h=12))
airpass

113
Anexo 4. Códigos de R para Redes Neuronales Artificiales de consumo de agua
doméstico

library(readxl)
library(fpp2)
library(forecast)
library(fma)
library(ggplot2)
library(ggpubr)
library(modeltime)
library(car)
library(astsa)
library(stats)
library(moments)
library(quantmod)
library(lubridate)
library(dplyr)
library(tidyr)
library(caret)
library(ggpubr)
library(ggplot2)
library(car)
library(modeltime)
library(rstatix)
library(tidyverse)

##Crear serie y visualizar en R


data1<-read.table("e:/data/costo_domestico.txt", header=TRUE)
data_serie<-ts(data1, start=c(2015,1), end=c(2020,12), frequency=12)
data_serie
autoplot(data_serie, col="blue", lwd=1)

##Crear tendencia de la serie y visualizar en R


fit = decompose(data_serie, type = 'additive')
autoplot(fit) + labs(title = "Descomposicion de la serie", x = "tiempo", y = "valor",
colour= "Gears") + theme_bw()
##Crear tendencia de la serie y visualizar en R multiplicativa
fit = decompose(data_serie, type = 'multiplicative')
autoplot(fit) + labs(title = "Descomposicion de la serie", x = "tiempo", y="valor", colour
= "Gears") + theme_bw()
## Grafico de la serie con su tendencia y se borraron 12 datos
autoplot(data_serie, series = "data1") + autolayer(trendcycle(fit), series = "tendencia") +
labs(title="descomposicion de la serie", x = "tiempo", y = "valor", colour =
"Gears")+theme_bw()
## Grafico de la serie de tiempo de su estacionalidad
ggseasonplot(data_serie)

#Elaborando el método ARIMA y graficamos


modelo_arima = auto.arima(data_serie, allowdrift = F)
modelo_arima
114
m5 = forecast(modelo_arima, h=12)
m5
autoplot(m5, lwd=2, col="red")

# Verificando el ajuste del método, es buen ajuste cercano a cero, no hay variabilidad
autoplot(m5) + autolayer(fitted(m5), serie ="ajuste")

# Verificando los residuales, la distribución normal es cercano a cero, tiene buen ajuste,
y ACF los valores están dentro de las líneas azules
checkresiduals(m5)

#Elaborando el método Red Neuronal y graficamos


neural_network = nnetar(data_serie)
neural_network

m6 = forecast(neural_network, h=12)
m6
autoplot(m6, lwd=2, col="green")

# Verificando el ajuste del método


autoplot(m6) + autolayer(fitted(m6), serie ="Ajuste")

# Verificando los residuales, ACF no es buen ajuste, ni la distribucion es buena


checkresiduals(m6)

# Verificando que método es el mejor - Datos del 2020


real = c(546031.46,518581.59,502086.70,491240.91,495448.85,479048.68,
503085.90,492108.79,532810.28,499967.59,521566.01,508903.68)
data_real = ts(real, frequency = 12,start = 2021)
accuracy(m5, data_real)
accuracy(m6, data_real)

115
Anexo 5. Códigos de Prophet para el costo de consumo de agua doméstico

#####################################################################
-- Machine Learning - SERIES DE TIEMPO con PROPHET--
#####################################################################
# Conexion a Google Colaborative
from google.colab import drive
drive.mount('/gdrive')
Mounted at /gdrive
1. Se importa los Modulos
import pandas as pd # Dataframes
import numpy as np # Arreglos y matrices
import scipy.stats as stats
import matplotlib.pyplot as plt # Graficos
import seaborn as sns # para análisis gráficos
import random # para generar aleatorios
import xgboost as xgb
from sklearn.ensemble import RandomForestRegressor
import datetime as dt
from sklearn import metrics
from prophet import Prophet
from prophet.plot import plot_plotly
from prophet.diagnostics import cross_validation
from prophet.diagnostics import performance_metrics
from datetime import datetime
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import warnings
warnings.filterwarnings('ignore')

from prophet import Prophet


import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import itertools
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.tsa.stattools import adfuller
import statsmodels.api as sm
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
warnings.filterwarnings("ignore")
plt.style.use('fivethirtyeight')

2. Se realiza la lectura de datos


####### Lectura de datos
data =pd.read_csv('/gdrive/MyDrive/ML_prophet/domestic1.csv', sep=";")
data.head()
data.tail()
# Verificar los datos de formato adecuado

116
data.dtypes
# Convertir el objeto a Fecha
data['Fecha'] = pd.to_datetime(data['Fecha'])
data.dtypes

# Visualización de los datos


plt.figure(figsize=(8,5))
sns.lineplot(data=data, x="Fecha", y="DOMESTIC")
plt.title("Consumo de agua")
plt.grid(True)
plt.show()

##
from statsmodels.tsa.seasonal import seasonal_decompose
df=data.set_index('Fecha')
plt.rcParams["figure.figsize"]=(10,6)
a = seasonal_decompose(df["DOMESTIC"], model ="add")
a.plot();

## cambiamos las variables de columnas


data.columns=["ds","y"]
data.head()
###
Modelo = Prophet(growth = " linear ", seasonality_mode = "multiplicative",
changepoint_prior_scale = 30, seasonality_prior_scale = 35, daily_seasonality = False,
weekly_seasonality = False, yearly_seasonality = False).add_seasonality(name =
'monthly', period = 12, fourier_order = 20)
# Entrenar el modelo; modelo.fit(data)
future = modelo.make_future_dataframe(periods = 12, freq='m')
#
future.tail()
## Prediccion de valores reales con prophet, y verificar los 5 ultimos elementos
forecast = modelo.predict(future)
forecast.tail(10)

#
forecast[["ds","yhat","yhat_lower","yhat_upper"]].head()
## Grafico del pronostico
modelo.plot(forecast);
plt.title("Pronóstico de consumo de agua")
plt.show()

## Se realiza la evaluacion con metricas de: MSE, RMSE, MAE, MAPE y R2


from sklearn.metrics import mean_squared_error
from statsmodels.tools.eval_measures import rmse
from sklearn import metrics

## Metricas de precision para el pronostico de series de tiempo


def evaluacion_metrica(y_true, y_pred):

117
def mean_absolute_percentage_error(y_true, y_pred): y_true, y_pred =
np.array(y_true), np.array(y_pred) return np.mean(np.abs((y_true - y_pred) / y_true)) *
100
print('Evaluacion de la Métrica:')
print(f'MSE es : {metrics.mean_squared_error(y_true, y_pred)}')
print(f'MAE es : {metrics.mean_absolute_error(y_true, y_pred)}')
print(f'RMSE es : {np.sqrt(metrics.mean_squared_error(y_true, y_pred))}')
print(f'MAPE es : {mean_absolute_percentage_error(y_true, y_pred)}')
print(f'R2 es : {metrics.r2_score(y_true, y_pred)}', end='\n\n')

# Calcular MAE entre el valor esperado y pronostico - Total de datos 72


y_true =data['y'].values
y_pred = forecast['yhat'][:72].values

evaluacion_metrica(y_true, y_pred)
# gráfico con datos reales y prediccion
plt.figure(figsize=(8,4))

# plot expected vs actual


plt.plot(y_true, label='Actual')
plt.plot(y_pred, label='Pronóstico')
plt.title("Predicción de consumo de agua")
plt.grid(True)
plt.legend()
plt.show()

# Fin de código

118
Anexo 6. Declaración Jurada de Autenticidad de tesis

119
Anexo 7. Autorización para el depósito de tesis en el Repositorio Institucional

120

También podría gustarte