Ibañez Quispe Vladimiro
Ibañez Quispe Vladimiro
ESCUELA DE POSGRADO
TESIS
PRESENTADA POR:
PUNO, PERÚ
2025
UNIVERSIDAD NACIONAL DEL ALTIPLANO
ESCUELA DE POSGRADO
DOCTORADO EN ESTADÍSTICA APLICADA
TESIS
MODELOS DE SERIES DE TIEMPO CON MACHINE LEARNING DEL
COSTO DE CONSUMO DE AGUA COMERCIAL Y DOMÉSTICO DE LA
REGIÓN DE PUNO: 2015-2020
PRESENTADA POR:
VLADIMIRO IBAÑEZ QUISPE
PARA OPTAR EL GRADO ACADÉMICO DE:
DOCTORIS SCIENTIAE EN ESTADÍSTICA APLICADA
PRESIDENTE
………………..………….
Dr. LEONEL COYLA IDME
PRIMER MIEMBRO
………………..……………………...
Dr. MILTON ANTONIO LOPEZ CUEVA
SEGUNDO MIEMBRO
………………..…………….
Dr. JOSE PANFILO TITO LIPA
ASESOR DE TESIS
………………..……………….
Dr. BERNABE CANQUI FLORES
Dedico a mis padres que están en el cielo Clemente y Martina por darme la vida, y por
el apoyo que me brindaron en todo momento para encaminarme en la formación
profesional y lograr los grados con su esfuerzo, sacrificio, paciencia, y
constancia para lograr mi proyecto de vida.
i
AGRADECIMIENTOS
ii
ÍNDICE GENERAL
Pág.
DEDICATORIA i
AGRADECIMIENTOS ii
ÍNDICE GENERAL iii
ÍNDICE DE TABLAS vi
ÍNDICE DE FIGURAS vii
ÍNDICE DE ANEXOS x
ACRÓNIMOS xi
RESUMEN 1
ABSTRACT 2
INTRODUCCIÓN 3
CAPÍTULO I
REVISIÓN DE LITERATURA
1.1 Marco teórico 5
1.1.1 Fundamentos teóricos del consumo de agua potable 5
1.1.2 Serie de tiempo 9
1.1.3 Proceso estocástico 12
1.1.4 Estacionalidad 13
1.1.5 La función de autocorrelación (acf) 13
1.1.6 La función de autocorrelación parcial muestral (pacf) 15
1.1.7 Modelos de series temporales 15
1.1.8 Modelos de series de tiempo univariados 16
1.1.9 Operador de retardo y diferenciación de una serie 16
1.1.10 Modelos para series de tiempo univariadas AR, MA, ARMA y ARIMA 17
1.1.11 Modelos lineales no estacionarios 22
1.1.12 Modelos ARIMA estacionales 24
1.1.13 La metodología de Box-Jenkins 26
1.1.14 Redes neuronales 28
1.2 Antecedentes 32
1.2.1 Internacionales 32
1.2.2 Nacionales 35
iii
1.2.3 Locales 36
CAPÍTULO II
PLANTEAMIENTO DEL PROBLEMA
2.1 Identificación del problema 38
2.2 Enunciados del problema 38
2.2.1 Problema general 38
2.2.2 Problemas específicos 39
2.3 Justificación 39
2.4 Objetivos 39
2.4.1 Objetivo general 39
2.4.2 Objetivos específicos 40
2.5 Hipótesis 40
2.5.1 Hipótesis general 40
2.5.2 Hipótesis específicas 40
CAPÍTULO III
MATERIALES Y MÉTODOS
3.1 Lugar de estudio 41
3.2 Población 41
3.3 Muestra 41
3.4 Método de investigación 42
3.5 Descripción detallada de métodos por objetivos específicos 42
3.5.1 Diseño de la investigación 42
3.5.2 Tipo de investigación 42
3.5.3 Técnicas de recolección de datos, instrumentos y análisis. 42
3.5.4 Variables de estudio. 43
3.5.5 Metodología de Box-Jenkins 43
3.6 Modelo de Redes Neuronales Artificiales 48
3.6.1 Arquitectura de una Red Neuronal Artificial (RNA) 50
3.6.2 Propagación de una Red Neuronal Artificial (RNA) 50
3.7 Modelo de predicción de Facebook Prophet 51
3.8 Metodología de Random Forest (RF) 53
iv
CAPÍTULO IV
RESULTADOS Y DISCUSIÓN
4.1 Resultados 55
4.1.1 Serie histórica de datos de consumo de agua doméstico 55
4.1.2 Identificación del modelo para costo del consumo de agua doméstico 55
4.1.3 Estimación del modelo para costo del consumo de agua doméstico 62
4.1.4 Validación del modelo estimado para el consumo de agua doméstico 62
4.1.5 Pronóstico del modelo validado para consumo de agua doméstico 66
4.1.6 Redes Neuronales Artificiales para consumo de agua doméstico. 68
4.1.7 Prophet para costo de consumo de agua doméstico. 71
4.1.8 Random Forest (RF) para costo de consumo de agua doméstico. 74
4.1.9 Serie histórica de datos del costo de consumo de agua comercial 75
4.1.10 Identificación del modelo para el costo del consumo de agua comercial 76
4.1.11 Estimación del modelo para el costo del consumo de agua comercial 82
4.1.12 Validación del modelo estimado para consumo de agua comercial 82
4.1.13 Pronóstico del modelo validado para consumo de agua comercial 88
4.1.14 Redes Neuronales Artificiales para consumo de agua comercial 89
4.1.15 Prophet para costo de consumo de agua comercial. 92
4.1.16 Random Forest (RF) para costo de consumo de agua comercial. 95
4.2 Discusión 96
CONCLUSIONES 100
RECOMENDACIONES 101
BIBLIOGRAFÍA 102
ANEXOS 109
v
ÍNDICE DE TABLAS
Pág.
1. Serie histórica del costo (S/) de consumo de agua doméstico 55
2. Coeficientes del modelo ARIMA(0,1,1) (1,0,0)12 de consumo de agua 62
3. Pronóstico de serie para 2021 del costo de agua doméstico(ARIMA1, h = 12)
67
4. Métricas de los modelos ARIMA(0,1,1)(1,0,0)[12] y Red Neuronal Artificial
NNAR(2,1,2)[12] del costo de consumo de agua doméstico 70
5. Evaluación de métricas para la técnica de PROPHET del costo de consumo
de agua doméstico 73
6. Evaluación de métricas para la técnica de RANDOM FOREST del costo de
consumo de agua doméstico 74
7. Resumen de evaluación de métricas del costo de consumo de agua doméstico
75
8. Serie histórica del costo (S/) de consumo de agua comercial 75
9. Resultados de ARIMA(0,1,2)(1,0,0)12 de consumo de agua comercial 82
10. Coeficientes significativvos del ARIMA(0,1,2)(1,0,0)12 del costo de
consumo de agua comercial 87
11. Pronóstico de serie para 2021 del costo de consumo de agua comercial
(ARIMA1, h = 12) 88
12. Métricas de los modelos ARIMA(0,1,2)(1,0,0)[12] y Red Neuronal Artificial
NNAR(3,1,2)[12] del costo de consumo 91
13. Evaluación de métricas de precisión para la técnica de PROPHET del costo
de consumo de agua comercial 95
14. Evaluación de métricas RANDOM FOREST del costo de consumo de agua
comercial 96
15. Resumen de la evaluación del costo de consumo de agua comercial 96
vi
ÍNDICE DE FIGURAS
Pág.
1. Red neuronal de una capa de entrada, una oculta y una salida 28
2. Ubicación de la EPS EMSA-Puno de la región de Puno 41
3. Fases de elaboración de un modelo ARIMA 48
4. Arquitectura de una capa de red neuronal artificial 50
5. Serie histórica del costo mensual (S/) de consumo de agua doméstico de la
región de Puno, según año y mes del periodo: 2015-2020 56
6. Función de Autocorrelación del costo mensual (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 57
7. Función de Autocorrelación parcial del costo mensual (S/) de consumo de
agua doméstico de la región de Puno, periodo: 2015-2020 57
8. Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo
de agua doméstico de la región de Puno, periodo: 2015-2020 58
9. Función de Autocorrelación estimada para la primera diferencia del costo (S/)
de consumo de agua doméstico de la región de Puno periodo: 2015-2020 59
10. Función de Autocorrelación parcial (pacf) estimada para la primera diferencia
del costo (S/) de consumo de agua doméstico de la región de Puno periodo:
2015-2020 60
11. Serie histórica real y estimada del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020 61
12. Distribución de los residuales de consumo de agua doméstico de la región de
Puno, según año y mes del periodo: 2015-2020 63
13. Errores residuales para la serie del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020 64
14. Función de autocorrelación (acf) del costo (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 64
15. Función de autocorrelación parcial del costo (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020 65
16. Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua doméstico, periodo: 2015-2020
66
vii
17. Pronósticos del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020 68
18. Pronósticos de ajuste del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020 69
19. Residuales de verificación para costo (S/) de consumo de agua doméstico con
Redes Neuronales Artificiales, periodo: 2015-2020 70
20. Serie histórica del costo de consumo de agua doméstico de la Región de Puno
con técnica de Machine Learning - Prophet 71
21. Descomposición de la serie histórica del costo de consumo de agua doméstico
de la Región de Puno con técnica de Machine Learning – Prophet 72
22. Predicción del costo de consumo de agua doméstico de la Región de Puno
con Prophet, periodo: 2015-2020 72
23. Pronóstico del costo de consumo de agua doméstico de la Región de Puno
con Prophet, periodo: 2015-2020 73
24. Pronóstico del costo de consumo de agua doméstico de la Región de Puno
con Random Forest, periodo: 2015-2020 74
25. Serie histórica del costo mensual (S/) de consumo de agua comercial de la
región de Puno, según año y mes del periodo: 2015-2020 76
26. Función de Autocorrelación del costo mensual (S/) de consumo de agua
comercial de la región de Puno, periodo: 2015-2020 77
27. Función de Autocorrelación parcial del costo mensual (S/) de consumo de
agua comercial de la región de Puno, periodo: 2015-2020 78
28. Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo
de agua comercial de la región de Puno, periodo: 2015-2020 79
29. Función de Autocorrelación estimada para la primera diferencia del costo (S/)
de consumo de agua comercial de la región de Puno periodo: 2015-2020 79
30. Función de Autocorrelación parcial (pacf) estimada para la primera diferencia
del costo (S/) de consumo de agua comercial de la región de Puno periodo:
2015-2020 80
31. Serie histórica real y estimada del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 81
32. Evaluación de la normalidad de consumo de agua comercial de la región de
Puno, según año y mes del periodo: 2015-2020 83
viii
33. Errores residuales para la serie del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 84
34. Función de autocorrelación (acf) del costo (S/) de consumo de agua comercial
de la región de Puno, periodo: 2015-2020 84
35. Función de autocorrelación parcial del costo (S/) de consumo de agua
comercial de la región de Puno, periodo: 2015-2020 85
36. Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua comercial, periodo: 2015-2020
86
37. Serie de tiempo pronosticada con límites de confianza del 95% del costo (S/)
de consumo de agua comercial de la región de Puno periodo: 2015-2020 88
38. Pronósticos del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020 89
39. Pronósticos de ajuste del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020 90
40. Residuales de verificación para costo (S/) de consumo de agua comercial con
Redes Neuronales Artificiales, periodo: 2015-2020 91
41. Serie histórica del costo de consumo de agua comercial de la Región de Puno
con técnica de Machine Learning - Prophet 92
42. Descomposición de la serie histórica del costo de consumo de agua comercial
de la Región de Puno con técnica de Machine Learning - Prophet 93
43. Predicción del costo de consumo de agua comercial de la Región de Puno con
Prophet, periodo: 2015-2020 94
44. Pronóstico del costo de consumo de agua comercial de la Región de Puno con
Prophet, periodo: 2015-2020 94
45. Pronóstico del costo de consumo de agua comercial de la Región de Puno con
Random Forest, periodo: 2015-2020 95
ix
ÍNDICE DE ANEXOS
Pág.
1. Matriz de consistencia 109
2. Pronósticos con prophet – consumo de agua doméstico 110
3. Códigos de R para series de tiempo ARIMA de consumo de agua doméstico 111
4. Códigos de R para Redes Neuronales Artificiales de consumo de agua
doméstico 114
5. Códigos de Prophet para el costo de consumo de agua doméstico 116
6. Declaración Jurada de Autenticidad de tesis 119
7. Autorización para el depósito de tesis en el Repositorio Institucional 120
x
ACRÓNIMOS
xi
RESUMEN
1
ABSTRACT
Series time models, comparisons, and machine learning techniques are currently being
developed to make forecasts and obtain better results through training and testing from
machine learning algorithms. The objective of the research was to determine one machine
learning univariate model to adjust the series of domestic and commercial water
consumption of EPS EMSA in the Puno Region between 2015 and 2020. To find the most
appropriate model for forecasting, the methodology was non-experimental, analytical,
retrospective, longitudinal, and quantitative, employing a Box-Jenkins approach and
techniques of neural networks, Facebook Prophet, and random forest. The cost of the
domestic water consumption model was ARIMA(0,1,1)(1,0,0,0)12, and the evaluation
metrics of RMSE, MAE, and MAPE for neural networks, Prophet, and random forest were
variable. The commercial water consumption cost model, ARIMA(0,1,2)(1,0,0,0)12, was
obtained with different evaluation metrics: RMSE, MAE, and MAPE. Conclusions of the
ARIMA(0,1,1)(1,0,0,0)12 and ARIMA(0,1,2)(1,0,0,0)12 models were evaluated with the
metrics for domestic water consumption cost (RMSE, MAE, and MAPE). The
ARIMA(0,1,1)(1,0,0,0)12 model had a MAPE value of 1.945, while that for commercial
water consumption cost, Facebook Prophet had a MAPE value of 5.313; both results were
the lowest compared with other models. Consequently, the two models are considered
adequate.
Keywords: domestic and commercial water, ARIMA, Prophet, Random Forest, Machine
Learning, Neural Networks
2
INTRODUCCIÓN
Los modelos de series temporales con Machine Learning, tales como redes
neuronales artificiales, Facebook prophet y Random Forest permitieron procesar datos
históricos sobre el consumo de agua y costos asociados. Los modelos estimados han
identificado las tendencias estacionales, patrones cíclicos y anomalías que podrían pasar
desapercibidas con métodos convencionales.
Para la Región de Puno, los modelos pueden considerarse como factores que son las
variaciones climáticas estacionales, crecimiento poblacional y desarrollo urbano que
generan los cambios en las tarifas de agua, por la presencia de COVID-19 en los años 2020
a 2022.
3
del problema, enunciados, la justificación, los objetivos e hipótesis. El capítulo III,
corresponde al lugar de estudio, población, muestra, los materiales y métodos para la
investigación, y capítulo IV, los resultados de la investigación y la discusión que son
comparados con otros trabajos similares.
4
CAPÍTULO I
1REVISIÓN DE LITERATURA
A. Agua potable
B. Dotación de agua
C. Consumo de agua
5
Arocha (2006) describe cinco tipos de consumo:
D. Demanda de agua
6
está delimitado por el ingreso, los comercios con mayor ingreso tienen mayor
oportunidad de acceso al recurso, similarmente la electricidad resultó un bien
complementario en el consumo de agua, con elasticidades de -0.055 y -0.25
para uso doméstico y comercial respectivamente, variables con influencia
menos significativas en la demanda (Gomez-Ugalde et al., 2012).
E. Disposición a pagar
7
F. Tasa de crecimiento
8
Para la aducción, el proceso implica la captación de la fuente hídrica,
el transporte del fluido a través de conductos, la elevación de la presión
mediante estaciones de bombeo, el almacenamiento en reservorios, el
tratamiento en plantas potabilizadoras para garantizar la calidad del agua, la
distribución mediante una red y la conexión al usuario a través de acometidas
domiciliarias. El Reglamento Nacional de Edificaciones establece los
estándares normativos para las infraestructuras de saneamiento, y se
componen de los elementos mencionados. Los componentes y sus
características técnicas se encuentran en la normativa:
9
A. Componentes de una serie de tiempo
A.1 Tendencia
A.2 Cíclico
A.3 Estacionalidad
10
eliminados por otros componentes ajenos a la tendencia, estacionalidad,
ciclos de la variable, tales como: el clima, las guerras, las elecciones,
fenómenos del niño, los sismos, las huelgas, los rumores, cambio de leyes,
los incendios y Tsunami.
C. Estimación de la tendencia
11
𝑛 𝑛
(∑𝑖=1 𝑋𝑖 )(∑𝑖=1 𝑌𝑖 )
∑𝑛
𝑖=1 𝑋𝑖 𝑌𝑖 −
Pendiente b: 𝑏 = 𝑛
2 , 𝑎 = 𝑌̅ − 𝑏𝑋̅
∑𝑛 2 𝑛
𝑖=1 𝑋𝑖 −(∑𝑖=1 𝑋𝑖 ) ⁄𝑛
Donde:
12
𝑚 𝑚1 𝑚 𝑚 𝑚 𝑚
𝐸(𝑌1 1 𝑌2 ⋯ 𝑌𝑛 1 ) = 𝐸(𝑌1+𝑡1 𝑌2+𝑡2 ⋯ 𝑌𝑛+𝑡𝑛 )
𝑚1 + 𝑚2 + ⋯ + 𝑚𝑛 ≤ 𝑚
1.1.4 Estacionalidad
13
intervalos de confianza, entonces existe autocorrelaciones significativas en la serie
(Guerrero, 2009).
Parámetros:
Estimador:
1
a) Promedio: 𝜇̂ = 𝑌 = 𝑁 ∑𝑁
𝑡=1 𝑌𝑡 ,
∑𝑁−𝑘
𝑡=1 (𝑌𝑡 −𝑌)(𝑌𝑡+𝑘 −𝑌)
b) Autocovarianza: 𝛾̂𝑘 = 𝐶𝑘 = 𝑁
̂𝑘
𝛾 𝐶𝑘 ∑𝑁
𝑡=1(𝑌𝑡 −𝑌)
2
c) Autocorrelación: 𝜌̂𝑘 = 𝑟𝑘 = ̂0
= , Donde: 𝛾̂0 = = 𝜎𝑡2
𝛾 𝐶0 𝑁
Hipótesis a contrastar:
𝐻0 : 𝜌𝑘 = 0
𝐻1 : 𝜌𝑘 ≠ 0
14
El estadístico Box y Pierce (Q), evalúa a los acf que deben ser iguales a cero.
𝑄 = 𝑁 ∑𝑚 ̂𝑘2
𝑘=1 𝜌
𝑚
𝜌̂𝑘2 2
𝑄𝐿𝐵𝑃 = 𝑁(𝑁 + 2) ∑ ≈ 𝜒𝑚
𝑁−𝑘
𝑘=1
𝑘 ̂
̂ 𝑘+1,𝑘+1 = 𝜌̂𝑘+1−∑𝑗=1
∅ 𝑘 ̂ ̂
̂ 𝑘+1−𝑗
∅𝑘𝑗 𝜌
,
1−∑𝑗=1 ∅𝑘𝑗 𝜌𝑗
̂ 𝑘+1,𝑗 = ∅
y∅ ̂ 𝑘𝑗 − ∅
̂ 𝑘+1,𝑘+1 ∅
̂ 𝑘,𝑘+1−𝑗 , j= 1,2,…k
̂ 𝑘𝑘 ) ≅ 1,
Con varianza: 𝑉𝑎𝑟(∅ con ±2⁄√𝑛 que es usado como límites
𝑛
15
Variables temporales son observaciones a lo largo del tiempo denotado por
Yt que es la variable Y en el momento t.
La serie de datos es el conjunto formado por “t” realizaciones por cada una
de las variables: Y1 , Y2,…, Y t denominados como la serie cronológica.
Es importante observar que una serie de tiempo observada no es más que una
realización de un proceso estocástico, lo cual significa que bien pudo haberse
observado otra realización del mismo proceso, pero cuyo comportamiento fue
distinto del que se observó en la realidad (Guerrero, 2009).
Las series de datos en el tiempo {𝑌𝑡 }, son todos que tienen una variable observada
en el tiempo. Las series de tiempo son técnicas univariantes de proceso autorregresivo
de primer orden AR(1), el modelo de tendencia lineal o exponencial, entre otros (Cryer
& Chan, 2008). Los modelos más exigentes para la predicción univariante con el enfoque
de Box-Jenkins para construir modelos ARIMA que conforman un conjunto más amplio,
como el modelo ARIMA univariantes que es una parte de los modelos univariantes que
se clasifican en:
16
𝐿𝑘 𝑦𝑡 = 𝑦𝑡−𝑘
Al aplicar Bk a {Z1, Z2, ..., Zt, ..., ZN} se obtiene {Z1-k, Z2-k, ..., Zt-k, ..., ZN-k},
con lo que se pierden k observaciones, y Z1-k, ..., Z0 no existen.
𝑘
𝑘!
𝛻𝑘 𝑍𝑡 = ∑ (−1)𝑗 𝑍𝑡−𝑗 para k = 0,1,2,... y toda t
𝑗! (𝑘 − 𝑗)!
𝑗=0
1.1.10 Modelos para series de tiempo univariadas AR, MA, ARMA y ARIMA
𝑌𝑡 = 𝛿 + ∅1 𝑌𝑡−1 + 𝜀𝑡 ,
𝑌𝑡 = ∅1 𝑌𝑡−1 + 𝜀𝑡 ó (1 − ∅1 𝐵)𝑌𝑡 = 𝜀𝑡
Los modelos AR(1), son evaluados con acf infinita y pacf para
eliminar a partir del segundo rezago, cuando los datos tienen media es
importante especificar en el modelo un término constante.
18
Varianza: γ0 = ∅1 𝛾1 + ∅2 𝛾2 + 𝜎𝑎2
Autocovarianza: 𝛾𝑘 = ∅1 𝛾k-1 + ∅2 𝛾𝑘−2 , 𝑘>0
𝜌1 = ∅1 + ∅2 𝜌1
𝜌2 = ∅1 𝜌1 + ∅2
∅1 ∅2 + ∅12
𝜌1 = 𝑦 𝜌2 =
1 − ∅2 1 − ∅2
𝜌2 + 1
𝜌2 < 1, 𝜌12 < 𝑦 − 1 < 𝜌1 < 1
2
𝜌1 = ∅1 + ∅2 𝜌1 + ... + ∅𝑝 𝜌𝑝−1
𝜌2 = ∅1 𝜌1 + ∅2 + ... + ∅𝑝 𝜌𝑝−2
...
𝜌𝑝 = ∅1 𝜌p-1 + ∅2 𝜌𝑝−2 + ... + ∅𝑝
19
𝜌𝑘 = ∅1 𝜌𝑘−1 + ∅2 𝜌𝑘−2 + ∅3 𝜌𝑘−3 + ⋯ + ∅𝑝 𝜌𝑘−𝑝 , 𝑘 ≥𝑝+1
1
𝜓(𝐵) = ∅(𝐵) 𝑜 1 = ∅(𝐵)𝜓(𝐵),
𝜓1 = −∅1
𝜓2 = ∅1 𝜓1 − ∅2
⋮
𝜓p-1 = ∅1 𝜓p-2 + ∅2 𝜓p-3 + ⋯ − ∅p-1
𝜓𝑝 = ∅1 𝜓p-1 + ∅2 𝜓p-2 + ⋯ + ∅p-1 𝜓1 − ∅𝑝
20
C. Modelos mixtos de Autorregresivos y Promedios Móviles
ARMA(p,q)
2 𝑝 2 𝑞
(1
⏟ − ∅1 𝐵 − ∅2 𝐵 + ⋯ + ∅𝑝 𝐵 ) 𝑌𝑡 = (1
⏟ − 𝜃1 𝐵 − 𝜃2 𝐵 − ⋯ − 𝜃𝑞 𝐵 )𝜀𝑡
⇓ ⇓
𝑃𝑎𝑟𝑡𝑒 𝐴𝑢𝑡𝑜𝑟𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑣𝑎 𝑃𝑎𝑟𝑡𝑒 𝑑𝑒 𝑚𝑒𝑑𝑖𝑎𝑠 𝑚ó𝑣𝑖𝑙𝑒𝑠
𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑒𝑠𝑡𝑎𝑐𝑖𝑜𝑛𝑎𝑟𝑖𝑒𝑑𝑎𝑑 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑖𝑛𝑣𝑒𝑟𝑡𝑖𝑏𝑖𝑙𝑖𝑑𝑎𝑑
𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑒𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑎 𝑑𝑒 𝑙𝑎 𝑎𝑐𝑓 𝑟𝑒𝑠𝑝𝑜𝑛𝑠𝑎𝑏𝑙𝑒 𝑑𝑒 𝑙𝑎 𝑎𝑢𝑠𝑒𝑛𝑐𝑖𝑎 𝑑𝑒 𝑒𝑠𝑡𝑟𝑢𝑐𝑡𝑢𝑟𝑎 𝑑𝑒 𝑎𝑐𝑓
21
Cuando la raíz 1 – x = 0, se ubica fuera del círculo unitario, la serie
es estacionario, y si la raíz 1 – θx = 0, el proceso es invertible.
(1 − ∅1 𝐵 − ∅2 𝐵 2 − ⋯ − ∅𝑝 𝐵𝑝 )𝑌𝑡 = (1 − 𝜃1 𝐵 − 𝜃2 𝐵 2 − ⋯ − 𝜃𝑞 𝐵 𝑞 )𝜀𝑡
∅𝑝 (𝐵)𝑌𝑡 = 𝜃𝑞 (𝐵)𝜀𝑡
𝜃(𝐵) 𝜃(𝐵)
𝑌𝑡 = 𝜀𝑡 = 𝜓(𝐵)𝜀𝑡 𝑌 = 𝜋(𝐵)𝑋𝑡 = 𝜀𝑡
∅(𝐵) ∅(𝐵) 𝑡
(1 − 𝜓1 𝐵 − 𝜓2 𝐵2 − ⋯ )(1 − ∅1 𝐵 − ∅2 𝐵2 − ⋯ − ∅𝑝 𝐵𝑝 ) = 1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞
(1 − 𝜋1 𝐵 − 𝜋2 𝐵2 − ⋯ )(1 − 𝜃1 𝐵 − 𝜃2 𝐵2 − ⋯ − 𝜃𝑞 𝐵𝑞 ) = 1 − ∅1 𝐵 − ∅2 𝐵2 − ⋯ − ∅𝑝 𝐵𝑝
22
modelos de suavizamiento exponencial, que está representado por la parte
regular autorregresivo integrado y medias móviles (ARIMA: Autorregresive
integrated moving - average) es una clase especializada de técnicas de
filtración que ignoran por completo a las variables independientes en la
formulación de pronósticos (De Losso, 2012).
𝐴𝑅
⏟ ⏟
𝐼 𝑀𝐴
⏟
⇓ ⇓ ⇓
𝐴𝑢𝑡𝑜𝑟𝑟𝑒𝑔𝑟𝑒𝑠𝑖𝑣𝑜 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑑𝑜 𝑀𝑒𝑑𝑖𝑎 𝑚ó𝑣𝑖𝑙
(𝐴𝑅) (𝐼) (𝑀𝐴)
𝐴𝑅𝐼𝑀𝐴( ⏟
𝑝, ⏟,
𝑑 𝑞)
⏟
⇓ ⇓ ⇓
𝑂𝑟𝑑𝑒𝑛 𝑂𝑟𝑑𝑒𝑛 𝑂𝑟𝑑𝑒𝑛
𝐴𝑅 𝐼𝑛𝑡𝑒𝑔𝑟𝑎𝑐𝑖ó𝑛 𝑀𝐴
23
La tendencia determinista ocurre si 𝛽1 ≠ 0, 𝛽2 ≠ 0, y 𝛽3 ≠ 0,
entonces la ecuación anterior, se convierte: 𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 + 𝜀𝑡 que se
convierte en un proceso estacionario para estimar la tendencia y al proceso se
quita la tendencia: 𝑌𝑡 − 𝛽1 − 𝛽2 𝑡 = 𝜀𝑡 , entonces el proceso 𝑌𝑡 es estacionario
al quitar la tendencia estimada, y se logra una serie estacionaria con
tendencia.
D. La caminata aleatoria
Si 𝛽1 = 0, 𝛽2 = 0, y 𝛽3 = 1, entonces la ecuación 𝑌𝑡 = 𝛽1 + 𝛽2 𝑡 +
𝛽3 𝑌𝑡−1 + 𝜀𝑡 es de la forma 𝑌𝑡 − 𝑌𝑡−1 = 𝜀𝑡 , donde: 𝜀𝑡 : es un ruido blanco,
entonces el proceso presenta estacionario al realizar una diferenciación, se
logra que el proceso 𝑌𝑡 es estacionario.
Un modelo estacional puro se caracteriza porque existe una relación entre las
observaciones que distan entre sí “s” periodos o múltiplos de “s” que son
oscilaciones o ciclos periódicas, en la que el periodo es igual o inferior al año (Tsay,
24
2014). El periodo estacional es denotado con la letra latina “s” que se representa para
los datos trimestrales (s = 4), y se denota para los datos anuales (s=12).
𝐴𝑅𝑀𝐴(𝑃, 𝑄)𝑆
𝐴𝑅𝐼𝑀𝐴(𝑃, 𝐷, 𝑄)𝑆
𝛥𝑠 ≡ (1 − 𝐿𝑆 )
𝛥𝑠 𝑋𝑡 = 𝑋𝑡 − 𝑋𝑡−𝑠
𝑧𝑡 = (1 − 𝛩1 𝐿𝑠 )(1 − 𝜃1 𝐿)𝜀𝑡
= (1 − 𝜃1 𝐿 − Θ1 𝐿𝑠 + 𝜃1 Θ1 𝐿𝑠+1 )𝜀𝑡
25
El término θ1ϴ1t-(s+1) es la (acf) y (pacf) que son asociados a los rezagos
próximos y son múltiples de S; sin embargo, se tiene procesos adicionales de
MA(0,1) y SMA(0,1).
Una notación corta y general del modelo estacional está representado como:
Donde los coeficientes: 1, Ф1, θ1, y 1 son estimados a partir de los datos, la
ecuación anterior puede ser usado para la predicción.
A. Identificación
26
estacionariedad, se realiza la diferencia (D) de orden estacional. El problema
es decidir si el modelo es estacionario en el componente estacional en base a
unos pocos coeficientes de autocorrelación correspondientes a los retardos
múltiplos del período estacional (Perez, 2008).
B. Estimación
C. Validación
D. La predicción
27
1.1.14 Redes neuronales
Figura 1
Red neuronal de una capa de entrada, una oculta y una salida
28
𝑝
𝑇
𝑁𝑒𝑡𝑚𝑖 = 𝑤𝑚 𝑥𝑖 + 𝑤0𝑚 = ∑ 𝑤𝑚𝑙 𝑥𝑖𝑙 + 𝑤0𝑚 , 𝑚 = 1, ⋯ 𝑀, 𝑖 = 1, … , 𝑁,
𝑙=1
𝑇
𝑤𝑚 = (𝑤𝑚1 , . . , 𝑤𝑚𝑙 , . , 𝑤𝑚𝑝 ),
El proceso es recursivo, las salidas 𝑍𝑚𝑖 son neuronas de las capas ocultas que
se convierten en entradas de la capa de salida, entonces:
Finalmente, la salida final de la red para cada observación de este dado por:
𝑓𝑘 (𝑥𝑖 ) = 𝑔(𝑁𝑒𝑡𝑘𝑖 ), 𝑘 = 1,2, … , 𝑘
𝐾 𝐾
𝑅(𝜃) = ∑𝑁
𝑖=1 𝐿(𝑦𝑖𝑘 , 𝑓𝑘 (𝑥𝑖 )) y 𝜃 = (𝑤𝑚𝑙 , 𝑤0𝑚 /𝑚 = 1, . . . 𝑀; 𝛽𝑘𝑚 , 𝛽𝑘0 /𝑘 = 1, . . . , 𝐾)
29
𝑓𝑘 (𝑋) = 𝑔(𝛽𝑜𝑘 + 𝛽𝑘𝑇 𝜎(𝑤𝑜𝑚 + 𝑤𝑚
𝑇
𝑋)) = 𝑔(𝑁𝑒𝑡𝑘 )
𝑇
𝜎(𝑤𝑜𝑚 + 𝑤𝑚 𝑋) = 𝜎(𝑁𝑒𝑡𝑚 ) = 1/(1 + 𝑒𝑥𝑝( − 𝑁𝑒𝑡𝑚 )),
𝑒 𝑁𝑒𝑡𝑘𝑖
𝑔(𝑁𝑒𝑡𝑘𝑖 ) = ∑𝐾 𝑁𝑒𝑡𝑘𝑖 , 𝑁𝑒𝑡𝑘 = 𝛽𝑜𝑘 + 𝛽𝑘𝑇 𝜎(𝑤𝑜𝑚 + 𝑤𝑚
𝑇
𝑋), donde:
𝑘=1 𝑒
0 ≤ 𝑓𝑘 (𝑋) ≤ 1 y ∑𝐾
𝑘=1 𝑓𝑘 (𝑋) = 1
Para estimar el error, debe compararse con la salida real G de la red 𝑓𝑘 (𝑋) =
𝑔(𝑁𝑒𝑡𝑘 ), por medio de la función de error: 𝐿(𝐺, 𝑓𝑘 (𝑋)) = − 𝑙𝑜𝑔 𝑃 (𝐺),
Donde:
𝑁
𝜕𝑅 𝜕𝑅𝑖
𝛥𝛽𝑘𝑚 = −𝛾 = −𝛾 ∑
𝜕𝛽𝑘𝑚 𝜕𝛽𝑘𝑚
𝑖=1
30
𝜕𝑅𝑖 𝜕𝑅𝑖 𝜕𝑁𝑒𝑡𝑘𝑖
=− .
𝜕𝛽𝑘𝑚 𝜕𝑁𝑒𝑡𝑘𝑖 𝜕𝛽𝑘𝑚
𝐾
𝜕𝑅𝑖 𝜕𝑅𝑖 𝜕𝑓𝑘 (𝑥𝑖 )
= −𝑍𝑚𝑖 ∑ .
𝜕𝛽𝑘𝑚 𝜕𝑓𝑘 (𝑥𝑖 ) 𝜕𝑁𝑒𝑡𝑘𝑖
𝑘=1
𝜕𝑅𝑖
= −(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 ))𝑍𝑚𝑖 = 𝛿𝑘𝑖 𝑍𝑚𝑖 ,
𝜕𝛽𝑘𝑚
𝑁
(𝑟+1) (𝑟) 𝜕𝑅𝑖
𝛽𝑘𝑚 = 𝛽𝑘𝑚 −𝛾∑
𝜕𝛽𝑘𝑚
𝑖=1
𝑁
(𝑟+1) (𝑟)
𝛽𝑘𝑚 = 𝛽𝑘𝑚 + 𝛾 ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 ))𝑍𝑚𝑖
𝑖=1
𝑁
𝜕𝑅 𝜕𝑅𝑖
𝛥𝑤𝑚𝑙 = −𝛾 = −𝛾 ∑
𝜕𝑤𝑚𝑙 𝜕𝑤𝑚𝑙
𝑖=1
𝜕𝑅𝑖 𝜕𝑅 𝜕𝑁𝑒𝑡
= −𝑥𝑖𝑙 ∑𝐾 𝑖
𝑘=1 𝜕𝑁𝑒𝑡 . 𝜕𝑁𝑒𝑡
𝑘𝑖
𝜕𝑤𝑚𝑙 𝑘𝑖 𝑚𝑖
𝐾
𝜕𝑅𝑖
= −𝑥𝑖𝑙 𝑍𝑚𝑖 (1 − 𝑍𝑚𝑖 ) ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 )) 𝛽𝑘𝑚 = 𝑠𝑚𝑙 𝑥𝑖𝑙
𝜕𝑤𝑚𝑙
𝑘=1
𝑁
(𝑟+1) (𝑟) 𝜕𝑅𝑖
𝑤𝑚𝑙 = 𝑤𝑚𝑙 −𝛾∑
𝜕𝑤𝑚𝑙
𝑖=1
𝑁 𝐾
(𝑟+1) 𝑟 (𝑟+1)
𝑤𝑚𝑙 = 𝑤𝑚𝑙 + 𝛾 ∑ ∑(𝐺𝑖𝑘 − 𝑓𝑘 (𝑥𝑖 )) 𝛽𝑘𝑚 𝑍𝑚𝑖 (1 − 𝑍𝑚𝑖 ) 𝑥𝑖
𝑖=1 𝑘=1
31
1.2 Antecedentes
1.2.1 Internacionales
Durán (2015) manifiesta una relación entre agua y pobreza como un indicador
de desgaste, e inequidad en la sociedad urbana en Santiago de Chile, además el
consumo de agua sobresale y revela la vida de los pobres que consistió en una
tendencia para disminuir el consumo doméstico de agua, un proceso ligado a la
privatización del recurso esencial, lo que conllevó a su mercantilización en el ámbito
urbano.
Schmidt et al. (2017) reportan que las facturas se calculan a partir de los
costos de la empresa de servicios públicos que pagan los usuarios la tarifa establecida
por los costos fijos y variables, la empresa garantiza el nivel de consumo de agua, las
tarifas del consumo es un medio para fijar el precio del agua.
Pérez et al. (2020) señalan que la cantidad de agua consumida en las labores
domésticas de un hogar, es la necesidad de tener información del consumo de agua
per cápita de una población para la planificación de la gestión integrada de los
recursos hídricos del agua de una región. Los factores climáticos, socioeconómicos
y culturales que influyeron en el consumo de agua de la ciudad de San Cristóbal,
Venezuela fueron determinados por encuesta aplicada a habitantes sobre hábitos de
consumo y uso semanal de las actividades del uso vital líquido. En las demás
actividades de uso habitual residencial, se estimula que el consumo per cápita es
307,6 l.hab-1.d-1,, se determinaron cuántos de los residentes poseen hábitos de
demanda de agua para la descarga.
32
Ristow et al. (2021) reportaron modelos para realizar pronósticos mensuales
de la demanda urbana de agua mediante modelos de series de tiempo, el ajuste y la
prueba por categoría de consumo de agua, utilizando el software libre R para la
ciudad de Joinville para el primer semestre de 2018, con resultados del modelo
ARIMA estacional para predecir el consumo de agua en cuatro de las cinco
categorías, con errores porcentuales absolutos medios que varían de 1,19 a 15,74%.
Alagarsamy et al. (2022) reportan que la mayor parte del agua que se utiliza
depende de la facturación a los usuarios por el consumo de una gran cantidad de la
factura que se entrega a los usuarios, y por la complejidad que se presentaron se ha
creado la automatización para calcular la factura del agua por uso. El usuario recibe
la notificación del consumo de agua diaria que se generó una factura para el usuario
y pagar la factura en línea.
33
Feng et al. (2022) desarrollaron modelos confiables a corto plazo para
pronosticar el número de lesiones por accidente de tráfico (RTI) en el noreste de
China, usando comparativos de los modelos (SARIMA), Long Short-Term Memory
(LSTM) y Facebook Prophet (Prophet) para pronosticar con series temporales el
número de pacientes hospitalizados con ITR. Los tres modelos fueron entrenados con
datos de 2015 a 2019, y su precisión de predicción se comparó con datos de 2020
para la prueba. El proceso SARIMA se determinó con las acf y pacf. Se utilizó LSTM
como función de activación, el cuadrado medio del error como función de pérdida y
el Adam para construir el modelo, mientras que el modelo Prophet, se basa en la
plataforma Python. El RMSE, MAE y MAPE se utilizaron como métricas de
evaluación para medir y comparar.
Kavya et al. (2023) manifiestan que la demanda del elemento vital refleja
crecimiento económico, en cambio la disponibilidad de agua se agota continuamente
por la demanda de agua, usaron modelos de aprendizaje automático y aprendizaje
profundo para pronosticar el consumo de agua durante el período de 2020 a 2021
para la ciudad de Hubli en Karnataka las series temporales univariados y
multivariados con lecturas de medidores de flujo a intervalos de 10 minutos es más
adecuado, utilizaron los modelos de series temporales univariados para pronosticar
la demanda de agua; sin embargo, los modelos de Deep learning fueron superiores a
los modelos de aprendizaje automático, y el modelo LSTM presentó el mejor
rendimiento de pronóstico en los dos escenarios con un error absoluto medio de 0,11
m3/h para el modelo univariado y 2,96 m3/h para el modelo multivariado, por lo
tanto, el mejor modelo predictivo para cualquier región y garantizar la gestión
sostenible del consumo de agua.
Según Singh et al. (2023) reportan que los modelos de pronóstico de series
temporales con variabilidad estacional son usados para sistemas automáticos de
control en tiempo real, el trabajo se enfoca en el análisis de rendimiento de varios
métodos de aprendizaje automático (SARIMA, Holt-Winters Exponential
Smoothing, ETS, Facebook Prophet, XGBoost y Long Short-Term Memory), cuyos
algoritmos son implementados con Python, el trabajo radica en utilizar conjuntos
limitados de datos históricos para obtener pronósticos con una precisión razonable.
Los algoritmos permitieron alcanzar una precisión de R-cuadrado de más de 0,95,
34
con los que se acorta el tiempo, y se puede utilizar para ejecutar el algoritmo en
tiempo real.
1.2.2 Nacionales
35
contrastados y aceptado la hipótesis alterna para la gestión y el estudio de agua para
la contribución al desarrollo sostenible.
García-Soto et al. (2024) señalan que las predicciones son muy importantes
en los diferentes campos de aplicación: economía, medicina, biología, ciencias
ambientales o meteorología, entre otras. Las técnicas de predicción para la gestión
del agua pueden emplearse desde la planificación que respondan a la respuesta a
largo plazo. El trabajo fue diseñado a través de red neuronal profunda para realizar
el pronóstico del consumo de agua. Los resultados responden a la serie temporal de
consumo de agua durante un año y medio medido con frecuencia de 10 min en la
ciudad de Murcia (España). Los resultados con dos modelos de persistencia como
métodos naive, modelo de aprendizaje profundo propuesto los resultados más
precisos.
1.2.3 Locales
36
subregistro en una población de 13,834 usuarios provistos de medidores para los
servicios de agua por EMSA Puno. Los resultados revelaron una heterogeneidad y
diferencia en los niveles de consumo hídrico entre las diversas actividades
económicas analizadas. Los usuarios hacen mal uso del agua que representa la
pérdida económica producto del subregistro de los micromedidores en la EPS EMSA
Puno que asciende a S/.329,123.06 anuales del periodo que abarca 58 meses (Enero
2008 – Octubre 2012) presentando perjuicios económicos a la EPS por el subregistro
de medidores que asciende a S/. 1’590,761.47 nuevos soles.
Soncco Silva (2019) señala que la disponibilidad a pagar los hogares que
fueron instalados en la periferia de la ciudad de Juliaca que carecen del servicio de
agua y saneamiento, en efecto, se utilizó la metodología de valoración indirecta de
función de producción de salud para cambios no marginales de la calidad ambiental
con variable dependiente a conglomerados de los efectos a la salud de los hogares,
se usó 353 encuestas a hogares, cuyos resultados fueron la disponibilidad a pagar de
los hogares para evitar el riesgo de enfermarse es de S/ 19.25 soles mensuales, en
cambio, el valor económico total agregado es S/ 3,617,974.21 soles como beneficio
económico para un mejoramiento de la calidad de agua para consumo humano.
37
CAPÍTULO II
38
2.2.2 Problemas específicos
2.3 Justificación
El uso de agua en los hogares está constituido por los diferentes actividades de
higiene personal, preparación de alimentos, lavado de ropa, utensilios de cocina y riego de
jardines. Por otro lado, el costo del agua comercial y doméstico varía según la clasificación
del usuario. La demanda de agua doméstica obedece a una fórmula que incluye el ingreso
familiar o per cápita, existencia de un sistema de alcantarillado y otros otros. La técnica de
Machine Learning, se usa para realizar el pronóstico para determinar la demanda de la
población, por tal razón es importante realizar la predicción del costo de facturación en el
consumo de agua y tomar decisiones adecuadas.
2.4 Objetivos
39
2.4.2 Objetivos específicos
2.5 Hipótesis
40
CAPÍTULO III
3MATERIALES Y MÉTODOS
Figura 2
Ubicación de la Empresa de Propiedad Social EMSA-Puno
3.2 Población
3.3 Muestra
41
Puno y corresponde a datos retrospectiva, por tal razón se usó la técnica de muestreo no
probabilístico (Otzen & Manterola, 2017)
A. Técnicas
B. Instrumentos
42
3.5.4 Variables de estudio.
𝑌𝑡𝜆 − 1
={ 𝜆 , 𝜆≠0
(𝜆)
𝑌𝑡
𝐿𝑛𝑌𝑡 , 𝜆 = 0
43
• Se debe realizar el gráfico para visualizar la serie dada para analizar la
tendencia, estacionalidad, ciclo e irregular comportamiento de la serie
que va oscilando sin alejarse de las observaciones, entonces la serie es
estacionaria en media, caso contrario realizar la diferenciación de la
serie hasta convertirla en proceso estacionario.
• Realizar el gráfico visual de función de autocorrelación. Si los valores
de autocorrelación son muy cercanos a uno a medida que aumenta t,
entonces el proceso no es estacionario, en cambio cuando los valores
de autocorrelación decae en forma rápida a cero, entonces el proceso es
estacionario.
• Realizar la prueba de raíz unitaria que es un complemento formal a la
gráfica de la serie, varianza muestral y autocorrelación muestral de la
serie para determinar el orden de diferencias para volver estacionaria
en nivel una serie. Entonces se requieren d ≥0 para la diferenciación
hasta convertir en proceso estacionario en media, lo que se denomina
la serie integrada de orden d y se denota 𝑌𝑡 ~𝐼(𝑑). De hecho, cuando d
> 0, entonces el proceso inicial es no estacionario.
B. Estimación
𝛽 ′ = (𝛿, ∅1 , ∅2 , ⋯ , ∅𝑝 , 𝜃1 , 𝜃2 , ⋯ , 𝜃𝑞 ) 𝑦 𝜎𝜀2
44
deben cumplirse los siguientes supuestos: i) 𝜀𝑡 ~𝑁(0, 𝜎 2 ), ii) 𝑍𝑡 es un proceso
estacionario, iii) 𝑍𝑡 es un proceso invertible.
𝐻𝑜 : ∅1 = 0 𝑜 𝜃1 = 0 𝑣𝑠 𝐻𝑎 : ∅1 ≠ 0 𝑜 𝜃1 ≠ 0
45
C.3 Estacionariedad e invertibilidad
𝑚
𝑟𝑘2
𝑄 = 𝑇(𝑇 + 2) ∑
𝑇−𝑘
𝑘=1
46
valores de m la prueba se extiende a rezagos mayores; sin embargo, la
precisión en la estimación de 𝑟𝑘 disminuye.
D. Pronóstico
47
Figura 3
Metodología y fases de elaboración de un modelo ARIMA
DATOS DE LA SERIE
IDENTIFICACIÓN
¿Es la serie No
Estacionaria? Selección de d y λ
Si
Selección de p, q y decisión
sobre la inclusión de µ
ESTIMACIÓN
- cálculo de estimadores
- cálculo de estadísticos de los
estimadores y residuos.
VALIDACIÓN
No
¿Es el
modelo
adecuad
o?
Si
PREDICCIÓN
Selección de los periodos de predicción
- Cálculo de predicciones
- Cálculo de estadísticos para la evaluación de la
capacidad predictiva.
Usar el modelo No
¿Predice
para predicción
correctamente?
Si
FIN
48
el procedimiento Succetti et al. (2020) de tipo percepción multicapa con desempeño
adecuado, está basado en una secuencia de procedimientos de 8 etapas:
49
3.6.1 Arquitectura de una Red Neuronal Artificial (RNA)
Figura 4
Arquitectura de una capa de red neuronal artificial
50
3.7 Modelo de predicción de Facebook Prophet
Agyemang et al. (2023), explican que el modelo de regresión aditiva FB Prophet, fue
desarrollado por Facebook que tiene una gran demanda para fines de pronóstico debido a
sus tres características principales: tendencia, estacionalidad y festividad. El modelo se
expresa: 𝑦(𝑡) = 𝛼 (𝑡) + 𝛽 (𝑡) + 𝜂 (𝑡) + 𝜀 (𝑡)
Donde: 𝑦(𝑡) es el pronóstico; los parámetros del modelo 𝛼 (𝑡), 𝛽 (𝑡) y 𝜂 (𝑡) son
respectivamente los efectos de tendencia (cambios no periódicos), estacionales (cambios
periódicos) y festivos, lo que da lugar a horarios irregulares, 𝜀(𝑡) es el término de error del
pronóstico 𝑦(𝑡) que representa cualquier cambio. El modelo FB Prophet adopta una serie de
Fourier para ajustar modelos con efectos de estacionalidad 𝑠(𝑡) representados como:
𝑁
2𝜋𝑘𝑡 2𝜋𝑘𝑡
𝑠(𝑡) = ∑ 𝛼𝑘 𝑐𝑜𝑠 ( ) + 𝛽𝑘 𝑠𝑒𝑛 ( )
𝑝 𝑝
𝑘=1
Según Sah et al. (2022), Prophet fue lanzado por un equipo de Facebook como un
sistema, y se utiliza para predecir una serie de tiempos. Funciona muy bien con series de
tiempo y es difícil perder valores de datos y transferirlos a la tendencia y a los valores
atípicos. Prophet es un modelo de regresión aditiva con componentes que consiste en una
curva de tendencia de ganancia logística y encuentra variaciones en las tendencias al elegir
los puntos de aumento de los datos. Se puede simular un componente estacional anual con
la ayuda de las series de Fourier. Se puede representar un elemento semanal estacional
utilizando variables ficticias y se puede dar al usuario una lista de días festivos. Funciona
bien con series temporales con mucha variación estacional y datos históricos de diferentes
51
estaciones. Prophet es robusto datos faltantes y los cambios que se puede presentar en la
tendencia para mejorar a los valores atípicos en la mayor parte del tiempo.
52
3.8 Metodología de Random Forest (RF)
53
problema, además al disminuir la correlación entre árboles, también disminuye la
variabilidad para lograr la precisión del árbol, los valores que sugiere es √𝑝 para un
problema de clasificación y 𝑝⁄3 para la regresión.
54
CAPÍTULO IV
4RESULTADOS Y DISCUSIÓN
4.1 Resultados
Tabla 1
Serie histórica del costo (S/) de consumo de agua doméstico de la región de Puno,
según año y mes del periodo: 2015-2020
Meses 2015 2016 2017 2018 2019 2020
Ene 426775,62 445131,70 486828,80 520192,22 546175,55 546031,46
Feb 395193,15 455054,19 478257,58 488173,08 492004,45 518581,59
Mar 377573,09 415610,86 449983,06 437091,51 495638,72 502086,70
Abr 391844,35 458215,16 448155,14 525731,09 484642,35 491240,91
May 390665,99 462844,19 467510,37 487080,43 540584,10 495448,85
Jun 399276,24 450177,28 446301,52 460722,65 504814,15 479048,68
Jul 403020,57 454470,10 478474,85 477617,35 513932,66 503085,90
Ago 403834,99 465308,79 484583,76 476469,01 515640,49 492108,79
Set 412494,75 480284,97 497590,65 494225,72 519187,31 532810,28
Oct 475208,51 473960,81 463339,70 517378,75 527682,29 499967,59
Nov 429864,49 462290,17 492604,41 518492,93 516688,48 521566,01
Dic 463916,01 478984,03 491930,14 509623,44 509785,27 508903,68
Nota. Datos registrados en la EPS EMSA-Puno, periodo: 2015 – 2020
4.1.2 Identificación del modelo para costo del consumo de agua doméstico
55
marzo 2018, y durante el año 2020 y 2021 que se presentó la pandemia COVID-19,
por tal razón los pagos de consumo de agua doméstico de las familias han disminuido,
y seguidamente se recupera en forma gradualmente para los años posteriores.
Figura 5
Serie histórica del costo mensual (S/) de consumo de agua doméstico de la región
de Puno, según año y mes del periodo: 2015-2020
56
Figura 6
Función de Autocorrelación del costo mensual (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020
Figura 7
Función de Autocorrelación parcial del costo mensual (S/) de consumo de agua
doméstico de la región de Puno, periodo: 2015-2020
57
Ho: la serie no es estacionaria: tiene raíz unitaria
Ha: la serie es estacionaria: no tiene raíz unitaria
Figura 8
Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo de
agua doméstico de la región de Puno, periodo: 2015-2020
58
establecido y van seguidos de decrecimiento exponencial o sinusoidal en forma
amortiguada a cero, entonces podemos indicar que es ARIMA diferenciada.
Figura 9
Función de Autocorrelación estimada para la primera diferencia del costo (S/) de
consumo de agua doméstico de la región de Puno periodo: 2015-2020
59
Figura 10
Función de Autocorrelación parcial (pacf) estimada para la primera diferencia del
costo (S/) de consumo de agua doméstico de la región de Puno periodo: 2015-2020
60
Coefficients - Resultado de R
ma1 sar1
-0.6769 0.3357
s.e. 0.0871 0.1255
sigma^2 = 4.54e+08: log likelihood = -808.4
AIC=1622.79 AICc=1623.15 BIC=1629.58
Figura 11
Serie histórica real y estimada del costo (S/) de consumo de agua doméstico de la
región de Puno, periodo: 2015-2020
61
4.1.3 Estimación del modelo para costo del consumo de agua doméstico
Tabla 2
Coeficientes del modelo ARIMA(0,1,1) (1,0,0)12 del costo de consumo de agua
doméstico
Proceso Estimado Error Estándar Valor Z Pr(>|z|) Signific.
ma1 -0.676948 0.087136 -7.7689 7.92E-15 ***
sar1 0.335662 0.125460 2.6755 0.007463 **
Nota: Códigos de significación: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1.Software de
procesamiento: R versión 4.4.1.
4.1.4 Validación del modelo estimado para el costo del consumo de agua
doméstico
62
El estadístico de Prueba de Box- Ljung con valor calculado de 𝜒𝑐2 = 21.37 al
nivel de significación de p-valor = 0.876 > = 0.05, lo cual confirmó que los
residuales son aleatorios y el modelo es adecuado para realizar el pronóstico de la
serie.
Figura 12
Distribución de los residuales de consumo de agua doméstico de la región de Puno,
según año y mes del periodo: 2015-2020
La Figura 13, presenta los residuales del modelo con propiedades de esperanza
matemática igual a cero, varianza constante y las covarianzas son nulas, lo que
confirma que los residuales son distribuidos en forma aleatoriamente durante el
periodo 2015-2020 para el costo del consumo de agua doméstico para la Región de
Puno.
63
Figura 13
Errores residuales para la serie del costo (S/) de consumo de agua doméstico de la
región de Puno, periodo: 2015-2020
La Figura 14, presenta la (acf) de los errores que caen dentro de los límites de
confianza, por consiguiente, los errores se distribuyen en forma aleatoriamente en
todo el periodo de 2015 – 2020 con rezagos de hasta 25, por lo tanto, el modelo
estimado se valida.
Figura 14
Función de autocorrelación (acf) del costo (S/) de consumo de agua doméstico de
la región de Puno, periodo: 2015-2020
64
confirma que la serie cumple con la prueba de Box-Ljung para la variable consumo
de agua coméstico.
Figura 15
Función de autocorrelación parcial del costo (S/) de consumo de agua doméstico
de la región de Puno, periodo: 2015-2020
65
Figura 16
Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua doméstico, periodo: 2015-2020
4.1.5 Pronóstico del modelo validado para costo del consumo de agua
doméstico
66
Figura 17
Serie de tiempo pronosticada con límites de confianza del 95% del costo (S/) de
consumo de agua doméstico de la región de Puno periodo: 2015-2020
Tabla 3
Pronóstico de la serie para el año 2021 del costo de consumo de agua doméstico
de la Región de Puno (forecast(ARIMA1, h = 12)
Pronóstic
Mes Año o Lo 80 Hi 80 Lo 95 Hi 95
Jan 2021 520356,7 493049,2 547664,2 478593,5 562119,9
Feb 2021 511142,8 482445,7 539839,9 467254,4 555031,2
Mar 2021 505606,1 475583,7 535628,5 459690,8 551521,4
Apr 2021 501965,5 470673,9 533257,2 454109,1 549822,0
May 2021 503378,0 470866,6 535889,4 453656,1 553099,9
Jun 2021 497873,1 464186,1 531560,1 446353,3 549392,9
Jul 2021 505941,5 471118,5 540764,4 452684,4 559198,5
Aug 2021 502256,9 466333,9 538179,8 447317,4 557196,3
Sep 2021 515918,8 478928,5 552909,1 459347,0 572490,6
Oct 2021 504894,8 466867,1 542922,5 446736,4 563053,1
Nov 2021 512144,5 473107,0 551182,1 452441,8 571847,3
Dec 2021 507894,3 467872,4 547916,2 446686,1 569102,5
Fuente: Resultados del pronóstico de la serie con software R versión 4.4.1.
67
4.1.6 Redes Neuronales Artificiales para costo de consumo de agua doméstico.
Figura 18
Pronósticos del costo (S/) de consumo de agua doméstico con Redes Neuronales
Artificiales, periodo: 2015-2020
68
Figura 19
Pronósticos de ajuste del costo (S/) de consumo de agua doméstico con Redes
Neuronales Artificiales, periodo: 2015-2020
69
Figura 20
Residuales de verificación para costo (S/) de consumo de agua doméstico con
Redes Neuronales Artificiales, periodo: 2015-2020
Tabla 4
Métricas de los modelos ARIMA(0,1,1)(1,0,0)[12] y Red Neuronal Artificial
NNAR(2,1,2)[12] del costo de consumo de agua doméstico de la Región de Puno
Theil's
ARIMA ME RMSE MAE MPE MAPE MASE ACF1 U
-
Training set 2434.1326 20859.51 15743.447 0.38085 3.294622 0.5989 0.0679 NA
Test set 125.6304 12143.87 9947.026 -0.05981 1.945070 0.3784 0.1306 0.4578
RED Theil's
NEURONAL ME RMSE MAE MPE MAPE MASE ACF1 U
-
Training set 18.45922 15253.93 12062.07 -0.11402 2.471553 0.4589 0.0505 NA
Test set -7960.959 13722.20 12432.35 -1.64679 2.473363 0.4730 0.0660 0.6083
70
4.1.7 Prophet para costo de consumo de agua doméstico.
Figura 21
Serie histórica del costo de consumo de agua doméstico de la Región de Puno con
técnica de Machine Learning - Prophet
71
Figura 22
Descomposición de la serie histórica del costo de consumo de agua doméstico de
la Región de Puno con técnica de Machine Learning – Prophet
Figura 23
Predicción del costo de consumo de agua doméstico de la Región de Puno con
Prophet, periodo: 2015-2020
72
En la Figura 24, se presenta la proyección para el año 2021 del costo de
consumo de agua doméstico que es derivada del análisis de la serie temporal
histórica. La tendencia proyectada sugiere una leve disminución económico asociado
al consumo hídrico durante el año 2021. Asimismo, se anticipa una estabilización en
el consumo de agua por la población a lo largo del año 2022.
Figura 24
Pronóstico del costo de consumo de agua doméstico con Prophet, periodo: 2015-
2020
Tabla 5
Evaluación de métricas para la técnica de PROPHET del costo de consumo de
agua doméstico, periodo: 2015-2020
73
4.1.8 Random Forest (RF) para costo de consumo de agua doméstico.
La Figura 25, presenta una estimación del modelo con la serie de costo del
consumo de agua doméstico, y Random Forest, no representa una mejor estimación
a la serie de datos, por lo tanto, podemos afirmar que para Random Forest, se necesita
mayor cantidad de variables y serie de datos para que pueda ensamblarse mejor en la
estimación del modelo.
Figura 25
Pronóstico del costo de consumo de agua doméstico con Random Forest, periodo:
2015-2020
Tabla 6
Evaluación de métricas para la técnica de RANDOM FOREST del costo de
consumo de agua doméstico, periodo: 2015-2020
RANDOM
FOREST MSE RMSE MAE MAPE R2
Test set 232046831.36 15233.083 12595.864 2.46675 0.132617
74
En la Tabla 7, se efectuó una comparación de métricas de precisión para
ambos modelos con RMSE=12143.87 para el modelo ARIMA y Prophet RMSE =
12348.012, superando el modelo ARIMA a Prophet; los otros modelos presentaron
métricas de evaluación superiores, por tal razón no se recomienda para la predicción
hacia el futuro.
Tabla 7
Resumen de la evaluación de métricas del costo de consumo de agua doméstico,
periodo: 2015-2020
DESCRIPCIÓN MSE RMSE MAE MAPE R2
ARIMA - Test 147473578.577 12143.87 9947.026 1.945070 ---
RED NEURONAL -
Test 188298772.840 13722.20 12432.35 2.473363 ---
PROPHET - Test 152473409.28 12348.012 9507.2052 1.9628225 0.904398
RANDOM FOREST -
Test 232046831.36 15233.083 12595.864 2.4667469 0.132617
Tabla 8
Serie histórica del costo (S/) de consumo de agua comercial de la región de Puno,
según año y mes del periodo: 2015-2020
75
4.1.10 Identificación del modelo para el costo del consumo de agua comercial
Figura 26
Serie histórica del costo mensual (S/) de consumo de agua comercial de la región
de Puno, según año y mes del periodo: 2015-2020
76
Figura 27
Función de Autocorrelación del costo mensual (S/) de consumo de agua comercial,
periodo: 2015-2020
77
Figura 28
Función de Autocorrelación parcial del costo mensual (S/) de consumo de agua
comercial, periodo: 2015-2020
78
Figura 29
Serie de tiempo diferenciada de primer orden para el costo (S/) de consumo de
agua comercial, periodo: 2015-2020
Figura 30
Función de Autocorrelación estimada para la primera diferencia del costo (S/) de
consumo de agua comercial, periodo: 2015-2020
79
confianza; sin embargo, el resto de autocorrelaciones no caen a cero, entonces a partir
del rezago 6 los valores son positivos y negativos que no siguen a un patrón
establecido y presentan decrecimiento exponencial o sinusoidal en forma
amortiguada a cero.
Figura 31
Función de Autocorrelación parcial (pacf) estimada para la primera diferencia del
costo (S/) de consumo de agua comercial, periodo: 2015-2020
80
Seguidamente, se realiza, la búsqueda del modelo de serie de tiempo con
auto.arima para la serie del costo de consumo de agua comercial, y el modelo
adecuado con el Software R versión 4.4.1 es un ARIMA(0,1,2)(1,0,0)[12], y los
coeficientes estimados del modelo son:
Coeficientes - Resultado de R
ma1 ma2 sar1
0.1769 -0.3242 0.4576
s.e. 0.1104 0.1054 0.1231
sigma^2 = 386805514: log likelihood = -802.72
AIC=1613.44 AICc=1614.05 BIC=1622.49
Figura 32
Serie histórica real y estimada del costo (S/) de consumo de agua, periodo: 2015-
2020
81
4.1.11 Estimación del modelo para el costo del consumo de agua comercial
Tabla 9
Resultados del ARIMA(0,1,2)(1,0,0)12 del costo de consumo de agua comercial
4.1.12 Validación del modelo estimado para el costo del consumo de agua
comercial
82
𝜃2 − 𝜃1 < 1 entonces -0.32415 - 0.1769 < 1 cumple
La prueba de Box- Ljung calculado con 𝜒𝑐2 = 15.811 con p-valor = 0.9843 >
= 0.05, por lo tanto, los residuales son aleatorios, y el modelo es adecuado para el
pronóstico de la serie.
Figura 33
Evaluación de la normalidad de consumo de agua comercial, periodo: 2015-2020
83
residuales se distribuye en forma aleatoriamente durante el periodo 2015-2020 para
el costo del consumo de agua comercial.
Figura 34
Errores residuales para la serie del costo (S/) de consumo de agua comercial,
periodo: 2015-2020
La Figura 35, muestra la (acf) de residuales que caen dentro de los límites de
confianza; sin embargo, las autocorrelaciones se alternan en forma positivos y
negativos que no se eliminan a cero, por lo que los errores se distribuyen en forma
aleatoriamente en todo el periodo de 2015 – 2020 con rezagos de hasta 25, por lo
tanto, se valida el modelo estimado.
Figura 35
Función de autocorrelación (acf) del costo (S/) de consumo de agua comercial,
periodo: 2015-2020
84
La Figura 36, muestra la (pacf) con correlogramas positivos y negativos
dentro de los límites de confianza con algunas diferencias en los rezagos que
confirma que la función de autocorrelación (acf) es similar y cumple con los
requisitos establecidos con Box-Ljung para el costo de consumo de agua comercial.
Figura 36
Función de autocorrelación parcial del costo (S/) de consumo de agua comercial,
periodo: 2015-2020
Como el p-value = 0.7879 > = 0.05 confirma que los residuales son
aleatorios media cero, varianza constante y la covarianza nula, entonces el modelo
estimado es adecuado para realizar los pronósticos.
85
Figura 37
Errores residuales de la serie diferenciada, función de autocorrelación y
normalidad del costo (S/) de consumo de agua comercial, periodo: 2015-2020
86
Tabla 10
Coeficientes significativvos del ARIMA(0,1,2)(1,0,0)12 del costo de consumo de
agua comercial
Los coeficientes estimados del proceso (Tabla 10) para MA(2) = -0.32914 es
significativo con p-value = 0.0027, y el proceso estacional para SAR(1) = 0.44275
es significativo con p =0.000526 < = 0.05, para ambos procesos.
Como el p-value = 0.5587 > = 0.05, entonces se valida que los residuales
son aleatorios con media cero, varianza estable y la covarianza nula, entonces, el
modelo estimado es adecuado para realizar los pronósticos.
87
4.1.13 Pronóstico del modelo validado para el costo del consumo de agua
comercial
Figura 38
Serie de tiempo pronosticada con límites de confianza del 95% de costo (S/) de
consumo de agua comercial, periodo: 2015-2020
Tabla 11
Pronóstico de la serie para el año 2021 del costo de consumo de agua comercial de
la Región de Puno (ARIMA1, h = 12)
Figura 39
Pronósticos del costo (S/) de consumo de agua comercial con Redes Neuronales
Artificiales, periodo: 2015-2020
89
Figura 40
Pronósticos de ajuste del costo (S/) de consumo de agua comercial con Redes
Neuronales Artificiales, periodo: 2015-2020
90
Figura 41
Residuales de verificación para costo (S/) de consumo de agua comercial con
Redes Neuronales Artificiales, periodo: 2015-2020
Tabla 12
Métricas de los modelos ARIMA(0,1,2)(1,0,0)[12] y Red Neuronal Artificial
NNAR(3,1,2)[12] del costo de consumo de agua comercial, periodo 2015-2020
Theil's
ARIMA ME RMSE MAE MPE MAPE MASE ACF1 U
Training set -922.2888 19113.25 14082.16 -0.8402 5.894785 0.392 -0.0008 NA
Test set 42647.4222 50572.14 42647.42 18.6737 18.67367 1.187 0.6265 1.295
RED Theil's
NEURONAL ME RMSE MAE MPE MAPE MASE ACF1 U
Training set -11.92167 12206.74 9070.29 -0.3491 3.619669 0.252 0.087 NA
Test set 967.41397 61026.16 49377.74 -5.1544 21.9998 1.374 0.652 1.477
91
4.1.15 Prophet para costo de consumo de agua comercial.
Figura 42
Serie histórica del costo de consumo de agua comercial con Machine Learning -
Prophet
92
Figura 43
Descomposición de la serie histórica del costo de consumo de agua comercial con
Machine Learning - Prophet
93
Figura 44
Predicción del costo de consumo de agua comercial con Prophet, periodo: 2015-
2020
Figura 45
Pronóstico del costo de consumo de agua comercial con Prophet, periodo: 2015-
2020
94
En la Tabla 13, las métricas de evaluación para la predicción, indican que
para el MAPE = 5.31 y RMSE=18593.92 que son los errores estimados para el
modelo y el Coeficiente de Determinación de R2 = 81.70% depende de la variabilidad
de costo de consumo de agua comercial y 18.30% es explicado por otros factores
extraños al modelo, por consiguiente el modelo es aceptable para realizar la
predicción o puede recomendarse para otros trabajos similares.
Tabla 13
Evaluación de métricas de precisión para la técnica de PROPHET del costo de
consumo de agua comercial, periodo: 2015-2020
Figura 46
Pronóstico del costo de consumo de agua comercial con Random Forest, periodo:
2015-2020
95
R2 = 4.32% que es muy bajo para el costo de consumo de agua comercial, por
consiguiente, el modelo no es recomendable para realizar pronósticos o adaptaciones
para otros trabajos similares.
Tabla 14
Evaluación de métricas para RANDOM FOREST del costo de consumo de agua
comercial, periodo: 2015-2020
RANDOM
FOREST MSE RMSE MAE MAPE R2
Test set 2313411937.740 48097.941 37100.607 16.3287 0.043199
Tabla 15
Resumen de la evaluación de métricas del costo de consumo de agua comercial,
periodo: 2015-2020
4.2 Discusión
El trabajo realizado con datos de costos de consumo de agua doméstico con enfoque
de Box-Jenkins fue ARIMA(0,1,1)(1,0,0)12 que concuerda con Limache Sandoval (2021)
que pronosticó para la ciudad de Tacna un ARIMA (0,1,1)(0,1,1)12, también Ristow et al.
(2021) reportaron pronósticos de la demanda de agua para la ciudad de Joinville en el primer
semestre de 2018, con resultados de modelo ARIMA estacional para predecir el consumo de
96
agua con errores porcentuales absolutos medios (MAPE) que varían de 1,19 a 15,74% que
son superiores al presente trabajo con (MAPE) que varían desde 1,95 a 2.47 para modelos
ARIMA (1.95), Red Neuronal Artificial (2.47), Prophet (1.96) y Random Forest (2.47),
demostrando que la Red Neuronal Artificial y Random Forest coinciden con MAPE para la
serie de tiempo de costo de consumo de agua doméstico.
Los modelos de series de tiempo desarrollado en el presente trabajo fue ARIMA, Red
Neuronal Artificial, Facebook Prophet y Random Forest con sus métricas de precisión, lo
cual concuerda con Feng et al. (2022) quienes desarrollaron modelos similares para
pronosticar el número de lesiones por accidente de tráfico (RTI). Los parámetros del modelo
SARIMA determinaron a través de la funciones de (acf) y (pacf), mientras que el modelo
Prophet implementaron con Python. El error cuadrático medio (RMSE), error absoluto
medio (MAE) y el Error Porcentual Absoluto Medio (MAPE) usaron para medir y comparar
los modelos estimados, también corrobora Kavya et al. (2023) que la demanda de agua
aumenta con el crecimiento económico y la población, el pronóstico de modelos univariados
fueron para pronosticar la demanda de agua con un error absoluto medio (MAE) de 0,11
m3/h para la demanda de agua a corto plazo y garantizar los recursos hídricos.
Los resultados estimados para serie histórica del costo de consumo de agua
doméstico es concordante con Singh et al. (2023) quienes estimaron modelos de pronóstico
de series temporal estacional, además realizaron varios métodos de aprendizaje automático
(SARIMA, Holt-Winters Exponential Smoothing, ETS, Facebook Prophet, XGBoost y Long
Short-Term Memory) que fueron implementados con Python, lo cual concuerda con la
implementación del trabajo realizado con Python, asimismo reportaron el coeficiente de
determinación de R2 de más de 0,95, que es mayor a Prophet con R2 de 90.44% con una
diferencia de 4.56%, lo que podría atribuirse que los autores han estimado el modelo con
mayor cantidad de datos. También Ayala Bizarro et al. (2019) estimaron para agua potable
de Huancavelica para la categoría de consumo de agua para 2004-2018 con ARIMA (0,1,1)
(2,0,0)12, y para el consumo de agua doméstico fue ARIMA (0,1,2) (0,0,2)12, comparados
con el presente trabajo son similares los modelos, pero con diferentes procesos de la parte
regular y estacional.
97
predicción con una tasa de error menor, en comparación con modelos ARIMA y Prophet de
ticker hdfcbank que fueron analizados durante diez años con el uso de Prophet para mejorar
el rendimiento; sin embargo, la dificultad se presentó con grandes conjuntos de datos en la
escalabilidad, y para aumentar la escalabilidad y gestionar grandes conjuntos de datos,
Prophet puede utilizar la metodología de aprendizaje por transferencia Sharma et al. (2022),
realizaron en forma similar con modelos tradicionales ARIMA y la técnica de Prophet que
presentaron características diferentes para modelos de series de tiempo en la implementación
de los algoritmos realizado en el presente trabajo de investigación.
Las empresas de servicios públicos, según Schmidt et al. (2017), utilizaron tarifas
basadas en costos fijos y variables para fijar el precio del agua, garantizando un nivel de
consumo. Alagarsamy et al. (2022) añadieron que la mayor parte del agua utilizada se
basaron en la facturación automatizada que es notificado a los usuarios y facilita el pago en
línea. Además, Pérez et al. (2020) reportaron que el consumo doméstico depende de factores
climáticos, socioeconómicos y culturales. En San Cristóbal-Venezuela, el consumo fue de
307,6 l/hab/día en las actividades de cocina, inodoro, la ducha, y el lavado. Los autores
remarcan la educación ambiental para promover el uso racional y eficiente del agua, lo cual
corrobora el uso racional de agua doméstico y comercial para las actividades de cocina,
inodoro, ducha, lavado y para el regadío de las plantas.
98
en el uso de modelos de aprendizaje automático con fines de realizar los pronósticos y tomar
decisiones adecuadas.
99
CONCLUSIONES
SEGUNDO: La serie de tiempo para el costo de consumo de agua comercial para la Región
de Puno, es un modelo ARIMA(0,1,2)(1,0,0)12 con una estimación de
parámetros que se ajustó mejor el modelo para realizar el pronóstico:
100
RECOMENDACIONES
101
BIBLIOGRAFÍA
Adams, A. S., & sociedad, N. P. P. (2010). Factores que afectan la demanda de agua para uso
doméstico en México. scielo.org.mx, 22(49).
https://www.scielo.org.mx/scielo.php?pid=S1870-
39252010000300001&script=sci_abstract&tlng=en
Aguero, J. C. (2010). Entre las demandas reivindicativas y ambientales: conflictos por el agua
en la zona metropolitana Córdoba-Orizaba, Veracruz, 1990-2006. www.uv.mx/bdh
Agyemang, E. F., Mensah, J. A., Ocran, E., Opoku, E., & Nortey, E. N. N. (2023). Time series
based road traffic accidents forecasting via SARIMA and Facebook Prophet model with
potential changepoints. Heliyon, 9, e22544.
https://doi.org/10.1016/j.heliyon.2023.e22544
Alagarsamy, S., Sreshta, D., & D. R. (2022). Pattern Recognition based Smart Billing System
for Water Consumption. ieeexplore.ieee.org.
https://ieeexplore.ieee.org/abstract/document/9835742/
Alburqueque, M., Ramos, J., Marchena, C., & Ramírez, E. (2021). Gestión y estudio evolutivo
del agua para el desarrollo sostenible de la región Piura, Perú. Revista Innova
Educación, 3(3), 109–122. https://doi.org/10.35622/J.RIE.2021.03.008
Alexis, A., Apaza, Z., Sair, S., Gárate, O., Javier, A. E., Cuadros, C., Miriam, P., & Ccasa, C.
(2022). Predictive model of water potability through a decision tree in Artificial
Intelligence. Innovation and Software, 3(2), 121–131.
https://doi.org/10.48168/innosoft.s9.a72
Ayala Bizarro, I., Contreras Espinoza, I., Aguirre Vera, C., López Barrantes, M., Ortega Vargas,
J., Olivera Quintanilla, A., Lujan Jeri, H., & Alcántara Espinoza, E. (2019).
Determination of the Real Dotation and Forecast of the Potable Water System in the
Huancavelica City, Peru. davidpublisher.com, IC Espinoza, CA Vera, ML Barrantes, JO
102
Vargas, AO Quintanilla, HL Jeri, EA Espinozadavidpublisher.com, 8, 241–248.
https://doi.org/10.17265/2162-5298/2019.06.002
Briseño, H., & Macedo, E. (2021). Disposición a pagar para mejorar la calidad del agua en
Zapopan. Tecnología y ciencias del agua, 12(1), 402–434. https://doi.org/10.24850/J-
TYCA-2021-01-10
Cryer, J., & Chan, K.-S. (2008). Times Series Analysis with applications in R (Springer, Ed.;
Second).
Decreto Legislativo N° 1240. (2017). Decreto Legislativo N.° 1240 - Normas y documentos
legales - Ministerio del Ambiente - Plataforma del Estado Peruano.
https://www.gob.pe/institucion/minam/normas-legales/3611-1240
Feng, T., Zheng, Z., Xu, J., Liu, M., Li, M., Jia, H., & Yu, X. (2022). The comparative analysis
of SARIMA, Facebook Prophet, and LSTM for road traffic injury prediction in
Northeast China. Frontiers in Public Health, 10.
https://doi.org/10.3389/FPUBH.2022.946563
103
García-Soto, C. G., Torres, J. F., Zamora-Izquierdo, M. A., Palma, J., & Troncoso, A. (2024).
Water consumption time series forecasting in urban centers using deep neural networks.
Applied Water Science, 14(2), 1–14. https://doi.org/10.1007/S13201-023-02072-
4/FIGURES/16
Gomez-Ugalde, Mora_Flores, García Salazar, & Valdivia Alcala. (2012). Demanda de agua
para uso residencial y comercial. https://www.scielo.org.mx/scielo.php?pid=S0187-
57792012000400337&script=sci_arttext
Gonzalez, C. E., & Draghi, R. (2021). Diseño de Muestreo. Manual de técnicas y protocolos
para el relevamiento y estudio de anfibios de Argentina, 24–32.
https://ri.conicet.gov.ar/handle/11336/156720
Hanke, J., & Wichern, D. (2010). Pronósticos en los negocios (Printice Hall, Ed.; Novena).
Huaquisto Cáceres, S., & Chambilla Flores, I. G. (2019). ANÁLISIS DEL CONSUMO DE
AGUA POTABLE EN EL CENTRO POBLADO DE SALCEDO, PUNO.
INVESTIGACION & DESARROLLO, 19(1), 133–144.
https://doi.org/10.23881/IDUPBO.019.1-9I
Jiménez, D., Orrego, S., Vásquez, F., Ponce, R., Jiménez, D., Orrego, S., Vásquez, F., & Ponce,
R. (2017). Estimación de la demanda de agua para uso residencial urbano usando un
modelo discreto-continuo y datos desagregados a nivel de hogar: el caso de la ciudad
de Manizales, Colombia. Lecturas de Economía, 86(86), 153–178.
https://doi.org/10.17533/UDEA.LE.N86A06
104
Kavya, M., Mathew, A., Shekar, P. R., & P, S. (2023). Short term water demand forecast
modelling using artificial intelligence for smart water management. Sustainable Cities
and Society, 95, 104610. https://doi.org/10.1016/J.SCS.2023.104610
Kontopoulou, V. I., Panagopoulos, A. D., Kakkos, I., & Matsopoulos, G. K. (2023). A Review
of ARIMA vs. Machine Learning Approaches for Time Series Forecasting in Data
Driven Networks. Future Internet 2023, Vol. 15, Page 255, 15(8), 255.
https://doi.org/10.3390/FI15080255
Laura Castillo, M. V. (2015). Análisis económico del consumo medido de agua potable en la
ciudad de Puno. Revista Investigaciones Altoandinas, ISSN 2306-8582, ISSN-e 2313-
2957, Vol. 17, No. 1, 2015, págs. 117-124, 17(1), 117–124.
https://doi.org/10.18271/ria.2015.87
Manaloto, R., Psychology, C. C.-J. of P. S., & 2022, undefined. (2022). Water Billing System
with Business Intelligence and Data Analytics. journalppw.com, 2022(5), 4554–4558.
https://www.journalppw.com/index.php/jpsp/article/view/7263
Martín del Brío, B., & Sanz Molina, A. (2007). Redes Neuronales y Sistemas Borrosos (Tercera
Edición). Alfaomega Grupo Editor, S.A. de C.V.
Mckinney, W. (2022). Python for Data Analysis Data Wrangling with pandas, NumPy &
Jupyter. 1–520.
105
Otero, J. (1993). Econometría. Series temporales y predicción (Editorial AC, Ed.; Primera).
Otzen, T., & Manterola, C. (2017). Técnicas de Muestreo sobre una Población a Estudio.
International Journal of Morphology, 35(1), 227–232. https://doi.org/10.4067/S0717-
95022017000100037
Peixeiro, M. (2022). Time Series Forecasting in Python. Manning Publications Co., 23.
https://www.manning.com/books/time-series-forecasting-in-python-book
Peña, D. (2010). Análisis de Series Temporales. (Alianza Editorial, Ed.; Segunda Edición).
Alianza Editorial.
Pérez, Z., González, M., Azul, D. R.-R. L., & 2020, undefined. (2020). Estimación y hábitos
del consumo de agua para fines domésticos en una zona residencial de San Cristóbal,
Venezuela. redalyc.orgZER Pérez, MJC González, DCR RomeroRevista Luna Azul,
2020•redalyc.org. https://doi.org/10.17151/luaz.2020.51.6
Raita, Y., Goto, T., Faridi, M. K., Brown, D. F. M., Camargo, C. A., & Hasegawa, K. (2019).
Emergency department triage prediction of clinical outcomes using machine learning
models. Critical Care, 23(1), 1–13. https://doi.org/10.1186/S13054-019-2351-
7/FIGURES/4
Ristow, D., Henning, E., … A. K.-J. of water, & 2021, undefined. (2021). Models for
forecasting water demand using time series analysis: a case study in Southern Brazil.
iwaponline.com. https://doi.org/10.2166/washdev.2021.208
Sah, S., Surendiran, B., Dhanalakshmi, R., Mohanty, S. N., Alenezi, F., & Polat, K. (2022).
Forecasting COVID-19 Pandemic Using Prophet, ARIMA, and Hybrid Stacked LSTM-
GRU Models in India. Computational and Mathematical Methods in Medicine, 2022.
https://doi.org/10.1155/2022/1556025
106
Schmidt, A., Research, L. L.-J. of C. W., & 2017, undefined. (2017). The Cost of Stability:
Consumption‐Based Fixed Rate Billing for Water Utilities. Wiley Online Library,
160(1), 5–24. https://doi.org/10.1111/j.1936-704X.2017.03237.x
Sharma, K., Bhalla, R., & Ganesan, G. (2022). Time Series Forecasting Using FB-Prophet.
ceur-ws.orgK Sharma, R Bhalla, G GanesanACM, 2022•ceur-ws.org. https://ceur-
ws.org/Vol-3445/PAPER_07.pdf
Singh, D., Werner, F., Kramar, V., & Alchakov, V. (2023). Time-Series Forecasting of Seasonal
Data Using Machine Learning Methods. Algorithms 2023, Vol. 16, Page 248, 16(5),
248. https://doi.org/10.3390/A16050248
Soncco Silva, Y. L. (2019). Valoración económica del efecto en la salud por el cambio en la
calidad del agua en la ciudad de Juliaca. Universidad Nacional del Altiplano.
https://repositorio.unap.edu.pe/handle/20.500.14082/13497
Sucasaca, Y., Parra, B., Mamani, J., & Alfa, I. C.-R. (2024). Disponibilidad a pagar por la
sostenibilidad del servicio de agua potable en el Centro Poblado Chucaripo, Perú.
revistaalfa.org, 8(22), 273–283.
https://revistaalfa.org/index.php/revistaalfa/article/view/352
Succetti, F., Rosato, A., & Araneo, R. (2020). Deep neural networks for multivariate prediction
of photovoltaic power time series. ieeexplore.ieee.orgF Succetti, A Rosato, R Araneo,
M PanellaIEEE Access, 2020•ieeexplore.ieee.org.
https://ieeexplore.ieee.org/abstract/document/9265261/
Tsay, R. S. (2014). Multivariate Time Series Analysis With R and Financial Applications. Syria
Studies, 7(1), 37–72. https://www.wiley.com/en-
it/Multivariate+Time+Series+Analysis%3A+With+R+and+Financial+Applications-p-
9781118617908
Uriel, E. (1985). Análisis de series temporales modelos ARIMA (S. A. Artes Gráficas Benzal,
Ed.; Primera).
Uriel, E. (1995). Análisis de datos. Series temporales y Análisis multivariante (Editorial AC,
Ed.; Primera).
107
Wei, W. (2006). Times series analysis. Univariate and multivariate (Pearson Addison Wesley,
Ed.; Second).
Zhang, L., Bian, W., Qu, W., Tuo, L., & Wang, Y. (2021). Time series forecast of sales volume
based on XGBoost. Journal of Physics: Conference Series, 1873(1).
https://doi.org/10.1088/1742-6596/1873/1/012067
108
ANEXOS
¿Cuál es el modelo de El modelo adecuado con Determinar el modelo VI: tiempo Facturación Metodología de Función de
serie tiempo y Machine enfoque de Box-Jenkins y para describir el expresado en autocorrelaciones,
mensual en S/. Box – Jenkins y
Learning para describir Machine Learning se modela comportamiento con periodo mensual de SARIMA(p,d,q)(P,
el mejor mejor en describir el Machine Learning en 2015-2020 Machine Learning D,Q)12, Enfoque
comportamiento en el comportamiento del consumo el consumo de agua de Box-Jenkins,
consumo de agua de agua doméstico y doméstico y VD: Costo (S/) Prueba Dickey-
doméstico y comercial, comercial, periodo 2015 - comercial, periodo mensual del Fuller (ADF),
periodo 2015 – 2020? 2020. 2015 - 2020. consumo de agua Prueba de Box-
doméstico y Ljung y las técnicas
¿El modelo identificado Los pronósticos del modelo Realizar pronósticos comercial de
permite realizar los de serie de tiempo con del modelo de serie de Machine Learning
pronósticos de serie de Machine Learning para el tiempo con Machine con R y Python.
tiempo y Machine consumo de agua doméstico y Learning de consumo
Learning de consumo comercial, se obtiene con la de agua doméstico y
de agua doméstico y metodología de Box-Jenkins. comercial de la
comercial, periodo Región de Puno,
2015 – 2020? periodo 2015 - 2020.
109
Anexo 2. Pronósticos con prophet – consumo de agua doméstico
110
Anexo 3. Códigos de R para series de tiempo ARIMA de consumo de agua doméstico
library(xts)
library(aTSA)
library(fable)
library(ggplot2)
library(fpp2)
library(forecast)
library(tsibble)
library(tseries)
library(tsbox)
library(plyr)
library(reshape)
library(RCurl)
library(quantmod)
library(lubridate)
library(dplyr)
library(ggplot2)
library(caret)
library(TSA)
library(Quandl)
library(readxl)
library(tidyverse)
#library(feasts)
#library(ggpubr)
#forecast::ggsubseriesplot(ts(data1$DOMESTIC, start=c(2015,1),frequency=12))
ndiffs(model1)
# Augmented Dickey-Fuller test para ver la no estacionariedad
# Se observa la probabilidad de ser no estacionaria
# Si p-value > = 0.05, la serie no es estacionaria (tiene tendencia)
111
# Si p-value < = 0.05, la serie es estacionario (no hay tendencia)
adf.test(model1, alternative="stationary")
adf.test(tdiff, alternative="stationary")
# ESTIMACION DE MODELO
arima1 = arima(model1, order = c(0,1,1), seasonal = c(1,0,0)); arima1
plot(arima1, lwd=2, xlab="Años", ylab="Costo de consumo en S/.", col=c("blue"))
library(lmtest)
coeftest(arima1)
library(nortest)
# Se realiza la prueba de shapiro.test(arima1$residuals)
112
lillie.test(arima1$residuals)
# Se realiza el pronóstico
# forecast(arima1, 12)
# plot(forecast(arima1, h = 12))
# Método 2
Checkresiduals (ARIMA1, lwd=2, col=c("blue"))
113
Anexo 4. Códigos de R para Redes Neuronales Artificiales de consumo de agua
doméstico
library(readxl)
library(fpp2)
library(forecast)
library(fma)
library(ggplot2)
library(ggpubr)
library(modeltime)
library(car)
library(astsa)
library(stats)
library(moments)
library(quantmod)
library(lubridate)
library(dplyr)
library(tidyr)
library(caret)
library(ggpubr)
library(ggplot2)
library(car)
library(modeltime)
library(rstatix)
library(tidyverse)
# Verificando el ajuste del método, es buen ajuste cercano a cero, no hay variabilidad
autoplot(m5) + autolayer(fitted(m5), serie ="ajuste")
# Verificando los residuales, la distribución normal es cercano a cero, tiene buen ajuste,
y ACF los valores están dentro de las líneas azules
checkresiduals(m5)
m6 = forecast(neural_network, h=12)
m6
autoplot(m6, lwd=2, col="green")
115
Anexo 5. Códigos de Prophet para el costo de consumo de agua doméstico
#####################################################################
-- Machine Learning - SERIES DE TIEMPO con PROPHET--
#####################################################################
# Conexion a Google Colaborative
from google.colab import drive
drive.mount('/gdrive')
Mounted at /gdrive
1. Se importa los Modulos
import pandas as pd # Dataframes
import numpy as np # Arreglos y matrices
import scipy.stats as stats
import matplotlib.pyplot as plt # Graficos
import seaborn as sns # para análisis gráficos
import random # para generar aleatorios
import xgboost as xgb
from sklearn.ensemble import RandomForestRegressor
import datetime as dt
from sklearn import metrics
from prophet import Prophet
from prophet.plot import plot_plotly
from prophet.diagnostics import cross_validation
from prophet.diagnostics import performance_metrics
from datetime import datetime
from statsmodels.tsa.statespace.sarimax import SARIMAX
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
import warnings
warnings.filterwarnings('ignore')
116
data.dtypes
# Convertir el objeto a Fecha
data['Fecha'] = pd.to_datetime(data['Fecha'])
data.dtypes
##
from statsmodels.tsa.seasonal import seasonal_decompose
df=data.set_index('Fecha')
plt.rcParams["figure.figsize"]=(10,6)
a = seasonal_decompose(df["DOMESTIC"], model ="add")
a.plot();
#
forecast[["ds","yhat","yhat_lower","yhat_upper"]].head()
## Grafico del pronostico
modelo.plot(forecast);
plt.title("Pronóstico de consumo de agua")
plt.show()
117
def mean_absolute_percentage_error(y_true, y_pred): y_true, y_pred =
np.array(y_true), np.array(y_pred) return np.mean(np.abs((y_true - y_pred) / y_true)) *
100
print('Evaluacion de la Métrica:')
print(f'MSE es : {metrics.mean_squared_error(y_true, y_pred)}')
print(f'MAE es : {metrics.mean_absolute_error(y_true, y_pred)}')
print(f'RMSE es : {np.sqrt(metrics.mean_squared_error(y_true, y_pred))}')
print(f'MAPE es : {mean_absolute_percentage_error(y_true, y_pred)}')
print(f'R2 es : {metrics.r2_score(y_true, y_pred)}', end='\n\n')
evaluacion_metrica(y_true, y_pred)
# gráfico con datos reales y prediccion
plt.figure(figsize=(8,4))
# Fin de código
118
Anexo 6. Declaración Jurada de Autenticidad de tesis
119
Anexo 7. Autorización para el depósito de tesis en el Repositorio Institucional
120