Air quality has become one of the main issues in public health and urban planning management, due... more Air quality has become one of the main issues in public health and urban planning management, due to the proven adverse effects of high pollutant concentrations. Considering the mitigation measures that cities all over the world are taking in order to face frequent low air quality episodes, the capability of foreseeing future pollutant concentrations is of great importance. Through this paper, we present SOCAIRE, an operational tool based on a Bayesian and spatiotemporal ensemble of neural and statistical nested models. SOCAIRE integrates endogenous and exogenous information in order to predict and monitor future distributions of the concentration for several pollutants in the city of Madrid. It focuses on modeling each and every available component which might play a role in air quality: past concentrations of pollutants, human activity, numerical pollution estimation, and numerical weather predictions. This tool is currently in operation in Madrid, producing daily air quality predictions for the next 48 hours and anticipating the probability of the activation of the measures included in the city's official air quality NO 2 protocols through probabilistic inferences about compound events.
Air quality has become a central issue in public health and urban planning management, due to the... more Air quality has become a central issue in public health and urban planning management, due to the proven adverse effects of airborne pollutants. Considering temporary mobility restriction measures used to face low air quality episodes, the capability of foreseeing pollutant concentrations is crucial. We thus present SOCAIRE (Spanish acronim for "operational forecast system for air quality"), an operational tool based on a Bayesian and spatiotemporal ensemble of neural and statistical nested models. SOCAIRE integrates endogenous and exogenous information in order to predict and monitor future distributions of the concentration for the main pollutants. It focuses on modeling available components which affect air quality: past concentrations of pollutants, human activity, and numerical pollution and weather predictions. This tool is currently in operation in Madrid, producing daily air quality predictions for the next 48 h and anticipating the probability of the activation of the measures included in the city's official air quality NO 2 protocols through probabilistic inferences about compound events.
"Is another perspective of big data prediction possible? Yes, this post proposes one way!
In th... more "Is another perspective of big data prediction possible? Yes, this post proposes one way!
In this example, three models were developed and the results were compared with Google Flu estimates.
One can conclude that the developed models show a lot more accurate predictions than the ones presented by Google Flu."
A la hora de estimar modelos X-ARIMA sobre miles o incluso millones de series output con una estr... more A la hora de estimar modelos X-ARIMA sobre miles o incluso millones de series output con una estructura ARIMA en común, si se organizan bien los datos y los procedimientos, es posible ahorrar mucho tiempo de cálculo y aún así alcanzar soluciones suficientemente aproximadas. En los métodos de estimación uno a uno (en contraposición a los métodos masivos aquí expuestos), el énfasis de los algoritmos numéricos se pone en estimar los parámetros ARMA que son no lineales y que pueden dar problemas de convergencia. Sin embargo, cuando sólo hay uno o dos parámetros ARMA que hay que evaluar en una gran cantidad de outputs de la misma longitud, resulta más eficiente un método de exploración directa, pues, aunque se evalúe en muchos más puntos que con un método iterativo más complejo, la mayor parte del cálculo sirve para todos los modelos. Si además todos los inputs lineales son comunes a todos los modelos entonces el ahorro aún es mayor con respecto a una solución uno a uno.
There is a wide variety of institutions which periodically publish forecasts about differentmacroe... more There is a wide variety of institutions which periodically publish forecasts about differentmacroeconomic indexes. Because each source has its own criteria and models, each onecommits different errors. Regarding this data, it is reasonable to create a parasitic modelwhich uses various forecasts as input and combine them. In this way, more independentinformation is obtained and the error of prediction is reduced.This thesis proposes the Bayesian approach to develop the distribution of errors of fore-casts, including the information about past errors of each source and considering variousinfluential factors. Afterwards, there is an evaluation of combined forecast simulations in or-der to acquire the distribution of the future macroeconomic indexes and verify the accuracyof the model.
En este documento se propone un modelo SIR (Susceptible-Infectado-Recuperado) para la gripe estac... more En este documento se propone un modelo SIR (Susceptible-Infectado-Recuperado) para la gripe estacional basado en hipótesis aceptadas en la literatura epidemiológica, mediante técnicas de simulación MCMC aplicadas a las ecuaciones diferenciales estocásticas no lineales de los procesos de infección, recuperación y mutación, que dan lugar a los típicos procesos explosivos de las epidemias estacionales en zonas templadas, teniendo en cuenta para ello las condiciones meteorológicas y sociológicas del entorno geográfico.
Cuando el número de datos de una regresión no lineal (probit, logit, Poisson, ...) es demasiado g... more Cuando el número de datos de una regresión no lineal (probit, logit, Poisson, ...) es demasiado grande es posible paralelizar la simulación bayesiana tomando submuestras no solapadas para generar ditintas cadenas de Markov de Montecarlo (MCMC) que podemos mezclar posteriormente en una sola cadena.
Resumen. El enfoque usual de aproximación de funciones como un problema de mero cálculo numérico ... more Resumen. El enfoque usual de aproximación de funciones como un problema de mero cálculo numérico es reemplazado en este artículo por una visión estadística bayesiana del problema que permite una formulación más robusta y un mecanismo más eficiente.
Resumen. A semejanza de los métodos clásicos de interpolación y aproximación sin malla, la función de aproximación global se construirá como una combinación lineal convexa de funciones que aproximan localmente la función objetivo en entornos que recubren su dominio. Estas funciones de aproximación local son a su vez combinaciones lineales de unas pocas funciones básicas linealmente independientes. De este modo, para evaluar la función de aproximación global sólo será necesario localizar los entornos locales a los que pertenece y evaluar en ellos las funciones de aproximación local.
Resumen. Se trabajará bajo la hipótesis de errores de aproximación normales independientes y la existencia de relaciones latentes entre las funciones de aproximación local para construir un modelo de regresión lineal jerárquico con matriz de inputs muy dispersa y por lo tanto muy eficaz en cuanto a su estimación máximo-verosímil, todo ello sin necesidad de tener que aproximar cada zona por separado para tener luego que ensamblarlas ni reajustarlas.
En este documento se presenta la versión inicial 1.0, aún en desarrollo, de un sistema abierto es... more En este documento se presenta la versión inicial 1.0, aún en desarrollo, de un sistema abierto escrito en TOL1 para la simulación e inferencia bayesianas de tipo MonteCarlo-Markov Chain (MCMC) mediante el algoritmo de Gibbs, sobre modelos de regresión lineal sparse con estructura arbitraria (jerárquicos, redes bayesianas, ...) con restricciones de desigualdad lineal, con tratamiento de omitidos y filtros no lineales, ambas tanto en el input como en el output, así como con estructuras ARIMA.
El objetivo de este documento es plantear métodos eficientes de estimación y previsión de un gran... more El objetivo de este documento es plantear métodos eficientes de estimación y previsión de un gran número de series temporales interrelacionadas de forma que, en un tiempo relativamente corto, permita desarrollar modelos estadísticos aceptables que expliquen el comportamiento de dichas series, acelerando los procesos de análisis y explotación.
Se plantean dos posibles líneas de mejora que son independientes y compatibles entre sí:
• Escribir algoritmos de estimación de modelos en SQL para evitar el coste de tiempo y de espacio de disco y memoria que supone el acceso masivo a grandes bases de datos, tanto para lectura como para escritura.
•Aprovechar el hecho de que en los problemas de estimación masiva suele haber un gran número de variables en común a muchos grupos de series.
La teoría de la decisión es una rama de la matemática que engloba a la teoría de la probabilidad ... more La teoría de la decisión es una rama de la matemática que engloba a la teoría de la probabilidad en un marco más general que permite la construcción de sistemas automáticos de decisión bajo incertidumbre, es decir, cuando no se sabe a ciencia cierta lo que ocurrirá tras tomar la decisión.
En el caso del aprovisionamiento de recursos se debe tomar la decisión de qué cantidad de recursos se asignan a cada punto de demanda antes de conocer cuál será la necesidad real de dichos recursos, teniendo en cuenta que asignar recursos de más o de menos puede conllevar costes de diferente índole.
Air quality has become one of the main issues in public health and urban planning management, due... more Air quality has become one of the main issues in public health and urban planning management, due to the proven adverse effects of high pollutant concentrations. Considering the mitigation measures that cities all over the world are taking in order to face frequent low air quality episodes, the capability of foreseeing future pollutant concentrations is of great importance. Through this paper, we present SOCAIRE, an operational tool based on a Bayesian and spatiotemporal ensemble of neural and statistical nested models. SOCAIRE integrates endogenous and exogenous information in order to predict and monitor future distributions of the concentration for several pollutants in the city of Madrid. It focuses on modeling each and every available component which might play a role in air quality: past concentrations of pollutants, human activity, numerical pollution estimation, and numerical weather predictions. This tool is currently in operation in Madrid, producing daily air quality predictions for the next 48 hours and anticipating the probability of the activation of the measures included in the city's official air quality NO 2 protocols through probabilistic inferences about compound events.
Air quality has become a central issue in public health and urban planning management, due to the... more Air quality has become a central issue in public health and urban planning management, due to the proven adverse effects of airborne pollutants. Considering temporary mobility restriction measures used to face low air quality episodes, the capability of foreseeing pollutant concentrations is crucial. We thus present SOCAIRE (Spanish acronim for "operational forecast system for air quality"), an operational tool based on a Bayesian and spatiotemporal ensemble of neural and statistical nested models. SOCAIRE integrates endogenous and exogenous information in order to predict and monitor future distributions of the concentration for the main pollutants. It focuses on modeling available components which affect air quality: past concentrations of pollutants, human activity, and numerical pollution and weather predictions. This tool is currently in operation in Madrid, producing daily air quality predictions for the next 48 h and anticipating the probability of the activation of the measures included in the city's official air quality NO 2 protocols through probabilistic inferences about compound events.
"Is another perspective of big data prediction possible? Yes, this post proposes one way!
In th... more "Is another perspective of big data prediction possible? Yes, this post proposes one way!
In this example, three models were developed and the results were compared with Google Flu estimates.
One can conclude that the developed models show a lot more accurate predictions than the ones presented by Google Flu."
A la hora de estimar modelos X-ARIMA sobre miles o incluso millones de series output con una estr... more A la hora de estimar modelos X-ARIMA sobre miles o incluso millones de series output con una estructura ARIMA en común, si se organizan bien los datos y los procedimientos, es posible ahorrar mucho tiempo de cálculo y aún así alcanzar soluciones suficientemente aproximadas. En los métodos de estimación uno a uno (en contraposición a los métodos masivos aquí expuestos), el énfasis de los algoritmos numéricos se pone en estimar los parámetros ARMA que son no lineales y que pueden dar problemas de convergencia. Sin embargo, cuando sólo hay uno o dos parámetros ARMA que hay que evaluar en una gran cantidad de outputs de la misma longitud, resulta más eficiente un método de exploración directa, pues, aunque se evalúe en muchos más puntos que con un método iterativo más complejo, la mayor parte del cálculo sirve para todos los modelos. Si además todos los inputs lineales son comunes a todos los modelos entonces el ahorro aún es mayor con respecto a una solución uno a uno.
There is a wide variety of institutions which periodically publish forecasts about differentmacroe... more There is a wide variety of institutions which periodically publish forecasts about differentmacroeconomic indexes. Because each source has its own criteria and models, each onecommits different errors. Regarding this data, it is reasonable to create a parasitic modelwhich uses various forecasts as input and combine them. In this way, more independentinformation is obtained and the error of prediction is reduced.This thesis proposes the Bayesian approach to develop the distribution of errors of fore-casts, including the information about past errors of each source and considering variousinfluential factors. Afterwards, there is an evaluation of combined forecast simulations in or-der to acquire the distribution of the future macroeconomic indexes and verify the accuracyof the model.
En este documento se propone un modelo SIR (Susceptible-Infectado-Recuperado) para la gripe estac... more En este documento se propone un modelo SIR (Susceptible-Infectado-Recuperado) para la gripe estacional basado en hipótesis aceptadas en la literatura epidemiológica, mediante técnicas de simulación MCMC aplicadas a las ecuaciones diferenciales estocásticas no lineales de los procesos de infección, recuperación y mutación, que dan lugar a los típicos procesos explosivos de las epidemias estacionales en zonas templadas, teniendo en cuenta para ello las condiciones meteorológicas y sociológicas del entorno geográfico.
Cuando el número de datos de una regresión no lineal (probit, logit, Poisson, ...) es demasiado g... more Cuando el número de datos de una regresión no lineal (probit, logit, Poisson, ...) es demasiado grande es posible paralelizar la simulación bayesiana tomando submuestras no solapadas para generar ditintas cadenas de Markov de Montecarlo (MCMC) que podemos mezclar posteriormente en una sola cadena.
Resumen. El enfoque usual de aproximación de funciones como un problema de mero cálculo numérico ... more Resumen. El enfoque usual de aproximación de funciones como un problema de mero cálculo numérico es reemplazado en este artículo por una visión estadística bayesiana del problema que permite una formulación más robusta y un mecanismo más eficiente.
Resumen. A semejanza de los métodos clásicos de interpolación y aproximación sin malla, la función de aproximación global se construirá como una combinación lineal convexa de funciones que aproximan localmente la función objetivo en entornos que recubren su dominio. Estas funciones de aproximación local son a su vez combinaciones lineales de unas pocas funciones básicas linealmente independientes. De este modo, para evaluar la función de aproximación global sólo será necesario localizar los entornos locales a los que pertenece y evaluar en ellos las funciones de aproximación local.
Resumen. Se trabajará bajo la hipótesis de errores de aproximación normales independientes y la existencia de relaciones latentes entre las funciones de aproximación local para construir un modelo de regresión lineal jerárquico con matriz de inputs muy dispersa y por lo tanto muy eficaz en cuanto a su estimación máximo-verosímil, todo ello sin necesidad de tener que aproximar cada zona por separado para tener luego que ensamblarlas ni reajustarlas.
En este documento se presenta la versión inicial 1.0, aún en desarrollo, de un sistema abierto es... more En este documento se presenta la versión inicial 1.0, aún en desarrollo, de un sistema abierto escrito en TOL1 para la simulación e inferencia bayesianas de tipo MonteCarlo-Markov Chain (MCMC) mediante el algoritmo de Gibbs, sobre modelos de regresión lineal sparse con estructura arbitraria (jerárquicos, redes bayesianas, ...) con restricciones de desigualdad lineal, con tratamiento de omitidos y filtros no lineales, ambas tanto en el input como en el output, así como con estructuras ARIMA.
El objetivo de este documento es plantear métodos eficientes de estimación y previsión de un gran... more El objetivo de este documento es plantear métodos eficientes de estimación y previsión de un gran número de series temporales interrelacionadas de forma que, en un tiempo relativamente corto, permita desarrollar modelos estadísticos aceptables que expliquen el comportamiento de dichas series, acelerando los procesos de análisis y explotación.
Se plantean dos posibles líneas de mejora que son independientes y compatibles entre sí:
• Escribir algoritmos de estimación de modelos en SQL para evitar el coste de tiempo y de espacio de disco y memoria que supone el acceso masivo a grandes bases de datos, tanto para lectura como para escritura.
•Aprovechar el hecho de que en los problemas de estimación masiva suele haber un gran número de variables en común a muchos grupos de series.
La teoría de la decisión es una rama de la matemática que engloba a la teoría de la probabilidad ... more La teoría de la decisión es una rama de la matemática que engloba a la teoría de la probabilidad en un marco más general que permite la construcción de sistemas automáticos de decisión bajo incertidumbre, es decir, cuando no se sabe a ciencia cierta lo que ocurrirá tras tomar la decisión.
En el caso del aprovisionamiento de recursos se debe tomar la decisión de qué cantidad de recursos se asignan a cada punto de demanda antes de conocer cuál será la necesidad real de dichos recursos, teniendo en cuenta que asignar recursos de más o de menos puede conllevar costes de diferente índole.
Uploads
Papers by Víctor de Buen
In this example, three models were developed and the results were compared with Google Flu estimates.
One can conclude that the developed models show a lot more accurate predictions than the ones presented by Google Flu."
Resumen. A semejanza de los métodos clásicos de interpolación y aproximación sin malla, la función de aproximación global se construirá como una combinación lineal convexa de funciones que aproximan localmente la función objetivo en entornos que recubren su dominio. Estas funciones de aproximación local son a su vez combinaciones lineales de unas pocas funciones básicas linealmente independientes. De este modo, para evaluar la función de aproximación global sólo será necesario localizar los entornos locales a los que pertenece y evaluar en ellos las funciones de aproximación local.
Resumen. Se trabajará bajo la hipótesis de errores de aproximación normales independientes y la existencia de relaciones latentes entre las funciones de aproximación local para construir un modelo de regresión lineal jerárquico con matriz de inputs muy dispersa y por lo tanto muy eficaz en cuanto a su estimación máximo-verosímil, todo ello sin necesidad de tener que aproximar cada zona por separado para tener luego que ensamblarlas ni reajustarlas.
Se plantean dos posibles líneas de mejora que son independientes y compatibles entre sí:
• Escribir algoritmos de estimación de modelos en SQL para evitar el coste de tiempo y de espacio de disco y memoria que supone el acceso masivo a grandes bases de datos, tanto para lectura como para escritura.
•Aprovechar el hecho de que en los problemas de estimación masiva suele haber un gran número de variables en común a muchos grupos de series.
En el caso del aprovisionamiento de recursos se debe tomar la decisión de qué cantidad de recursos se asignan a cada punto de demanda antes de conocer cuál será la necesidad real de dichos recursos, teniendo en cuenta que asignar recursos de más o de menos puede conllevar costes de diferente índole.
In this example, three models were developed and the results were compared with Google Flu estimates.
One can conclude that the developed models show a lot more accurate predictions than the ones presented by Google Flu."
Resumen. A semejanza de los métodos clásicos de interpolación y aproximación sin malla, la función de aproximación global se construirá como una combinación lineal convexa de funciones que aproximan localmente la función objetivo en entornos que recubren su dominio. Estas funciones de aproximación local son a su vez combinaciones lineales de unas pocas funciones básicas linealmente independientes. De este modo, para evaluar la función de aproximación global sólo será necesario localizar los entornos locales a los que pertenece y evaluar en ellos las funciones de aproximación local.
Resumen. Se trabajará bajo la hipótesis de errores de aproximación normales independientes y la existencia de relaciones latentes entre las funciones de aproximación local para construir un modelo de regresión lineal jerárquico con matriz de inputs muy dispersa y por lo tanto muy eficaz en cuanto a su estimación máximo-verosímil, todo ello sin necesidad de tener que aproximar cada zona por separado para tener luego que ensamblarlas ni reajustarlas.
Se plantean dos posibles líneas de mejora que son independientes y compatibles entre sí:
• Escribir algoritmos de estimación de modelos en SQL para evitar el coste de tiempo y de espacio de disco y memoria que supone el acceso masivo a grandes bases de datos, tanto para lectura como para escritura.
•Aprovechar el hecho de que en los problemas de estimación masiva suele haber un gran número de variables en común a muchos grupos de series.
En el caso del aprovisionamiento de recursos se debe tomar la decisión de qué cantidad de recursos se asignan a cada punto de demanda antes de conocer cuál será la necesidad real de dichos recursos, teniendo en cuenta que asignar recursos de más o de menos puede conllevar costes de diferente índole.