0% encontró este documento útil (0 votos)
12 vistas11 páginas

Protocolo de Análisis de Aire con R

Cargado por

Alejo Pirakok
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
12 vistas11 páginas

Protocolo de Análisis de Aire con R

Cargado por

Alejo Pirakok
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Fecha de actualización: Julio 8, 2024.

Autor: Alejandro Piracoca.

Protocolo para la Gestión y Análisis de Datos de Calidad del Aire


con R
1. Introducción
 Objetivo del documento: Proveer recomendaciones para el manejo y análisis de datos de calidad
del aire de la red de microsensores, utilizando el lenguaje de programación R. Este protocolo
tiene como finalidad estandarizar el proceso para facilitar el desarrollo de los boletines mensuales
de calidad del aire.

 Alcance del protocolo: Este protocolo abarca desde la carga de los datos desde el equipo
PurpleAir a R, su procesamiento, hasta la generación de análisis e informes mensuales. Está
diseñado para los estudiantes y profesores de la Escuela del Aire Cuchavira del Colegio ICAM.

2. Herramientas y requisitos
La red de monitoreo de calidad del aire comunitaria Cuchavira que hace parte de la escuela del aire del
Instituto de Ciencias Agroindustriales y del Medio Ambiente (ICAM) y la Fundación Bios Terrae tiene
por objetivo visibilizar la problemática de la contaminación atmosférica presente en la provincia y
convocar a todos los diversos sectores de la sociedad para cuidar y proteger el medio ambiente, sabiendo
que una mejor calidad del aire significa una mejor salud para todos los habitantes de la provincia. Esta red
posee 5 microsensores de calidad del aire en la región del Valle de Ubaté Los sensores se encuentran
ubicados en los municipios de Ubaté, Tausa, Cucunubá, Lenguazaque y Guachetá.

 Equipos:

o Microsensores: referencias PurpleAir que mide en tiempo real concentraciones de PM1,


PM2.5, PM10, número de partículas en diferentes tamaños y variables meteorológicas.
Este sensor puede ser instalado tanto en interiores como exteriores y ser utilizado en el
sector residencial, comercial o industrial.

 Software

o R: Lenguaje de programación y entorno de software libre para computación estadística y


gráficos.

o RStudio: Entorno de desarrollo integrado (IDE) para R.

o Paquetes de R: readr, tidyverse, lubridate, ggplot2, writexl, skimr (para manejo de datos
y visualización).

3. Métodos de descarga de los datos de los microsensores PurpleAir:


3.1 Página Web:
1. Acceder a la página web de PurpleAir:
Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 1
[Link]

2. Seleccionar el sensor de interés y navegar a la sección de datos y configurar los parámetros de


descarga, estos se encuentran en la barra de acceso superior izquierda.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 2
Es posible seleccionar cualquiera de los datos de la lista desplegable, tanto variables meteorológicas,
como indicadores de contaminación y concentraciones de contaminantes.

En la tabla. Se encuentra el directorio de datos que pueden ser descargados desde la web

Tabla 1. Descripción de las variables disponibles a descargar en la web de PurpleAir.


Variable Descripción

US EPA PM2.5 / PM10 Índice de calidad del aire de la EPA para PM2.5 y PM10
AQI

Experimental VOC (Bosch Índice de calidad del aire


Static IAQ)

Ozono (ppm) Temperatura Variables meteorológicas medidas por los sensores.


(°F;°C) Humedad relativa
(%) Presión (mbar)
Atura (pies)

Raw PM1.0, PM2.5, PM10 Concentraciones de PM en (µg/m3)


(µg/m3)

Particles >= 0.3; 0.5; 1.0; Número de partículas promedio según tamaño en número
2.5; 5.0; 10 µm (particles / de partículas por cada 100 mL
dL)

La descripción de las variables completas disponibles que se pueden descargar desde la API o
directamente del equipo: [Link]

3. Seleccionar el tipo o parámetros a descargar y su resolución temporal.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 3
Las resoluciones temporales y su histórico de describen en la tabla.

Tabla 2. Horizonte de tiempo máximo disponible para descargar en la página web según la resolución temporal.
Resolución temporal Datos históricos

10 minutos 3 días

30 minutos 7 días

1 hora 15 días

6 horas 3 meses

Semanal, mensual y Todos los datos disponibles.


anual

Es posible descargar los datos de varias estaciones si se seleccionan, al tiempo en una misma
configuración. Para ello se puede verificar en la gráfica de la página los sensores que se están
graficando.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 4
4. Descargar los datos y la gráfica, dando clic en el símbolo de 3 líneas.

Es posible descargar la gráfica directamente de la página en formato imagen o PDF y de igual forma
los datos en formato xls o csv. Por motivos del manejo de datos interno de la red, los datos deben ser
descargados en formato csv y la gráfica en formato PDF.

5. Mover y almacenar los datos descargados en una base de datos o sistema de archivos seguro.

3.2 API:
1. Autenticarse en la API usando las credenciales proporcionadas.
2. Realizar solicitudes a los endpoints correspondientes, especificando los parámetros necesarios.
Las solicitudes están a expensas de los puntos a gastar, los puntos tienen los costos de la tabla.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 5
Tabla 3. Costos asociados a la descarga de los datos.
Gasto de la compra Puntos por
(USD) dólar

$10 - $49 100,000

$50 - $249 150,000

$250 - $499 200,000

$500 - $999 300,000

$1,000 - $4,999 500,000

$5,000+ 1’000,000

Ejemplo datos en tiempo real: se descarga los datos a diario de un sensor.


Si gasto $52, se obtienen 7.8 millones de puntos
'
$ 52∗150,000=7 , 800,000
Comando “Get_Sensor” tienen costo de un punto, PM2.5 cuesta dos puntos (Canal A y B)
Obtener datos cada 10 minutos son 144 solicitudes al día (1440 minutos día/ 10 minutos)

Si deseo descargar datos cada 10 minutos de un solo sensor

Número de puntos gastados diariamente=¿


( get sensor+ PM 2.5 )∗1 sensor∗144 solicitudes ( 1+2 )∗1∗144=432 puntos

Ejemplo datos históricos: De fechas anteriores, intervalo definido por el usuario


Comando “Get_sensor_history” tiene costo de dos puntos, PM2.5 2 puntos, temperatura 2 puntos.
Descargar datos horarios del año completo 2023 para dos sensores son 8,760 solicitudes por
sensor

( get sensor history + PM 2.5 )∗2 sensores∗8760 solicitudes ( 2+2 )∗2∗8760=7080 puntos En
principio todos los usuarios cuentan con 1M de puntos gratuitos (Usuario = Sensor)
La API calcula los puntos gastados antes de realizar la transacción

3. Manejar la paginación y los límites de datos para obtener toda la información histórica.
4. Mover y almacenar los datos descargados en una base de datos o sistema de archivos seguro.

3.3 Descarga directa desde el equipo:


1. Desconectar la memoria SD del equipo
2. Conectar memoria SD con el adaptador para PC
3. Mover y almacenar los datos descargados en una base de datos o sistema de archivos seguro.

3.4 Ventajas y desventajas:


Tabla 4. Ventajas y desventajas de los métodos de descarga de datos.
Método Ventajas Desventajas

Página Fácil de usar, sin necesidad de Limitada temporalidad: debido a que la información
Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 6
Web configuración adicional. histórica no se tiene de forma completa (ver Tabla 2).

Descarga manual.

API Acceso a datos históricos Requiere configuración de autenticación, costos


completos. asociados (ver Tabla 3), mayor complejidad debido a
la configuración y uso de software adicional.
Automatización posible.

Directa Acceso a todos los datos del Se incurre en costos de desplazamiento para tener
equipo. acceso a todos los equipos.

Fácil uso, sin necesidad de


configuración o software adicional.

4. Manejo de datos después de la descarga


4.1 Verificación y Validación de los Datos
1. Procedimientos para asegurar la integridad de los datos: Comparar tamaños de archivos, verificar
fechas y horas.
2. Verificación de que los datos descargados contengan la totalidad del periodo de análisis:
Asegurarse de que no faltan datos en los períodos esperados, en caso de presentarse hacer la
respectiva anotación en la bitácora de datos
3. Validación contra datos esperados: Comprobar la coherencia de los datos con las tendencias
esperadas, verificar magnitudes con la gráfica descargada.

4.2 Almacenamiento y Gestión de Datos


 Estructura y organización de la base de datos: Guardar los datos en la ubicación correspondiente,
las carpetas están nombradas por fecha con el siguiente formato “Mes_Año_Estacion”.
 Política de almacenamiento a largo plazo: Los datos se acceso frecuente se guardan en su
respectiva carpeta por un año, una vez cumplido este periodo los datos serán llevados a discos
duros para su almacenamiento seguro, se crearán duplicados guardados en diferentes ubicaciones
para evitar el riesgo de pérdida.
 Procedimientos de backup y recuperación: Los datos deberán ser guardados en dos ubicaciones
distintas, una de acceso frecuente y otra de respaldo. Los datos de respaldo se guardarán en un
disco duro de acceso frecuente y podrá ser utilizado únicamente cuando la integridad de los datos
de acceso frecuente se vea comprometida.

5. Procesamiento de datos en R
5.1 Estructura del código en R:
Este código contiene secciones para importar, limpiar, procesar, graficar y almacenar los datos de calidad
del aire.

 Importe de los datos: el script presenta dos tipos diferentes de carga de datos, dependiendo de la
procedencia de los datos, uno para los datos descargados de la página web y otro para los datos
descargados directamente del equipo
Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 7
 Limpieza de datos: Se realiza un análisis exploratorio de la integridad de los datos, que incluye
la verificación de que los datos cargados no posean errores de formato y puedan ser leídos
correctamente en R. Los datos faltantes se rellenan con valores N/A para evitar que R cuente los
espacios en blanco como valores cero.

Se genera un gráfico de cajas para identificar valores atípicos, lo que permite detectar posibles
errores en las mediciones o eventos extremos que podrían introducir errores en los análisis.
Además, se verifica la correlación entre los canales para asegurar que el sensor funcione
correctamente. Se espera una correlación por encima del 90% entre los dos sensores con los que
trabaja el dispositivo.

Se corrigen los formatos de fecha y hora (aplicable a los datos descargados del equipo), se
calculan promedios de los canales y se ajustan los datos para la hora local.

 Manejo de datos cada 10 minutos: Los datos descargados del equipo vienen con temporalidad
variable aproximada de 2 minutos, para ello el código calcula promedio 10 minutos y cada hora.
Los datos descargados de la web o de la API vienen cada 10 minutos, por lo que este paso se
omite.

 Almacenamiento de datos: El código exporta los datos en formato xlsx, se debe modificar el
nombre de los archivos y la ubicación de la carpeta con la clave “Mes_Año_Estacion” en la
respectiva carpeta de cada estación.

5.2 Análisis de datos


 Análisis mensual de datos:

o Gráficos de series de tiempo y de variación temporal: Se utilizan gráficos de series de


tiempo para identificar tendencias a lo largo del tiempo y analizar cómo varían las
mediciones. Estos gráficos ayudan a visualizar cambios, patrones estacionales y posibles
tendencias a largo plazo.

o Valores atípicos y patrones significativos: Se examinan los valores atípicos y patrones


significativos en los datos para identificar cualquier anomalía o evento inusual que pueda
requerir atención adicional.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 8
o Gráficos de barras de frecuencias: Se elaboran gráficos de barras que muestran la
frecuencia con la que los datos cumplen o incumplen las normas establecidas. Esto
proporciona una visión clara de cuán frecuentemente se alcanzan o superan los límites
regulatorios.

o Gráfico de calendario con el ICA diario: Se elabora un gráfico de calendario que muestra
el Índice de Calidad del Aire (ICA) diario para cada día del mes. Este gráfico es útil para
visualizar rápidamente los días con buena o mala calidad del aire y detectar patrones
mensuales.

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 9
 Generación de informes y visualización: El informe debe incluir visualizaciones de los datos
procesados, utilizando gráficos mencionados anteriormente para presentar los resultados de
manera clara y concisa. El informe debe contener: descripción del experimento (fechas,
estaciones, ubicaciones, información de la bitácora de campo), contaminantes analizados (PM10,
PM2.5), comparación entre estaciones, implicaciones y recomendaciones a la salud de los
habitantes.

6. Recomendaciones y buenas prácticas


Frecuencia de análisis y monitoreo: se recomienda una frecuencia mensual para la publicación de un
informe robusto de la calidad del aire de la región. Se debe producir y distribuir un informe detallado que
incluya varios elementos clave relacionados con la calidad del aire. El informe mensual de calidad del
aire puede contener:

 Datos de los monitoreos:


o Datos de concentraciones de contaminantes mensuales de PM2.5 y PM10
o Datos de condiciones meteorológicas de humedad, temperatura y presión
o Tendencias y variaciones con gráficos de series de tiempo con tendencias diarias y
mensuales de los contaminantes y meteorología
 Análisis de excedencias:
o Comparación normativa de cuántas veces y en qué medida los niveles de contaminantes
exceden los límites establecidos por las normativas, nacionales o internacionales.
o Frecuencia de Excedencias mediante gráficos de barras o tablas que indiquen cuántos
días se superaron los límites de cada contaminante.
 Identificación de valores atípicos y patrones
o Análisis de valores atípicos que pudiera indicar eventos excepcionales o errores de
medición.
o Identificación de patrones recurrentes en la calidad del aire, que podrían estar
relacionados con factores estacionales o eventos específicos.
 Relación con salud pública
o Gráfico de calendario que muestra el Índice de Calidad del Aire (ICA) diario, facilitando
la visualización de días con buena o mala calidad del aire.
 Recomendaciones y acciones
o Sugerencias sobre acciones que deben tomarse para prevenir afectaciones a la salud de
los habitantes de la región basadas en los datos y análisis presentados.
Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 10
 Metodología y fuentes
o Descripción de los métodos y equipos utilizados para la recopilación de datos.
o Listado de las estaciones de monitoreo y otras fuentes de datos utilizadas para el informe.

Mantenimiento y Actualización del Protocolo

 Procedimientos para la revisión y actualización del protocolo: Revisiones trimestrales del


protocolo para su posible actualización y mejora. Retroalimentación mensual de los usuarios con
la experiencias de uso y manejo de datos.
 Documentación de cambios y versiones: Mantener un registro de versiones y cambios realizados.

Consideraciones adicionales: Se sugiere verificar la integridad de los datos en los formatos xlsx y csv,
asegurándose de que todos los campos cumplan con el formato y el tipo de dato esperado (fechas,
numéricos, texto) al finalizar el tratamiento de los datos del monitoreo.

Anexos

 Código en R para la descarga y análisis de datos: script con formato “.R” llamado
“codigo_informe” ubicado en computador designado en la dirección “C:\Users\...”.

 Plantillas de informes: plantilla en formato “docx” para los informes de calidad del aire llamado
“Informe ICAM Cuchavira”, en la dirección “C:\Users\...” la plantilla incluye las secciones clave
y ejemplos de gráficos y tablas.

 Recursos adicionales y contactos de soporte: documentación oficial de R y PurpleAir, tutoriales


y foros de soporte.

 Bitácora

Hill Consulting SAS │ Bogotá, Colombia │+(571) 937 1367│contacto@[Link] │[Link]

Página 11

También podría gustarte