0% encontró este documento útil (0 votos)
29 vistas16 páginas

Informe Final de La Solución de La Situación Problema

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
29 vistas16 páginas

Informe Final de La Solución de La Situación Problema

Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Tecnológico de Monterrey – Campus Monterrey Análisis

Estadístico

Profesora
Blanca R. Ruiz Hernández

Situación Problema Avance

Grupo #318
Equipo #6

Rafael Martinez Silva A01198095

Nahim Giovanni Cordova A00819343

Daniel Vicente Puertas Riofrío A00837075

Adrian Villarreal Garza A01722560


Resumen:

Para encontrar el modelo final, lo primero fue utilizar la base de datos que ya teníamos junto
con nuestra muestra generada en base a los datos, ya con nuestra muestra junto con las
800 variables aleatorias y de esas mismas muestras, analizamos la correlación entre cada
variable. Una vez de haber obtenido estos datos de correlación, realizamos un modelo de
regresión para cada variable, los cuales fueron, modelos simples, modelos lineal múltiple y
un modelo lineal exceptuando CO.

Introducción:
El presente trabajo trata de conocer mejor el problema de la contaminación del aire,
¿cuándo decimos que el aire está contaminado? ¿Cuándo la contaminación es grave para
la salud? ¿Cuáles son los componentes del aire que están influyendo en la contaminación y
cuál es su relación entre ellos? ¿Hay componentes del aire que en combinación con otros
contaminan más el aire que solos? Para lograr adentrarnos en esta problemática,
utilizaremos herramientas estadísticas que veremos en esta unidad de formación.
Estaremos trabajando con los datos reales recopilados de las Estaciones meteorológicas de
la Ciudad de México

Para abordar la situación problema es necesario entender por qué es importante el análisis
de este tema. Revisando los objetivos de las ODS , propone planes para resolver el
problema de la contaminación, sobre todo la contaminación del aire, ya que esto está
presente en grandes ciudades y zonas urbanas, donde la calidad del aire suele ser mala
debido a la actividad industrial, el tráfico vehicular y otras fuentes de emisiones
contaminantes.
Entre los contaminantes se encuentran los gases formados por los compuestos CO
(monóxido de carbono), CO2 (dióxido de carbono), NO (monóxido de nitrógeno), NO2
(dióxido de nitrógeno), O3 (ozono), NOX (óxidos de nitrógeno).
De la base de datos se queda un archivo con 800 datos numéricos, contando con 5
columnas, y al momento de graficar la matriz de correlación de M1( base de datos)
obtenemos lo siguiente.
Análisis y descripción de las variables:

A través de los datos obtenidos por medio de las mediciones proporcionadas por la
estación Montecillo, en Texcoco, Estado de México, por la Dirección de monitoreo de la
Ciudad de México, podemos formular una pregunta de investigación que nos permita
indagar acerca de las causas y posibles soluciones a la situación de la contaminación del
aire. Los principales contaminantes medidos por esta estación en el año 2022 fueron:
Ozono (O3), Monóxido de carbono (CO), Monóxido de nitrógeno (NO), Dióxido de nitrógeno
(NO2), Óxidos de nitrógeno (NOx). Nuestro objetivo con esta investigación es descubrir
cuáles son las actividades que producen contaminantes NO, NO2, NOx y O3, que se
encuentran correlacionadas a la concentración de CO en la atmósfera de la Ciudad de
México

Preparando los datos.

M = [Link]("[Link]")
head(M)
#quitamos los datos perdidos
M [M==-99] <-NA
M1 = [Link](M)
#Quitar las dos primeras columnas
M2 = M1[,-2:-1]
#Extraer una muestraaleatoria de 800 datos
indice = sample(1:nrow(M2), 800, replace = FALSE)
M3 = M2[indice,]
#Guardar la muestra en un archivo
[Link](M3, "ATI2022_Muestra.csv")
M4 = [Link]("ATI2022_Muestra.csv")
M4 = M4[,-1]
str(M4)..

'[Link]': 800 obs. of 5 variables:


$ CO : num 0.77 1.06 0.15 0.46 0.13 0.27 0.13 0.26 0.74 0.11 ...
$ NO : int 29 124 3 4 2 43 3 1 23 9 ...
$ NO2: int 42 33 8 26 11 21 18 15 44 10 ...
$ NOX: int 70 156 11 30 14 64 21 15 67 20 ...
$ O3 : int 20 1 24 57 45 2 27 96 26 11 ...

Datos de las variables

Resumen de datos de la variable O3


Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 8.00 21.00 29.47 45.00 151.00
La desviación estándar de nuestro conjunto de mediciones es: 27.16522, mientras que el
coeficiente de varianza de los datos es de: 737.9491
Resumen de los datos de las variables NO

Min. 1st Qu. Median Mean 3rd Qu. Max.


0.00 3.00 6.00 18.23 17.00 281.00

La desviación estándar de nuestro conjunto de mediciones es: 34.7678, mientras que el


coeficiente de varianza de los datos es de: 1208.8
Resumen de los datos de las variables NO2

Min. 1st Qu. Median Mean 3rd Qu. Max.


5.00 17.00 24.00 25.65 32.00 87.00

La desviación estándar de nuestro conjunto de mediciones es: 11.805, mientras que el


coeficiente de varianza de los datos es de: 139.3581

Modelos analizados

Gracias a las pruebas de correlación, puede observarse que todas las variables cuentan
con una correlación media, moderada o buena con respecto a la variable independiente.
Con el fin de predecir la concentración de O3 en la atmósfera de la ciudad de México a
partir de la concentración de uno o más gases presentes en la atmósfera en diferentes
concentraciones, un método que puede usarse sería la regresión, tanto lineal simple como
lineal múltiple y no lineal. A continuación se explicará la obtención de cada uno de los 3
modelos, sus pruebas de hipótesis y análisis de residuos.

Modelo Lineal Simple:

Para determinar el mejor modelo regresión lineal simple, se realizó una regresión lineal para
cada variable respecto al valor dependiente NOX, y se compararon la dispersión de los
valores de cada gráfica en contra de el modelo lineal que los intenta predecir
Analizando las dispersiones en las gráficas, podemos observar que, aunque la mayoría de
datos se encuentran conservados cerca del origen de la gráfica, la gráfica "NOX vs NO"
representa el grupo de valores con los menores valores de dispersión, por lo que se espera
un R2 coeficiente de determinación moderado o alto.

La ecuacion de regresion del modelo NOX = 22.993 + 1.145 x(NO)


A partir de esta ecuación podemos intuir que, si el modelo es válido, existe una relación
lineal positiva entre las variables, por lo tanto, mientras mayor cantidad de NO en la
atmósfera, mayor cantidad de NOX habrá de igual manera.

Para confirmar la significancia del modelo se tiene que realizar una prueba de hipótesis para
el modelo, y una prueba de hipótesis para los coeficientes.

Los datos resumidos, obtenidos de la ecuación de regresión son los siguientes:


Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 22.99334 0.42629 53.94 <2e-16 ***
x 1.14499 0.01086 105.39 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 10.68 on 798 degrees of freedom


Multiple R-squared: 0.933, Adjusted R-squared: 0.9329
F-statistic: 1.111e+04 on 1 and 798 DF, p-value: < 2.2e-16

Prueba de hipótesis del modelo de regresión, con significancia 𝜶 = 0.03


Hipótesis = Ho: 𝛽1 = 0, Ha: 𝛽1 =/= 0
Regla de decisión: Si p-value < 𝜶 se rechaza la hipótesis nula. Como p-value = < 2.2e-16,
concluimos que se rechaza la hipótesis nula y por tanto, si hay
una relación lineal.
Pruebas de hipótesis para los coeficientes, con significancia 𝜶 = 0.03
Ho: Beta1 = 0 𝐻0: 𝛽 = 0 H1: Beta1 != 0 𝐻0: 𝛽 ≠ 0
Regla de decisión: Si p-value < 𝜶 se rechaza la hipótesis nula. Como p-value = < 2.2e-16
para ambos coeficientes, concluimos que se rechaza la hipótesis
nula para ambos y por tanto, ambos coeficientes son válidos para el modelo

Para la prueba de hipótesis de Beta 1 obtenemos:

Obtenemos: |t*|=105.39 y valor-p = 0.0000000000000002

También observamos que:


* $r^2$ = 0.933 (es decir, el 93.3% de la varianza total de los datos es explicada por el
modelo)
* El modelo tiene un valor p de 2.2 e-16 (F-statistic)

Con un nivel de significancia de 0.03, realizamos una prueba de hipótesis para determinar el
nivel de significancia de Beta1. Concluimos que:

t0 = -2.173979

Por lo que ahora, con ayuda de la función summary, conseguimos los valores para concluir
lo restante:

t* = 105.39

p = 0.0000000000000002
Para rechazar la hipótesis nula, es necesario que se cumplan los siguientes parámetros:
α>ρ
𝑡 * > 𝑡0
Los cuales, si reemplazamos los valores anteriormente conseguidos, veremos que ambas
se cumplen.
0. 03 > 0. 0000000000000002
105.39 > -2.173979
Dadas las gráficas, hay varias cosas que podemos concluir, primeramente la
homocedasticidad resulta muy mala, la gran mayoría de los datos están hacia la izquierda,
lo cual resulta en un modelo no tan “balanceado” por así decirlo. Por otro lado, la gráfica
Q-Q, no parece ser muy recta, lo cual indica que no hay mucha normalidad y en
consecuencia no es muy factible para usarse como un “estimador”.
En conclusión, este modelo puede considerarse igual o peor que el anterior ya que el
coeficiente de determinación es solamente del 50%, lo cual nos afirma que nuestro modelo
no puede predecir con exactitud los valores a través del modelo de regresión.

Regresion Lineal Multiple

Escriban la ecuación de regresión obtenida y su interpretación

y = 0.01283 + 0.99987x1(NO) - 0.99891x2(NO2)

Para este modelo de regresión múltiple, al ser del tipo, multivariable, decidimos agregar una
nueva columna de otro químico. Por eso, en el título de la gráfica aparece NOX(NO-NO2),
aunque nuestra relación principal de correlación es NOX-NO. Después de investigar cual
químico/columna sería la ideal. Ya que están indica que la correlación más fuerte que tiene
NO2 (la variable independiente), es con NOX, por lo que decidimos realizar esta regresión
con las múltiples variables, sumando NO y NO2
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.0128337 0.0439367 0.292 0.77
x1 0.9989126 0.0016921 590.352 <2e-16 ***
x2 0.9998662 0.0005745 1740.350 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1
‘ ’ 1

Residual standard error: 0.5103 on 797 degrees of freedom


Multiple R-squared: 0.9998, Adjusted R-squared:
0.9998
F-statistic: 2.605e+06 on 2 and 797 DF, p-value: <
2.2e-16

Incluyen el ajuste del modelo (coeficiente de determinación) y su interpretación

R2 = 0.9998
Es decir, el 99.98% de la varianza total de los datos es explicada por el modelo.

Con un nivel de significancia de 0.03, realizamos una prueba de hipótesis para determinar el
nivel de significancia de B1. Se concluye que:

t0 = -2.173979

Por lo que ahora, con ayuda de la función summary, conseguimos los valores para concluir
lo restante:
t* = 590.352

p = 0.0000000000000002
Para rechazar la hipótesis nula, es necesario que se cumplan los siguientes parámetros:
α>ρ
𝑡 * > 𝑡0
Los cuales, si reemplazamos los valores anteriormente conseguidos, veremos que ambas
se cumplen.
0. 03 > 0. 0000000000000002
590.352 > -2.173979

Concluimos que este modelo es uno muy bueno, ya que su r^2 resulta el más alto de los 3.
Aunque, pensamos que no estaría totalmente de acuerdo usarlo ya que para su realización,
fue usada otra columna de otro químico, que aunque sí está muy relacionado a nuestra
principal variable independiente, pensamos que esta misma dependencia en otra columna,
podría tener resultados que se inclinen hacia otros lados
Regresión curvilínea

La ecuacion de regresion obtenida:

y = 20.657198 + 1.382702 Z1 -0.001297 Z2

Por un lado, viendo solamente la gráfica y ecuación, queremos interpretar cómo es que se
ve que esta gráfica va muy de acuerdo a los datos. Creemos e hipotetizamos que tendrá un
valor de r 2 muy alto. Aunque, si la vemos un poco desfasada en el eje-y. El coeficiente de
determinación resultó ser:

R2 = 0.9418

Lo que significa que representa el 94.18% de la varianza total de los datos, es explicada por
el modelo. Lo cual resulta alto, aunque no tan alto como quisiéramos o esperábamos. Con
un nivel de significancia de 0.03, realizamos una prueba de hipótesis para determinar el
nivel de significancia de Beta1. Concluimos que:

t0 = -2.173979
Por lo que ahora, con ayuda de la función summary, conseguimos los valores para concluir
lo restante:

t* = 57.95

p = 0.0000000000000002

Para rechazar la hipótesis nula, es necesario que se cumplan los siguientes parámetros:
α>ρ
𝑡 * > 𝑡0
Los cuales, si reemplazamos los valores anteriormente conseguidos, veremos que ambas
se cumplen.
0. 03 > 0. 0000000000000002
57.95 > -2.173979

Ahora, como esta es una función polinomial, hay que considerar también a Beta2, y ver si
es significante para el modelo. Por lo que realizamos otra prueba de hipótesis.

t0 = -2.173979
Por lo que ahora, con ayuda de la función summary, conseguimos los valores para concluir
lo restante:

t* =-11.00

Para rechazar la hipótesis nula, es necesario que se cumplan el siguiente parámetro:


𝑡 * > 𝑡0
El cual, si reemplazamos los valores anteriormente conseguidos, veremos que se cumple.

-11.0 < -2.173979

Por lo que vemos que con los datos correspondientes tanto de Beta1 como Beta2, no son
significativos por el modelo de regresión curvilínea.
Conclusiones

Terminando nuestros análisis de nuestros datos y nuestras fórmulas y ecuaciones de


regresión. Finalmente, gracias a las pruebas de hipótesis que se hicieron, vemos que se
rechazaron las hipótesis nulas y concluimos que si existe una correlación lineal entre
todas las variables que se escogieron y el NOX, excepto para la gráfica de regresión
curvilínea.
Mediante el análisis de varias pruebas que realizamos nos dimos cuenta de que en
realidad ninguna de nuestras hipótesis fueron aceptadas y no tuvimos suficiente evidencia
estadística para comprobar nuestras hipótesis, sólo para rechazarla.
Decidimos que el mejor modelo o el modelo más útil obtenido fue el modelo no lineal
de la relación entre el NOX y el NO, aunque no haya pasado la prueba de normalidad, fue la
que tuvo mejor coeficiente de correlación.
Para una futura investigación y desarrollo, nos quedamos con la cuestión de si en verdad
estos modelos podrían ser utilizados para la prevención y/o manejo de estos químicos en el
ambiente. Junto con nuestra pregunta: ¿De qué manera las emisiones de CO, NO, NO2 y
O3 llegan a causar el aumento o la disminución de los niveles de NOX presentes en el aire
de la CDMX?

Nahim Cruz Cordova:


Al iniciar esta actividad, no sabía mucho o más bien nada sobre cómo se lleva a cabo
un análisis estadístico; sin embargo, creo que me ayudó mucho a aprender sobre la
estadística. Realmente creo que estas cinco semanas no fueron tiempo suficiente para que
yo comprendiera los temas superbien, pero creo que ayudó mucho la información
proporcionada en las diapositivas. Fue muy interesante ver sobre las pruebas, los tests,
como es que se rechaza o se aprueba una hipótesis, y varias cosas que hay posibilidad que
vuelva a usar en el futuro. Fue una situación problema que me enseñó mucho más de lo
que pensaba que lo haría

Adrian Villareal:
A medida que como equipo elaboramos este proyecto logré aprender diversas cosas sobre
este curso de Análisis Estadístico. Pude comprender de una mejor manera algunos de los
conceptos estadísticos vistos en clase y poder aplicarlos a este proyecto, también utilizamos
diversas herramientas y técnicas de recolección de datos. Aprendí de una manera sólida
formular y evaluar una hipótesis estadística utilizando pruebas de significancia. Lo que más
me gustó de este curso fue que muchas de lo aprendido se puede utilizar en un contexto de
la vida real.

Daniel Puertas:
Finalizando los resultados obtenidos podemos observar cómo nos beneficia nos beneficia
más usar unas gráficas que otras video el resultado que nos da el intervalo de confianza.
Por estos motivos, y después de analizar y ver las tres gráficas pudimos obtener la gráfica
que nos resultara con el mejor modelo de regresión. También en el transcurso de este
logramos aprender a usar r y ver todas las ventajas que nos puede dar este, consideramos
que los norm como el pnorm, dnorm y qnorm fueron de suma importancia para este reto.

Bibliografía:
De Opinión Pública, C. (2022, Noviembre 28). CONTAMINACIÓN AMBIENTAL EN NUEVO
LEÓN - Centro de Opinión Pública UVM. Centro De Opinión Pública UVM.

[Link] Z.
(2021, Julio 25). How to Plot a Polynomial Regression Curve in R. Statology.
[Link]
Dirección de Monitoreo Atmosférico. (s. f.).
[Link]

También podría gustarte