¨Año de la unidad, la paz y desarrollo¨
Estadística aplicada
Universidad Continental
Producto Académico N°3
GRUPO F
INTEGRANTES
ANÁLISIS DE VARIANZA DE UNA FACTOR
APELLIDOS Y NOMBRES
● Churata Panibra Felipe Miguel
● Mamani Layme Alexander
● Mamani Cansaya Olguer
--------------------2023-----------------
Ejercicio 1:
DESCARGAS DE AGUAS RESIDUALES DOMÉSTICAS
SIN TRATAMIENTO, SEGÚN DEPARTAMENTO, 2008-
2016
En un anuario de estadísticas ambientales del 2017 se presentan los datos
obtenidos de los distintos departamentos del Perú desde el año 2008 al 2016.
# Importar datos de Excel
datos <- read_excel("D:/Copia de datos01.xlsx")
datos de varianza
## # A tibble: 216 × 2
## niveles resultados
## <chr> <dbl>
## 1 Damazonas 1086776
## 2 Damazonas 3133908
## 3 Damazonas 3060170
## 4 Damazonas 3264664
## 5 Damazonas 3319913
## 6 Damazonas 0
## 7 Damazonas 0
## 8 Damazonas 3165444
## 9 Damazonas 3301468
## 10 Danchash 13935001
## # ℹ 206 more rows
Modelo estadístico lineal
y ij =μ+ τ j +ε ij {i=1 , 2 ,... , 8 j=1
donde:
y ij : Es el i-ésima resistencia conservada (en %), sugeto a al j-ésimo nivel del
vacío del aire.
μ: Es la media general de la resistencia conservada (en %).
τ j: Es el efecto del j-ésimo nivel del vacío del aire.
ε ij: Es el error experimental.
Factor: Vacío del aire
boxplot(data = datos, resultados ~ niveles, main = "Gráfico de cajas")
Planteamiento de hipótesis
{H 0 : μ1=μ 2=μ3=μ 4=μ5=μ 6=μ7=μ 8=μ9=μ 10=μ11=μ 12=μ 13=μ 14=μ15=μ16=μ 17=μ18=μ19=μ20=μ 21=μ 22=μ
Se rechaza la hipótesis nula.
el p valor de p es menor a alfa
# ANOVA
modelo <-aov(data=datos, resultados ~ niveles)
summary(modelo)
## Df Sum Sq Mean Sq F value Pr(>F)
## niveles 23 4.920e+17 2.139e+16 26.26 <2e-16 ***
## Residuals 192 1.564e+17 8.148e+14
## ---
## Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
H0: Las medias de las descargas de aguas residuales domésticas sin
tratamiento son las mismas en los diferentes departamentos del Perú
H1: Existe por lo menos una media de las descargas de aguas residuales
domésticas sin tratamiento que es diferente en los departamentos del Perú.
p valor = 2 x e−16
conclusión: se observa que el valor P < 0.05. Por lo tanto, se rechaza H0. Es
decir, al menos una media de las descargas de aguas residuales domésticas
sin tratamiento que es diferente en los departamentos del Perú.
Verificación de los supuestos del modelo
En el análisis de varianza del modelo simple o de un solo factor, se supone que
las observaciones siguen una distribución normal e independientes con la
misma varianza para cada tratamiento o nivel del factor. Estos supuestos
deberán verificarse examinando los residuales. Un residual es la diferencia
entre una observación y ij y su valor estimado (o ajustado) en el modelo
estadístico bajo estudio, denotado como ^y ij.
I) El supuesto de normalidad
{H 0 : La distribución es normal H 1 : La distribución no es normal
Nota:
p valor = 2,2x e−16
Como el valor de P < 0.05, entonces se rechaza Ho. Es decir, no se cumple el
supuesto de normalidad.
Conclusión: Por lo tanto, podemos decir que los datos de aguas residuales
domésticas sin tratamiento no se distribuyen normalmente, existen datos del
departamento de Lima que son mayores que los datos de los demás
departamentos del Perú.
# Normalidad (Análisis gráfico)
par(mfrow = c(1,2))
hist(modelo$residuals, breaks = 10)
qqnorm(modelo$residuals)
qqline(modelo$residuals)
Test de Shapiro-Wilks
# Análisis de la normalidad (Shapiro-Wilks)
shapiro.test(modelo$residuals)
##
## Shapiro-Wilk normality test
##
## data: modelo$residuals
## W = 0.29926, p-value < 2.2e-16
Como el valor de P > 0.05, entonces no se rechaza Ho. Es decir, se cumple el
supuesto de normalidad.
II) Homogeneidad de varianzas (homocedasticidad)
Test de Bartlett
Permite contrastar la igualdad de varianza en 2 o más poblaciones sin
necesidad de que el tamaño de los grupos sea el mismo. Es más sensible que
el test de Levene a la falta de normalidad, pero si se está seguro de que los
datos provienen de una distribución normal, es la mejor opción.
# Prueba de Bartlett
bartlett.test(modelo$residuals ~ datos$niveles)
##
## Bartlett test of homogeneity of variances
##
## data: modelo$residuals by datos$niveles
## Bartlett's K-squared = 995.39, df = 23, p-value < 2.2e-16
Como el valor de P > 0.05, entonces no se rechaza Ho. Es decir, se cumple el
supuesto de homogeneidad de varianzas.
III) Idependencia
{H 0 : No existe autocorrelación( independientes)H 1 : Existe autocorrelación(dependientes )
# Pruea Durbin-Watson
durbinWatsonTest(modelo)
## lag Autocorrelation D-W Statistic p-value
## 1 0.7124608 0.5750208 0
## Alternative hypothesis: rho != 0
Como el valor de P > 0.05, entonces no se rechaza Ho. Es decir, se cumple el
supuesto de independenca.
Comparación de medias post-ANOVA
Si un Análisis de Varianza resulta significativo, implica que al menos dos de las
medias comparadas son significativamente distintas entre sí, pero no se indica
cuáles. Para identificarlas hay que comparar dos a dos las medias de todos los
grupos introducidos en el análisis mediante un t-test u otro test que compare 2
grupos, ha esto se le conoce como análisis post-hoc.
## resultados groups
## Dlima 243096537.3 a
## Darequipa 30640627.7 b
## Djunin 24724573.2 b
## Dpiura 18318181.7 b
## Danchash 13747767.4 b
## Dloreto 8961571.7 b
## Dlalinberta 8521571.3 b
## Dhuanuco 6871929.7 b
## Dsanmartin 6647626.8 b
## Dcusco 6267557.4 b
## Dpuno 5918185.4 b
## Dcajamarca 5779116.8 b
## Ducayali 5365459.2 b
## Dlambayeq 4677379.7 b
## Dtumbes 4416952.3 b
## Dtacna 2441984.8 b
## Dapurimac 2386268.3 b
## Dmoquegua 2369757.9 b
## Damazonas 2259149.2 b
## Dhuancave 1645720.7 b
## Dica 1601661.7 b
## Dmdedios 936493.6 b
## Dpasco 823568.1 b
## Dayacucho 68543.0 b
Conclusión: En el gráfico podemos ver que el único departamento con
medias diferentes es Lima con respecto a descargas de aguas residuales
domésticas sin tratamiento en el Perú.
Analiza las condiciones necesarias para utilizar el método de análisis.
Las condiciones necesarias para el método de análisis de varianza de un
factor son las siguientes:
● Las poblaciones tienen distribución normal.
● Las poblaciones tienen la misma varianza.
● Las muestras son independientes entre sí.
D.Analiza las condiciones necesarias para utilizar el método de análisis.
NIVEL DE pH EN PLANTAS DE TRATAMIENTO DE AGUAS RESIDUALES
DE LIMA METROPOLITANA, 2007-2016
Analisis de entrada
Analizando con datos estadísticos de pH en plantas de tratamientos residuales
presenta los datos obtenidos en los diferentes distritos de lima
Datos de varianza
H0: Las varianzas entre los grupos son homogéneos
H1:Las varianzas entre los grupos no son homogéneos
p:1.659e-11
como el valor de p>0.05 entonces no se rechaza el H0.es decir se cumple el
supuesto de normalidad.
Datos de independencia
H0:No existe autocorrelación(independientes)
H1:Existe autocorrelación(dependientes)
Como el valor de P > 0.05, entonces no se rechaza Ho. Es decir, se cumple el
supuesto de independencia.
Como conclusión podemos decir que el único distrito con medidas diferentes es
Nuevo Lurín con respecto al cuadro mostrado.
Planteamiento de hipótesis
H0:Las medias de las descargas de los datos de factor de salida del PH de
plantas de aguas residuales son las mismas en los diferentes departamentos
del Perú
H1:Existe por lo menos una media del PH de plantas de agua residuales sin
tratamiento que es diferente en los departamentos del Perú.
p valor = 4.412 x−08
Conclusión: Se observa que el p > 0.05. entonces no se rechaza Ho. Es decir,
se cumple el supuesto de normalidad de los niveles de PH que es diferente en
los departamentos del Perú.
El supuesto de normalidad
H0:La distribución es normal
H1:La distribución no es normal
Como el valor de P < 0.05, entonces se rechaza Ho. Es decir, no se cumple el
supuesto de normalidad
Conclusión: Por lo tanto, podemos decir que los datos de los niveles de PH en
las plantas de tratamiento de aguas residuales no se distribuyen normalmente,
existen datos del departamento de Lima que son mayores que los datos de los
demás departamentos del Perú
f. Aplicar el método apropiado para el análisis de datos y obtener los resultados
requeridos
Según los datos estadísticos del Rstudio realizamos las interpretaciones y
conclusiones
correspondientes
g. Interpreta los resultados obtenidos apoyándose en los resultados y los
gráficos.
AGUAS RESIDUALES DOMÉSTICAS SIN TRATAMIENTO
En el gráfico de cajas podemos observar que los datos de descargas de aguas
residuales domésticas sin tratamiento de los diferentes departamentos del Perú
son homogéneos y no varían, a excepción del departamento de Lima que las
medias varían entre sí con respecto a los diferentes años del 2008 al 2016.
PH DE ENTRADA A PLANTA
En el gráfico de cajas podemos observar que los datos pH de
entrada de planta de tratamiento de aguas residuales de lima
Metropolitana son variados y diferentes entre grupos
pH SALIDA DE PLANTAS
En el gráfico de cajas podemos observar que los datos pH de salida
de planta de tratamiento de aguas residuales de lima Metropolitana
son variados y diferentes entre grupos
Finalmente, el Análisis de la Varianza (ANOVA) es una fórmula
estadística que nos sirve para comparar las varianzas entre las medias
(o el promedio) de diferentes grupos.
Conclusiones:
Se concluye que se rechaza la hipótesis por lo que no se puede realizar la
comparación de medias a su vez no se puede realizar Análisis de varianzas,
motivo por el cual no cumple con ninguno de los supuestos.
Con respecto de los datos de pH tanto de entrada como de salida de plantas
de tratamiento de aguas residuales no varían entre sí y se puede verificar que
tampoco según los supuestos no cumplen para poder realizar el análisis de
varianza de un factor.Los datos de descargas de aguas residuales domésticas
se pueden ver que los únicos datos que varían de los demás departamentos
del Perú es el de Lima.
Recomendaciones:
Se recomienda realizar el análisis de manera independiente
Bibliografía:
Montgomery, D y Runger, G. (2003). Probabilidad y estadística aplicadas a la
ingeniería (2da ed.). México D.F
https://www.tibco.com/es/reference-center/what-is-analysis-of-variance-
anova#:~:text=An%C3%A1lisis%20de%20la%20Varianza%20(%20ANOVA
%20)%20es%20una%20f%C3%B3rmula%20estad%C3%ADstica
%20que,medias%20de%20los%20diferentes%20grupos.