0% encontró este documento útil (0 votos)
222 vistas13 páginas

Análisis de Varianza y Kruskal-Wallis

Este documento presenta un resumen del análisis de varianza (ANOVA) y la prueba de Kruskal-Wallis. Explica que el ANOVA permite probar la hipótesis nula de igualdad de medias entre grupos mediante la comparación de la variabilidad entre grupos con la variabilidad interna de cada grupo. También cubre las pruebas de comparación múltiple de medias, experimentos factoriales, y el uso de la prueba de Kruskal-Wallis cuando los datos no cumplen los supuestos del ANOVA. El objetivo es aplicar estas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
222 vistas13 páginas

Análisis de Varianza y Kruskal-Wallis

Este documento presenta un resumen del análisis de varianza (ANOVA) y la prueba de Kruskal-Wallis. Explica que el ANOVA permite probar la hipótesis nula de igualdad de medias entre grupos mediante la comparación de la variabilidad entre grupos con la variabilidad interna de cada grupo. También cubre las pruebas de comparación múltiple de medias, experimentos factoriales, y el uso de la prueba de Kruskal-Wallis cuando los datos no cumplen los supuestos del ANOVA. El objetivo es aplicar estas
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

PRÁCTICA 10 Análisis de Varianza

y Prueba de Kruskal-Wallis
M. Gutiérrez Ladrón de Guevara y Joel Rosas
Junio de 2020

INTRODUCCION
El análisis de varianza (ANOVA) permite poner a prueba la hipótesis nula de igualdad de medias
de varios grupos o tratamientos. Consiste en comparar la variabilidad entre grupos con la variabilidad
interna de cada grupo mediante una prueba de F que evalúa la igualdad de estas dos varianzas. Si el valor
de F calculado es mayor que el valor crítico para un determinado valor de 𝛼, se concluye que la variación
entre grupos es mayor que la variación interna de cada grupo y por lo tanto se rechaza la hipótesis nula.
Los resultados del análisis suelen presentarse en una tabla que muestra, para cada fuente de variación, la
Suma de Cuadrados, los Grados de libertad, Cuadrado Medio, F calculado y el valor de p correspondiente.
Si el valor de p  𝛼, entonces se rechaza Ho: μ1= μ2= μ3= μ4=...= μk
y se concluye que al menos una media es diferente a otra.

Prueba de comparación múltiple de medias


Para determinar cuáles medias poblacionales difieren entre sí, se realiza una prueba para comparación
múltiple de medias: Las comparaciones a posteriori o post-hoc entre grupos se pueden realizar mediante la
Prueba de Tukey, la Prueba de Duncan, la Prueba de Dunnet , la Prueba de Student-Neumann-Keuls y otras.

Experimentos factoriales
Cuando se estudia el efecto de varios factores en un mismo experimento, el ANOVA permite evaluar si
existe un efecto significativo de los factores o de la interacción entre ellos, sobre la variable de respuesta.
En la tabla de ANOVA de dos o más factores se calculan valores de F y p para cada factor y para la interacción o
interacciones. Si el valor de p ≤ 𝛼, se rechaza la Ho: , y por lo tanto el factor tiene efecto sobre la media y se
puede afirmar que al menos para un nivel del factor la media poblacional es distinta a las demás, es decir, que
el factor sí tiene efecto significativo en la variable de respuesta. El mismo criterio se utiliza para evaluar si
existe interacción entre los factores o no. Se considera que hay interacción cuando el efecto de un factor
sobre la variable de respuesta depende del nivel del otro factor.
El análisis de varianza es una prueba paramétrica y tiene como supuestos:
1) Que las muestras provienen de poblaciones con Distribución Normal .
2) Homogeneidad de varianzas.
3) Muestras aleatorias e independientes.
Por otro lado es considerado un análisis robusto: es válido aunque los datos tengan desviaciones moderadas de la
normalidad.
Cuando los datos no cumplen con los supuestos:
1) Se pueden transformar los datos para cumplir con los requisitos de normalidad y homoscedasticidad.
2) Se emplea la prueba no paramétrica equivalente (Prueba de Kruskal-Wallis).

OBJETIVOS
a) Realizar pruebas de hipótesis para comparación de tres o más parámetros.
b) Obtener la tabla de ANOVA e interpretar los resultados del análisis.
c) Realizar pruebas para la evaluación de los supuestos de normalidad y homoscedasticidad.
d) Realizar una prueba de comparación múltiple de medias e interpretarla.

Desarrollo

Se realizarán Análisis de varianza en Excel, Past y R. Una vez concluidas las actividades, responder el cuestionario
correspondiente.

Problema 1. La ganadería produce 18% de los gases de efecto invernadero, de forma directa por el metano
producido por los animales, y por fertilizantes para producir el alimento del ganado. Se realizó un experimento
con dieciséis vacas asignadas al azar entre cuatro grupos experimentales. Cada grupo fue alimentado durante 3
meses con una dieta diferente. Los datos son metano producido durante la última semana en litros/día. ¿Existe
diferencia entre las cuatro dietas en cuanto a la emisión promedio de metano? ¿Cuáles dietas difieren? Utilice
= 0.05.

Pastura Balanceado Alfalfa Trébol blanco


4.8 4.7 5.6 3.9
3.0 4.7 5.1 3.2
3.5 4.0 5.2 3.1
4.6 4.3 5.5 4.7

I. ANÁLISIS DE VARIANZA EN EXCEL

a. Colocar los datos de cada grupo en una columna.


b. Seleccionar la pestaña Datos, la opción Análisis de Datos y buscar el análisis deseado.
c. En Rango de Entrada, indicar las celdas o seleccionar los datos.
d. Indicar el nivel de significancia y Rótulos si es que las columnas tienen título.
e. Si el valor de probabilidad   se rechaza Ho y al menos una media de población es
diferente .

2
Como el valor de Probabilidad es < 0.05, se rechaza Ho y al menos una media es diferente.

La Prueba de Tukey no está disponible con este complemento de Excel.

3
II. ANÁLISIS DE VARIANZA EN PAST

a. Colocar los datos de cada grupo en una columna.


b. Seleccionar los datos.
c. Ir a la opción Univariate , para ANOVA > Several sample-tests

Verificar la Distribución Normal de los datos:

Una vez verificado que se cumple con la distribución Normal:

4
KRUSKAL-WALLIS ( ANOVA NO PARAMÉTRICO) EN PAST
Cuando no tienen Distribución Normal los datos

H0 : Mediana 1 = Mediana 2 = Mediana 3


Ha : Al menos una mediana es ≠

Problema 3
Se desea saber si existe diferencia en la edad media de tres grupos de nuevo ingreso a una escuela primaria. Para ello se
tomó una muestra de cinco alumnos de cada grupo.

Primero A Primero B Primero C


6 6 6
6 7 7
6 6 5
6 7 6
6 7 6

5
p > 0.05 por lo tanto

No se rechaza Ho, las medianas son iguales

ANALISIS DE VARIANZA EN R
FUNCIONES RELACIONADAS CON ANÁLISIS DE VARIANZA (ANOVA)
Anova de un factor
m <- aov(y~x, data)
anova(m)
summary(m)
Prueba de Bartlett para homogeneidad de varianzas
bartlett.test(y~x, data)
Prueba de comparación múltiple de medias
TukeyHSD(m)
plot(TukeyHSD(m))

Problema 4 Se registró la concentración de nitrato (mg/L) en dos lagos y dos ríos.

sitio nitrato
Zirahuen 25.2
Zirahuen 33.2
Zirahuen 36.4
Zirahuen 34.6
Zirahuen 29.1
Zirahuen 31.0
Tequesquitengo 46.3
Tequesquitengo 42.0
Tequesquitengo 43.5
Tequesquitengo 48.8
Tequesquitengo 43.7
Tequesquitengo 41.0
Amacuzac 41.0
Amacuzac 44.1
Amacuzac 46.4
Amacuzac 40.2
Amacuzac 38.6
Amacuzac 36.3
Balsas 56.3
Balsas 54.1
Balsas 59.4
Balsas 62.7
Balsas 61.0
Balsas 57.3

6
a) Probar si existe diferencia en la concentración media de nitrato en los sitios estudiados (𝛼=0.01).
b) En caso de encontrar diferencias, aplique una prueba de comparación múltiple de medias para
determinar que sitios son distintos entre sí.

Pasos
1. Crear el archivo de datos en Excel
2. Importar los datos a RStudio con Import Dataset
3. Verificar los supuestos de Normalidad y homogeneidad de varianzas
4. Realizar el análisis de varianza y asignar a un objeto “x”
5. Obtener la tabla de anova para el modelo y concluir.
6. Realizar la prueba de Tukey para comparación múltiple de medias e interpretar los resultados.

Paso 1. Si no se dispone de Excel, se pueden ingresar los datos en dos vectores y juntarlos en un
dataframe.

Nitrato <- c(25.2, 33.2, 36.4, 34.6, 29.1, 31, 46.3, 42, 43.5,
48.8, 43.7, 41, 41, 44.1, 46.4, 40.2, 38.6, 36.3,
56.3, 54.1, 59.4, 62.7, 61, 57.3)
Sitios <- rep(c("Zirahuen", "Tequesquitengo","Amacuzac", "Balsas"), c(6,6,6,6))

Unir ambos vectores para formar un dataframe

datos <- data.frame(Nitrato,Sitios)

VERIFICACIÓN DE LOS SUPUESTOS PARA REALIZAR ANOVA


Gráficamente:

boxplot(y~f, data=dataframe)

boxplot(Nitrato~Sitios, data=datos, col="darksalmon",names=c("Amacuzac","Balsas","Teques","Zirahuen"),


ylab="Concentración de nitrato (ppm)")

1. Homogeneidad de varianzas

Hipótesis

H0 : 12 = 22 = 32 = 42


Ha : al menos una 2 ≠

1. bartlett.test(y~f , data=dataframe) # PRUEBA DE BARTLETT

bartlett.test(Nitrato~Sitios, data=datos)

##
## Bartlett test of homogeneity of variances
## data: Nitrato by Sitios
## Bartlett's K-squared = 0.63413 df = 3 p-value = 0.8886

7
2. Normalidad: PRUEBA DE SHAPIRO-WILK

Si se cumple con los supuestos, entonces se realiza el Análisis de Varianza. Si no se cumple con los
requisitos de normalidad y/o igualdad de varianzas, se aplica la Prueba no-paramétrica de Kruskal-Wallis

ANÁLISIS DE VARIANZA EN R

Hipótesis
H0 : µ1 = µ2 = µ3 = µ4
Ha : al menos una µ ≠

m <- aov(y~f, data=dataframe)

8
Gráfica de promedios con intervalos de confianza de 95%
install.packages("gplots")
library(gplots)
plotmeans(Nitrato~Sitios, data=datos, ylab="Nitrato (ppm)")

Comparación múltiple de medias

TukeyHSD(m)

## Tukey multiple comparisons of means


## 95% family-wise confidence level ##

## Fit: aov(formula = Nitrato ~ Sitios data = nitratodat)


##
## $Sitios
## diff lwr upr p adj
## B-A 17.366667 11.756097 22.977236 0.0000002
## T-A 3.116667 -2.493903 8.727236 0.4254648
## Z-A -9.516667 -15.127236 -3.906097 0.0006575
## T-B -14.250000 -19.860570 -8.639430 0.0000039
## Z-B -26.883333 -32.493903 -21.272764 0.0000000
## Z-T -12.633333 -18.243903 -7.022764 0.0000209

plot(TukeyHSD(m), cex.lab=0.1, las=1)

9
# los intervalos que NO incluyen al cero indican diferencia significativa entre los grupos

PRUEBA DE KRUSKAL-WALLIS (ANOVA NO PARAMÉTRICO)

Problema 5 Utilizando el archivo de datos Insectsprays, disponible en la librería datasets de R, determinar si


existe diferencia en el efecto de los insecticidas sobre la sobrevivencia de la plaga (con un nivel de significancia de
0.01).

a) Cargar el archivo de datos InsectSprays:

library(datasets)

data("InsectSprays")
b) Aplicar la Prueba de Bartlett para homoscedasticidad.
bartlett.test(InsectSprays$count~InsectSprays$spray, data=InsectSprays)

Bartlett test of homogeneity of variances

data: InsectSprays$count by InsectSprays$spray


Bartlett's K-squared = 25.96, df = 5, p-value = 9.085e-05

c) Realizar la Prueba de Kruskal-Wallis


kruskal.test(InsectSprays$count~InsectSprays$spray, data=InsectSprays)
d) p < 0.01, por lo tanto se rechaza H0, al menos una mediana es ≠

kruskal.test(InsectSprays$count~InsectSprays$spray, data=InsectSprays)

##
## Kruskal-Wallis rank sum test ##
## data: InsectSprays$count by InsectSprays$spray
## Kruskal-Wallis chi-squared = 54.691 df = 5 p-value = 1.511e-10

ANOVA PARA DOS FACTORES

Función: m <-lm(y~x*z, data=dataframe)

Problema 6. Un equipo de investigación en China realizó un experimento para evaluar la posibilidad


de mejorar el tratamiento de las aguas residuales domésticas con humedales artificiales mejorados.
Se evaluó el efecto de dos factores: 1. aireación y 2. Plantas acuáticas, y entre otras variables de
respuesta se registró el porcentaje de Nitrógeno Total eliminado del agua residual después de cruzar
el humedal. En verano, los porcentajes de remoción fueron los siguientes:

Sin aireación Con aireación


Sin plantas 37, 38, 35, 40, 39 85, 86, 85, 83 ,82
Con plantas 83, 82, 84, 85, 83 91, 93, 95, 97, 96

10
A un nivel de significancia de 0.01, determina si existe efecto significativo de los factores o si hay
interacción entre ellos. Genera el archivo de datos y realiza un ANOVA factorial para evaluar los
efectos principales y la interacción.

1. ORGANIZA EL ARCHIVO DE DATOS EN 3 COLUMNAS:


aire plantas porcentaje
sin aire sin plantas 37
sin aire sin plantas 38
sin aire sin plantas 35
sin aire sin plantas 40
sin aire sin plantas 39
sin aire con plantas 83
sin aire con plantas 82
sin aire con plantas 84
sin aire con plantas 85
sin aire con plantas 83
con aire sin plantas 85
con aire sin plantas 86
con aire sin plantas 85
con aire sin plantas 83
con aire sin plantas 82
con aire con plantas 91
con aire con plantas 93
con aire con plantas 95
con aire con plantas 97
con aire con plantas 96

Hay varias maneras de crear esta tabla de datos. Una de ellas es crear un objeto vacío, abrir el editor y
capturar los datos en tres columnas.

humedal <- data.frame (aire = character (0), plantas = character(0), porcentaje = numeric(0))
humedal <- edit(humedal)

1. REALIZAR EL ANÁLISIS CON UN MODELO LINEAL Y OBTENER LA TABLA DE ANOVA

Función:

m <-lm(y~x*z, data=dataframe)

m2 <-lm(porcentaje~ aire* plantas, data=humedal)

anova(m2)

Analysis of Variance Table

Response: porcentaje
Df Sum Sq Mean Sq F value Pr(>F)
aire 1 4118.5 4118.5 1220.28 < 2.2e-16 ***
plantas 1 3892.1 3892.1 1153.20 2.430e-16 ***
aire:plantas 1 1566.5 1566.5 464.13 3.032e-13 ***
Residuals 16 54.0 3.4
---
11
GRÁFICA DE INTERACCIÓN

interaction.plot(humedal$aire,humedal$plantas,humedal$porcentaje, fun=mean, ylim=c(0,100))

Actividades

Problema 7. Al investigar sobre los peligros de la cafeína, un investigador agrega dos tipos de cafeína (la que se
encuentra en el café y la que se encuentra en el chocolate) al suministro de agua de grupos de ratas criadas en
laboratorio. Por lo general, esta especie sobrevive cerca de 13 meses. El suministro de agua del grupo control
de ratas no fue alterado con cafeína. ¿Afecta la cafeína el tiempo de vida de las ratas? Prueba la hipótesis con
los siguientes datos. Asume la igualdad de las varianzas poblacionales. Utilizando α = 0.01, ¿cuál es la
conclusión de usted?

Tratamiento Días que vivió la rata


Cafeína de café 398
Cafeína de café 372
Cafeína de café 413
Cafeína de café 419
Cafeína de café 408
Cafeína de café 393
Cafeína de café 387
Cafeína de café 414
Cafeína de chocolate 401
Cafeína de chocolate 389
Cafeína de chocolate 413
Cafeína de chocolate 396
Cafeína de chocolate 406
Cafeína de chocolate 378
Cafeína de chocolate 382
Cafeína de chocolate 417
Control 412
Control 386
Control 394
Control 409
Control 415
Control 401
Control 384
Control 398

12
Problema 8. Se tomaron muestras de agua de un río en cuatro lugares diferentes para determinar si la cantidad
de oxígeno disuelto, una medida de la contaminación del agua, variaba de un lugar a otro (a mayor
contaminación, lecturas más bajas de oxígeno disuelto). Los lugares 1 y 2 seleccionaron arriba de una planta
industrial, una cerca de la orilla y la otra a mitad del río; el lugar 3 estaba adyacente a la descarga del agua
industrial para la planta; y el lugar 4 estaba ligeramente aguas abajo a mitad del río. Cinco muestras de agua se
seleccionaron al azar en cada lugar, pero una muestra, correspondiente al lugar 4, se perdió en el laboratorio. Los
datos muestran el contenido medio de oxígeno disuelto.

Sitio 1 Sitio 2 Sitio 3 Sitio 4


5.9 6.3 4.8 6.0
6.1 6.6 4.3 6.2
6.3 6.4 5.0 6.1
6.1 6.4 4.7 5.8
6.0 6.5 5.1

a. ¿Los datos dan suficiente evidencia para indicar una diferencia en el contenido medio de oxígeno disuelto para
los cuatro lugares? Utilice =0.05.
b. ¿Cuáles sitios difieren entre sí?

Problema 9. La Agencia para la Protección Ambiental quiere determinar si los cambios en la temperatura
del agua del océano, tienen un efecto significativo sobre la fauna marina. Se dividieron al azar cuatro
grupos de especímenes recién nacidos de cierta especie de peces. Se colocaron los grupos en medios
ambientes separados que simulan el océano, completamente idénticos con excepción de la temperatura
del agua. Seis meses después se pesaron los ejemplares. Los resultados (en libras) fueron los siguientes:
Temperatura
38ºF 22 24 16 18 19 21
42ºF 15 21 26 16 25 17 19
46ºF 14 28 21 19 24 23
50ºF 17 18 13 20 21

¿Proporcionan los datos evidencia para indicar que una o más de las temperaturas producen diferencias
en el incremento medio de peso? Use 0.05.

Problema 10 Para el archivo de datos ríos, diga si existe diferencia entre las medias de temperatura
de los ríos. Recuerde comprobar los supuestos para Anova. Utiliza 0.05

13

También podría gustarte