Tema 4: ANOVA de 1 factor completamente aleatorizado
Resumen tema Pardo et al.(2010)
M. Morales
Universidad de Sevilla
morales@[Link]
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 1 / 54
Contenidos
1 Introducción
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
6 Ejemplo
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
6 Ejemplo
7 Diagnosis del modelo
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
6 Ejemplo
7 Diagnosis del modelo
8 Pruebas post hoc: Contrastes a posteriori
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
6 Ejemplo
7 Diagnosis del modelo
8 Pruebas post hoc: Contrastes a posteriori
9 Potencia de la prueba
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Contenidos
1 Introducción
2 Modelos ANOVA
3 Lógica del ANOVA 1 factor completamente aleatorizado
4 Supuestos del modelo de ANOVA 1 factor completamente aleatorizado
5 Tamaño del efecto
6 Ejemplo
7 Diagnosis del modelo
8 Pruebas post hoc: Contrastes a posteriori
9 Potencia de la prueba
10 ANOVA en SPSS
Análisis de tendencias en el SPSS
Tamaño de efecto y potencia
ANOVA 1 FACTOR no paramétrico: Prueba de Kruskal-Wallis
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 2 / 54
Introducción
Definición
El ANOVA es un conjunto de técnicas que pretenden obtener información a partir de
una serie de modelos matemáticos. Estos modelos permiten valorar el comportamiento
de una variable dependiente y una o más variables independientes. También permite
controlar el efecto de variables extrañas incluyéndolas como covariables.
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 3 / 54
MODELOS ANOVA
Siempre que realicemos un ANOVA estamos interesados en determinar cuál de una
serie de modelos lineales se ajusta mejor a nuestros datos. Los modelos lineales tienen
la forma:
Yi = β0 + β1 X1 + . . . + βp Xp + i
donde Yi es la variable dependiente para el sujeto i y las X’s y las β 0 s son los
predictores y los parámetros respectivamente. El último elemento del modelo i es el
llamado error o término residual.
El procedimiento de análisis de este tipo de diseños se realiza mediante la función
“aov". En el caso de que el tratamiento resulte efectivo sería necesario realizar
algunas comparaciones a posteriori para determinar cuál es el tratamiento que resultó
ser efectivo.
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 4 / 54
Lógica del ANOVA 1 factor completamente aleatorizado
Suponemos que se tenemos varias muestras (más de dos). Todas ellas
procedentes de una población normal con la misma media y la misma varianza
Bajo la hipótesis nula de que todas las medias son iguales con la misma varianza
pueden obtenerse dos estimaciones de la varianza de la población a partir de los
valores muestrales
La primera estimación es promediando las varianzas existente dentro de cada una
de las muestras (varianza intrasujetos)
Su estimación se hace a partir de la media cuadrática intragrupos (media
ponderada de las varianzas dentro de los grupos). También se denomina media
cuadrática del error, MCE :
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 5 / 54
Lógica del ANOVA 1 factor completamente aleatorizado
Una segunda estimación de la varianza de la población es a partir de de la
varianza que presentan las medias de cada una de las muestras (varianza
entresujetos). Se cuantifica a partir de la media cuadrática entresujetos, MCA :
Bajo el supuesto de la igualdad de medias y varianza, el cociente entre las dos
estimaciones debe ser 1. Mientras más se aleje este cociente de 1 menos probable
será que las muestras procedan de la misma población y, por tanto, sean iguales
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 6 / 54
Lógica del ANOVA 1 factor completamente aleatorizado
Aunque las medias poblacionales sean iguales, lo más probable es que MCI y
MCE muestren algunas diferencias por efecto del azar. Debemos determinar la
cantidad que ese cociente puede alejarse de 1 por efecto del azar. Esto es lo que
hace el estadístico F:
El estadístico F informa del grado de parecido de las medias de los distintos
grupos. A medida que aumentan la diferencia entre el numerador y el
denominador menor probabilidad de que las medias sean iguales
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 7 / 54
Resumen del modelo ANOVA de 1 factor completamente
aleatorizado
Hipótesis:
H0 : µY1 = µY2 = · · · µYj (todas las medias son iguales)
H1 : µYi 6= µYj (i 6= j) (no todas las medias son iguales)
Supuestos:
Los supuestos del modelo son que las J muestras se han obtenido aleatoriamente
de J poblaciones normales con la misma varianza
Estadístico:
MCA
F= ∼ F(glMCA , glMCE )
MCE
Regla de decisión:
Se rechaza H0 si el estadístico F cae dentro de la región crtítica; en caso
contrario, se mantiene. Si se rechaza esta hipótesis se concluye que no todas las
medias son iguales
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 8 / 54
Independencia
Cada puntuación debe ser independiente de las demás. Esto se consigue con la
selección aleatoria de la muestra y/o la asignación aleatoria de los tratamientos a
los grupos
A veces resulta difícil conseguir este supuesto, ya que hay individuos (por
ejemplo, de la misma familia, estudiantes de la misma clase, etc), que tienden a
responder de la misma forma
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 9 / 54
Normalidad
Cada grupo constituye una muestra aleatoria procedente de una población normal
Si las poblaciones no son normales, pero son asimétricas positiva y leptocúrticas
todavia se puede seguir utilizando el estadístico F
Si tenemos muestras pequeñas procedentes de poblaciones normales es
recomendable utilizar pruebas no paramétricas (prueba de Kruskal-Wallis)
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 10 / 54
Homogeneidad de varianzas
Implica que las varianzas de los distintos grupos son iguales
Si las muestras son grandes y balanceadas puede aceptarse que la varianza entre
las condiciones sean distintas, pero la diferencia entre la mayor y la menor no
debe ser superior a 3
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 11 / 54
Medida f de Cohen
Los valores 0.10, 0.25 y 0.4 representan tamaños de efecto bajo, medio y grande
respectivamente
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 12 / 54
Eta cuadrado corregida
Los valores 0.01, 0.06 y 0.14 representan tamaños de efecto bajo, medio y grande
respectivamente
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 13 / 54
Omega cuadrado
Presenta la ventaja de que se puede aplicar a diseños más complejos que el
ANOVA 1F completamente aleatorizado
Los valores 0.01, 0.06 y 0.14 representan tamaños de efecto bajo, medio y grande
respectivamente
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 14 / 54
ESQUEMA: ANOVA 1 FACTOR COMPLETAMENTE
ALEATORIZADO
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 15 / 54
Ejemplo 1
EJEMPLO 1: El objetivo del estudio fue ver si algún método de tratamiento
nuevo (B,C ó D) permitía reducir el número de errores de los pacientes en
comparación con el método tradicional A. Las diferencias entre los métodos
consistió en incrementar el tiempo dedicado a la resolución de problemas en
clase. Así, en el grupo A fueron 20 min, en el B 30, en el C 40 y en el D 50
minutos. Los datos de este ejemplo se presentan en la siguiente tabla:
A B C D
s1 30.00 11.00 16.00 10.00
s2 35.00 25.00 5.00 7.00
s3 15.00 12.00 22.00 15.00
s4 21.00 9.00 23.00 6.00
s5 24.00 20.00 22.00 12.00
Tabla: Datos del ejemplo 1
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 16 / 54
Gráfica ejemplo 1
Figura 1
D
C
Métodos
B
A
5 10 15 20 25 30 35
Errores
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 17 / 54
Tabla ANOVA
Df Sum Sq Mean Sq F value Pr(>F)
metodo 3 579.60 193.20 4.35 0.0201
Residuals 16 710.40 44.40
Tabla: Tabla ANOVA del ejemplo 1
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 18 / 54
Supuestos del modelo
Con objeto de determinar la adecuación del modelo aplicado es necesario que se
cumplan los supuestos distribucionales de del estadístico F. Tres son los supuestos que
se deben verificar: 1) Los errores deben seguir una distribución normal, 2) las
varianzas de la población de la variable dependiente deben ser iguales en todos los
grupos (homogeneidad de varianzas), y 3) las puntuaciones deben ser independientes
unas de otras. Para comprobar gráficamente estos supuestos podemos ver como se
distribuyen los errores mediante los siguientes gráficos:
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 19 / 54
Residuales modelo
Residuales vs pronósticos
10
5
Residuales
0
−10
10 15 20 25
Valores pronóstico
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 20 / 54
Residuales modelo
Residuales vs grupos
D
C
B
A
−10 −5 0 5 10
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 21 / 54
Independencia observaciones
Asimismo, podemos estudiar la independencia de las observaciones con el
siguiente gráfico:
Residuales vs Indice
10
5
Residuales
0
−10
5 10 15 20
Indice
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 22 / 54
Normalidad de residuales
Normal Q−Q Plot
10
Sample Quantiles
5
0
−10
−2 −1 0 1 2
Cuantilas teóricas
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 23 / 54
Prueba de Shapiro-Wilks
No obstante, el test de Shapiro-Wilks nos permite obtener un p-valor para contrastar la
hipótesis de normalidad:
Shapiro-Wilk normality test
data: ANOVA2$residuals
W = 0.9612, p-value = 0.5681
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 24 / 54
Homogeneidad de varianzas: Prueba de Levene
Df F value Pr(>F)
group 3 0.31 0.8192
16
Tabla: Test de Levene
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 25 / 54
Post hoc: Método Tukey
diff lwr upr p adj
B-A -9.60 -21.66 2.46 0.14
C-A -7.40 -19.46 4.66 0.33
D-A -15.00 -27.06 -2.94 0.01
C-B 2.20 -9.86 14.26 0.95
D-B -5.40 -17.46 6.66 0.59
D-C -7.60 -19.66 4.46 0.31
Tabla: Comparaciones con el método de Tukey
Conclusiones normas APA
Se encontró que hubo diferencias significativas entre los distintos métodos (F(3,16) =
2
4.35, p = 0.02, ηparcial corregida = 0.1497 indicando un efecto grande). Los errores
fueron significativamente menores en el grupo D que en el grupo A (diferencia = -15,
p = 0.01)
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 26 / 54
Post hoc diferencia mínima significativa (DMS, LSD en
inglés
Estimación Std T P
B-A -9.60 4.21 -2.28 0.04
C-A -7.40 4.21 -1.76 0.10
D-A -15.00 4.21 -3.56 0.00
C-B 2.20 4.21 0.52 0.61
D-B -5.40 4.21 -1.28 0.22
D-C -7.60 4.21 -1.80 0.09
Tabla: Comparaciones usando LSD
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 27 / 54
Pruebas post hoc: Dunn Bonferroni
Estimación std T P
B-A -9.60 4.21 -2.28 0.22
C-A -7.40 4.21 -1.76 0.59
D-A -15.00 4.21 -3.56 0.02
C-B 2.20 4.21 0.52 1.00
D-B -5.40 4.21 -1.28 1.00
D-C -7.60 4.21 -1.80 0.54
Tabla: Comparaciones usando criterio Bonferroni
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 28 / 54
Prueba post hoc: Dunnet
Estimación std T P
B-A -9.60 4.21 -2.28 0.22
C-A -7.40 4.21 -1.76 0.59
D-A -15.00 4.21 -3.56 0.02
C-B 2.20 4.21 0.52 1.00
D-B -5.40 4.21 -1.28 1.00
D-C -7.60 4.21 -1.80 0.54
Tabla: Comparaciones usando criterio Dunnet
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 29 / 54
Comparaciones de tendencia
A veces puede resultar interesante conocer el tipo de relación entre la variable
independiente (VI)y la dependiente
Para realizar este estudio es necesario que la VI presente valores que puedan
ordenarse y que estén igualmente espaciados. Existen muchas posibilidades:
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 30 / 54
Comparaciones de tendencia
El contraste de una tendencia supone multiplicar cada media por un determinado
coeficiente. Estos coeficientes dependen del número de niveles del factor y de la
tendencia que se quiere contrastar
Tras asignar los coeficientes es posible contrastar hipótesis del tipo:
Esta hipótesis significa que no existe relación lineal
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 31 / 54
Concepto de potencia de la prueba
La potencia es la probabilidad de rechazar H0 siendo H1 cierta. Su valor es 1-β
Los valores que se suelen aceptar es a partir de 0.80. Una forma sencilla de
aumentar la potencia es aumentado el número de individuos
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 32 / 54
Potencia del ejemplo
varentre= var(c(25,15.5,17.6,10));
varintra=44.4;
[Link](groups=4,n=5,[Link]=varentre,
[Link]=varintra);
Balanced one-way analysis of variance power calculation
groups = 4 n = 5 [Link] = 38.54 [Link] = 44.4 [Link] = 0.05 power =
0.7693
NOTE: n is number in each group
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 33 / 54
n para potencia de .9
Balanced one-way analysis of variance power calculation
groups = 4 n = 6.516 [Link] = 38.54 [Link] = 44.4 [Link] = 0.05 power =
0.9
NOTE: n is number in each group
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 34 / 54
Prueba de ANOVA 1 FACTOR con SPSS
Abrimos la ventana de Analizar + Comparar medias + ANOVA 1 FACTOR
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 35 / 54
Prueba de ANOVA 1 FACTOR con SPSS
Introducimos la variable dependiente en el cuadro de variables dependientes
Introducimos la variable independiente en el cuadro de factores (sexo)
En el botón de opciones existen muchas posibilidades
En el botón de posthoc se puede seleccionar la prueba a posteriori
En el botón de contrastes se pueden realizar comparaciones entre varias muestras
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 36 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Posibilidades
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 37 / 54
Comparaciones de tendencia
Una forma de obtener este análisis es abriendo las ventanas Analizar + Comparar
medias+ ANOVA de un factor. Pulsando el botón de contrastes entramos en la
opción deseada:
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 38 / 54
Comparaciones de tendencia
Por defecto aparece la opción de contrastar la hipótesis de tendencia lineal
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 39 / 54
Comparaciones de tendencia
Los resultados indican que se acepta la hipótesis de que la relación sea de tipo
lineal
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 40 / 54
Comparaciones de tendencia
Otra forma de obtener este análisis es abriendo las ventanas Analizar + Modelo
lineal general+ Univariante. Pulsando el botón de contrastes entramos en la
opción deseada. Tenemos que elegir el contraste polinómico y darle al botón de
cambiar
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 41 / 54
Comparaciones de tendencia
Los resultados indican que se acepta la hipótesis de que los datos sigan una
tendencia lineal. En cambio, no se puede aceptar la hipótesis de que los datos
siguen una tendencia cuadrática o cúbica
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 42 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto
potencia
Seleccionamos Analizar + Modelo lineal general + Univariante
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 43 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto
potencia
Seleccionamos Analizar + Modelo lineal
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 44 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto y
potencia
Marcamos el botón de Opciones
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 45 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto y
potencia
Seleccionamos Estimación del tamaño del efecto y Potencia observada
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 46 / 54
Prueba de ANOVA 1 FACTOR con SPSS: Tamaño efecto y
potencia
Los resultados indican que la potencia fue de 1 y el valor de η 2 parcial fue de
0.111
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 47 / 54
Análisis de residuales
Al realizar el ANOVA marcamos el botón de guardar
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 48 / 54
ANOVA no paramétrico
Al realizar el ANOVA guardamos los residuales estudentizados
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 49 / 54
ANOVA no paramétrico
Si no se cumple el supuesto de normalidad aplicamos la prueba de Kruskal Wallis
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 50 / 54
ANOVA no paramétrico
Seleccionamos Analizar+Pruebas no paramétricas + K muestras independientes
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 51 / 54
ANOVA no paramétrico
Introducimos la variable dependiente
Indicamos los valores de la VI
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 52 / 54
ANOVA no paramétrico
Si se rechaza la hipótesis nula hay que hacer comparaciones dos a dos con la
prueba U de Mann-Whitney y aplicar la corrección de Bonferroni (en este caso
es 0.05/3 = 0.0167)
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 53 / 54
ANOVA no paramétrico
Conclusiones según normas APA
Se encontró que hubo diferencias significativas entre los distintos niveles educativos
(χ2 (2, 559) = 58,191, p < 0,001, rSpearman = 0.32 indicando un efecto medio). El
recuerdo fue significativamente menor cuando se tuvieron estudios primarios que
cuando se tuvo estudios superiores (Z = -7.23, p < 0.001) y que cuando se tuvieron
estudios secundarios (Z = -4.983, p < 0.001). Asimismo, se encontró diferencias
significativas en el recuerdo de palabras cuando se tuvieron estudios secundarios en
comparación con tener estudios superiores (Z = -2.539, p = 0.011).
M. Morales (Universidad de Sevilla morales@[Link]) DAD-II 54 / 54