La prueba ANOVA
¿Cómo funciona la prueba ANOVA? Recuerde que se desea determinar si varias medias
muestrales provienen de una sola población o de poblaciones con medias diferentes. En
realidad, estas medias muestrales se comparan mediante sus varianzas. Para explicar
esto, se enumeraron las suposiciones que requiere ANOVA. Una de estas suposiciones
fue que las desviaciones estándares de las diversas poblaciones normales tenían que ser
las mismas. Se aprovecha este requisito en la prueba ANOVA. La estrategia es estimar
la varianza de la población (desviación estándar al cuadrado) de dos formas para
después determinar la razón de dichas estimaciones. Si esta razón es aproximadamente
1, entonces por lógica las dos estimaciones son iguales, y se concluye que las medias
poblacionales no son iguales. La distribución F sirve como un árbitro para indicar en
qué instancia la razón de las varianzas muestrales es mucho mayor que 1 para haber
ocurrido por casualidad.
Ejemplo: Muestra de diferentes tamaños
Desde hace algún tiempo las aerolíneas han reducido sus servicios, como alimentos y
bocadillos durante sus vuelos, y empezaron a cobrar un precio adicional por algunos de
ellos, como llevar sobrepeso de equipaje, cambios de vuelo de último momento y por
mascotas que viajan en la cabina. Sin embargo, aún están muy preocupadas por el
servicio que ofrecen. Hace poco un grupo de cuatro aerolíneas contrató a una empresa,
para encuestar a sus pasajeros, estas respuestas se sumaron, de modo que la calificación
final fue una indicación de la satisfacción con el vuelo. Se seleccionó y estudió al azar
pasajeros de las cuatro aerolíneas. ¿Hay alguna diferencia entre los niveles de
satisfacción medios con respecto a las cuatro aerolíneas? Use el nivel de significancia
de 0.01.
AEROLÍNEAS
A B C D
94 75 70 68
90 68 73 70
85 77 76 72
80 83 78 65
88 80 74
68 65
65
Utilice el procedimiento de prueba de hipótesis de cinco pasos.
Paso 1: Formule las hipótesis nula y alternativa.
La hipótesis nula es que las calificaciones medias de las cuatro aerolíneas son iguales.
La hipótesis alternativa es que no todas las calificaciones medias son iguales.
La hipótesis alternativa también se considera como “al menos dos calificaciones medias
no son iguales”. Si no se rechaza la hipótesis nula, se concluye que no hay una
diferencia entre las calificaciones medias de las cuatro aerolíneas. Si se rechaza H0, se
concluye que hay una diferencia en al menos un par de calificaciones medias, pero en
este punto no se sabe cuál par o cuántos pares difieren.
Paso 2: Seleccione el nivel de significancia.
Se Seleccionó el nivel de significancia de 0.01. Según lo indica el ejercicio
Paso 3: Determine el estadístico de prueba.
El estadístico de prueba sigue la distribución F.
Paso 4: Formule la regla de decisión.
Para determinar la regla de decisión, necesita el valor crítico. El valor crítico del
estadístico F aparece en el apéndice B.4. Los valores críticos del nivel de significancia
0.01, como lo indica el ejercicio, se encuentran en la segunda página.
Para utilizar esta tabla se necesita conocer los grados de libertad del numerador y del
denominador.
Los grados de libertad del numerador son iguales al número de tratamientos,
designado k, menos 1.
Los grados de libertad del denominador son el número total de observaciones,
n, menos el número de tratamientos.
En este ejemplo hay cuatro tratamientos y un total de 22
observaciones.
Según la tabla a utilizar y el nivel de significancia de 0.01.
Muévase horizontalmente por la parte superior de la página
a tres grados de libertad del numerador. Después vaya hacia
abajo por esa columna hasta la fila con 18 grados de
libertad. El valor en esta intersección es 5.09. Por lo tanto,
la regla de decisión es rechazar H0 si el valor calculado de
F es mayor que 5.09.
Paso 5: Seleccione la muestra, realice los cálculos y tome una decisión.
Es conveniente resumir los cálculos del estadístico F en una tabla ANOVA. El formato
de una tabla ANOVA es el siguiente.
TABLA ANOVA
FUENTE DE SUMA DE GRADOS DE MEDIA
F
VARIACIÓN CUADROS LIBERTAD CUADRÁTICA
Tratamientos SST k-1
Error SSE n-k
TOTAL SS TOTAL n-1
Hay tres valores, o suma de cuadrados, para calcular el estadístico de prueba F, estos
valores se determinan al obtener:
SS TOTAL, (Suma de cuadrados total) o VARIACIÓN TOTAL
Suma de las diferencias entre cada observación y la media global elevadas al cuadrado.
En nuestro ejemplo, la variación total es de 1 485.10, determinada por (94 – 75,64)2 +
(90 – 75,64)2 + . . . (65 – 75,64)2.
AEROLÍNEAS
A B C D
VT VT VT VT
337,09 0,41 31,81 58,37
206,21 58,37 6,97 31,81
87,61 1,85 0,13 13,25
19,01 54,17 5,57 113,21
152,77 19,01 2,69
58,37 113,21
113,21
649,92 + 267,57 + 235,07 + 332,54
SS TOTAL = 1485,09
Luego se divide esta variación total en dos componentes:
SST: Suma de cuadrados de tratamiento o VARIACIÓN DE TRATAMIENTO
Este paso se realiza normalmente con la diferencia entre SSTotal y SSE, pero puede ser
determinado mediante la “suma de las diferencias entre la media de cada tratamiento y
la media total o global elevadas al cuadrado.” Como se observa a continuación
# VT
1 539,17
2 32,77
3 54,21
4 264,54
890,68
En el ejemplo, la variación debida a las aerolíneas es la suma de las diferencias al
cuadrado entre la media de cada empleado y la media global. Este término es 890.68.
Para calcularlo, primero se encuentra la media de cada uno de las cuatro aerolíneas. La
media de “A” es 87,25, determinada por (94 + 90 + 85 + 80)/4. Las otras medias son
78,20 , 72,86 y 69,00 respectivamente.
La suma de los cuadrados debida a los tratamientos es:
SSE: Suma de cuadrados del error o VARIACIÓN ALEATORIA
Suma de las diferencias entre cada observación y su media de tratamiento elevadas al
cuadrado. En el ejemplo, este término es la suma de las diferencias al cuadrado entre
cada valor y la media de ese empleado en particular. La variación de error es 594,41
AEROLÍNEAS
A B C D
VA VA VA VA
45,56 10,24 8,18 1,00
7,56 104,04 0,02 1,00
5,06 1,44 9,86 9,00
52,56 23,04 26,42 16,00
96,04 50,98 25,00
23,62 16,00
61,78
110,75 + 234,80 + 180,86 + 68,00
594,41
Para determinar el valor calculado de F, consulte la tabla ANOVA. El término media
cuadrática es otra expresión de la estimación de la varianza. La media cuadrática de
tratamientos es SST dividido entre sus grados de libertad.
El resultado es la media cuadrática de tratamientos, y se escribe MST. Calcule el
error medio cuadrático de una manera similar. Para ser precisos, divida SSE entre sus
grados de libertad. Para completar el proceso y obtener F, divida MST entre MSE.
Sustituya los valores particulares de F en una tabla ANOVA y calcule el valor de F,
como se muestra a continuación.
TABLA ANOVA
FUENTE DE SUMA DE GRADOS DE MEDIA
F
VARIACIÓN CUADROS LIBERTAD CUADRÁTICA
Tratamientos 890,68 3 296,89
8,99
Error 594,41 18 33,02
TOTAL 1485,09 21