USAP
Estadística Administrativa II
2018-3
Análisis de varianza
ANOVA
1
La prueba
ANOVA
A menudo se necesitan hacer comparaciones para más
de dos medias y para ello se utilizan la metodología del
análisis de varianza (ANOVA), que recurre a la
distribución F.
2
Principio
Experimentos en agricultura
- Variación de tratamiento
- Variación aleatoria
Muestra 1 Muestra 2 Muestra 3 Muestra 4
3
Variación de tratamiento
“VARIACIÓN DE TRATAMIENTO: Suma de las
diferencias entre la media de cada tratamiento y la
media global elevada al cuadrado.” (Lind |Marchal |
Wathen, 2008, p.331).
- Más de 2 muestras
- Media aritmética global
- Media aritmética de cada muestra
∑ 𝑋𝑖
𝑋´ =
𝑛 4
Variación de tratamiento
2
𝑉𝑇 =𝑛1 ∑ ( 𝑋´ 𝑚 − 𝑋´ 𝑔 ) 𝑝𝑎𝑟𝑎𝑐𝑎𝑑𝑎𝑚𝑢𝑒𝑠𝑡𝑟𝑎
1
• Calcular la media aritmética de cada
muestra
• Calcular la media aritmética de todos los
datos en análisis
• La diferencia entre la media muestral y la
media global; se eleva al cuadrado
• Se suman todas las diferencias cuadradas
5
Ejemplo . . . (sin demostrar hipótesis)
El gerente de un centro financiero regional desea
comparar la productividad, medida por el número
de clientes atendidos, de 3 de sus empleados.
Selecciona 4 días en forma aleatoria y registra el
número de clientes que atendió cada empleado.
Los resultados obtenidos fueron:
LOBO BLANCO CÓRDOVA
55 66 47
54 76 51
59 67 46
6
56 71 48
. . . Ejemplo
´ 224
𝑋 𝐿= =56
4
´ 280
𝑋 𝐵= =70
4
´ 192
𝑋𝐶= =48
4
´ 696
𝑋 𝑔= =58
12
Solo paso 5 7
. . . Ejemplo
LOBO BLANCO CÓRDOVA
55 66 47
54 76 51
59 67 46
56 71 48
8
. . . Ejemplo
2
( 𝑋𝑚 − 𝑋𝑔)
´ ´
𝑉𝑇 =992
9
Variación Aleatoria
“VARIACIÓN ALEATORIA: Suma de las
diferencias entre cada observación y su media
de tratamiento, elevada al cuadrado.” (Lind |
Marchal |Wathen, 2008, p.331).
-
Observación
- Media aritmética de cada muestra
∑ 𝑋𝑖
𝑋´ =
𝑛
10
Variación Aleatoria
2 2
𝑉𝐴=∑ ( 𝑋 𝑖 − 𝑋´ 𝑚 ) + ∑ ( 𝑋 𝑗 − 𝑋´ 𝑚 ) +¿…¿
1 2
• Calcular la media aritmética de cada
muestra
• La diferencia entre el dato observado y la
media de la muestra se eleva al cuadrado
• Se suman todas las diferencias cuadradas
11
Ejemplo 1 . . . (sin demostrar hipótesis)
El gerente de un centro financiero regional desea
comparar la productividad, medida por el número
de clientes atendidos, de 3 de sus empleados.
Selecciona 4 días en forma aleatoria y registra el
número de clientes que atendió cada empleado.
Los resultados obtenidos fueron:
LOBO BLANCO CÓRDOVA
55 66 47
54 76 51
59 67 46
56 71 48
224 280 192 696
56 70 48 58 12
. . . Ejemplo 1
2
𝑋 − 𝑋
´
( 𝑖 𝑚)
𝑉𝐴 =90
13
Ejemplo 2 . . .
En una investigación de mercados sobre las
ventas de Toallas Manix, se recolectó la siguiente
información:
# San Pedro La Ceiba Tela El Progreso
1 10 20 15 20
2 15 17 20 10
3 20 26 27 15
4 15 18 38 23
5 25 20 8
6 19 5
7 10
Calcular la variación de tratamiento y la variación
14
aleatoria.
Ejemplo 2 . . .
# San Pedro La Ceiba Tela El Progreso
1 10 20 15 20
2 15 17 20 10
3 20 26 27 15
4 15 18 38 23
5 25 20 8
6 19 5
7 10
Σ 85 120 100 91 396
n 5 6 4 7 22
ത
ܺ 17 20 25 13 18
´
𝑋
𝑔 =18
15
. . . Ejemplo 2
Ciudad Ventas ത
ܺ
ത
ܺ VT VA
San Pedro 10 17 18 1 49
15 1 4
20 1 9
15 1 4
25 1 64
La Ceiba 20 20 4 0
17 4 9
26 4 36 𝑉𝑇
=400
18 4 4
20 4 0
19 4 1 𝑉𝐴
=738
Tela 15 25 49 100
20 49 25
27 49 4
38 49 169
El Progreso 20 13 25 49
10 25 9
15 25 4
23 25 100
8 25 25
5 25 64
10 25 9 16
∑ 400 738
Distribución F para
ANOVA
2
𝑠 1
𝐹 = 2
𝑠 2
17
Distribución F para Anova
• es el total de muestras en análisis
• es el total de elementos en análisis 18
Tabla resumen ANOVA
Error medio cuadrado
MSE
19
Ejemplo 1 . . .
El gerente de un centro financiero regional desea
comparar la productividad, medida por el número
de clientes atendidos, de 3 de sus empleados.
Selecciona 4 días en forma aleatoria y registra el
número de clientes que atendió cada empleado.
Con los datos observados, se LOBO BLANCO CÓRDOVA
obtuvo una variación de 55 66 47
tratamiento de 992 y una 54 76 51
variación aleatoria de 90. Los 59 67 46
resultados se obtuvieron de las 56 71 48
siguientes muestras:
¿Existe alguna diferencia entre las medias de la 20
población con nivel de significancia de 0.10?
. . . Ejemplo 1
• Paso 1: Hipótesis nula y alternativa
𝐻 0 : 𝜇 𝑙𝑜𝑏𝑜 = 𝜇𝑏𝑙𝑎𝑛𝑐𝑜 = 𝜇𝑐 ó 𝑟𝑑𝑜𝑏𝑎
𝐻 𝑎 : 𝑁𝑜𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛𝑖𝑔𝑢𝑎𝑙𝑒𝑠
• Paso 2: Nivel de significancia
𝛼=0.10
• Paso 3: Estadístico de prueba
𝑠 21
𝐹= 2
𝑠 2
21
. . . Ejemplo 1
• Paso 4: Regla de decisión
𝐻 : 𝜇
0 𝑙𝑜𝑏𝑜 =𝜇𝑏𝑙𝑎𝑛𝑐𝑜 =𝜇𝑐 ó 𝑟𝑑𝑜𝑏𝑎
2 𝑐𝑜𝑙𝑎𝑠
0.10
𝛼= =0.05
2
𝑘 =3
𝑔𝑙 1=3 −1=2
𝑛=12 𝑔𝑙 2=12 −3=9
𝐹=4.26
22
. . . Ejemplo 1
𝐹=4.26
• Paso 5: Toma de decisión
La hipótesis nula se rechaza
Existe evidencia fuerte de que no todas las medias
de la población son iguales
23
Ejemplo 2 . . .
• La siguiente información se refiere a tres
muestras. Verificar la hipótesis de que las
medias de tratamiento son iguales; con
nivel de significancia de 0.02.
Tratamiento 1 Tratamiento 2 Tratamiento 3
8 3 3
5 2 4
10 4 5
9 3 4
24
. . . Ejemplo 2
Paso 1: Hipótesis nula e hipótesis alternativa
𝐻0 : 𝜇 1 = 𝜇2 = 𝜇3
𝐻 𝑎 : 𝑁𝑜𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Paso 2: Nivel de significancia
𝛼=0. 02
Paso 3: Estadístico de prueba
𝑠 21
𝐹= 2
𝑠2
25
. . . Ejemplo 2
• Paso 4: Regla de decisión
𝐻 : 𝜇 =𝜇 =𝜇
0 1 2 3
2 𝑐𝑜𝑙𝑎𝑠
0. 02
𝛼= =0.0 1
2
𝑘 =3
𝑔𝑙 1=3 −1=2
𝑛=12 𝑔𝑙 2=12 −3=9
𝐹=8.02
26
. . . Ejemplo 2
𝑃𝑎𝑠𝑜 5: 𝑇𝑜𝑚𝑎 𝑑𝑒 𝐷𝑒𝑐𝑖𝑠𝑖 ó 𝑛
Tratamiento 1 Tratamiento 2 Tratamiento 3
8 3 3 •
5 2 4
10 4 5
9 3 4
• de cada muestra
Tratamiento 1 Tratamiento 2 Tratamiento 3
8 3 4
• global
Tratamiento 1 Tratamiento 2 Tratamiento 3
27
5
. . . Ejemplo 2
ത ത
ܺ Variación tratamiento Variación aleatoria
Plan ܺ ܺ ଶ
ത
ܺ െ
ത
ܺ ܺ െത
ܺ ଶ
Tratamiento 8 (8 - 5)2 = 9.0 (8 - 8)2 = 0.0
1 5 (8 - 5)2 = 9.0
2
(5 - 8) = 9.0
8
10 (8 - 5)2 = 9.0 (10 - 8)2 = 4.0
9 (8 - 5)2 = 9.0 (9 - 8)2 = 1.0
Tratamiento 3 (3 - 5)2 = 4.0 (3 - 3)2 = 0.0
2 2 (3 - 5)2 = 4.0 (2 - 3)2 = 1.0
3 5 2
4 (3 - 5)2 = 4.0 (4 - 3) = 1.0
3 (3 - 5)2 = 4.0 (3 - 3)2 = 0.0
Tratamiento 2
3 (4 - 5)2 = 1.0 (3 - 4) = 1.0
3 4 (4 - 5)2 = 1.0 (4 - 4)2 = 0.0
4
5 (4 - 5)2 = 1.0 (5 - 4)2 = 1.0
4 (4 - 5)2 = 1.0 (4 - 4)2 = 0.0
∑ 56.0 18.0
28
. . . Ejemplo 2
𝐹=8.02
2 Estimación
Variación ∑ k,n gl F
Varianza
Tratamiento 56.0 3 2 28.00
14.00
Aleatoria 18.0 12 9 2.00
La hipótesis nula se rechaza
Existe evidencia suficiente que indica que no todas
las medias de la población son iguales
29
Hipótesis nula
rechazada
La hipótesis nula rechazada indica que no todas las medias
son iguales; sin embargo, se puede identificar un par de
muestras para establecer el intervalo de confianza que nos
indique que tanto es esa diferencia.
30
Intervalo de confianza de la
diferencia entre las medias de
tratamiento
1 1
√ (
( 𝑋´ 1 − 𝑋´ 2 ) ± 𝑡 𝑀𝑆𝐸 𝑛 + 𝑛
1 2
)
𝑉𝐴
𝑀𝑆𝐸= (𝑒𝑟𝑟𝑜𝑟 𝑚𝑒𝑑𝑖𝑜 𝑐𝑢𝑎𝑑𝑟𝑎𝑑𝑜 )
𝑛 −𝑘
si el intervalo incluye el 0
No hay diferencia entre ambas medias
Hipótesis nula no se rechaza para este par de medias31
Ejemplo . . .
Ciertas aerolíneas han reducido sus servicios, como ser,
alimentos y bocadillos durante sus vuelos; se ha estado
cobrando de manera adicional algunos de los antiguos servicios.
La central del aeropuerto desea conocer si este cambio ha
producido insatisfacción en los clientes que las utilizan, con un
intervalo de confianza del 95%. Se tienen los siguientes datos
muestrales de una investigación anterior:
Estimación
F
Variación ∑2 gl Varianza
Tratamiento 890.7 3 296.9
8.99
Aleatoria 594.4 18 33.0
• Determinar con 95% de confianza
si la evidencia es suficiente para
validar el haber rechazado la
hipótesis. Con las muestras con
mayor y menor media 32
. . . Ejemplo
• American y Spirit tienen el promedio
más alto y más bajo respectivamente.
1 1
´ ´
√ ( )
( 𝑋 1 − 𝑋 2 ) ± 𝑡 𝑀𝑆𝐸 𝑛 + 𝑛
1 2
1 1
√ 46
(87.3 −69)±𝑡 𝑀𝑆𝐸 ( + )
33
. . . Ejemplo
• Determinar el valor de t
Estimación
∑2 Varianza F
Variación gl
Tratamiento 890.7 3 296.9
8.99
Aleatoria 594.4 18 33.0
𝑔𝑙=18
𝑡 =2.101
• Error medio cuadrado
𝑉𝐴 594.2
𝑀𝑆𝐸= = =33.0
𝑛 −𝑘 22 − 4
34
. . . Ejemplo
1 1
𝐼𝐶 95 %=( 𝑋
´ 𝑎−𝑋
´ 𝑠) ± 𝑡
√ 1
)
𝑀𝑆𝐸
1
+
(
𝑛𝑎 𝑛 𝑠
√ 46
¿ ( 87.3 −69 ) ± 2.101 33.0 ( + )
¿ 18.3 ±2.101 √ 33.0 ( 0.41667 )
¿ 18.3 ± 7.791
¿ ¿18.3 − 7.791=10.5
{
¿ 18.3+7.791=26.1
Los dos puntos extremos son positivos
La hipótesis nula se rechaza
Si hay suficiente evidencia para concluir que estas medias
35
difieren de manera significativa.
Práctica
36
Práctica 1
Las temperaturas promedio de las tres principales
ciudades fueron registradas en las siguientes muestras:
Tegucigalpa San Pedro Ceiba
Sula
18 29 31
22 32 30
24 38 35
19 29 31
28 32 32
Con un nivel de significancia de 0.10. probar si las
temperaturas son iguales en las 3 ciudades.
Si la hipótesis nula se rechaza, determinar con 95%
de confianza la diferencia de los promedios entre
Tegucigalpa y San Pedro Sula 37
Desarrollo práctica 1
Paso 1: Hipótesis nula e hipótesis alternativa
𝐻 0 : 𝜇 𝑇 = 𝜇𝑆𝑃𝑆 =𝜇 𝐿𝐶
𝐻 𝑎 : 𝑁𝑜𝑡𝑜𝑑𝑎𝑠 𝑙𝑎𝑠 𝑚𝑒𝑑𝑖𝑎𝑠 𝑠𝑜𝑛𝑖𝑔𝑢𝑎𝑙𝑒𝑠
Paso 2: Nivel de significancia
𝛼=0. 10
Paso 3: Estadístico de prueba
𝑠 21
𝐹= 2
𝑠2
38
Desarrollo práctica 1
• Paso 4: Regla de decisión
𝐻 : 𝜇 =𝜇 =𝜇
0 1 2 3
2 𝑐𝑜𝑙𝑎𝑠
𝛼 0. 10
= =0.0 5
2 2
𝑘 =3
𝑔𝑙 1=3 −1=2
𝑛=15 𝑔𝑙 2=15 −3=12
𝐹=3.89
39
Desarrollo práctica 1
𝑃𝑎𝑠𝑜 5: 𝑇𝑜𝑚𝑎 𝑑𝑒 𝐷𝑒𝑐𝑖𝑠𝑖
Tegucigalpa San Pedro Sula Ceiba
ó 𝑛
18 29 31
22 32 30 • 3
24 38 35
19 29 31
28 32 32
de cada muestra
San Pedro
Tegucigalpa Ceiba
Sula
22.2 32 31.8
global
Global
28.7 40
Desarrollo práctica 1
Corregido
5/02/2018
41
Desarrollo práctica 1
2 Estimación
Variación ∑ n gl F
de Varianza
Tratamiento 313.8 3 2 156.90
14.10
Aleatoria 133.6 15 12 11.13
Valor crítico 𝐹=3.89
La hipótesis nula se rechaza 42
Desarrollo práctica 1
• Tratamiento e inferencia en pares de medias
2 Estimación
Variación ∑ n gl F
de Varianza
Tratamiento 313.8 3 2 156.90
14.10
Aleatoria 133.6 15 12 11.13
𝑀𝑆𝐸=11.13
In te rva lo d e c o n fia n z a
80% 90% 95% 98% 99.0% 99.9%
𝑔𝑙=15 −3=12 Nive l d e s ig n ific a n c ia p a ra p ru e b a d e u n a c o la , α
0.10 0.05 0.025 0.01 0.005 0.0005
IC = 95% Nive l d e s ig n ific a n c ia p a ra p ru e b a d e d o s c o la s , α
gl
𝑡 =2.179
12
0.20 0.10
1.356 1.782
0.05
2.179
0.02
2.681
0.01
3.055
0.001
4.318
San Pedro
Tegucigalpa Ceiba
Sula
22.2 32 31.8
𝑛=5=5 43
. . . Ejemplo
1 1
𝐼𝐶 95 %=( 𝑋
´ 𝑎−𝑋
´ 𝑠) ± 𝑡
√ 𝑀𝑆𝐸
1 1
) +
(
𝑛𝑎 𝑛 𝑠
√ 55
¿ ( 32− 22.2− ) ± 2.179 11.1 ( + )
¿ 9.8 ± 2.179 √ 11.13 ( 0.4 )
¿ 9.8 ± 5.14 Revisar
¿ ¿ 9.8 −5.14=4.66
{
¿ 9.8+5.14=14.94
Los dos puntos extremos son positivos
La hipótesis nula se rechaza
Si hay suficiente evidencia para concluir que estas medias
44
difieren de manera significativa.
Práctica 2
Citrus Clean es un nuevo limpiador multiusos a
prueba en el mercado; se han colocado exhibidores
en varios supermercados de la ciudad. Una muestra
tomada la semana pasada reportó las cantidades de
botellas que se vendieron a diario en cada lugar de
los supermercados.
Con nivel de significancia
Cerca del Cerca de la Cerca de otros 0.10. ¿Hay alguna diferencia
pan cerveza limpiadores entre los promedios de las
18 12 26 botellas que se vendieron en
14 18 28 los 3 lugares? ¿Qué indica
19 10 30 el intervalo de confianza del
17 16 32 95%? 45
Desarrollo Práctica 2
• Paso 1: Hipótesis nula y alternativa
• Paso 2: Nivel de significancia
𝛼 =0.10
• Paso 3: Estadístico de prueba
𝑠 21
𝐹= 2
𝑠2
46
Desarrollo práctica 2
• Paso 4: Regla de decisión
𝐻 0 :𝜇 1=𝜇2 =𝜇3
2 𝑐𝑜𝑙𝑎𝑠
𝛼 0.10
= =0.05
2 2
𝑘 =3 𝑔𝑙 1=3 − 1=2
𝑛=12 𝑔𝑙 2=12 − 3= 9
𝐹=4.26
47
Valor crítico
Desarrollo práctica 2 𝐹=4.26
• Paso 5: Toma de decisión
Media de cada muestra y la media global
𝑘 =3
𝑛=12
48
Desarrollo práctica 2 𝐹=4.26
• Paso 5: Toma de decisión
Tabla de cálculo de variaciones
ത ത
ܺ Variación tratamiento Variación aleatoria
Ubicación ܺ ܺ
ത ത
ଶ
ଶ
ܺ െܺ ܺ െത
ܺ
Cerca del 18 (17 - 20)2 = 9.0 (18 - 17)2 = 1.0
pan 14 (17 - 20)2 = 9.0 (14 - 17)2 = 9.0
17.0
19 (17 - 20)2 = 9.0 (19 - 17)2 = 4.0
17 (17 - 20)2 = 9.0 (17 - 17)2 = 0.0
Cerca de la 12 (14- 20)2 = 36.0 (12 - 14)2 = 4.0
cerveza 18 (14- 20)2 = 36.0 (18 - 14)2 = 16.0
14.0 20.0
10 (14- 20)2 = 36.0 (10 - 14)2 = 16.0
16 (14- 20)2 = 36.0 (16 - 14)2 = 4.0
Cerca de 26 (29- 20)2 = 81.0 (26 - 29)2 = 9.0
otros 28 (29- 20)2 = 81.0 (28 - 29)2 = 1.0
limpiadores 29.0
30 (29- 20)2 = 81.0 (30 - 29)2 = 1.0
32 (29- 20)2 = 81.0 (32 - 29)2 = 9.0
∑ 504.0 74.0
Desarrollo práctica 2 𝐹=4.26
• Paso 5: Toma de decisión
Tabla de ANOVA
Variación Estimación F
2
∑ n gl Varianza
Tratamiento 504.0 3 2 252.0
30.65
Aleatoria 74.0 12 9 8.2
La hipótesis nula se rechaza
Hay evidencia de que no todas las medias son
iguales 50
Desarrollo práctica 2
• Tratamiento e inferencia en pares de medias
Cerca del Cerca de otros
Variación Estimación F
pan limpiadores ∑2 n gl Varianza
18 26 Tratamiento 504.0 3 2 252.0
30.65
14 28 Aleatoria 74.0 12 9 8.2
19 30
ത
17 32
𝑀𝑆𝐸=8.2
ܺ 17.0 29.0
ത 𝑔𝑙=9
Intervalo de confianza 95
%
𝑡 =2.262
𝑛1= 𝑛2= 4
51
Desarrollo práctica 2 𝑡 =2.262
• Tratamiento e inferencia en pares de medias
1 1
𝐼𝐶 95 %=( 𝑋
´ 1− 𝑋
´ 2) ±𝑡
√ 𝑀𝑆𝐸
1 1
(+
𝑛 1 𝑛2 )
¿ 12± 2.26 2 √ 4.1
√ ( )
¿ ( 2 9 −1 7 ) ±2.262 8.2 +
4 4
¿ ¿ 12 −4.58=7.42
{
¿12+ 4.58=16.58
La hipótesis nula se rechaza
hay suficiente evidencia para concluir que estas
medias difieren de manera significativa 52
En Facebook
La colonia desea saber si existe diferencias entre los
promedios de ventas de 4 sucursales de San Pedro
Sula, con un nivel de significancia de 0.05 por cola.
Las ventas mensuales (en miles) son las siguientes:
Prado Alto Tara Pedregal Galerías del Valle
80 90 120 75
60 100 150 90
70 120 170 80
60 100 150 80
80 100 100
150 80
90
53
En Papel
En distribuidora “LA PRINCIPAL” la variación de las
ventas por vendedor es menor en San Pedro Sula
que en Tegucigalpa. Las ventas (en millones) del mes
anterior fueron las siguientes:
Tegucigalpa San Pedro Sula
8 11
12 8
9 4
6 7
7 5
5
Con un nivel de significancia de 0.01, probar si la
variación de las ventas sigue siendo menor en San
Pedro Sula. 54
En Papel
La distribuidora “LATINYO” desea conocer si los
promedios de ventas en San Pedro Sula, Tegucigalpa
y La Ceiba son similares. Con un nivel de
significancia de 0.10.
Tegucigalpa S.P.S. La Ceiba
106 127 24
41 50 17
101 26 146
99 98 20
89 17 53
134 30
14
96 55
a l
F i n
𝐵𝑖𝑏𝑙𝑖𝑜𝑔𝑟𝑎𝑓
í𝑎
Lind, D.A., Marchal, W.G., Wathen, S.A. (15). (2012). Estadística Aplicada a los
Negocios y la Economía. México: McGrawHill
David M. Levine, Timothy C. Krehbiel, Mark L. Berenson. 2006. Estadística para
Administración. (4° edición). Naucalpan de Juárez, México.: Pearson Prentice Hall
56