UNIVERSIDAD DE GUAYAQUIL
FACULTAD DE CIENCIAS ADMINISTRATIVAS
TEMA:
ANALISIS DE LA VARIANZA (ANOVA)
AUTORES:
Xxxxx
Xxxxx
Xxxxx
Xxxx
Xxxx
CURSO:
TUR 4-16
PROFESOR:
ING. CARLOS BAZURTO
MATERIA:
COMPUTACIÓN II
GRUPO:
F
AGOSTO, 24 DEL 2021
II
INDICE
RESUMEN..........................................................................................................................................1
Anova de un factor...............................................................................................................................2
¿Qué es?...........................................................................................................................................2
¿Cuándo se usa el Anova de un factor?...........................................................................................2
¿En que se basa Anova de un factor?...............................................................................................3
¿Qué limitaciones hay que tener en cuenta?....................................................................................3
El ANOVA de un factor es una prueba para las diferencias entre medias grupales........................3
Ejemplo de ANOVA de un factor....................................................................................................6
¿Qué es el valor p?...........................................................................................................................8
Cálculo del ANOVA de un factor....................................................................................................8
Suma de cuadrados...........................................................................................................................9
ANOVA de dos factores con varias muestras por grupo...................................................................14
Rango de entrada............................................................................................................................14
Rango de salida..............................................................................................................................14
Ejercicio #1....................................................................................................................................14
Ejercicio #2....................................................................................................................................17
III
Tabla de Ilustraciones
Figura 1 variable dependiente o de interés.................................................................................................................3
Figura 2Media Global................................................................................................................................................5
Figura 3Variacion total..............................................................................................................................................5
Figura 4 Variación Intra-grupo..................................................................................................................................5
Figura 5 Variación Inter-grupo..................................................................................................................................5
Figura 6 Representación de las mediciones de resistencia a la torsión por lote..........................................................6
Figura 7 Mediciones medias de resistencia a la torsión en las pruebas realizadas en cinco lotes de adhesivo...........7
Figura 8: ANOVA con resultados de las mediciones de resistencia a la torsión........................................................8
Figura 9 Medición de la resistencia a la torsión por lote............................................................................................9
Figura 10: Suma de cuadrados.................................................................................................................................10
1
RESUMEN
Un análisis de varianza (ANOVA) prueba la hipótesis de que las medias de dos o más poblaciones
son iguales. Estos evalúan la importancia de uno o más factores al comparar las medias de la variable
de respuesta en los diferentes niveles de los factores. La hipótesis nula establece que todas las medias
de la población son iguales mientras que la hipótesis alternativa establece que al menos una es
diferente.
Para ejecutar un ANOVA, debe tener una variable de respuesta continua y al menos un factor
categórico con dos o más niveles. Estos análisis requieren datos de poblaciones que sigan una
distribución aproximadamente normal con varianzas iguales entre los niveles de factores. Sin
embargo, los procedimientos de ANOVA funcionan bastante bien incluso cuando se viola el supuesto
de normalidad, a menos que una o más de las distribuciones sean muy asimétricas o si las varianzas
son bastante diferentes. Las transformaciones del conjunto de datos original pueden corregir estas
violaciones.
El nombre "análisis de varianza" se basa en el enfoque en el cual el procedimiento utiliza las
varianzas para determinar si las medias son diferentes. El procedimiento funciona comparando la
varianza entre las medias de los grupos y la varianza dentro de los grupos como una manera de
determinar si los grupos son todos parte de una población más grande o poblaciones separadas con
características diferentes.
2
Anova de un factor
¿Qué es?
ANOVA de un factor (también llamada ANOVA unifactorial o one-way) es una técnica estadística
que señala si dos variables (una independiente y otra dependiente) están relacionadas en base a si las
medias de la variable dependiente son diferentes en las categorías o grupos de la variable
independiente. Es decir, señala si las medias entre dos o más grupos son similares o diferentes, es un
método estadístico para examinar las diferencias en las medias de tres o más grupos.
¿Cuándo se usa el Anova de un factor?
Usamos ANOVA de un factor cuando queremos saber si las medias de una variable son
diferentes entre los niveles o grupos de otra variable. Por ejemplo, si comparamos el número de hijos
entre los grupos o niveles de clase social: los que son clase baja, clase trabajadora, clase media-baja,
clase media-alta y clase alta. Es decir, vamos a comprobar mediante ANOVA si la variable “número
de hijos” está relacionada con la variable “clase social”. Concretamente, se analizará si la media del
número de hijos varía según el nivel de clase social a la que pertenece la persona.
Condiciones:
En ANOVA de un factor solo se relacionan dos variables: una variable dependiente
(o a explicar) y una variable independiente (que en esta técnica se suele llamar factor)
La variable dependiente es cuantitativa (escalar) y la variable independiente
es categórica (nominal u ordinal).
Se pide que las variables sigan la distribución normal, aunque como siempre esto
es difícil de cumplir en investigaciones sociales.
También que las varianzas (es decir, las desviaciones típicas al cuadrado) de cada
grupo de la variable independiente sean similiares (fenómeno que se conoce como
homocedasticidad). Aunque esto es lo ideal, en la realidad cuesta de cumplir, e
igualmente
3
se puede aplicar ANOVA
4
¿En que se basa Anova de un factor?
ANOVA de un factor compara las medias de la variable dependiente entre los grupos o categorías
de la variable independiente. Por ejemplo, comparamos las medias de la variable “Número de hijos”
según los grupos o categorías de la variable “Clase social”.
Si las medias de la variable dependiente son iguales en cada grupo o categoría de la variable
independiente, los grupos no difieren en la variable dependiente, y por tanto no hay relación entre las
variables. En cambio, y siguiendo con el ejemplo, si las medias del número de hijos son diferentes
entre los niveles de la clase social es que las variables están relacionadas.
¿Qué limitaciones hay que tener en cuenta?
El ANOVA de un factor sólo puede utilizarse cuando se investiga un solo factor y una sola
variable dependiente. Cuando se comparan las medias de tres o más grupos, puede indicar si al
menos un par de medias es significativamente diferente, pero no puede indicar qué par. También
requiere que la variable dependiente esté distribuida de manera normal en cada uno de los grupos y
que la variabilidad dentro de cada grupo sea similar en todos los grupos.
El ANOVA de un factor es una prueba para las diferencias entre medias grupales.
El ANOVA de un factor es un método estadístico para probar la hipótesis nula (H0) de que tres o
más medias poblacionales son iguales frente a la hipótesis alternativa (Ha) de que al menos una de las
medias es diferente. Usando la notación formal de las hipótesis estadísticas con k medias,
escribiríamos:
Figura 1 variable dependiente o de interés.
5
Aquí μi es la media del i-ésimo nivel del factor.
Ahora, puede pensarse, de acuerdo, pero ¿en qué situaciones necesitaría determinar si las medias
de múltiples poblaciones son iguales o diferentes? Un caso común es sospechar que una variable
independiente de un proceso sea un factor determinante para un resultado importante de dicho
proceso. Por ejemplo, se puede sospechar que hay diferentes lotes de producción, operadores o
partidas de materias primas que están afectando el rendimiento (una métrica o medida de calidad) de
un proceso productivo.
El Anova requiere el cumplimiento los siguientes supuestos:
Las poblaciones (distribuciones de probabilidad de la variable dependiente correspondiente
a cada factor) son normales.
Las K muestras sobre las que se aplican los tratamientos son independientes.
Las poblaciones tienen todas igual varianza (homoscedasticidad).
El ANOVA se basa en la descomposición de la variación total de los datos con respecto a la
media global (SCT), que bajo el supuesto de que H0 es cierta es una estimación de obtenida a
partir de toda la información muestral, en dos partes:
Variación dentro de las muestras (SCD) o Intra-grupos, cuantifica la dispersión de los valores
de cada muestra con respecto a sus correspondientes medias.
Variación entre muestras (SCE) o Inter-grupos, cuantifica la dispersión de las medias de las
muestras con respecto a la media global.
Las expresiones para el cálculo de los elementos que intervienen en el Anova son las siguientes:
Media Global:
6
Figura 2Media Global
Variación Total:
Figura 3Variacion total
Variación Intra-grupos:
Figura 4 Variación Intra-grupo
Variación Inter-grupos:
Figura 5 Variación Inter-grupo
Siendo xij el i-ésimo valor de la muestra j-ésima; nj el tamaño de dicha muestra y su media.
Cuando la hipótesis nula es cierta SCE/K-1 y SCD/n-K son dos estimadores insesgados de la
varianza poblacional y el cociente entre ambos se distribuye según una F de Snedecor con K-1 grados
de libertad en el numerador y N-K grados de libertad en el denominador. Por lo tanto, si H0 es cierta
es de esperar que el cociente entre ambas estimaciones será aproximadamente igual a 1, de forma que
se rechazará H0 si dicho cociente difiere significativamente de 1.
7
Ejemplo de ANOVA de un factor.
Vamos a ver un ejemplo de ANOVA de un factor en más detalle. Imagine que trabaja para una
empresa que fabrica un gel adhesivo que se vende en tarros pequeños. La viscosidad del gel es
importante: si es demasiado espeso resulta difícil de aplicar, pero si es demasiado líquido la
adherencia se ve afectada. Recientemente, ha recibido comentarios de algunos clientes insatisfechos,
se han quejado de que la viscosidad del adhesivo no es tan consistente como antes. Su jefe le pide que
investigue el asunto.
Decide que sería buena idea empezar examinando la viscosidad media de los cinco lotes de
producción más recientes. Si encuentra diferencias entre los lotes, esto confirmaría que el problema
es real. También le ayudaría a empezar a formular hipótesis sobre los factores que podrían estar
causando inconsistencias entre lotes.
Para medir la viscosidad, emplea un instrumento que hace girar un rotor sumergido en el tarro del
adhesivo. Esta prueba produce una medida llamada resistencia a la torsión. Hace la prueba con cinco
tarros escogidos al azar de cada uno de los cinco lotes más recientes. Obtiene la medición de la
resistencia a la torsión de cada tarro y representa los datos en un gráfico.
Figura 6 Representación de las mediciones de resistencia a la torsión por lote
8
Al examinar el gráfico, observa que las mediciones de resistencia a la torsión de los tarros del lote
3 tienden a ser más bajas que las de las muestras tomadas de otros lotes. Cuando calcula la media de
todas las medidas, observa que la resistencia a la torsión media del lote 3 es 26.77: es mucho más
baja que los otros cuatro lotes, que tienen medias en torno a 30.
Figura 7 Mediciones medias de resistencia a la torsión en las pruebas realizadas en cinco lotes de adhesivo.
La tabla de ANOVA
Usualmente, los resultados del ANOVA se muestran en una tabla de ANOVA. Una tabla de
ANOVA incluye:
Fuente: las fuentes de variación incluyendo el factor examinado (en nuestro caso,
el lote), el error y el total.
GL: grados de libertad de cada fuente de variación.
Suma de cuadrados: la suma de los cuadrados (SC) de cada fuente de variación
junto con el total de todas las fuentes.
Media de los cuadrados: la suma de los cuadrados dividida por los
correspondientes grados de libertad asociados.
Razón F: la media de los cuadrados del factor (lote) dividida por la media de
los cuadrados del error.
Prob > F: el valor p.
9
Figura 8: ANOVA con resultados de las mediciones de resistencia a la torsión
A continuación, explicaremos cómo se obtienen los componentes de esta tabla. Un elemento clave
de la tabla en el que nos centraremos por ahora es el valor p. El valor p se usa para evaluar la validez
de la hipótesis nula de que todas las medias son iguales. En nuestro ejemplo, el valor p (Prob > F) es
0.0012. Este valor p pequeño puede tomarse como evidencia de que no todas las medias son iguales.
Nuestras muestras aportan evidencia de que hay una diferencia en el valor medio de resistencia a la
torsión entre uno o más de los cinco lotes.
¿Qué es el valor p?
Basándose en estos resultados, decide retener el lote 3 y seguir investigando. En el informe, puede
escribir lo siguiente: Se ha medido la resistencia a la torsión de cinco tarros del producto de cada uno
de los cinco lotes de producción más recientes. El análisis ANOVA reveló que las observaciones
apoyan una diferencia en la resistencia a la torsión media entre lotes (p = 0.0012). Al representar los
datos, vemos que el lote 3 tiene una resistencia a la torsión media inferior (26.77) comparado con los
otros cuatro lotes. Vamos a retener el lote 3 para seguir investigando.
Cálculo del ANOVA de un factor
Ahora, vamos a ver nuestro ejemplo de la medición de la resistencia a la torsión en más detalle.
Como recordará, teníamos cinco lotes de material. De cada lote, escogimos cinco tarros al azar para
examinarlos. Esto se llama "diseño con un factor". El factor (lote) tiene cinco niveles. Cada nivel se
replica (prueba) cinco veces. Los resultados de la prueba se indican a continuación.
10
Figura 9 Medición de la resistencia a la torsión por lote
Para explorar los cálculos que dieron lugar a la tabla de ANOVA de arriba (Figura 2), vamos a
empezar por establecer las siguientes definiciones:
Ni = Número de observaciones por tratamiento i (en nuestro ejemplo, lote i)
N = Número total de observaciones
Yij = La j-ésima observación del i-ésimo tratamiento
Yi = La media de la muestra del i-ésimo tratamiento
Y = La media de todas las observaciones (media global).
Suma de cuadrados
Con estas definiciones en mente, vamos a ver la columna de suma de los cuadrados de la tabla de
ANOVA. La suma de cuadrados nos permite cuantificar la variabilidad de un conjunto de datos
centrándonos en la diferencia entre cada punto de datos y la media de todos los puntos de datos del
conjunto. La fórmula a continuación divide la variabilidad global en dos partes: la variabilidad debida
al modelo o a los niveles del factor, y la variabilidad debida a errores aleatorios.
11
Figura 10: Suma de cuadrados
Aunque esta ecuación puede parecer complicada, centrarse en cada elemento individualmente
hace que sea mucho más fácil de entender. La Tabla 4 a continuación enumera todos los
componentes de la fórmula y los convierte en los términos cuadrados que dan lugar a la suma de
cuadrados. La primera columna de datos (Yij) contiene las medidas de resistencia a la torsión que
recopilamos anteriormente en la Figura 3.
ANOVA de dos factores con una muestra por grupo
El análisis de varianza (ANOVA) de un factor es un método estadístico para examinar las diferencias en las
medias de tres o más grupos.
“Esta función permite realizar un análisis de varianza de dos factores con una sola muestra por grupo. En
general, el análisis de varianza es un procedimiento estadístico que se utiliza para determinar si las medias de
dos o más muestras han sido extraídas de poblaciones con la misma media (Herramienta para Análisis de
Datos).”
La función de ANOVA: dos factores con una sola muestra por grupo le piden que provea la siguiente
información.
Input Range: Rango de entrada. Escriba la referencia correspondiente al rango de datos de la hoja de
cálculo que desee analizar. El rango de entrada deberá contener dos o más rangos adyacentes organizados en
columnas (como se ve arriba) o filas. Si el rango de entrada contiene títulos de fila o de columna, deberá
seleccionar la casilla de verificación.
Output Range: Rango de salida. Escriba la referencia correspondiente a la celda superior izquierda del
rango en el cual desea que aparezcan los resultados.
12
Para utilizar las herramientas de análisis, seleccione Data Analysis del menú de Tools. Dentro de la caja de
herramienta de análisis, escoja "ANOVA: Two-factor Without Replication." En seguida, registre el Rango de
entrada y el Rango de Salida, refiriéndose a la dirección de las celdas requeridas. Cuando utilize una
herramienta de análisis, Excel crea una tabla de resultados. Si usted incluye títulos en el rango de entrada,
Excel los utiliza para los datos de la tabla de salida. El resultado de la tabla de los datos del ejemplo, lo puede
encontrar abajo.
Es un diseño de ANOVA que permiteestudiar simultáneamente los efectos dedos fuentes de variación.En
este las poblaciones deben de estar distribuidas normalmente, tener varianzas iguales y haber extraído
lasmuestras al azar y de formaindependiente.
Ejemplo1:
Problema para el estudiante:
Imagine que la compañía Tortillas Familiares, S.A. haya analizado el número de clientes que entra
a la tienda principal. Cada hora, ellos han contado el número promedio de clientes que entra a la
tienda. Estos números están resumidos por hora y por trimestre. ¿Existe alguna relación significativa
en el número de clientes que entra a la tienda por medio de las variables que son la hora y el
trimestre del año?
Ilustración 1Ejercicio Anova con dos factores en un grupo
13
Ilustración 2 Dos factores con una sola muestra
Tabla 1 Dos factores en una muestra
ANOVA
Origen de Suma de Grados Promedio F Prob. Valor
Variaciones Cuadrados Libertad Cuadrados Crítico
Filas 18179.58 13 1398.42 17.149 3.19E- 1.98
12
Columnas 16214.05 3 5404.68 66.28 2.27E- 2.84
15
Error 3180.19 39 81.54
Total 37573.83 8
Nótese: El valor de F significativo para las filas (i.e., la hora del día) nos indica que de acuerdo
con la hora del día, hay una diferencia significativa en el número de clientes que pasa por la
tienda. El valor significativo para las columnas (i.e., trimestre) nos indica que de acuerdo con el
trimestre del año, hay una diferencia significativa en el número de clientes que pasa por la tienda.
Ejercicio 2:
Tabla de 5 universidades del Ecuador en el que se presenta algunas materias de matemáticas y físicas sus notas
14
Ilustración 3 Ejemplo de anova en un solo grupo- Universidades
Aplicando el anova de dos factores en un solo grupo
Ilustración 4 Ejemplo de anova en un solo grupo- Universidades
15
ANOVA de dos factores con varias muestras por grupo
“Una tabla de ANOVA de dos factores con varias muestras por grupo, consiste que queremos
estudiar si hay diferencias entre grupos para ambos tipos” (Bilbao, 2020).
Una ANOVA de este tipo, se caracteriza que se tiene varios datos para cada grupo. Este sirve
para que los valores de una variable dependiente, estos dependen de los niveles de dos factores o
de su interacción.
Rango de entrada. – Da la oportunidad de seleccionar el rango de celdas que el usuario quiere
analizar.
Rango de salida. - Se refiere a la celda o hoja donde el usuario quiere que salgan los resultados.
A continuación, se va a explicar un ejercicio para comprender mejor este tema.
Ejercicio #1
En un restaurante se prepara una nueva combinación para las hamburguesas llamada Spicy
Hamburguesa, pero se observa una aceptación en la cual la mayoría son hombres, y que las mujeres
prefieren la hamburguesa anterior en la cual se llamaba Light Hamburguer.
El dueño del restaurante decide realizar una prueba con un grupo de 10 mujeres y 10 varones en la
cual les da de probar ambas hamburguesas (la anterior y la nueva), en la cual se basa en una escala
de 100 puntos para el sabor de ambas.
¿Existe una relación significativa desde el punto de vista de los clientes varones y femeninas? Y
¿Cómo ven la nueva y la anterior salsa para las hamburguesas?
16
Figura 11. – tabla de datos
1.- Nos vamos a la opción datos, luego damos clic en Análisis de datos, después buscamos la opción
Análisis de varianza de dos factores con varias muestras por grupo.
Figura 12.- Opción de Análisis de datos
2. Se selecciona los datos en el rango de entrada, automáticamente en alfa saldrá el 0.05 y
ya dependería de nosotros en elegir en donde saldría el análisis.
17
Figura 13.- Tabla de Análisis de varianza de dos factores con varias muestras por grupo.
3. Como ultimo paso nos da los análisis detalladamente.
Figura 14.- Resultado de ANOVA con dos factores con varias muestras de grupo
Conclusión del resultado. – Estos resultados nos indican que el valor estadístico nos da una
muestra (de la salsa anterior y la nueva) en la cual es de 0,896.
Para saber si este valor es significativo, el valor de F debería ser al menos de 4.11 (valor
critico para F) pero como se observa, no alcanza a este valor, por lo tanto, se entiende que no hay
18
alguna diferencia significativa.
Pero si nos vamos a la parte de F donde dice interacción vemos un valor del 58.89, se puede
interpretar de que existe una diferencia significativa entre la opinión de los varones y las mujeres. En
la cual da por hecho que, la probabilidad demuestra a que nivel los resultados son significativos.
Ejercicio #2
El coach de un gimnasio, es el encargado de otorgar dietas a todos quienes lo contratan, pero
quiere saber que dieta les atrae mas a los hombres y a las mujeres, en lo cual observa que los hombres
se sienten atraídos por la dieta 1 y las mujeres por la dieta 2. En lo cual se basa en una prueba dando a
la dieta a ambos sexos.
¿Existe una relación significativa desde el punto de vista de ambos sexos? Y ¿Cómo ven la
dieta 1 y 2?
A continuación, se realizan los pasos anteriores para la realización de este segundo ejercicio.
Figura 15.- Datos del ejercicio 2
1.- Se va a la opción de Análisis de datos y da clic en la opción Análisis de varianza de dos factores
con varias muestras por grupo.
19
Figura 16.- tabla de Análisis de datos
2.- Se da clic y en el rango de entrada se ponen los datos en cuestión.
Figura 17.- Introducción de los datos
20
3.- Nos el resultado de este análisis que hemos hecho
Figura 18.- Resultado del análisis
Como conclusión, se puede observar que no son significativos con respecto al F y a su valor critico
para F, en lo cual vemos que hay un pequeño porcentaje de agrados de ambas dietas.
21
CONCLUSIÓN
En conclusión, el presente trabajo demuestra que el análisis de la varianza ANOVA evalúa que tan
importante es comparar las medias de las variables de respuesta en diferentes factores y que para
poderla ejecutar se deben tener una variable de respuesta continua y un factor categórico con dos o
mas niveles. También el ANOVA se aplica con la finalidad de analizar las diferencias o semejanzas
significativas tanto de las medias como de las varianzas, donde una alta o baja razón implicarían la
aceptación o rechazo de la hipótesis, y por otro lado se revelará el efecto que tiene una variable sobre
la otra de acuerdo a su población en cuanto a su grado de predictibilidad, a mayor o menor
covarianza. Asimismo, en los resultados obtenidos producto de la aplicación del Análisis de
Varianza que forma parte de tratamiento estadístico inferencial es importante validar sus varianzas ya
que los elementos estudiados representados en los indicadores, dimensiones y variables son
ponderados y susceptibles a la carencia tanto de normalidad como de homocedasticidad.
22
Referencias
Bilbao, B. (12 de julio de 2020). Ninja Excel. Obtenido de Tabla ANOVA en excel: Como crearla e
interpretarla: https://www.ninjaexcel.com/blog/tabla-anova-en-excel-como-crearla-e-interpretarla/56
Herramienta para Análisis de Datos. (s.f.). Excel Funtion Anova.
Isabel Aguilar, E. C. (2016). Departamento de Economía Aplicada (Estadística y Econometría). Obtenido de
Análisis de la varianza (ANOVA):
https://riuma.uma.es/xmlui/bitstream/handle/10630/10372/15%20PIE%20ANOVA.pdf?sequence=1&i
sAllowed=y