0% encontró este documento útil (0 votos)
37 vistas41 páginas

ANÁLISIS DE VARIANZA: FUNDAMENTOS Y APLICACIONES

Este documento explica el análisis de varianza de una vía, incluyendo conceptos como factores, tratamientos, variables de respuesta, errores experimentales y la distribución F. También describe los pasos para realizar la prueba de ANOVA e interpretar sus resultados.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
37 vistas41 páginas

ANÁLISIS DE VARIANZA: FUNDAMENTOS Y APLICACIONES

Este documento explica el análisis de varianza de una vía, incluyendo conceptos como factores, tratamientos, variables de respuesta, errores experimentales y la distribución F. También describe los pasos para realizar la prueba de ANOVA e interpretar sus resultados.
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

ESTADÍSTICA GENERAL

Departamento Académico de Cursos Básicos


ANÁLISIS DE VARIANZA

Semana 13
Sesión 26
Resultado de aprendizaje de la sesión
Al finalizar la sesión, el estudiante interpreta ANOVA de una vía usando la
fórmula correcta y apreciando la importancia en la investigación.

Imagen: [Link]
Reflexión desde la experiencia
El gerente de una empresa que se dedica a brindar servicio de taxi desde San
Isidro al aeropuerto Jorge Chávez, desea evaluar tres rutas con la finalidad de
seleccionar la mejor.

¿Cómo evaluar las tres rutas?

¿Qué variable se podría analizar?

¿Cómo seleccionar la mejor ruta?

[Link]
Reflexión desde la experiencia

Responde en el padlet las siguientes


preguntas:

• ¿Qué tipo de prueba conoce para comparar dos


medias poblacionales?
• ¿Qué entiendes por experimento?
• Si se desea comparar tres o más medias
poblacionales ¿Qué prueba utilizarías?
Desarrollo del tema
Análisis de varianza

ANOVA es un método de prueba de igualdad de tres o más medias poblaciones


por medio del análisis de las varianza muestrales.
Este método permite descomponer la variabilidad total en dos componentes de
variación, uno debido a un factor en particular estudiado(entre) y otro debido al
azar(dentro).

Antes de aplicar el ANOVA se desarrollaran dos pruebas: prueba de homogeneidad


de varianzas de Bartlett y prueba de normalidad de Anderson-Darling.
Análisis de varianza

Las técnicas iniciales del análisis de varianza fueron


desarrolladas por el estadístico y genetista R.A. Fisher en los
años 1920 y 1930 y es algunas veces conocido como “Anova
de Fisher” o “análisis de varianza de Fisher”, debido al uso de
la distribución F de Fisher como parte del contraste de
hipótesis.
[Link]
Análisis de varianza

PRINCIPIOS BÁSICOS DE UN DISEÑO EXPERIMENTAL


REPETICIÓN DEL EXPERIMENTO

ALEATORIEDAD FORMACIÓN DE BLOQUE

VALIDEZ DE LA ESTIMACIÓN Y REDUCCION


DEL ERROR EXPERIMENTAL
Análisis de varianza

TÉRMINOS BÁSICOS
• EXPERIMENTO
• TRATAMIENTO
• VARIABLE RESPUESTA
• UNIDAD EXPERIMENTAL
• ERROR EXPERIMENTAL
Análisis de varianza

TÉRMINOS BÁSICOS
Experimento: Es un procedimiento en el cual se crean pruebas con el fin de verificar uno o varias
hipótesis relacionadas con un fenómeno determinado.

Factor: Es una variable independiente controlado por el investigador y se desea medir su efecto
sobre la variable dependiente, un factor puede tener varios niveles.

Tratamiento: Es un nivel particular del factor, que deben imponerse a una unidad experimental
dentro del marco del diseño seleccionado.

Variable respuesta: Es la característica que desea evaluar como resultado de la aplicación de los
tratamientos.

Unidad experimental: Es el elemento al cual se le aplica el tratamiento.


Análisis de varianza

ERROR EXPERIMENTAL
Es la diferencia observada en los valores de la variable respuesta de cada una de las unidades
experimentales por una acción diferente a la de los tratamientos.

Fuentes de error experimental


• Principal: Varianza entre las unidades experimentales
• Secundarias: Errores de medición y falta de control de factores o variables
importantes no incluidas en el experimento.

Formas de reducir el error experimental


• Utilizando el diseño experimental adecuado.
• Seleccionando minuciosamente el material experimental.
• Incrementando el número de repeticiones en el experimento.
Análisis de varianza
PRINCIPIOS BÁSICOS DE UN DISEÑO EXPERIMENTAL
Repetición:
Consiste en aplicar el tratamiento a más de una unidad experimental en condiciones similares.
La repetición permite:
•La estimación del error experimental.
•Obtener estimaciones más precisas del efecto medio de cualquier tratamiento en estudio.
Aleatorización:
Consiste en asignar aleatoriamente los tratamientos a las unidades experimentales.
La aleatorización permite:
•Hacer válidas las conclusiones o inferencia estadística.
•Que las observaciones sean independientes.
•Evitar sesgos.
Bloqueo:
Consiste en distribuir las unidades experimentales en bloques, de tal manera que las unidades
dentro de cada bloque sean relativamente homogéneas.
Análisis de varianza

LA DISTRIBUCIÓN F
La distribución F es una distribución continua de
muestreo de la relación de dos variables aleatorias
independientes con distribuciones de chi-cuadrada,
cada una dividida entre sus grados de libertad.

La distribución F es asimétrica hacia la derecha y es


descrita por los grados de libertad de su numerador
(ν1) y denominador (ν2).

Las siguientes gráficas muestran el efecto de los


diferentes valores de grados de libertad en la forma de [Link]

la distribución.
Tabla de Fisher
Tabla 1: VALORES F DE LA DISTRIBUCION F DE FISHER
Análisis de varianza

MODELOS DE CLASIFICACIÓN DE UN SOLO FACTOR COMPLETAMENTE


ALEATORIZADOS

El modelo de clasificación de un solo factor completamente aleatorizado es:


𝑦𝑖𝑗 = µ + 𝜏𝑗 + ε𝑖𝑗 (i=1,2,…………. 𝑛𝑖 , j=1,2,………………𝑘)

𝑦𝑖𝑗 : Denota la i- ésima unidad experimental sujeta al j-ésimo tratamiento


µ : es la media general o media total de la variable respuesta
𝜏𝑗 : es el j- ésimo tratamiento en la variable dependiente
ε𝑖𝑗 : error experimental causados por todos los factores desconocidos asociado a la ij-
ésima unidad experimental
Análisis de varianza

En el modelo de clasificación de un factor completamente aleatorizado los valores 𝑦𝑖𝑗 se


registran en la siguiente tabla.

Tratamientos
Donde: 1 2 … i … k
… …
𝑇◼𝑗 : es la suma de datos de la 𝑦11 𝑦21 𝑦𝑖1 𝑦𝑘1
… …
muestra j. 𝑦12 𝑦22 𝑦𝑖2 𝑦𝑘2
… …
𝑇◼◼ : es la suma total de datos de las k 𝑦13 𝑦23 𝑦𝑖3 𝑦𝑘3
… …
muestras 𝑦14 𝑦24 𝑦𝑖4 𝑦𝑘4
… …
n: es el total de observaciones en las k ⋮ ⋮ ⋮ ⋮
𝑦1𝑛1 𝑦2𝑛2 … 𝑦 … 𝑦𝑘𝑛𝑘
muestras 𝑖𝑛𝑖
Total 𝑇◼1 𝑇◼2 … 𝑇◼i … 𝑇◼k 𝑇◼◼
𝑦ത◼𝑗 :es la media de la muestra j 𝑛𝑘
𝒏𝒊 𝑛1 𝑛2 … 𝑛𝑖 … n
𝑦ത◼◼ : media total muestral Medias 𝑦ത◼1 𝑦ത◼2 … 𝑦ത◼i … 𝑦ത◼k 𝑦ത◼◼
Análisis de varianza

Los resultados obtenidos de la descomposición de la varianza total se resumen en la siguiente tabla:

Donde:
SCTra = Suma de cuadrados del tratamiento
SCE = Suma de cuadrados del error
SCT = Suma de cuadrado del total
CMTra = Cuadrado medio del tratamiento
CME = Cuadrado medio del error
Prueba de análisis de varianza
La prueba de análisis de varianza se resume en los siguientes pasos:
Paso 1 (Plantee las hipótesis de prueba)
H0 : µ1 = µ2 = µ3 = ⋯ = µk (El factor en estudio no afecta la variable respuesta)
H1 : Al menos un µi es diferente (El factor en estudio si afecta la variable respuesta)
Paso 2 (Establezca el nivel de significancia) 𝜶
Paso 3 (Calcule el valor del estadístico de prueba)
CMTra
Fcal = ~ 𝐹(1−𝛼;𝑘−1; 𝑛−𝑘)
CME
Paso 4 (Formular la regla de decisión )
Se rechaza Ho, con un riesgo α, cuando el valor 𝐹𝑐 pertenece a
la región de rechazo, según sea el caso

No rechazo Ho Rechazo Ho

F(1- α,k-1,n-k)
Paso 5 (En este caso se especifica la hipótesis estadística que no ha sido rechazada indicando el nivel
de significancia teórico considerado (α) )
Supuestos del modelo

Aditividad: Los efectos del modelo son aditivos


Linealidad: Las relaciones entre los efectos del modelo son lineales
Normalidad: Los errores del modelo deben seguir una distribución normal con media
cero y varianza 2

Prueba de normalidad de los errores


Hipótesis H0 : Los errores 𝐬𝐢𝐠𝐮𝐞𝐧 una distribución Normal
H1 : Los errores 𝐧𝐨 𝐬𝐢𝐠𝐮𝐞𝐧 una distribución Normal
Decisión
Si p-valor es menor que el nivel de significancia, entonces se rechaza H0.
Supuestos del modelo

Independencia: Los resultados obtenidos en el experimento son independientes


entre sí.
Homogeneidad de varianzas: Las diferentes poblaciones generadas por la aplicación
de los diferentes tratamientos tienen varianzas iguales.

Prueba de homogeneidad de varianzas con Bartlett


Hipótesis
H0 : Las varianzas en los k tratamientos son iguales.
(𝐻0 : 𝜎12 = 𝜎22 = 𝜎32 = ⋯ = 𝜎𝑘2 )
H1 : Al menos una de las varianzas en los k tratamientos es diferente.
(𝐻1 : 𝜎𝑖2 ≠ 𝜎𝑗2 𝑝𝑎𝑟𝑎 𝑎𝑙 𝑚𝑒𝑛𝑜𝑠 𝑢𝑛 𝑝𝑎𝑟 𝑖, 𝑗)
Decisión
Si p-valor es menor que el nivel de significancia, entonces se rechaza H0.
Ejemplo 1

Un profesor especializado en enseñar ingles efectuó el curso usando tres métodos de


enseñanza; para evaluar la efectividad, se administró una prueba de vocabulario de 50
palabras a los 15 estudiantes del curso en grupos de cinco para cada método y se
registraron el número de palabras que escribían correctamente
• Factor (Variable de agrupación): Curso de ingles.
Método 1 Método 2 Método 3 • Niveles del Factor (Tratamientos): Método 1,
Método 2 , Método 3 → k (#grupos) = 3
48 40 50 • Variable respuesta (Variable dependiente):
45 39 48 Número de palabras que escribían correctamente
49 41 49 los estudiantes.
• Unidad experimental (unidad elemental):
47 31 44 Estudiantes
[Link]
45 34 48

Determinar con un nivel de significación del 5% si los métodos de enseñanza afectan al


número de palabras que escriben correctamente los estudiantes
Ejemplo 1

Método 1 Método 2 Método 3


48 40 50
45 39 48
49 41 49
47 31 44
45 34 48
Total T∎j 234 185 239 658
𝑛𝑖 5 5 5 15
Medias 46,8 37,0 47,8 43,87

2
𝑇∎∎ 6582
SCT =σ𝑘𝑖=1 σ𝑛𝐽=1
𝑖 2
𝑥𝑖𝑗 − = 482 + 402 + 502 + 452 + ⋯+ 482 −
𝑛 15
SCT = 463,7333
2 2
𝑘 𝑇∎𝑗 𝑇∎∎ 2342 1852 2392 6582
σ
SCTR= 𝑖=1 𝑛 − = + + −
𝑖 𝑛 5 5 5 15
SCTR = 356,1333
SCE=𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅 = 107,6
Ejemplo 1

[Link] de hipótesis
𝐻0 : µ1 = µ2 = µ3 (El método de enseñanza no afecta el número de palabras escritas correctamente)
𝐻1 : Al menos un µ𝑖 es diferente (El método de enseñanza si afecta el número de palabras escritas correctamente)

[Link] de significancia
Fuente de Suma de Grados de Cuadrados Razón F
α = 0,05 Variación Cuadrados libertad Medios calculada
Tratamiento 356,1333 2 178,0667 19,8587
[Link]ístico de prueba Error 107,6000 12 8,9667
Total 463,7333 14
[Link] de decisión
Región Crítica
Primero se encuentra el valor crítico que es F(1- α,k-1,n-k) = F(0,95,2,18) = 3,89
La región critica es: (3,89, +∞)
Como el estadístico de prueba pertenece a la región critica (𝐹𝑐 ∈ Rc entonces se rechaza 𝐻0

5. Conclusión
Al 5% de nivel de significación, existe evidencia muestral para afirmar que el número promedio de palabras
escritas correctamente es diferente con al menos un método de enseñanza, es decir, el método de enseñanza
si afecta el número de palabras escritas correctamente.
Ejemplo 2

Se toman muestras aleatorias independientes de seis profesores ayudantes, cuatro


profesores asociados y cinco profesores titulares, para estimar la cantidad de horas que
dedicaron a las asesorías de los estudiantes fuera del aula la semana pasada.
La tabla adjunta muestra los resultados en horas
Ayudante Asociado Titular • Factor (Variable de agrupación):Categoría del docente
7 15 11 • Niveles del Factor (Tratamientos): Ayudante,
Asociado, Titular→ k (#grupos) = 3
12 12 7
• Variable respuesta (Variable dependiente):
11 15 6 Cantidad de horas que dedicaron a sus
15 8 9 responsabilidades
9 7 • Unidad experimental (unidad elemental): Estudiantes
14
[Link]

Determinar a un nivel de significancia de 0,05 si el tiempo promedio que dedicaron los


docentes a las asesorías de los estudiantes fuera del aula la semana pasada es diferente.
Ejemplo 2

Ayudante Asociado Titular


7 15 11
12 12 7
11 15 6
15 8 9
9 7
14
Total 68 50 40 158
n 6 4 5 15
Medias 11,33 12,50 8 31,83

2
𝑇∎∎ 1582
SCT = σ𝑘𝑖=1 σ𝑛𝐽=1
𝑖 2
𝑥𝑖𝑗 − = 72 + 152 + 112 + 122 + ⋯+ 142 −
𝑛 15
SCT=145,73
2 2
𝑇 𝑇∎∎ 682 502 402 1582
SCTR=σ𝑘𝑖=1 𝑛𝑖∎ − = + + −
𝑖 𝑛 6 4 5 15
SCTR=51,40
SCE=𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅=94,33
Ejemplo 2

[Link] de hipótesis
𝐻0 : µ1 = µ2 = µ3 (El tiempo promedio que dedicaron los docentes a las asesorías de los estudiantes fuera del
aula la semana pasada es el mismo)
𝐻1 : Al menos uno de los tiempo promedio que dedicaron los docentes a las asesorías de los estudiantes fuera
del aula la semana pasada es diferente.
2. Nivel de significancia
Fuente de Suma de Grados de Cuadrados Razón F
α=0.05 Variación Cuadrados libertad Medios calculada
3. Estadístico de prueba Tratamiento 51,40 2 25,70 3,27
Error 94,33 12 7,86
4. Regla de decisión
Total 145,73 14
Región Crítica
Primero se encuentra el valor crítico que es F(1- α,k-1,n-k)=F(0,95,2,12)=3,89
La región critica es: (3,89, +∞)
Como el estadístico de prueba no pertenece a la región critica( 𝐹𝑐 ∉ 𝑅C ) entonces no se rechaza Ho

5. Conclusión
Al 5% de nivel de significación, se puede asumir que el tiempo promedio que dedican los docente a las asesorías
de los estudiantes fuera del aula, la semana pasada, es la misma.
Ejemplo 3

Para estudiar los retrasos en el tránsito de los vehículos en la Avenida Próceres de la


independencia ubicado en SJL se usaron tres tipos de semáforos: programado, semiactivo y
activado. Se usaron cinco intersecciones para cada tipo de semáforo y se midió el tiempo que cada
vehículo permanece detenido en cada intersección. Los tiempos de retrasos en segundos por
vehículo aparecen a continuación
Tiempo de retraso
• Factor (Variable de agrupación):Tipo de semáforo
S1 S2 S3
• Niveles del Factor (Tratamientos):Programado,
36 18 24
Semiactivo y activado → k (#grupos) = 3
30 22 23
• Variable respuesta (Variable dependiente):
37 26 21
Cantidad de segundos que el vehículo permanece
36 23 19
detenido
35 29 18,4
[Link]

Con α = 0,03 como nivel de significancia, realice una prueba para determinar si el tiempo de
espera promedio es diferente en al menos en un tipo de semáforo.
Ejemplo 3

S1 S2 S3 Total
36 18 24
30 22 23
37 26 21
36 23 19
35 29 18.4
Total 174 118 105,4 397,4
n 5 5 5 15
Medias 34,8 23,6 21,08 26,49
2
𝑇∎∎ 397.42
𝑛𝑖
SCT = σ𝑘𝑖=1 σ𝐽=1 2
𝑥𝑖𝑗 − = 362 + 182 + 242 + 302 + ⋯+ 18.42 −
𝑛 15
SCT=657,11
2
𝑇 2
𝑇∎∎ 1742 1182 105.42 397,42
SCTR=σ𝑘𝑖=1 𝑖∎ − = + + −
𝑛 𝑖 𝑛 5 5 5 15

SCTR=533,38
SCE=𝑆𝐶𝑇 − 𝑆𝐶𝑇𝑅=123,73
Ejemplo 3

[Link] de hipótesis
𝐻0 : µ1 = µ2 = µ3 (El tiempo de espera promedio es el mismo con los tres semáforos)
𝐻1 : Al menos uno de los tiempos de espera promedio de los semaforos es diferente.
2. Nivel de significancia
Fuente de Suma de Grados de Cuadrados Razón F
α=0,03 Variación Cuadrados libertad Medios calculada
3. Estadístico de prueba Tratamiento 533,38 2 266,69 25,87
Error 123,73 12 10,31
4. Regla de decisión Total 657,11 14
Región Crítica
Primero se encuentra el valor crítico que es F(1- α,k-1,n-k)=F(0,97,2,12)=4,76
La región critica es: (4,76, +∞)
Como el estadístico de prueba pertenece a la región critica( 𝐹𝑐 ∈ 𝑅C ) entonces se rechaza Ho

5. Conclusión
Finalmente hay suficiente evidencia estadística para afirmar que el tiempo de espera promedio de los
semáforos es diferente en al menos en un tipo de semáforo, a un nivel de significancia de 0,03.
Apliquemos lo aprendido
Apliquemos lo aprendido
Integremos lo aprendido
Integremos lo aprendido

¿En que consiste la técnica del ANOVA?

¿Qué es un factor?

¿Cuáles son los requisitos para realizar el ANOVA?

[Link]
Actividad complementaria
Actividad complementaria

Resuelve la autoevaluación 13
en el aula virtual
Referencias Bibliográficas
Referencias Bibliográficas
Cárdenas, R. (2014). Estadística en la educación. Digital UNID. [Link]/3GSn1kB

Celis de la Rosa, A. y Labrada, V. (2014). Bioestadística. El Manual Moderno. [Link]

De Oteyza, E., Lam, E., Hernández, C. y Carrillo, A. (2015). Probabilidad y estadística. Pearson.
[Link]

Martínez, C. (2012). Estadística y muestreo. Eco ediciones. [Link]

Obando, J. y Arango, N. (2013). Probabilidad y estadística. Fondo Editorial Universidad EIA.


[Link]

Posada, G. (2016). Elementos básicos de estadística descriptiva para el análisis de datos. Fundación
Universitaria Luis Amigó. [Link]

Rodríguez, J., Pierdant, A. y Rodríguez, C.(2014) . Estadística para administración. Grupo editorial patria,
[Link]
Referencias Bibliográficas
Ross, M. (2014). Introducción a la estadística. REVERTÉ. [Link]

Warr, R. y Erich, R. (2019). Should the Interquartile Range Divided by the Standard Deviation be
Used to Assess Normality? The American Statistician, 67(4), 242–244. [Link]

DE CONSULTA

Anderson, D., Sweeney, D. y Williams, T. (2008). Estadística para administración y economía.


Cengage Learning Editores. [Link]

Triola, M. (2018). Estadística. Pearson educación. [Link]

Walpole, R., Myers, R., Myers, S. y Ye, K. (2012). Probabilidad y estadística para ingeniería y ciencias.
Pearson educación. [Link]

También podría gustarte