Análisis de Varianza Es una técnica que permite comparar el efecto de mas
de dos tratamientos, mediante la descomposición de la varianza total del conjunto
de observaciones para determinar si la varianza inherente al efecto de los
tratamientos (CMM) es significativamente mayor que la varianza producida por el
error experimental (CME).Si solo se comparan dos tratamientos se aplicaría una
prueba de hipótesis para diferencia de dos medias poblacionales.
Existen tres supuestos básicos que se deben satisfacer antes de que se
pueda utilizar el análisis de varianza:
1) Las muestras deben ser de tipo aleatorio independiente.
2) Las muestras deben ser obtenidas a partir de poblaciones normales.
3) Las poblaciones deben tener variancias iguales.
Pruebas de Homocedasticidad
La importancia del análisis de homocedasticidad (varianzas iguales), o su
opuesto, heterocedasticidad (varianzas diferentes), es máxima en el análisis de la
bondad de ajuste. Su gran importancia radica en que es una de las principales
propiedades de bondad de ajuste que un conjunto de datos debe poseer para
poder ser analizado con un determinado modelo estadístico. El no cumplimiento
de esta propiedad puede conllevar que las conclusiones que se extraigan del
modelo sean falsas. Ante el no cumplimiento de esta propiedad, debemos optar
por otra prueba que sea menos sensible o insensible a la violación de este
supuesto, fundamentalmente, pruebas de tipo no paramétrico.
Prueba de Bartlett
Se realizó un ensayo con 42 alpacas de la raza huacaya. Dividiendo las
alpacas al aza en 3 grupos. El grupo I, recibió una dieta con alfalfa, el grupo II
recibió una dieta tradicional y el grupo III recibió una dieta con alfalfa y avena.
Después de 3 meses se controló el pego (kg) de las alpacas, observando los
siguientes resultados:
Cálculo el estadígrafo:
∑ σ 2 (n−1) ∑ (n−1) −∑ ln σ 2 (n−1)
X 2Bartlett =
[ ln
∑ (n−1) ]
K +1
1+
3(K−1)( N−K )
Dónde:
X 2Bartlett =¿ Valor estimado de la prueba.
ln =¿ Logaritmo natural.
S2=¿ Varianza
n = Tamaño de la muestra del grupo.
K = Número de grupos participantes.
N = Tamaño total (sumatoria de las muestras)
1. Hipótesis:
H 0 :σ 2A =σ 2B=⋯=σ 2C
H a :σ 2A ≠ σ 2B ≠ σ 2C
2. Nivel de significación:
a=0.05
3. Estadígrafo de prueba y su distribución:
Elección de prueba: estadístico de homogeneidad de Bartlett.
Estadígrafo de prueba: Chi-cuadrado de Pearson.
4. Determinación de la zona de rechazo de la H 0 :
g .l=K−1=3−1=2
5. Cálculo del estadígrafo:
∑ σ 2 (n−1) ∑ (n−1) −∑ ln σ 2 (n−1)
X 2Bartlett =
[ ln
∑ (n−1) ]
K +1
1+
3(K−1)( N−K )
Grupos n n-1 σ2 σ 2(n−1) ln∗σ 2 ln σ 2( n−1)
Dieta A 14 13 42,99 558,93 3,7610 43,8930
Dieta B 14 13 64,42 837,50 4,1654 54,1502
Dieta C 14 13 26,11 522,86 3,6944 48,0267
Total 42 39 1919,29 146,0699
1735,86
X 2Bartlett =
[ ln
39 ]
39 −145,46
3+1
1+
3(3−1)(42−3)
X 2Bartlett =2,53
X 2Bartlett =2.53
6. Decisión: el resultado de Chi-cuadrado de Bartlett calculado = 2.53 es
inferior a los valores críticos de la distribución de Chi-cuadrado de Pearson
= 5,99. Por lo tanto no se puede rechazar la H 0 .
7. Interpretación: existe homogeneidad de varianza, es decir, aun cuando los
valores de error estadístico difieren entre sí, el procedimiento señala que es
un efecto aleatorio y existe gran probabilidad de que la fuente o fuentes de
variación sean las mismas.
Prueba de Cochran.
Un psicólogo investiga el aprendizaje simple en 15 ratas, a las que aplica
cuatro tratamientos diferentes a intervalos de un mes cada uno, para lo cual utiliza
laberintos distintos. Los tratamientos corresponden a cuatro fármacos, que según
afirman los fabricantes de los productos, tienen capacidad para facilitar el
aprendizaje.
El investigador, para evitar que por efectos acumulativos de los fármacos
pudiera haber error, al suponer que una droga administrada en el cuarto período
incidiera en mayor aprendizaje, aplica en secuencias y aleatoriamente los
tratamientos, de modo que las respuestas de los animales emitidas en el laberinto,
en función de un periodo fijo (tiempo crítico determinado en el experimentador), le
permiten discriminar si fueron positivas (1) o negativas (0).
Procedimiento
1. Arreglar la muestra individualmente con sus respuestas de
cambio.
2. Efectuar las sumatorias de cambios por cada tratamiento
columna (Gn y S Gn).
3. Efectuar la sumatoria de cambios por cada hilera y elevarla al
cuadrado y, a su vez, las sumatorias de estas (S LC y SLC2).
4. Aplicar la fórmula de la prueba Q de Cochran, de moco que se
obtenga el valor de X2Q.
5. Calcular los grados de libertad (gl) con K tratamientos -1.
6. Comparar el estadístico X2Q obteniendo con respecto a los gl en
la distribución de ji cuadrada.
7. Decidir si se acepta rechaza la hipótesis.
Número Un mes Dos meses Seis meses
de antes después después R1 R21
empleados
1 0 0 0 0 0
2 1 0 0 1 1
3 1 1 1 3 9
4 1 0 0 1 1
5 1 1 0 2 4
6 1 1 1 3 9
7 1 1 1 3 9
8 0 0 1 1 1
9 1 0 0 1 1
10 1 1 1 3 9
11 0 1 0 1 1
12 1 1 0 2 4
13 1 0 0 1 1
14 1 1 1 3 9
15 1 0 0 1 1
16 0 0 1 1 1
17 1 0 0 1 1
18 1 0 0 1 1
19 1 1 1 3 9
20 1 0 0 1 1
21 1 1 1 3 9
22 0 0 0 0 0
Columna
total C 1−17 C 2−10 C 3−9 36 82
Fórmula:
k
Q=
[
( k−1) k ∑ C 2j −(C j )2
n
i=1
n
]
k ∑ Ri −∑ R2i
i=1 i=1
Dónde:
k = número de ejemplos.
n = número de observaciones en cada muestra.
C j = respuestas favorables totaltes en la muestra j – ésima (columna)
Ri = número total de respuestas favorables en la observación 1 – ésima (fila)
En los cambios ejercidos en el aprendizaje de las ratas, se evalúan
como 1 y 0, se toma la referencia con respecto al inicio del experimento para
cada animal. Por tanto, se considera que se trata de muestras dependientes y
por diversos períodos.
1) Elección de la prueba estadística: el modelo experimental tiene tres o
más muestras independientes.
2) Planteamiento de la hipótesis.
Nula ( H o ): los cambios observados entre el período previo y
posterior a los tratamientos se deben al azar.
Alterna ( H a ): los fármacos favorecen el aprendizaje simple en las
ratas de estudio. De esta forma, se muestras diferencias
significantes entre el antes y después de los tratamientos.
3) Plantear nivel de significancia y zona de rechazo.
Nivel de significación: para todo valor de probabilidad igual o
menos que 0.05, se acepta H a y se rechaza H o.
Zona de rechazo: para todo valor de probabilidad mayor que
0.05, se acepta H o y de rechaza H a .
4) Desarrollo de la solución.
∑ C j =6+6+ 12+7=31
j=1
22
∑ R i=31
i=1
22
∑ R 2i =75 k=4
i=1
Q=(k −1)¿ ¿
( 4−1 ) [ 4 ( 62 +6 2+122 +7 2) −( 6+6+ 12+7 )2 ] 297
Q= = =6.06
4 ( 31 )−75 49
5) Cálculo de grados de libertad y utilización de la Chi-cuadrada
GL = K (tratamientos) – 1 = 4 – 1 = 3
El estadístico X 2 Q calculado se compra con los valores críticos de la distribución
de ji-cuadrada y se localiza con 3 grados de libertad y un valor de 7.815 con una
probabilidad igual a 0.05. De esta manera, la cifra 6.06 tiene una probabilidad
mayor que 0.05.
6) Toma de decisión e interpretación.
Decisión: en razón de que el estadístico calculado tiene una probabilidad
mayor que 0.05, cae en la zona de aceptación por lo cual se acepta H o y de
rechaza H a .
Interpretación: ningún fármaco a nivel experimental en ratas produjo un
cambio significativo y parece que se debe al azar, aun cuando en el tercer
tratamiento, 12 de 15 ratas presentaron un cambio positivo. Esto
seguramente ocurrió debido al tamaño de la muestra, y el investigador
habrá de aumenta el número de animales para definir mejor el fenómenos.
El estadístico F de Snedecor para la homocedasticidad analiza la
homogeneidad de varianzas entre dos muestras. Pone a prueba la hipótesis nula
de que las dos muestras son homocedásticas, por tanto, la aceptación de la
hipótesis alternativa supone la heterocedasticidad.
M1 M2 M3 M4 M5 M6 M7
43 34 41 37 41 34 41
29 29 31 28 26 35 27
48 31 42 41 41 42 42
41 37 31 40 41 37 38
44 30 35 42 41 42 37
30 27 30 30 27 30 30
45 30 38 40 39 33 37
27 27 32 33 36 29 33
23 27 32 45 23 22 21
49 29 38 36 40 37 43
46 25 42 38 30 46 37
35 33 38 32 30 43 46
42 38 32 33 39 41 38
38 25 34 31 31 33 38
35 33 39 28 38 28 45
35 31 37 24 33 29 40
36 28 30 30 32 26 38
30 34 34 38 36 40 35
39 23 34 37 30 32 36
34 29 35 34 29 38 39
48 23 40 44 42 44 39
27 24 35 34 21 21 37
34 29 30 37 34 47 38
36 32 43 27 34 36 38
36 24 38 33 42 39 40
41 20 30 34 22 32 27
40 18 33 37 27 30 30
42 28 38 33 44 34 44
41 37 31 40 41 37 38
28 28 32 42 30 28 42
34 28 35 24 29 28 35
44 31 41 45 43 44 45
30 29 30 28 30 31 32
45 18 30 35 35 37 39
Varianza Varianza Varianza Varianza Varianza Varianza Varianza
47,34848 24,19697 17,12032 32,48485 42,57487 43,94742 30,28966
n n n n n n n
34 34 34 34 34 34 34
Su formulación es la siguiente:
La lógica del método consiste en comparar las varianzas muestrales o
varianza insesgada (diferente de la varianza poblacional o varianza sesgada) de
dos muestras, mientras más similares sean, el valor del estadístico F tomará un
valor más próximo a 1.
El estadístico F de Snedecor permite el análisis de modelos equilibrados y
no equilibrados, es decir, pueden o no tener el mismo tamaño muestral.
El funcionamiento de la hoja de cálculo para el estadístico F es muy simple,
solo hay que introducir los datos que solicita el estadístico. En el siguiente archivo
tenemos los datos para nuestros ejemplos, y vamos a tratar de analizar en que
medida las varianzas de las muestras M1 y M6 son homogéneas.
Los datos que necesitamos son los siguientes:
M1: Varianza muestral o insesgada = 47,34848 y n = 34
M6: Varianza muestral o insesgada = 43,94742 y n =34
Alfa para nuestra comparación: 0,05
Una vez introducidos en las respectivas celdas, tenemos el siguiente
resultado:
Estadístico F = 1,0773
Valor crítico unilateral o de una cola = 1,7878
Probabilidad del estadístico F = 0,4158
Podemos ver que F es mayor que el valor crítico, y también que la
probabilidad es mayor que alfa. Por tanto, y como se desprende de la propia hoja
de cálculo, la hipótesis nula es verdadera, por tanto la hipótesis que pone a prueba
(las varianzas son homogéneas) es cierta.
Si dispone de las herramientas de análisis instaladas, Excel posee una
función específica para realizar este contraste bajo el nombre de “Prueba F para
varianzas de dos muestras”.
Como ejercicio, pruebe a comparar las varianzas de las otras posibles
comparaciones.