Captulo 10.
Anlisis de la varianza
CAPTULO 10
ANLISIS DE LA VARIANZA
10.1 INTRODUCCIN
En el presente captulo se introduce la tcnica del Anlisis de la Varianza
(Anova) que constituye, sin lugar a dudas, una de las herramientas ms
valiosas de la Inferencia Estadstica.
Desarrollado hacia 1930 por R.A. FISHER, cuando trabajaba en la estacin de
investigacin agraria de Rothmasted en Inglaterra, el Anova constituye la
tcnica bsica para el estudio de observaciones que dependen de varios
factores, siendo la herramienta fundamental en el anlisis de los modelos de
Regresin Lineal y de Diseo de Experimentos.
Tras dar una idea intuitiva del Anova, sus conceptos bsicos se introducen en
primer lugar en el apartado 10.3, en el caso ms sencillo, el de la comparacin
de los efectos de las I variantes de un nico factor.
Sobre un ejemplo concreto se estudia cmo es posible descomponer la
variabilidad total existente en los datos en una parte, debida al efecto del factor
investigado, y otra parte residual, que recoge el efecto de todos los factores no
controlados, y cmo la comparacin de ambas partes, mediante un test F en la
Tabla Resumen del Anova, permite estudiar la significacin del factor en
estudio. Se expone tambin una tcnica sencilla, la construccin de intervalos
LSD, para comparar las medias de las distintas variantes del factor cuando el
test F resulte significativo.
La importancia prctica de las tcnicas grficas de anlisis de residuos para
detectar anomalas en los datos que pueden comprometer seriamente los
anlisis se ejemplifica sobre unos datos concretos.
Se aborda posteriormente el problema de la comparacin de las varianzas de
los I tratamientos, proponindose una solucin sencilla desarrollada por los
autores. Se desarrolla tambin el procedimiento para la descomposicin de la
suma de cuadrados de un factor cuantitativo en los trminos asociados a sus
efectos lineal, cuadrtico y de orden superior, tcnica de gran utilidad en el
estudio de este tipo de factores.
En el apartado 10.4 se generalizan las ideas anteriores al estudio simultneo
del efecto de varios factores, mediante planes factoriales equilibrados. Esta
posibilidad de investigar mediante un nico anlisis los efectos de un conjunto
Captulo 10. Anlisis de la varianza
de factores, es la que confiere su gran importancia prctica a la tcnica del
Anova. Tras discutir los importantes conceptos de efecto simple y de
interaccin entre factores, se muestra sobre un ejemplo la forma de calcular en
estos casos el cuadro resumen del Anova y de interpretar su contenido.
Tambin se expone la forma de descomponer las interacciones asociadas a
factores de naturaleza cuantitativa.
Se discuten en los ltimos apartados del captulo las hiptesis bsicas del
Anova, y la forma de obviar en algunos casos, utilizando transformaciones
adecuadas, las consecuencias de marcados incumplimientos de las mismas,
presentndose tambin algunas generalizaciones del Anova que no se abordan
en este libro.
El apartado final 10.7 se dedica a formalizar, de forma algo ms rigurosa y
precisa, los principales conceptos vistos en el captulo. Aunque el estudio de
este apartado no es indispensable para la comprensin y utilizacin de las
tcnicas expuestas, hemos considerado conveniente incluirlo pensando en
algunos lectores ms exigentes en estas cuestiones.
10.2 IDEA INTUITIVA DEL ANOVA
El Anlisis de la Varianza (Anova) es una tcnica estadstica muy poderosa
para el estudio del efecto de uno o ms factores sobre la media de una
variable. (Como veremos, la tcnica puede generalizarse para estudiar tambin
los posibles efectos de los factores sobre la varianza de la variable)
La idea bsica del Anova consiste en descomponer la variabilidad total
observada en unos datos en una serie de trminos, asociados a los efectos de
cada factor estudiado y a sus posibles interacciones, ms una parte residual
con la que despus se compararn las primeras.
Con el fin de precisar estas ideas, vamos a ver un sencillo ejemplo intuitivo.
Ejemplo intuitivo:
Se desea estudiar los efectos que la variedad y la dosis de abonado tienen
sobre el rendimiento de un cultivo. Se van a comparar dos variedades (A y B) y
tres dosis de abonado (1, 2 y 3). Se dispone de 12 parcelas similares, y se
decide plantar 2 parcelas con cada una de las 6 combinaciones posibles de
variedad y dosis.
Veamos unos posibles resultados (rendimientos por parcela en Tms/Ha) en
algunos casos hipotticos extremos:
Dosis Abonado Caso 1: los 12 valores xijk han resultado
1 2 3 idnticos. No hay variabilidad en los
Var: A 20 20 20 20 20 20 datos! La variabilidad total, medida por la
Var: B 20 20 20 20 20 20 Suma de Cuadrados Total
Captulo 10. Anlisis de la varianza
2
SCtotal xijk x
i,j,k
es cero
Consecuencia: ni la variedad ni la dosis de abonado influyen en el rendimiento
Dosis Abonado Caso 2: S que hay variabilidad en los
1 2 3 datos!
2
Var: A 20 20 20 20 20 20 SCtotal xijk x = 300
Var: B 30 30 30 30 30 30 i,j,k
Cuando se analiza esta variabilidad (de
ah el nombre de Anova) se constata que se debe exclusivamente al efecto de
la variedad sobre la media (la B da valores sistemticamente ms altos que la
A), no habiendo ningn efecto de la dosis.
En la tabla resumen del Anova se obtendra: SCtotal=300 SCvar= 300 SCdosis=0
Dosis Abonado Caso 3: la variabilidad total es ahora
2
1 2 3 SCtotal xijk x = 500
Var: A 20 20 25 25 30 30 i,j,k
Var: B 30 30 Cuando se analiza esta variabilidad se
35 35 40 40
constata que parte de ella se debe al
efecto de la variedad sobre la media (La B da valores 10 unidades ms altos
que la A), pero que tambin hay una parte debido al efecto de la dosis (los
valores aumentan 5 unidades al pasar de 1 a 2 y otras 5 unidades al pasar de 2
a 3). Por otra parte se constata que no hay interaccin (este concepto se
estudia ms adelante) entre ambos factores, porque la diferencia entre A y B es
la misma sea cual sea la dosis, y el efecto de aumentar la dosis es el mismo en
ambas variedades.
Calculando, mediante las frmulas que se vern ms adelante en este captulo,
las Sumas de Cuadrados asociadas a cada efecto se obtendra:
SCtotal=500 SCvar= 300 SCdosis=200 SCinteraccion=0
Dosis Abonado Caso 4: la variabilidad total es ahora
2
1 2 3 SCtotal xijk x = 1175
Var: A 20 20 25 25 30 30 i,j,k
Var: B 30 30 40 40Cuando se analiza esta variabilidad se
50 50
constata que una parte de ella se debe al
efecto de la variedad sobre la media (La B da valores ms altos que la A), y
parte se debe al efecto de la dosis (los valores aumentan al aumentar la dosis).
Pero por otra parte se constata que hay una interaccin entre ambos factores:
la diferencia entre B y A es mayor a dosis altas que bajas, y el efecto de
aumentar la dosis es ms marcado en la variedad B que en la A.
Calculando, mediante las frmulas que se vern ms adelante en este captulo,
las Sumas de Cuadrados asociadas a cada efecto se obtendra:
SCtotal=1175 SCvar= 675 SCdosis=450 SCinteraccion=50
Captulo 10. Anlisis de la varianza
Dosis Abonado Caso 5: (este caso es el nico realista) los
1 2 3 efectos de los factores vienen parcial-
Var: A 19 21 26 24 28 32 mente enmascarados por la variabilidad
Var: B 30 31 39 43 49 52 residual originada por factores no
controlados (Las parejas de parcelas con
idntica variedad y abonado no son exactamente iguales y, por tanto, no dan
exactamente los mismos rendimientos)
La variabilidad total se debe ahora, no slo al efecto de la variedad, la dosis y
su interaccin, sino adems a una variabilidad residual asociada a todos los
restantes factores no controlados que influyen sobre los rendimientos
(diferencias entre parcelas)
Calculando, mediante las frmulas que se vern ms adelante en este captulo,
las Sumas de Cuadrados asociadas a cada efecto se obtendra:
SCtotal=1261.67 SCvar= 736.33 SCdosis=450.17 SCinterac=50.17 SCresid=25.0
Paralelamente a esta descomposicin de la SCtotal en sus componentes, se
realiza una descomposicin de los "grados de libertad" totales, que son
siempre el nmero de datos menos 1 (12-1=11 en el ejemplo), en los grados de
libertad asociados a cada trmino. Los grados de libertad asociados al efecto
de un factor son siempre el nmero de variantes del factor menos 1 (glvar=2-
1=1 y gldosis=3-1=2), mientras que los de una interaccin son el producto de los
grados de libertad de los factores correspondientes (glinterc=1x2=2), quedando
como grados de libertad residuales los restantes (glresid=11-1-2-2=6)
La comparacin de la "varianza" asociada a cada efecto con la varianza
residual permite estudiar si dicho efecto es o no significativo. Dichas varianzas
se estiman dividiendo cada Suma de Cuadrados por sus correspondientes
grados de libertad, obtenindose unos estadsticos a los que se denomina
Cuadrados Medios (El CMtotal, que no es ms que la varianza de los datos no
acostumbra a calcularse).
El CMresidual es una estimacin de la 2 existente en las poblaciones
muestreadas, asumiendo que dichas poblaciones tienen todas la misma 2 (o
del promedio de dichas varianzas en el caso de que difieran de unas
poblaciones a otras). El CM asociado a cada efecto es tambin una estimacin
(independiente de la anterior) de dicha 2 si dicho efecto no existe en la
poblacin, pero tiende a ser mayor que 2 en el caso de que exista un efecto
real poblacional.
Para ver si el CM de un efecto es significativamente mayor que el CMresidual, lo
que implicara la existencia de un efecto real a nivel poblacional, se comprueba
si el cociente CMefecto/CMresidual (al que se denomina F-ratio) es demasiado
elevado para ser una F de Fisher con los grados de libertad correspondientes,
calculndose para ello el valor p-value asociado. Contra menor sea este p-vale,
ms fuerte ser la evidencia respecto a al existencia poblacional del efecto
correspondiente.
A ttulo de ejemplo se recoge a continuacin la tabla resumen del Anova
correspondiente a los datos del Caso 5:
Captulo 10. Anlisis de la varianza
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:VAR 736.333 1 736.333 176.72 0.0000
B:DOSIS 450.167 2 225.083 54.02 0.0001
INTERACTIONS
AB 50.1667 2 25.0833 6.02 0.0368
RESIDUAL 25.0 6 4.16667
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 1261.67 11
--------------------------------------------------------------------------------
Seguidamente se expone con detalle la forma de realizar los clculos y los
anlisis posteriores, en el caso particular ms sencillo de la existencia de un
nico factor.
10.3 ANOVA CON UN SOLO FACTOR
10.3.1 Un ejemplo
Una factora de motores tiene 2 proveedores de los cigeales que mecaniza.
Un tercer proveedor ofrece sus cigeales algo ms caros argumentando sus
mejores propiedades dinmicas, concretamente que su equilibrado dinmico
(nmero de gramos de material que hay que eliminar hasta conseguir que el
centro de gravedad de la pieza coincida con el eje de giro) es menor.
La factora decide hacer una prueba comparando 10 cigeales del nuevo
proveedor (cdigo=1) con 10 de cada uno de sus 2 proveedores tradicionales
(cdigos 2 y 3). Los resultados obtenidos se recogen en la tabla de la pgina
siguiente.
A partir de estos resultados se trata de estudiar si existe una evidencia
suficiente respecto a la superioridad de los cigeales del nuevo proveedor,
que justifique el cambiar de proveedor pese al precio ligeramente ms elevado.
(El ejemplo que estamos considerando constituye un caso particular de Diseo
de Experimentos, en el que se estudia el efecto de un nico factor, el
Proveedor, que presenta tres variantes, los 3 proveedores a comparar).
Captulo 10. Anlisis de la varianza
Factor estudiado
(uno slo) PROVEEDOR
Variantes del factor (3) 1 2 3
23 35 50
28 36 43
21 29 36
27 40 34
Resultados obtenidos
5 43 45
(equilibrado dinmico
en grs.) 41 49 52
37 51 52
30 28 43
32 50 44
36 52 34
Autoevaluacin: Dado que conocemos una tcnica estadstica para comparar dos
tratamientos )no sera posible analizar los datos anteriores comparando dos a dos las
tres parejas posibles de proveedores? Si en vez de tratarse de tres hubiera cinco
proveedores )cuntas parejas de tratamientos habra que comparar? Suponiendo que
los 5 proveedores fueran idnticos, y si en cada comparacin se operase con un riesgo
de 10 especie del 5%, )la probabilidad de obtener una conclusin errnea (deducir que
al menos dos de los proveedores son distintos) sera del 5%?
En general la prctica de analizar los resultados de este tipo de experimentos
comparando 2 a 2 (mediante las tcnicas vistas en el apartado 9.3) todas las
parejas posibles de tratamientos no es recomendable, puesto que, adems de
ser muy laboriosa, incrementa la probabilidad global de cometer un error de 10
especie.
Tcnica estadstica a utilizar: ( ANALISIS DE LA VARIANZA !
Los objetivos perseguidos con el estudio de este ejemplo son:
- Ensear cmo se calcula una tabla de Anlisis de la Varianza y cmo se
interpreta su contenido
- Poner de manifiesto la importancia de las tcnicas grficas de anlisis de
residuos
- Dar una tcnica sencilla para comparar varias medias, si el Anova resulta
significativo
Captulo 10. Anlisis de la varianza
- Introducir una tcnica para analizar si existen diferencias de varianza entre
diversos tratamientos
todo ello haciendo especial hincapi en las facilidades ofrecidas por el software
estadstico existente
10.3.2 Descomposicin de la Suma de Cuadrados. Test F
De acuerdo con las ideas intuitivas dadas en el apartado 10.2, la variabilidad
total de los 30 datos se descompondr segn el siguiente esquema
Variabilidad debida a
diferencias entre Variabilidad residual
Variabilidad total proveedores (efecto del (variabilidad dentro
en los datos = factor proveedor) + de cada proveedor)
Proveedor 1: 23, 28, ... , 36. Media = 37
Proveedor 2: 35, 36, ... , 52. Media = 41.3
Proveedor 3: 50, 43, ... , 34. Media = 43.3 Media general = 40.53
Suma de Cuadrados Total: mide la variabilidad total en los datos, y no es ms
que la suma de los cuadrados de las desviaciones de cada dato
respecto a la media general del experimento
(23-40.53)5+(35-40.53)5+ +(34-40.53)5 = 5465
Esta SCtotal tiene un nmero de grados de libertad que es igual al
nmero total de datos menos uno: gltotal = 30 - 1 = 29
Suma de Cuadrados del Factor: mide la variabilidad en los datos asociada al
efecto del factor Proveedor sobre la media (o sea a la diferencia de
medias entre los 3 proveedores). Se obtiene hallando la suma de los
cuadrados de las desviaciones de la media de cada proveedor respecto
a la media general, multiplicadas por diez (nmero de datos sobre los
que se ha obtenido la media de cada tratamiento)
10x(37-40.53)2 + 10x(41.3-40.53)2 + 10x(43.3-40.53)2 = 207
La SCfactor tiene un nmero de grados de libertad que es igual al nmero
de proveedores menos uno: glfactor = 3 - 1 = 2
Suma de Cuadrados Residual: mide la variabilidad que no es debida a las
diferencias entre proveedores (variabilidad interna en cada proveedor,
errores de medida,...) Se obtiene hallando la suma de los cuadrados de
Captulo 10. Anlisis de la varianza
las desviaciones de cada dato respecto a la media del proveedor
correspondiente
(23-37)5+(28-37)2 +...+(36-37)2 +
(35-41.3)5+(36-41.3)5+(52-41.3)2 +
(50-43.3)5+ (43-43.3)5+(34-43.3)5
--------------------------------------------
= 5258
Debe verificarse : SCtotal = SCfactor + SCresid (5465 = 207 + 5258)
Los grados de libertad asociados a la SCresid se obtienen por diferencia
entre los gltotal y los glfactor (glresid = 29 - 2 = 27)
Test F
Se desea estudiar si existen diferencias entre los equilibrados dinmicos
medios en los cigeales de los 3 proveedores.
La hiptesis nula es, como de costumbre, que no hay diferencias (o sea
m1=m2=m3)
Si la hiptesis nula es cierta, las medias muestrales x1, x 2 y x 3 sern
"parecidas" (y por tanto "parecidas" tambin a la media total x ) y la SCfactor ser
"pequea". Pero ... )qu debemos entender como "pequea"?
A los cocientes entre cada Suma de Cuadrados y sus correspondientes grados
de libertad se les denomina Cuadrados Medios. Se demuestra que el CMresid es
una estimacin de la varianza 2 existente en las poblaciones estudiadas.
(Nota: hay que asumir para ello el que dichas poblaciones tengan todas la
misma varianza (hiptesis de homocedasticidad), o sea que el factor
investigado no influye sobre la varianza de la variable estudiada. En el caso de
que esta hiptesis no sea cierta el CMresid estima el promedio de las diferentes
varianzas poblacionales)
Si H0 es cierta el CMfactor es tambin un estimador, independiente del anterior,
de 2, y el cociente
Fratio = CMfactor/CMresid
se distribuye como una F de Fisher con 2 y 27 grados de libertad.
Por el contrario, si no es cierta H0 (si al menos uno de los tres proveedores
tiene una media diferente a la de los otros dos) la Fratio (o Fcalculada) tiende a ser
mayor que un F2,27.
La hiptesis nula se contrasta, por tanto, viendo si el valor obtenido para la F-
ratio es "demasiado grande" para ser una F de Fisher, lo que viene cuantificado
por el p-value correspondiente que no es ms que la P(F2,27>Fratio). Si dicho p-
value es inferior al riesgo de 1 especie con el que se trabaja (generalmente
Captulo 10. Anlisis de la varianza
se opera con = 0.05), o sea si la Fratio excede el valor crtico de un F2,27 para
dicha probabilidad , se considera que el efecto del factor ser significativo.
Los resultados se sintetizan en la Tabla Resumen del Anova
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:Proveedor 207.267 2 103.633 0.53 0.5934
RESIDUAL 5258.2 27 194.748
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 5465.47 29
--------------------------------------------------------------------------------
En el ejemplo, como 0.532 < F2,27(0.05)=3.35 (como se constata tambin por el
hecho de que el p-value es superior a 0.05) el efecto del proveedor sobre la
media del equilibrado dinmico no es significativo!, es decir, es admisible la
hiptesis nula m1=m2=m3
10.3.3 Anlisis de los residuos
Como ya hemos sealado en el apartado 9.3.7, tiene una gran importancia
prctica completar cualquier anlisis de datos reales con un estudio de los
residuos de los mismos. En estos residuos, que en el ejemplo no son ms que
las diferencias entre cada dato y la media del proveedor correspondiente, se
refleja el efecto de todos los factores no controlados que pueden haber
afectado a los resultados obtenidos.
El Statgraphics da la posibilidad de obtener un grfico en el que se representan
los valores hallados para los residuos en funcin de la variante correspondiente
del factor. Adicionalmente los residuos pueden guardarse y someterse a otros
anlisis (grficos en papel probabilstico, etctera...)
La siguiente figura recoge el grfico de residuos para cada proveedor, a partir
de los datos introducidos en el ejemplo
Captulo 10. Anlisis de la varianza
El grfico pone claramente de manifiesto la existencia de una observacin
anmala para el proveedor 1, que se refleja en un residuo de valor casi igual a
60, mucho ms elevado que cualquier otro de los obtenidos.
(Una observacin anmala, como la detectada, puede invalidar por
completo todas las conclusiones de un anlisis!
Estudiando los datos introducidos, que son con los que ha operado el
programa, se encuentra que el quinto dato del proveedor 1 se ha introducido
como 95, en vez de como 35 que era su valor correcto. (El nmero 3 escrito a
mano se presta frecuentemente a confundirse con un 9).
Se recoge a continuacin el cuadro resumen del Anova, obtenido una vez
corregido el dato errneo.
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:Proveedor 871.267 2 435.633 7.65 0.0023
RESIDUAL 1538.2 27 56.9704
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 2409.47 29
--------------------------------------------------------------------------------
Como puede constatarse las conclusiones son ahora distintas, detectndose un
efecto significativo estadsticamente (p-value=0.0023) del factor Proveedor
(Obsrvese que un nico dato anmalo, en un total de 30, se haba traducido
en ms que triplicar la SCresid y en dividir por cuatro la SCfactor, redundando en
una Fratio que era catorce veces menor que la correcta)
10.3.4 Comparacin de medias. Intervalos LSD
Cuando el test F resulta significativo, hay que precisar entre cules de las
variantes del factor (en nuestro ejemplo, entre qu proveedores) existen
diferencias significativas en las medias. En efecto, un valor significativo de la F-
ratio slo indica que al menos una de las tres medias difiere de las restantes,
pero no precisa cules son las que difieren entre s
Una forma sencilla de precisar esta cuestin es mediante el establecimiento de
intervalos LSD (siglas de "Least Signficative Difference") para la media de cada
variante.
Si una media muestral es x i (por ejemplo 43.3 para el proveedor 3) la
desviacin tpica estimada de dicha media ser igual a la raz cuadrada del
CMresid (que como hemos visto es una estimacin de la varianza existente en
las poblaciones estudiadas), dividida por 10, que es el nmero de datos a partir
de los que se ha calculado la media.
El intervalo LSD para dicha media viene dado por la expresin:
Captulo 10. Anlisis de la varianza
2 CMresid
xi t glresid
2 n
As, por ejemplo, para la media del proveedor 3 dicho intervalo ser:
2 0.05 56.97
43.3 t 27 43.3 0.707 2.052 2.39 [39.8 46.8]
2 10
La diferencia entre la media de dos tratamientos ser significativa si los
respectivos intervalos LSD no se solapan.
(Nota: el intervalo obtenido, intervalo LSD, no es un intervalo de confianza para
las medias correspondientes. Su utilizacin es slo la comparacin de medias)
En el siguiente grfico obtenido mediante Statgraphics se reflejan los intervalos
LSD para los equilibrados dinmicos medios de los tres proveedores (para un
riesgo de 1 especie =0.05)
Puede constatarse que existe una diferencia significativa entre la media del
proveedor 1 y las de los otros dos proveedores, no siendo significativa la
diferencia al respecto entre estos dos ltimos.
10.3.5 Estudio de efectos sobre varianzas
Adems de estudiar si existen diferencias entre los valores medios de los
equilibrados dinmicos para los cigeales de los tres proveedores, tambin
puede ser interesante analizar si existen diferencias entre proveedores
respecto a la varianza de los equilibrados.
En efecto, en la moderna Estadstica Industrial ha adquirido una gran
importancia, en el contexto de los enfoques de "diseo robusto" desarrollados
en Japn, el estudio de posibles efectos sobre la dispersin de los factores
implicados en el diseo de productos y procesos, con el fin de obtener
condiciones operativas que sean poco sensibles a la existencia de causas de
variabilidad.
Existen diversos procedimientos estadsticos aproximados que pueden utilizar-
se para contrastar la hiptesis de igualdad de K varianzas, siendo los tests de
Captulo 10. Anlisis de la varianza
Bartlett y Hartley los ms conocidos. Sin embargo estos tests, aparte de
implicar la necesidad de aprenderse un nuevo procedimiento estadstico, no
son aplicables para el estudio de los efectos sobre la dispersin de varios
factores y exigen necesariamente la existencia de replicaciones para cada tra-
tamiento.
Los autores1 han propuesto un mtodo aproximado que, adems de no exigir el
aprendizaje de ninguna tcnica nueva, se generaliza de forma inmediata para
el estudio simultneo de varios factores, incluso en ausencia de replicaciones.
Pasamos seguidamente a exponer el fundamento y la forma de operar con este
procedimiento.
Autoevaluacin: la figura siguiente recoge el grfico e los residuos de los datos
correspondientes a los tres proveedores. (Existen 10 residuos para cada proveedor
aunque algunos de ellos coinciden y se superponen en un slo punto). )Qu aspecto
crees que tendra dicha figura si los equilibrados de los cigeales del proveedor 3
tuvieran mucho menor varianza que los de los otros dos?
)Existe alguna relacin entre la media aritmtica de los cuadrados de los residuos de un
proveedor y la s2 constatada para dicho proveedor? Es, por tanto, la varianza de cada
proveedor proporcional al valor medio de los cuadrados de sus residuos.
)Conoces una tcnica estadstica que sea muy poderosa para estudiar si existen
diferencias entre las medias de una variable (que puede ser, por ejemplo, definida como
el cuadrado de los residuos), en distintas poblaciones?
Del razonamiento desarrollado en la Autoevaluacin se deduce que una forma
aproximada, pero extremadamente sencilla y poderosa, de estudiar los posibles
efectos sobre la varianza del factor estudiado, consiste en llevar a cabo un
Anova usando como datos a analizar los cuadrados de los residuos
obtenidos en el Anova realizado para estudiar sus efectos sobre la media.
En la siguiente tabla se recoge el resultado del Anova realizado sobre el
cuadrado de los residuos del anlisis previo. Se constata en el mismo que no
existen diferencias estadsticamente significativas (p-value>0.05) entre
proveedores para las varianzas (que no son ms que las medias poblacionales
de los cuadrados de los residuos).
1
[Link], [Link] : "Un modelo para el estudio de efectos sobre la dispersin en ausencia
de replicaciones" Revista ESTADISTICA ESPAOLA. INE. Sept.-Dic. 1987)
Captulo 10. Anlisis de la varianza
Analysis of Variance for RESIDUOS^2
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:Proveedor 8198.36 2 4099.18 1.89 0.1707
RESIDUAL 58587.0 27 2169.89
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 66785.4 29
--------------------------------------------------------------------------------
Nota: como ya hemos indicado el mtodo propuesto tiene slo un carcter
aproximado (carcter que, por cierto, comparte con los otros mtodos usados
habitualmente). Un procedimiento ms correcto desde el punto de vista
estadstico consistira en realizar el Anova sobre el logaritmo de los residuos2
en vez de sobre los residuos2. Las diferencias en la prctica son sin embargo
pequeas, y con datos reales con un nmero reducido de cifras significativas
esta alternativa puede plantear problemas si existen residuos iguales a cero,
por lo que no la recomendamos en general.
10.3.6 Realizacin prctica de los clculos
El nico paso laborioso en los clculos para obtener el cuadro resumen del
Anova radica en la obtencin de las Sumas de Cuadrados. Las expresiones
que se desarrollan a continuacin son equivalentes aritmticamente a las
expuestas en 10.3.2 pero se prestan mejor al clculo manual, siendo tambin
vlidas cuando hay un nmero desigual de observaciones para las distintas
variantes del factor (En cualquier caso, la mejor forma de realizar un Anova,
como cualquier otro anlisis estadstico algo complejo, es el recurso a un
ordenador dotado del software adecuado)
Clculo del total general y de los totales de cada variante del factor
Proveedor 1: T1 = 23 + + 36 = 310 para un total de N1 (10)
observaciones
Proveedor 2: T2 = 35 + + 52 = 413 para un total de N2 (10)
observaciones
Proveedor 3: T3 = 50 + + 34 = 433 para un total de N3 (10)
observaciones Total General TG = 156 para un total de N (30) observaciones
TG2 11562
Sustraendo General: SG 44544.5
N 30
Suma de Cuadrados Total:
SCtotal = x112+...+xIn2 - SG = 232+...342 - 44544.5 = 2409.5 con N-1 (29) gl
Suma de Cuadrados Factor:
T12 T2 3102 4132 4332
SCfactor = I SG 44544.5 871.3 con I-1 (2) gl
N1 NI 10 10 10
Captulo 10. Anlisis de la varianza
Suma de Cuadrados Residual:
SCresid = SCtotal - SCfactor = 2409.5 - 871.3 = 1538.2 con (N-1)-(I-1) (27) gl
10.3.7 Anlisis mediante Stagraphics
En general Statgraphics realiza anlisis de la varianza mediante la opcin
compare ... Analysis of Variance ... Multifactor ANOVA (Esta opcin permite
realizar Anovas para planes factoriales con muchos factores controlados, y
tambin, como caso particular, para casos con un nico factor (para estos
ltimos, que es el caso que ahora nos ocupa, puede usarse alternativamente la
opcin compare ... Analysis of Variance ... One-Way ANOVA)
Tras indicar en el cuadro de dilogo el nombre de la variable con los resultados
(dependent variable) y el de la variable con los cdigos del factor, el programa
da opcin a numerosas salidas tabulares o grficas, incluyendo todas las
comentadas en este captulo y otras adicionales (como una tabla de valores
medios con sus intervalos de confianza y diversos grficos de residuos)
10.3.8 Factores cuantitativos: contrastes ortogonales
Un factor se dice que es de naturaleza cuantitativa, si sus diferentes variantes
corresponden a diferentes niveles de una determinada magnitud (diferentes
temperaturas, diferentes dosis, etctera...)
Autoevaluacin: En el ejemplo de los proveedores, en el que el factor estudiado es de
tipo cualitativo, el objetivo del experimento es determinar cul es el mejor proveedor de
los tres estudiados. En el caso de un factor cuantitativo, como por ejemplo el estudio de 4
posibles temperaturas para mejorar el rendimiento de un proceso qumico )el objetivo
perseguido es tambin seleccionar la mejor temperatura entre las cuatro ensayadas?
En general el estudio del efecto de un factor cuantitativo, no persigue como
objetivo la comparacin de los niveles concretos ensayados, sino la
investigacin de la naturaleza de la funcin de respuesta que relaciona el valor
medio de la variable estudiada con el nivel del factor ensayado.
En el caso del ejemplo mencionado interesa hallar respuestas a preguntas del
siguiente tipo:
- )Afecta la temperatura (en el margen de valores estudiados) al
rendimiento medio del proceso? (En principio el test F del Anova permite
contestar esta cuestin)
- En el margen de valores estudiado )existe un efecto lineal positivo (o
negativo) de la temperatura, es decir una tendencia a crecer (o a decrecer)
el rendimiento medio al aumentar la temperatura?
Captulo 10. Anlisis de la varianza
- )Existe tambin un efecto cuadrtico de la temperatura? (por ejemplo, a
medida que aumenta la temperatura el incremento del rendimiento es
cada vez menor, lo que implicara un efecto cuadrtico negativo)
Si el factor estudiado es cuantitativo no deben compararse sus niveles
(mediante intervalos LSD), sino que es mejor estudiar la naturaleza de su
efecto utilizando la tcnica de descomponer la SCFactor en trminos, cada uno
con 1 grado de libertad, asociados a las componentes lineal, cuadrtica y de
orden superior del efecto del factor.
La descomposicin es fcil si los niveles del factor estn equiespaciados, y se
basa en obtener los valores de componentes asociadas a los diferentes
trminos (lineal, cuadrtico, cbico,...) del efecto del factor.
Siendo x i la media de las n observaciones correspondientes al nivel i del
factor, cada componente se obtiene mediante una cierta combinacin lineal
(con coeficientes i que suman cero) de dichas x i
I
z i xi
i1
donde las i se obtienen de la tabla siguiente
3 niveles 4 niveles 5 niveles
x1 x2 x3 x1 x2 x3 x4 x1 x2 x3 x4 x5
Comp. Lineal -1 0 1 -3 -1 1 3 -2 -1 0 1 2
Comp. Cuadrtica 1 -2 1 1 -1 -1 1 2 -1 -2 -1 2
Comp. Cbica - - - -1 3 -3 1 -1 2 0 -2 1
Cada componente lleva asociada una suma de cuadrados, que es una parte de
la suma de cuadrados del efecto del factor, que se obtiene mediante la
siguiente expresin:
nZ 2
SCz
i2
y tiene 1 grado de libertad
La significacin estadstica de la componente puede estudiarse de la forma
habitual, dividiendo su cuadrado medio por el cuadrado medio residual y
comparando con el valor crtico en tablas de una variable F1,glresid.
Ejemplo numrico: Rendimiento en azcar (Qm/acre) en 20 parcelas en la
que se utilizaron 4 dosis diferentes de un abono complejo (0, 4, 8 y 12
Qm/acre)
Captulo 10. Anlisis de la varianza
0 Qm/a 4 Qm/a 8 Qm/a 12 Qm/a
37 39 45 42
35 42 41 44
33 41 44 40
34 43 43 43
32 40 42 41
Medias: 34.2 41 43 42
- Cuadro resumen del Anova -
Origen S. C. g. l. C. M. Fcalculada
Total 282.96 19 - -
Dosis 238.15 3 79.38 28.35* * significativa
Residual 44.8 16 2.80 -
Ef. Lineal: = -3x34.2 - 1x41 + 1x43 + 3x42 = 25.4 SCLin = (5x25.42) / 20 = 161.29
Ef. Cuadr.: = 1x34.2 - 1x41 - 1x43 + 1x42 = -7.8 SCCua = (5x(-7.8) 2) / 4 = 76.05
Ef. Cbico: = -1x34.2 + 3x41 - 3x43 + 1x42 = 1.8 SCCb = (5x1.82) / 20 = 0.81
Puede constatarse que 161.29+76.05+0.81 = 238.15 coincide exactamente con
la Suma de Cuadrados del factor Dosis.
- Nuevo Anova -
Origen S. C. g. l. C. M. Fratio
Dosis 238.15 3 - -
Lineal 161.29 1 161.29 57.6 Signif. 99%
Cuadrtico 76.05 1 76.05 27.2 Signif. 99%
Cbico 0.81 1 0.81 0.3 No Signif.
Residual 44.8 16 2.80 -
Por tanto, resultan significativos el efecto lineal (positivo) y el efecto cuadrtico
(negativo) de la dosis de abonado sobre el rendimiento medio obtenido, no
siendo significativo el efecto cbico.
Captulo 10. Anlisis de la varianza
10.4 ANOVA EN PLANES FACTORIALES EQUILIBRADOS
10.4.1 Concepto de Plan Factorial Equilibrado
En el ejemplo estudiado a lo largo del apartado 10.3, exista un nico factor -el
proveedor- cuyo efecto sobre la variable estudiada -el equilibrado dinmico de
los cigeales suministrados- se quera investigar. Este factor tena tres
alternativas o variantes, porque se estudiaron tres proveedores distintos.
En muchas situaciones, el nmero de factores cuyos efectos sobre una
determinada variable respuesta se desea investigar es ms elevado.
Autoevaluacin: En un experimento para mejorar la dureza superficial resultante tras el
mecanizado de una pieza metlica se desean estudiar los siguientes factores:
Tipo de muela utilizada: cermica o de resina
Velocidad de giro de la muela: 800, 1000 1200 rpm
Avance de la muela: 1.1, 1.3, 1.5
Presin de la taladrina: normal o alta
Proveedor de las piezas: A B
)Cuntos factores se desea investigar? Cuntas variantes o niveles se plantean para
cada factor? Cuntas pruebas diferentes podran realizarse?
En general, sea un estudio en el que se van a investigar los efectos de K fac-
tores sobre una (o ms) variable(s) respuesta.
Factor 1: se plantean n1 niveles o variantes
Factor 2: se plantean n2 niveles o variantes
Factor k se plantean nk niveles o variantes
El nmero de posibles condiciones diferentes que podran plantearse ser = n1
x n2 x ... x nk. A cada una de estas condiciones, a las que se denomina
tratamiento, le corresponde una determinada poblacin.
Un Plan Factorial Equilibrado (o Balanceado) es aqul en el que para cada
condicin posible se dispone de un mismo nmero nr de datos
Si nr = 1 el Plan Factorial se denomina no replicado
Los Planes Factoriales Equilibrados, adems de la sencillez d los clculos
necesarios para analizarlos (ventaja sta, que con la disponibilidad
generalizada de software estadstico se ha vuelto irrelevante) tienen la
importante ventaja de que todos los efectos de los factores e interacciones
pueden estudiarse sin que se confundan entre s (Esta idea se precisa en 10.7
al definir el concepto de ortogonalidad de efectos)
10.4.2 Efectos Simples. Interacciones
Cuando se estudia slo un nico factor, como en el apartado 10.3, el "efecto"
del factor sobre la media de la variable estudiada hace referencia a la
Captulo 10. Anlisis de la varianza
existencia de diferencias entre las medias de las poblaciones asociadas a las
diferentes variantes del factor. As, en el ejemplo mencionado, el efecto del
factor "Proveedor" hubiera sido nulo si se hubiese cumplido m1 = m2 = m3
Cuando se estudian simultneamente varios factores, aparecen los nuevos
conceptos de "efectos simples" y de "interacciones", que vamos a precisar
sobre el siguiente ejemplo.
Ejemplo: en una red de multicomputadores se desea investigar el efecto sobre
los retardos de los mensajes transmitidos en la red de dos factores:
- Algoritmo de encaminamiento de mensajes utilizado: con dos variantes 1
(algoritmo no adaptativo) y 2 (algoritmo adaptativo)
- Nivel de carga de la red: con tres niveles 1 (bajo), 2 (medio) y 3 (alto)
Efecto simple de un factor:
Se define sobre el promedio de las condiciones estudiadas de los restantes
factores.
As, en nuestro ejemplo, el efecto simple del factor " Algoritmo de
encaminamiento" se medir por la diferencia entre los retardos medios
obtenidos con uno u otro algoritmo, para el promedio de los tres niveles de
carga estudiados
De forma anloga, el efecto simple del factor " Nivel de carga de la red " se
medir por las diferencias entre los retardos medios obtenidos con los tres
niveles de carga, para el promedio de los dos algoritmos de encaminamiento
Interacciones dobles
Existir una interaccin doble entre ambos factores, si el efecto de uno de ellos
es diferente segn la variante considerada del otro factor.
As, en nuestro ejemplo, existir interaccin entre los dos factores si, por
ejemplo, la diferencia de los retardos medios entre los dos algoritmos es muy
marcada si el nivel de carga de la red es alto, pero es pequea o inexistente si
el nivel de carga es bajo.
De forma simtrica, existira interaccin entre los dos factores si, por ejemplo,
la diferencia de los retardos medios entre un nivel de carga alto y un nivel de
carga bajo es mucho ms marcada trabajando con el algoritmo A que con el
algoritmo B.
Hay que tener en cuenta que si el efecto de un primer factor depende de la
variante considerada del segundo, tambin necesariamente el efecto del
segundo factor depender de la variante considerada del primero. De hecho,
ambos fenmenos no son ms que las dos caras de una misma moneda: la
existencia de interaccin entre los dos factores.
Captulo 10. Anlisis de la varianza
Nota: en estudios con ms de dos factores, puede tambin plantearse la
existencia de interacciones de orden superior: triples, cudruples, etctera...
As, existira una interaccin triple entre tres factores A, B y C si, por ejemplo,
hubiera una interaccin doble entre A y B cuando C est a nivel bajo, pero no
existiera dicha interaccin A*B cuando C est a nivel alto. En general las
interacciones de orden superior a dos se presentan poco en la prctica, siendo
adems difciles de interpretar, por lo que no sern consideradas en el resto de
este captulo.
10.4.3 Ejemplo de un Plan Factorial Equilibrado con 2 Factores
Se realiz un estudio en una acera, para analizar la influencia sobre el
alargamiento mximo hasta la rotura (variable max medida en porcentaje) en
barras corrugadas de acero, de la calidad del acero (dos calidades: B400SD y
B500SD) y del dimetro de la barra (3 dimetros: 8 mm, 16 mm y 24 mm).
Para cada calidad y dimetro se seleccionaron aleatoriamente 5 barras, cada
una de una colada diferente, determinndose en cada una el valor de max
mediante un ensayo de traccin-deformacin. Los resultados obtenidos se
recogen en la siguiente tabla (se han incluido tambin en la misma, en negrita,
los totales de los 5 datos de cada casilla, de las filas, de las columnas y el total
general):
Valores del alargamiento a la rotura (max en %)
en barras corrugadas de acero
8 mm 16 mm 24 mm
15.29 16.91 17.23
15.89 16.99 17.81
16.02 17.27 17.74
B400SD 16.56 16.85 18.02
15.46 79.22 16.35 84.37 18.37 89.17 252.76
12.07 12.92 13.30
12.42 13.01 12.82
12.73 12.21 12.49
B500SD 13.02 13.49 13.55
12.05 62.29 14.01 65.64 14.53 66.69 194.62
141.51 150.01 155.86 447.38
Para calcular la SCtotal y las SC de los dos factores se opera de forma anloga
a la vista en 10.3.6:
TG2 447.382
SG 6671.63
N 30
SCtotal = 15.292 + 15.892 + ... + 13.552 + 14.532 - SG = 131.807 con 30-1=29 gl
Captulo 10. Anlisis de la varianza
252.762 194.622
SCcalidad = SG 112.675 con 2-1 = 1 gl
15
141.512 150.012 155.862
SCdiamtero = SG = 10.413 con 3-1 = 2 gl
10
La expresin para el clculo de la SC correspondiente a la interaccin es:
79.222 84.372 66.692
SCcal*diam = SG SCcalidad SCdiametro = 1.604
5
y sus grados de libertad son el producto de los de los dos factores: gl = 1x2 = 2
Finalmente la SCresidual y sus grados de libertad se calculan por diferencia:
SCresidual = SCtotal - SCcalidad - SCdiametro - SCcal*diam = 7.115
glresidual = 29 - 1 - 2 - 2 = 24
La tabla resumen del Anova es, por tanto:
Analysis of Variance for emax
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:calidad 112.675 1 112.675 380.08 0.0000
B:diametr 10.4132 2 5.20658 17.56 0.0000
INTERACTIONS
AB 1.6035 2 0.80175 2.70 0.0873
RESIDUAL 7.1148 24 0.29645
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 131.807 29
--------------------------------------------------------------------------------
Como se aprecia los efectos simples de "calidad" y de "dimetro" son
claramente significativos (p-values muy bajos), mientras que la interaccin es
dudosa (p-value comprendido entre el 5% y el 10%).
Para precisar ambos efectos simples, se muestran a continuacin los
correspondientes grficos de intervalos LSD
Captulo 10. Anlisis de la varianza
Se aprecia que el max medio es significativamente ms alto en la calidad
B400SD que en la B500SD, y que aumenta progresivamente al hacerlo el
dimetro de la barra
Nota: dado el carcter cuantitativo del factor "dimetro", sera ms adecuado
analizar su efecto descomponindolo en sus componentes lineal y cuadrtica,
tal como se hace en el siguiente apartado
Para analizar la interaccin, que en este caso ha resultado dudosa, es til el
siguiente grfico, obtenido mediante Statgraphics, que visualiza los valores
medios para las diferentes combinaciones de calidad con dimetro
Parece apreciarse en el grfico, que el incremento en el max medio al aumentar
los dimetros, es ms marcado en la calidad B400SD que en la B500SD
Anlisis de efectos sobre la varianza
Es tambin interesante analizar si la dispersin, en torno a su media, de los
valores del max es mayor en una calidad o en otra o en unos dimetros que en
otros. Se trata, en definitiva, de investigar el efecto de los factores estudiados
sobre la varianza del max, como complemento al estudio realizado de sus
efectos sobre la media.
Tal como se vio en el apartado 10.3.5, dicho anlisis puede llevarse a cabo de
forma sencilla, realizando un nuevo Anova, en el que la variable respuesta sea
el cuadrado de los residuos del anlisis anterior. Dichos residuos, que el
Statgraphics permite obtener y salvar, no son en este caso ms que las
diferencias entre cada dato y la media de la casilla correspondiente
En la tabla resumen del Anova correspondiente, que se recoge a continuacin,
ninguno de los posibles efectos sobre la varianza resulta estadsticamente
significativo, al ser todos los p-values superiores al 10%
Analysis of Variance for residuos^2
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
Captulo 10. Anlisis de la varianza
A:calidad 0.266752 1 0.266752 2.56 0.1226
B:diametr 0.106044 2 0.0530221 0.51 0.6075
INTERACTIONS
AB 0.236566 2 0.118283 1.14 0.3380
RESIDUAL 2.50026 24 0.104178
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 3.10963 29
--------------------------------------------------------------------------------
10.4.4 Descomposicin de las interacciones con factores cuantitativos
En el apartado 10.3.8 se estudi cmo es posible descomponer la SC asociada
al efecto de un factor cuantitativo con I (>2) niveles en I-1 trminos, cada uno
de ellos con 1 grado de libertad, correspondientes a las componentes lineal,
cuadrtica, cbica, etctera... de dicho efecto.
Cuando en un Anova en el que intervienen varios factores, resulta significativa
una interaccin doble en la que al menos uno de los factores implicados es de
tipo cuantitativo y tiene ms de dos niveles, conviene tambin enfocar la
interpretacin de la naturaleza de dicha interaccin descomponiendo la SC
correspondiente en trminos asociados a distintas componentes de la misma.
Esta descomposicin se plantea de forma diferente segn sean de naturaleza
cuantitativa los dos factores de la interaccin o slo uno de los mismos.
Interaccin de factor cualitativo con factor cuantitativo
Sea, por ejemplo, en un plan factorial el estudio de la interaccin entre los
factores:
FI, con I variantes, de tipo cualitativo
FJ, con J niveles, de tipo cuantitativo
Sea n el nmero de observaciones existentes para cada una de las IxJ
combinaciones entre variantes de ambos factores.
Denominemos:
x ij = media de las n observaciones correspondientes a la
combinacin ij
x j = media de las nxI observaciones del nivel j de FJ
Sea Z = j x j un contraste asociado a un efecto de FJ (por ejemplo, si J=3, Z
j
= 1 x1 0 x 2 1 x 3 sera el contraste del efecto lineal de FJ)
nIZ 2
Se expuso en 10.3.8 que SCZ = es la SC asociada a dicho efecto, que es
j2
una parte de la SC del efecto simple de FJ.
Captulo 10. Anlisis de la varianza
Sean
Z1 = j x1j SCz1 = (n12)/j2
..................................
ZI = j xIj SCzI = (NZI2)/j2
los valores de los contrastes y las SC correspondientes de dicho efecto de FJ
calculados para las diferentes variantes de FI.
La Suma de Cuadrados asociada a la interaccin del efecto Z de FJ con el
factor FI viene dada por la expresin
SCIxZ SCZi SCZ
i
y tendr (I-1)x1 = I-1 grados de libertad.
En el caso de que dicha componente de la interaccin resulte significativa, y si
I>2, proceder estudiar entre qu variantes de FI existen diferencias
significativas en el efecto Z estudiado de FJ.
Ello puede llevarse a cabo estableciendo intervalos LSD para los valores de
efecto Z correspondientes a las diferentes variantes de FI. Un intervalo LSD
para cada contraste Zi viene dado por la expresin:
2 CMresid 2
Zi
2
t glresid
n
j
Autoevaluacin: Descomponer en sus componentes calidad*(efecto lineal dimetro) y
calidad*(efecto cuadrtico dimetro) la interaccin del ejemplo estudiado en 10.4.3, y
estudiar la significacin de las mismas. (Ver respuesta en el Anejo al final del Tema)
Interaccin de factor cuantitativo con factor cuantitativo
Si los dos factores implicados en una interaccin son de tipo cuantitativo, la SC
correspondiente puede descomponerse en trminos asociados a las
componentes LinealxLineal, LinealxCuadrtica, CuadrticaxLineal,... de dicha
interaccin. Estas componentes corresponderan a los trminos de la forma xixj,
xixj2, xi2xj, ... de la funcin de respuesta que relaciona el valor medio de la
variable estudiada con los niveles de los factores FI y FJ.
Para realizar esta descomposicin hay que obtener, en primer lugar, las
componentes Zi asociadas a un determinado efecto de FJ (por ejemplo al
efecto lineal de FJ) para las diferentes variantes de FI, de forma similar a como
se oper en el caso anterior, y definir a continuacin un nuevo contraste iZi
sobre estas componentes (por ejemplo el asociado al efecto cuadrtico de FI).
Captulo 10. Anlisis de la varianza
La SC asociada a este contraste sobre contrastes (que en el caso mencionado
correspondera a la componente CuadrticaxLineal de la interaccin) viene
dada por la expresin
2
n i Zi
SC i
2 2
i
i
j
j
y tiene 1 grado de libertad.
Autoevaluacin: en un estudio sobre el efecto de dos aditivos (el A estudiado a los
niveles 0, 5 y 10 phr, y el B estudiado a los niveles 1, 2 y 3 phr) sobre la Viscosidad
obtenida en espumas de poliuretano, se utiliz un diseo 3x3 con 2 replicaciones. Las
medias obtenidas en las dos pruebas realizadas para cada uno de los 9 tratamientos
fueron las siguientes (en centipoises):
B=1 B=2 B=3
A=0 6045 5425 4500
A=5 4750 4140 3570
A=10 3330 2900 2745
El valor obtenido para la SCAxB (que puede hallarse a partir de la tabla facilitada) fue de
526356 y el de la SCResidual (cuyo clculo exige conocer los resultados individuales de las
18 pruebas) fu de 791349.
a) Considerada globalmente )es significativa la interaccin AxB?
b) Calcular el contraste asociados a la componente LinealxLineal de la interaccin y
estudiar su significacin estadstica.
(Ver respuesta en el Anejo al final del Tema)
10.5 HIPTESIS BSICAS DEL ANOVA. TRANSFORMACIONES
Sea un plan factorial equilibrado para el estudio de dos factores FI y FJ, con I y
J variantes o niveles, y n replicaciones para cada uno de los IxJ combinaciones
posibles. El anterior plan lleva asociadas IxJ poblaciones, correspondientes a
los diferentes tratamientos (combinaciones de variantes de FI y FJ)
Todos los resultados que hemos utilizado a lo largo del Anova se deducen a
partir de las siguientes hiptesis:
Independencia: las n observaciones para cada combinacin corresponden a
individuos extrados independientemente de la poblacin considerada (es decir
constituyen una muestra aleatoria simple de dicha poblacin). Las
observaciones correspondientes a los distintos tratamientos son tambin
independientes.
Captulo 10. Anlisis de la varianza
Homocedasticidad: las IxJ poblaciones estudiadas tienen la misma varianza.
Normalidad: La variable estudiada sigue en las IxJ poblaciones consideradas
distribuciones normales.
Estas hiptesis son necesarias para que se verifiquen exactamente los
resultados que hemos manejado, en particular las distribuciones F que
aparecen en la tabla resumen del Anova cuando las hiptesis nula son ciertas y
la distribucin t manejada en la obtencin de intervalos LSD.
)Qu pasa si se realiza un Anova sobre datos que no cumplen exactamente
las hiptesis mencionadas?
Como sabemos, la pregunta anterior, tal como est formulada, no tiene ningn
sentido, dado que dichas hiptesis constituyen slo un modelo matemtico de
la realidad y que (como sucede siempre al modelar matemticamente un
problema) nunca existir una realidad que verifique exactamente un modelo
matemtico. Ningunos datos reales seguirn nunca exactamente un
determinado modelo matemtico. Las dos cuestiones relevantes son, ms bien,
la de hasta qu punto las conclusiones que pueden obtenerse del anlisis son
sensibles al hecho de que las pautas de variabilidad constatadas en los datos
difieran marcadamente de las postuladas por el modelo y la de qu medidas
pueden tomarse en estos casos.
Con mucho la hiptesis ms importante de las tres enunciadas es la de
independencia. Es responsabilidad del experimentador el tomar todas las
precauciones posibles para que dicha hiptesis se verifique lo ms
aproximadamente posible. En este sentido la aleatorizacin del orden de
realizacin de las pruebas es una medida muy aconsejable en la prctica,
siendo indispensable para experimentar sobre procesos que no estn bajo
control estadstico. Si existe una dependencia estrecha entre las observaciones
(por ejemplo si todas las parcelas de un tratamiento se plantan juntas) los
resultados que se obtengan mediante el Anova pueden ser completamente
invlidos.
Menos grave es el incumplimiento moderado de la hiptesis de
homocedasticidad. De hecho el Anova es relativamente robusto al respecto,
especialmente si, como sucede en los diseos equilibrados, el nmero de
observaciones es el mismo para cada tratamiento ensayado.
Desviaciones marcadas respecto a la hiptesis de homocedasticidad pueden
detectarse mediante anlisis de los residuos. Cuando la heterocedasticidad
est originada esencialmente por el efecto de algn factor sobre la varianza, un
Anova utilizando como respuesta el cuadrado de los residuos permite ponerlo
de manifiesto, tal como se ha comentado en diversas ocasiones en este texto.
Otro tipo de heterocedasticidad se presenta a veces asociado a fenmenos de
escala, cuando el orden de magnitud de la variable respuesta flucta
sensiblemente en los datos (por ejemplo, en variables en las que existe un cero
Captulo 10. Anlisis de la varianza
natural, si el ratio entre el mayor y el menor resultado fuese del orden de 5
ms). En estos caso es lgico que en tratamientos para los que la media es,
digamos, del orden de 100 ,la 2 sea superior que para aquellos en los que es
del orden de 10.
La presencia de un fenmeno de este tipo puede detectarse mediante un
grfico de los residuos en funcin de los valores previstos para las
observaciones, grfico que presentar la forma de una nube de puntos
triangular que se va abriendo a medida que aumentan dichos valores previstos.
En estos casos es aconsejable, como veremos a continuacin, aplicar una
transformacin a la variable respuesta antes de proceder a su anlisis
definitivo.
En general aunque existen tcnicas especiales ms potentes y complejas que
pueden utilizarse en los casos en que exista heterocedasticidad, el anlisis
estndar tiene una validez razonable, sobre todo si sta no es muy marcada y
el diseo es equilibrado.
Tampoco son en general muy graves las consecuencias de moderados
incumplimientos de la hiptesis de normalidad. Numerosos estudios han
comprobado, por ejemplo, que los resultados del Anova no se modifican sen-
siblemente si las poblaciones muestreadas son ligeramente asimtricas.
Uso de transformaciones
En el caso de que la pauta de variabilidad constatada en los datos difiera
sensiblemente de la correspondiente al modelo normal y homocedstico, puede
ser aconsejable transformar la variable respuesta en una nueva variable que
satisfaga ms aproximadamente las hiptesis bsicas.
Por ejemplo, si la asimetra es muy elevada, lo que puede detectarse mediante
un grfico de los residuos en papel probabilstico normal, resulta aconsejable
transformar previamente los datos antes del anlisis. En los casos de asimetra
positiva, que es el ms frecuente en la prctica, la transformacin ms
aconsejable es la logartmica.
La transformacin logartmica resulta especialmente aconsejable en
situaciones en las que se presentan asociadas la asimetra positiva de las
poblaciones muestreadas, y la heterocedasticidad debida a fenmenos de
escala cuando el rango de variacin de la variable respuesta es muy amplio,
puesto que en general dicha transformacin resuelve simultneamente ambos
problemas.
Adicionalmente la transformacin logartmica pude conducir a interpretaciones
ms sencillas de los efectos estudiados, en el caso de que stos sean de tipo
multiplicativo en vez de aditivo.
En efecto, cuando factores cuyos efectos son multiplicativos se estudian
mediante un Anova estndar aparecen interacciones entre los mismos, tal
Captulo 10. Anlisis de la varianza
como se aprecia en la tabla siguiente, que recoge los valores medios
poblacionales para los cuatro tratamientos en un plan con dos factores a dos
niveles, en el supuesto de que el efecto del paso de A1 a A2 sea incrementar
en un 50% el valor medio de la respuesta y de que el efecto del paso de B1 a
B2 sea hacerlo en un 100%, y de que estos efectos se producen sea cual sea
el nivel al que se halle el otro factor (por lo que, al menos en el lenguaje
ordinario, no parecera procedente hablar de la existencia de una interaccin
entre ambos factores).
B1 B2
A1 100 200
A2 150 300
Autoevaluacin: )Cunto vale el efecto asociado a la interaccin AxB (diferencia entre el
efecto de B cuando A est a nivel A2 respecto al efecto de B cuando A est a nivel A1)
en la tabla anterior?
Sustituir los datos de la tabla por sus logaritmos y calcular cuanto vale el efecto de la
interaccin AxB sobre esta variable transformada.
Como se aprecia en el ejemplo anterior las interacciones debidas a la
naturaleza multiplicativa del efecto de los factores desaparecen cuando el
anlisis se realiza tras una transformacin logartmica de los datos, lo que
permite interpretaciones ms sencillas de los efectos estudiados.
En ciertos casos la variable estudiada es el resultado de un conteo, (del tipo
"nmero de veces que...") y cabe en principio suponer que siga una distribucin
de Poisson. En estas situaciones se incumple, no slo la hiptesis de
normalidad, sino tambin la de homocedasticidad, puesto que (al ser en una
variable de Poisson la varianza igual a la media) si los factores afectan a las
medias tambin lo harn a las varianzas. En estos casos se recomienda
transformar, previamente al anlisis, los datos obteniendo su raz cuadrada,
transformacin que hace que las varianzas sean relativamente constantes.
Autoevaluacin: Generar mediante Statgraphics 50 valores de una variable X de Poisson
de media 5 y otros 50 valores de una variable Y de Poisson de media 10. Calcular y
comparar las varianzas de X y de Y, y las varianzas de Log( X) y de Log(Y), y constatar
que estas ltimas son bastante similares
Por ltimo digamos que cuando la variable estudiada es una proporcin (del
tipo "porcentaje de veces que...") se recomienda en general transformar estos
datos sustituyndolos por el arco seno de la raz cuadrada de dicha proporcin,
lo que tambin contribuye a que se verifique aproximadamente la hiptesis de
homocedasticidad (si las proporciones iniciales estn obtenidas a partir de un
nmero parecido de observaciones)
Captulo 10. Anlisis de la varianza
10.6 INTRODUCCIN A OTROS MODELOS DE ANOVA
El modelo de Anova que se ha desarrollado en este captulo es el denominado
modelo de efectos fijos. Existen tambin otros modelos diferentes, aunque en
nuestra opinin su campo de aplicacin es ms limitado que el del que hemos
desarrollado.
As en los modelos de efectos aleatorios se asume que las diferentes variantes
de cada factor han sido extradas al azar de una poblacin general de variantes
(por ejemplo, corresponden a distintas coladas seleccionadas al azar del
conjunto de coladas de acero producidas en una acera). En este caso a cada
variante no le corresponde un efecto fijo desconocido i, sino el valor Ai de una
variable aleatoria que se supone normal con media cero y varianza 2A. El
objeto del anlisis de este tipo de diseos es el de inferir conclusiones
respecto a estas 2A. Modelos de este tipo se utilizan ampliamente en Gentica,
en estudios sobre heredabilidad, y en el diseo de planes de muestreo, as
como a nivel industrial en los estudios de repetibilidad y reproducibilidad de
sistemas de medida.
Existen tambin modelos mixtos en que unos factores son de efectos fijos y
otros de efecto aleatorio. En el fondo los modelos correspondientes a Diseos
en Bloques al Azar o de Datos Apareados son de esta naturaleza, puesto que
en general el factor asociado a los bloques es de tipo aleatorio.
Los modelos factoriales que hemos estudiado son de tipo cruzado, y en ellos
cada variante de un factor se combina con las diferentes variantes de los
restantes. Modelos de otro tipo son los denominados jerarquizados (o tambin
anidados) en los que cada nivel o variante de un factor se combina con
variantes diferentes de cada uno de los otros. En general los factores que van
jerarquizados dentro de otros son de efectos aleatorios. Tambin existen
modelos mixtos en los que algunos factores van cruzados y otros van
jerarquizados.
El anlisis de este tipo de modelos no se aborda en el presente texto.
10.7 FORMALIZACIN DE LOS CONCEPTOS EXPUESTOS
(El estudio de este apartado no es indispensable para la comprensin y utilizacin de las
tcnicas expuestas)
10.7.1 Efectos simples. Interacciones
Para aclarar las ideas sobre los distintos tipos de efectos que pueden considerarse en el
anlisis de un diseo factorial, consideremos un estudio del efecto de dos factores, uno FI con I
niveles o variantes y otro FJ con J niveles o variantes, sobre una determinada variable X.
A cada uno de los I x J tratamientos posibles (combinaciones de variantes de uno y otro factor)
se le asocia una poblacin en la que la variable X tiene una determinada distribucin.
Denominemos Xij a la variable asociada a la utilizacin de la variante i del factor FI con la
Captulo 10. Anlisis de la varianza
variante j del factor FJ. Se asume en general que Xij sigue una distribucin normal, que vendr
por tanto caracterizada por su media mij y su varianza 2ij.
El objeto del Anova tradicional es investigar los posibles efectos que las distintas variantes de
ambos factores tienen sobre la media de la variable estudiada. (Como se ha visto es posible
utilizar tambin el Anova para investigar de forma aproximada posibles efectos sobre la
varianza).
El efecto simple de un factor se define y estima sobre el promedio de las condiciones
estudiadas para los otros factores. As si denominamos mi. al promedio de las mij
m miJ
mi. i1
J
Denominando m.. a la media aritmtica de todas las mij (que es tambin la media de las mi.), se
define efecto simple i de la variante i del factor FI a la diferencia entre la media mi.
correspondiente a dicha variante y la media general m..
i = mi. - m..
Obviamente si el efecto simple del factor FI es nulo, todas las i sern iguales a cero.
Denominando en general m.j a la media correspondiente a la variante j del segundo factor FJ
(m.j = (m1j + ... + mIj)/I ) se definen de forma anloga los efectos simples j de dicho segundo
factor como la diferencia entre la media m.j correspondiente a dicha variante y la media general
m..
j = m.j - m..
Se dice que existe interaccin entre dos factores si el efecto de uno de ellos se modifica al
cambiar la variante considerada del otro factor. As, si denominamos
i/j = mij - m.j
al efecto de la variante i de FI cuando FJ est al nivel j, existir interaccin si i/j depende de la
variante j considerada.
En general, no existir interaccin entre FI y FJ si:
i/1 = ... = i/J = i para todo i
(La definicin de interaccin se puede hacer de forma simtrica considerando los efectos del
segundo factor FJ y estudiando si dependen de la variante considerada del factor FI).
Si no existe interaccin entre los dos factores la media m ij correspondiente a la combinacin de
la variante i del primero con la j del segundo resulta igual a la suma de la media general ms
los dos efectos simples:
mij = m.. + i + j
Si existe interaccin la anterior igualdad no se verifica, definindose el efecto de la interaccin
entre ambas variantes, ()ij, como la diferencia entre los dos miembros de la ecuacin anterior
()ij = mij - (m.. + i + j)
El concepto de interaccin entre dos factores puede generalizarse para interacciones de orden
superior. As se dice que existe una interaccin triple entre tres factores FI, FJ y FK si los
efectos asociados a la interaccin doble entre dos de ellos varan segn el nivel considerado
del tercer factor. Dado que no es frecuente encontrar en la prctica interacciones de orden
elevado, en general no trataremos este tipo de interacciones.
Captulo 10. Anlisis de la varianza
10.7.2 Ortogonalidad. Estimacin de efectos
En principio podra pensarse que si se modifican simultneamente varios factores no va a ser
posible separar los efectos de cada uno de ellos sobre la variable estudiada. La idea bsica
que hace posible esta separacin en los experimentos bien diseados es la de ortogonalidad.
Dados dos factores, FI con I variantes y FJ con J variantes, se dice que en un diseo los
efectos simples de ambos factores son ortogonales si en las pruebas del diseo en cada una
de las variantes i de FI aparecen en idnticas proporciones las J variantes de FJ.
Autoevaluacin: Como ejercicio aclaratorio supongamos el siguiente diseo (psimo) para estudiar
tres factores, dos a 2 niveles y una a 3 niveles, en 6 pruebas
A B C
1 1 1
1 2 2
1 3 2
2 1 1
2 2 2
2 3 2
)Son ortogonales A y B? )Lo son A y C? )Lo son B y C?
Cuando los efectos simples de todos los factores estudiados son ortogonales, la estimacin ai
de cada efecto simple i de un factor se obtiene simplemente como la diferencia entre la media
de los resultados obtenidos cuando el factor est al nivel i y la media general de todos los
resultados. Las estimaciones as obtenidas para los efectos simples de un factor no vienen
afectadas por los posibles efectos simples de los restantes factores, lo que permite por tanto
"separar" los efectos simples de todos los factores estudiados.
As en el caso de un plan con dos factores tenemos:
definicin del efecto simple i i = mi. - m..
estimacin del efecto simple i ai = xi. x..
donde xi es la media de los resultados obtenidos en las pruebas en las que FI estaba al nivel i,
y x.. es la media de todos los resultados del estudio.
Dados tres factores, FI FJ y FK, la interaccin FIxFJ entre los dos primeros se dice que es
ortogonal al efecto simple del tercer factor FK si en cada una de las IxJ posibles combinaciones
entre los dos primeros factores aparecen en la misma proporcin cada una de las K variantes
de FK. Si se verifica esta condicin es posible estimar los efectos ()ij asociados a la interac-
cin FIxFJ sin que dichas estimaciones vengan afectadas por la existencia de posibles efectos
simples de FK
En el caso de 3 factores las estimaciones (ab)ij de los efectos correspondientes a la interaccin
entre los dos primeros sern:
definicin del efecto ()ij : ()ij = mij - (m.. + i + j)
estimacin del efecto ()ij : (ab)ij = xij - ( x.. + ai + bj) = xij - xi. - x.j + x..
donde xij es la media de los resultados obtenidos en las pruebas en las que FI estaba al nivel i
y FJ al nivel j y x.j es la media de los resultados obtenidos en las pruebas en las que FJ ha
estado al nivel j
Es posible tambin definir la ortogonalidad entre interacciones dobles o de orden superior. Si
existe esta ortogonalidad es posible estimar los efectos asociados a una de las interacciones
(usando una frmula anloga a la que acabamos de exponer) sin que las estimaciones vengan
afectadas por la existencia de otras posibles interacciones.
Captulo 10. Anlisis de la varianza
10.7.3 Predicciones
Cuando el objetivo de un estudio es optimizar un determinado proceso, una vez seleccionada a
partir de los resultados obtenidos la combinacin ptima de variantes de los distintos factores,
es importante en muchos casos predecir cmo sern los resultados que se obtendrn en
dichas condiciones. Por ejemplo, si se seleccionan las variantes i de FI, j de FJ y k de FK, se
trata de estimar la media mijk correspondiente a dicho tratamiento.
La prediccin se lleva a cabo adicionando a la media general obtenida los valores estimados
de los efectos correspondientes que hayan resultado significativos. As, si en el caso de 3
factores hubieran resultado significativos los 3 efectos simples y la interaccin entre los dos
primeros, la prediccin sera
mijk x.. + ai + bj + ck + (ab)ij
donde los efectos ai, bj, ck y (ab)ij se estiman por las frmulas vistas en 10.7.2
Nota: aunque un efecto simple no resulte significativo, conviene incluir la estimacin del efecto
correspondiente en la prediccin en el caso de que s que sea significativa una interaccin en la
que intervenga dicho factor.
La varianza prevista para el tratamiento considerado se estima, como ya hemos sealado, a
partir del CMresid, a no ser que existan efectos significativos sobre la dispersin, en cuyo caso
habr que predecir la varianza correspondiente a partir de los resultados del Anova sobre los
cuadrados de los residuos, siguiendo un proceso similar al realizado para predecir la media.
Nota: en la prediccin de la varianza es aconsejable corregir la varianza as obtenida
multiplicndola por el factor N/gl, donde N es el nmero total de datos del estudio y gl son los
grados de libertad residuales del Anova del estudio sobre medias.
10.8 TRABAJOS DE LABORATORIO
10.8.1 Ejercicios
1 - Reproducir los resultados recogidos en el apartado 10.3 relativos al estudio
de las diferencias entre los equilibrados dinmicos de los cigeales de 3
proveedores.
2 - La tcnica del Anova tambin puede utilizarse en los problemas de
comparacin de dos poblaciones vistos en el captulo 9. Para comprobarlo
comparar mediante un Anova las medias de las suciedades obtenidas con el
cap bajado o levantado. Comprobar que el nivel de significacin obtenido para
la F en el Anova es exactamente el mismo que se obtuvo para la t de Student
al analizar la misma hiptesis con la opcin de comparar dos poblaciones
3 - Para estudiar la fiabilidad de ciertos mdulos electrnicos, destinados a la
industria del automvil, se someten a un envejecimiento acelerado durante 100
horas a determinada temperatura T, midindose posteriormente como
caracterstica significativa un determinado parmetro elctrico (intensidad de
corriente, que circula entre dos puntos, obtenida aplicando un determinado vol-
taje) cuyos valores aumentan con el deterioro.
Captulo 10. Anlisis de la varianza
Para analizar la influencia de la temperatura T sobre el resultado de la prueba
se ensayaron 20 mdulos, cuatro a cada una de las temperaturas: 201C,
401C, 601C, 801C y 1001C. Los resultados obtenidos se recogen en la
siguiente tabla:
201C 401C 601C 801C 1001C
15 17 23 28 45
18 21 19 32 51
13 11 25 34 57
12 16 22 31 48
a) - Realizar mediante Statgraphics un Anova de los resultados para estudiar si
la temperatura de la prueba afecta al valor medio de la intensidad de corriente
obtenida.
b) - Reproducir manualmente el clculo de la suma de cuadrados del efecto de
la temperatura.
c) - Descomponer dicha suma de cuadrados en sus componentes lineal,
cuadrtica y resto, estudiando la significacin de las mismas e interpretando los
resultados obtenidos.
d) - Analizar adicionalmente mediante Statgrahics si la temperatura de la
prueba afecta a la varianza de las intensidades obtenidas.
10.8.2 Evaluacin
Se desea mejorar la resistencia a la torsin de las adhesiones de componentes
electrnicos sobre placas. Se estudiaron dos tipos de pegamentos (A y B) y
tres temperaturas de curado (601C, 801C y 1001C) analizndose 2
componentes para cada uno de los 6 tratamientos posibles y obtenindose los
siguientes resultados
601C 801C 1001C
Pegamento A 2.5 2.8 3.8 3.4 4.0 4.2
Pegamento B 1.6 1.2 3.2 2.8 4.3 4.7
a) Realizar un Anova, incluyendo los dos factores y su posible interaccin.
Constatar los efectos que resultan significativos
b) A partir del grfico de medias LSD para la temperatura comprobar que el
efecto de este factor es simplemente lineal.
c) A partir del grfico de la interaccin constatar que sta consiste
fundamentalmente en que el efecto lineal de la temperatura es ms marcado
con el Pegamento B que con el A.
d) Constatar analticamente los resultados anteriores obteniendo las SC
asociadas al efecto lineal de TCURADO y a su interaccin con PEGAMENTO y
estudiando su significacin estadstica
Captulo 10. Anlisis de la varianza
10.A AUTOEVALUACIONES RESUELTAS Y EJERCICIOS
10.A.1 Respuesta a algunas Autoevaluaciones
Autoevaluacin: Descomponer en sus componentes calidad*(efecto lineal dimetro) y
calidad*(efecto cuadrtico dimetro) la interaccin del ejemplo estudiado en 10.4.3, y estudiar
la significacin de las mismas.
La tabla resumen obtenida en el Anova fue
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:calidad 112.675 1 112.675 380.08 0.0000
B:diametr 10.4132 2 5.20658 17.56 0.0000
INTERACTIONS
AB 1.6035 2 0.80175 2.70 0.0873
RESIDUAL 7.1148 24 0.29645
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 131.807 29
--------------------------------------------------------------------------------
En la siguiente tabla se recogen los valores medios obtenidos para cada tratamiento, as como
las medias marginales para los 3 dimetros:
8 mm 16 mm 24 mm
B400SD 15.844 16.874 17.834
B500SD 12.458 13.128 13.338
media 14.151 15.001 15.586
El efecto lineal del dimetro ser -1x14.151 + 0x15.001 + 1x15.586 = +1.435
con una SC asociada SClineal = (10x1.4352/(12+02+12) = 10.296
El efecto cuadrtico del dimetro ser +1x14.151 - 2x15.001 + 1x15.586 = -0.265
con una SC asociada SCcuad = (10x(-0.265)2/(12202+12) = 0.117
(puede constatarse que 10.296 + 0.117 = 10.413 coincide con la SC total del dimetro)
Los efectos lineales del dimetro, calculados por separado para cada calidad, y sus
correspondientes SC son:
zlineal en calidad B400SD: -1x15.844 + 0x16.874 + 1x17.834 = +1.99 SC = (5x1.992)/2 = 9.900
zlineal en calidad B500SD: -1x12.458 + 0x13.128 + 1x13.338 = +0.88 SC = (5x10.882)/2 = 1.936
Con lo que la SC de la interaccin de la calidad con el efecto lineal del dimetro ser:
SCcalida*lineal = (9.90 + 1.936) - 10.296 = 1.54
La SC de la interaccin de la calidad con el efecto cuadrtico del dimetro vamos a hallarla
simplemente por diferencia:
SCcalida*cuad = SCcalida*diametro - SCcalida*lineal = 1.6035 - 1.54 = 0.0635
con lo que el cuadro resumen del Anova sera, finalmente:
--------------------------------------------------------------------------------
Captulo 10. Anlisis de la varianza
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:calidad 112.675 1 112.675 380.08 0.0000
B:diametr 10.4132 2 5.20658 17.56 0.0000
lineal 10.296 1 10.296 34.73 0.000
cuadrtico 0.117 1 0.117 0.39 0.54
INTERACTIONS
AB 1.6035 2 0.80175 2.70 0.0873
calidad*lineal 1.540 1 1.540 5.19 0.042
calidad*cuadratico 0.0635 1 0.0635 0.21 0.656
RESIDUAL 7.1148 24 0.29645
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 131.807 29
--------------------------------------------------------------------------------
Se constata que del efecto simple del dimetro, slo la componente lineal es estadsticamente
significativa. Tambin se aprecia que la componente calidad*lineal de la interaccin es
significativa para =0.05), indicando que el efecto lineal del dimetro es significativamente ms
alto para la calidad B400SD que para la B500SD
Nota: como ha sucedido en este ejemplo, es posible que un efecto no sea globalmente
significativo para un determinado riesgo de 1 especie (como sucede con la interaccin
calidad*dimetro para =0.05), pero que s que lo sea alguna de sus componentes
(generalmente la de orden ms bajo)
Autoevaluacin: en un estudio sobre el efecto de dos aditivos (el A estudiado a los niveles 0, 5 y 10
phr, y el B estudiado a los niveles 1, 2 y 3 phr) sobre la Viscosidad obtenida en espumas de
poliuretano, se utiliz un diseo 3x3 con 2 replicaciones. Las medias obtenidas en las dos pruebas
realizadas para cada uno de los 9 tratamientos fueron las siguientes (en centipoises) :
B=1 B=2 B=3
A=0 6045 5425 4500
A=5 4750 4140 3570
A=10 3330 2900 2745
El valor obtenido para la SCAxB (que puede hallarse a partir de la tabla facilitada) fue de 526356 y
el de la SCResidual (cuyo clculo exige conocer los resultados individuales de las 18 pruebas) fue de
791350.
a) Considerada globalmente )es significativa la interaccin AxB?
b) Calcular el contraste asociados a la componente LinealxLineal de la interaccin y estudiar su
significacin estadstica.
La SCresid tiene de grados de libertad glresid = (18-1) - 2 - 2 - 2x2 = 9
526356 4
Fratio (A B) 1.50 que, con un p-value = 0.28, no es significativa
791350 9
Calculamos las componentes lineales Zi,lin del efecto de B para cada nivel de A
Efecto lineal de B
Captulo 10. Anlisis de la varianza
B=1 B=2 B=3 (-1 0 1)
A=0 6045 5425 4500 ZA=0,lin = -1545
A=5 4750 4140 3570 ZA=5,lin = -1180
A=10 3330 2900 2745 ZA=10,lin = -585
y hallamos el efecto lineal de A sobre el efecto lineal de B (componente lineal*lineal de la
interaccin)
Zlineallineal = -1x(-1545) + 0x(-1180) + 1x(-585) = 960
nZ 2 2x9602
cuya SC asociada es SClineallineal = 460800
i
2
j
2
2x2
460800 /1
y cuya Fratio es 5.24 (1 y 9 gl) con un p-value de 0.048 (significativo para =0.05)
791350 / 9
10.A.2 Ejercicios adicionales
En un estudio para comparar los rendimientos medios de 4 variedades de trigo se siembran N
parcelas con cada variedad.
- La probabilidad de concluir que hay diferencias significativas, cuando realmente los
rendimientos medios son iguales en las 4 poblaciones estudiadas: aumenta, disminuye
o se queda igual al aumentar el nmero N de parcelas?
- La probabilidad de concluir que no hay diferencias entre las variedades, cuando
realmente los rendimientos medios son distintos en las 4 poblaciones estudiadas:
aumenta, disminuye o se queda igual al aumentar el nmero N de parcelas?
- Si las 4 poblaciones son idnticas: el CMvariedad resultar en promedio mayor, menor o
igual que el residual?
En una experiencia para analizar la influencia de la variedad y de la altura de corte sobre el
rendimiento de sorgo forrajero se ensayaron 4 alturas y 3 variedades, cultivndose 3 parcelas
(elegidas al azar de un total de 36) para cada una de las 12 combinaciones posibles de
variedad por altura. Los resultados obtenidos, expresados en Tms. de forraje por Ha y ao, se
recogen en la tabla siguiente:
VARIEDAD A VARIEDAD B VARIEDAD C
68 52 66
60 55 72
Altura 0.75 62 61 68
91 62 83
75 67 82
Altura 1 86 60 78
90 64 72
98 75 66
Altura 1.25 94 74 74
105 68 61
Altura 1.50 95 85 58
Captulo 10. Anlisis de la varianza
99 83 58
a) Calcular el cuadro resumen del ANOVA y estudiar qu efectos son significativos.
b) Descomponer el efecto de la altura en sus componentes lineal, cuadrtica y cbica y
estudiar la significacin de las mismas.
c) Descomponer la interaccin Variedad x Altura en sus 3 componentes (Variedad x lineal,
Variedad x cuadrtica y Variedad x cbica) y estudiar la significacin de cada una de ellas.
d) Redactar de forma sinttica y precisa las conclusiones prcticas del estudio.