Anlisis de Covarianza
En el Anlisis de la Covarianza (ANCOVA) se combinan dos tcnicas: Anlisis de Varianza y
Regresin Lineal. Se toman en cuenta tres tipos de variables: las variables independientes que se
pueden controlar, las variables independientes que no son controlables (covariables) y la variable
de respuesta sobre la que actan todas las variables en consideracin. El objetivo es estudiar la
influencia de las variables controlables sobre la respuesta eliminando el efecto de las variables que
no pueden ser controladas.
Ejemplos:
a) Estudiar la relacin entre los trabajadores (variable independiente) y su rendimiento
(variable dependiente) descartando el efecto de su horario de trabajo (covariable).
b) Estudiar la relacin entre caloras consumidas (covariable) y edad (covariable) sobre el
incremento de peso (respuesta) por pas (efecto) en distintas pocas del ao (bloque).
c) Estudiar la relacin entre el nmero de plantas (covariable) y rendimiento por parcela
(variable dependiente) por tipo de suelo (tratamientos).
El modelo ANCOVA consta de dos partes, un modelo de anlisis de varianza y uno de regresin:
=
+ +
+ ,
donde representa la media general, , ,
los efectos de los factores,
es el modelo de
regresin lineal de las covariables ,,
y el error aleatorio en cada observacin, el cual
supondremos que tiene una distribucin normal con media cero, varianza constante y entre
observaciones estos errores son independientes.
Se deben cumplir algunos supuestos cuando se trabaja con covariables:
a) Independencia entre factores y covariables.
b) Las covariables deben poseer una relacin lineal con la variable de respuesta.
c) Las pendientes de los diferentes grupos de los factores deben ser iguales o casi iguales
(homogeneidad de las pendientes).
Para verificar el primer supuesto basta realizar un ANOVA tomando las covariables como variables
dependientes, los factores como independientes y obtener que stos no sean significativos. Para
el segundo supuesto se realiza un anlisis de regresin lineal entre las covariables y la respuesta y
debe obtenerse que no exista curvatura. Por ltimo, para verificar el tercer supuesto, no deben
existir interacciones entre factores y covariables.
Ejemplo.- Con el fin de comparar el incremento del dimetro a la altura del pecho (DAP) en un
perodo de 5 aos para tres especies de algarrobo, se realiz un estudio observacional sobre un
total de 39 rboles, seleccionados al azar de un monte en el que estaban representadas las
especies P. nigra, P. flexuosa y P. chilensis. Adems se cont el nmero de individuos de
algarrobos (sin distincin de especie) que crecan en un radio de 15 metros (vecinos). Los
resultados fueron:
P. Flexuosa
P. Nigra
P. Chilensis
Incremento Vecinos Incremento Vecinos Incremento Vecinos
14.53
3
32.65
0
14.11
3
25.03
1
17.08
3
3.51
5
14.88
3
11.43
4
19.52
2
5.96
5
16.57
3
4.92
5
20.38
2
12.98
4
14.97
3
14.76
3
24.07
2
20.88
2
23.72
1
26.91
1
6.01
5
14.66
3
16.74
3
10.32
4
11.97
4
10.72
4
7.71
5
14.86
3
23.72
2
19.36
2
7.88
5
14.85
3
Es significativa la diferencia en el crecimiento de las tres especies?
Para analizar el ejemplo en MINITAB, primero capturamos los datos:
Elegimos en la parte superior Estadsticas -> ANOVA -> Modelo lineal general
En el men de Modelo lineal general, seleccionamos como variable de respuesta al Incremento,
como modelo la variable Especie:
Para agregar la(s) covariable(s) seleccionamos Covariables y ah elegimos la variable Vecinos:
Aceptamos y se obtiene el siguiente resultado:
Modelo lineal general: Incremento vs. Especie
Factor
Especie
Tipo
fijo
Niveles
3
Valores
Chilensis, Flexuosa, Nigra
Anlisis de varianza para Incremento, utilizando SC ajustada para pruebas
Fuente
Vecinos
Especie
Error
Total
GL
1
2
28
31
SC Sec.
1392.17
49.96
16.70
1458.82
S = 0.772181
Trmino
Constante
Vecinos
SC Ajust.
1297.89
49.96
16.70
R-cuad. = 98.86%
Coef
30.6278
-4.9583
SE Coef
0.3492
0.1063
CM Ajust.
1297.89
24.98
0.60
F
2176.71
41.89
P
0.000
0.000
R-cuad.(ajustado) = 98.73%
T
87.72
-46.66
P
0.000
0.000
Observaciones inusuales de Incremento
Obs
14
22
Incremento
24.0700
3.5100
Ajuste
22.4342
4.9851
EE de
ajuste
0.2469
0.2793
Residuo
1.6358
-1.4751
Residuo
estndar
2.24 R
-2.05 R
R denota una observacin con un residuo estandarizado grande.
Agrupar informacin utilizando el mtodo de Tukey y una confianza de 95.0%
Especie
Nigra
Chilensis
Flexuosa
N
12
12
8
Media
17.2
14.6
14.6
Agrupacin
A
B
B
Las medias que no comparten una letra son significativamente diferentes.
Se concluye que existen diferencias significativas entre las diferentes especies (F=41.89, p=0.000),
siendo la especie F. Nigra ligeramente superior, en dimetro, a las especies F. Chilensis y F.
Flexuosa, las cuales tienen un dimetro similar (utilizando el mtodo de Tukey).
La covariable Vecinos tambin influye en el dimetro (F=2176.71, p=0.000).
Observemos el resultado en el caso en que no se hubiera considerado la covariable:
Modelo lineal general: Incremento vs. Especie
Factor
Especie
Tipo
fijo
Niveles
3
Valores
Chilensis, Flexuosa, Nigra
Anlisis de varianza para Incremento, utilizando SC ajustada para pruebas
Fuente
Especie
Error
Total
GL
2
29
31
SC Sec.
144.24
1314.59
1458.82
S = 6.73280
SC Ajust.
144.24
1314.59
R-cuad. = 9.89%
CM Ajust.
72.12
45.33
F
1.59
P
0.221
R-cuad.(ajustado) = 3.67%
Observaciones inusuales de Incremento
Obs
9
Incremento
32.6500
Ajuste
17.4758
EE de
ajuste
1.9436
Residuo
15.1742
Residuo
estndar
2.35 R
R denota una observacin con un residuo estandarizado grande.
Agrupar informacin utilizando el mtodo de Tukey y una confianza de 95.0%
Especie
Nigra
Flexuosa
Chilensis
N
12
8
12
Media
17.5
16.7
12.8
Agrupacin
A
A
A
Las medias que no comparten una letra son significativamente diferentes.
Parecera que la especie no es determinante en el dimetro, adems de que ha aumentado la
variabilidad de los datos.
Recordemos que al utilizar un modelo ANCOVA es necesario verificar tres supuestos:
a) Para verificar la linealidad se utilizar la siguiente hiptesis estadstica:
: =
vs.
es decir, si la relacin entre la variable respuesta (incremento) y la covariable (vecinos) es
lineal en contraste con que esta relacin no es lineal. Realizando un anlisis de regresin
en MINITAB se obtiene:
Anlisis de regresin: Incremento vs. Vecinos
La ecuacin de regresin es
Incremento = 30.8 - 4.99 Vecinos
Predictor
Constante
Vecinos
Coef
30.8385
-4.9916
S = 1.49059
SE Coef
0.6651
0.1994
T
46.37
-25.03
R-cuad. = 95.4%
P
0.000
0.000
R-cuad.(ajustado) = 95.3%
Anlisis de varianza
Fuente
Regresin
Error residual
Total
GL
1
30
31
SC
1392.2
66.7
1458.8
CM
1392.2
2.2
F
626.58
P
0.000
Observaciones poco comunes
Obs
9
14
Vecinos
0.00
2.00
Incremento
32.650
24.070
Ajuste
30.839
20.855
EE de
ajuste
0.665
0.338
Residuo
1.811
3.215
Residuo
estndar
1.36 X
2.21R
R denota una observacin con un residuo estandarizado grande.
X denota una observacin cuyo valor X le concede gran apalancamiento.
No hay evidencia de falta de ajuste (P >= 0.1).
Como no hay evidencia de falta de ajuste (p>0.1), entonces no existe evidencia suficiente
para rechazar la hiptesis nula y podemos considerar que la relacin es lineal.
b) Para verificar la independencia entre factores y covariables, en este caso, realizamos un
ANOVA utilizando la covariable vecinos como respuesta, el resultado es el siguiente:
ANOVA unidireccional: Vecinos vs. Especie
Fuente
Especie
Error
Total
GL
2
29
31
S = 1.349
SC
3.08
52.79
55.88
CM
1.54
1.82
F
0.85
R-cuad. = 5.52%
P
0.439
R-cuad.(ajustado) = 0.00%
Se observa que la especie no influye en el nmero de rboles vecinos, por lo cual se puede
considerar que la covariable vecinos y el factor especie son independientes.
c) Podemos utilizar la grfica de interacciones para verificar el tercer supuesto:
Grfica de interaccin para Incremento
Medias de datos
Chilensis
Flexuosa
Nigra
30
20
Vecinos
Vecinos
0
1
2
3
4
5
10
Especie
Chilensis
Flexuosa
Nigra
30
20
Especie
10
Se observa que no existen interacciones entre la covariable y el factor.
Por ltimo se deben verificar los supuestos del modelo (normalidad, homocedasticidad e
independencia):
Grficas de residuos para Incremento
Grfica de probabilidad normal
vs. ajustes
2
90
Residuo
Porcentaje
99
50
10
1
0
-1
1
-2
-1
0
Residuo
10
30
vs. orden
Residuo
Frecuencia
Histograma
20
Valor ajustado
4
2
0
-1
0
-1.6
-0.8
0.0
Residuo
0.8
1.6
8 10 12 14 16 18 20 22 24 26 28 30 32
Orden de observacin
Grficamente no se observa evidencia en contra de los supuestos, por lo tanto nuestro
anlisis es vlido.