Anova
Anova
6. ANOVA
Decimos que dos o más variables aleatorias son homocedásticas si presentan la misma disper-
sión o variabilidad. La homocedasticidad implica por tanto homogeneidad de varianzas. Las
gráficas de densidad de dos variables aleatorias normales homocedásticas son idénticas, salvo
traslaciones a lo largo del eje de abscisas.
x x
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
ANOVA
Consideremos k > 1 poblaciones normales independientes, X1 ∼ N(μ1, σ), …, Xk ∼ N(μk, σ). En ocasiones
interesa contrastar si todas ellas se distribuyen o no del mismo modo. Formalmente:
H0 : μi = μj ∀i, j ∈ {1,…, k}
{ H1 : ∃i, j ∈ {1,…, k} | μi ≠ μj {H1 :
H0 : todas las medias son iguales: μ1 = ⋯ = μk
⟺
al menos dos medias son distintas
Si tratamos por igual las k poblaciones, sin hacer distinciones por nivel o tratamiento, podemos
construir una macro-muestra de tamaño N = n1 + ⋯ + nk formada por la unión de todas las
tomadas, X11, …, X1nX, …, Xk1, …, Xknk, y calcular la media muestral total como
k ni k
1 1
N∑ ∑ ∑
X̄ = Xij = ni X̄i
i=1 j=1
N i=1
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
SSE y SSA
Definimos la suma de cuadrados de los errores o SSE (sum of squared errors) como
k ni
∑ ∑ ( ij i) [ 11 1 ] [ k1 k ]
2
2 2 2 2
SSE = X − X̄ = (X − X̄ 1 ) + ⋯ + (X1n1 − X̄ ) + ⋯ + (X − X̄ k ) + ⋯ + (Xknk − X̄ )
i=1 j=1
( 1 ) X1 ( k ) Xk
2̂ 2̂
n −1 S n −1 S
Si en la expresión de SSA sustituimos las Xij por X̄i y las X̄i por X̄ , obtenemos la expresión de lo que
llamamos suma de cuadrados de los tratamientos o SSA (sum of squared errors of all treatments):
k
ni (X̄i − X̄) = [(X̄1 − X̄)2 + ⋯ + (X̄1 − X̄)2] + ⋯ + [(X̄k − X̄)2 + ⋯ + (X̄k − X̄)2]
2
∑
SSA =
i=1
n1(X̄1 − X̄) nk(X̄k − X̄)
2 2
k ni k ni k ni 2 k 2 k 2 ni 2 2
1 1 1 σ σ σ σ σ
σ2 = 2 ni = 2 (n1 + ⋯ + nk) = 2 N =
N∑ ∑ ∑∑ ∑∑ ∑∑ ∑
2.2. Var[X̄] = Var Xij = 2 Var[Xij] = 2 1== 2
i=1 j=1
N i=1 j=1
N i=1 j=1
N i=1 j=1
N i=1
N N N
2
σ
[(X̄ − μi) ] = N + (μi − μ̄) ∀i ∈ {1,…, k}. Sumando y restando μ̄ dentro del paréntesis y desarrollando:
2 2
3.
0 2
σ
[(X̄ − μ̄ + μ̄ − μi) ] = [(X̄ − [X̄]) + (μ̄ − μi) + 2 (X̄ − μ̄) (μ̄ − μi)] = Var[X̄] + (μi − μ̄) − 2 (μi − μ̄) [X̄ − μ̄] = N + (μi − μ̄)
2 [2.1] 2 2 2 [2.2] 2
σ2
4. Cov [X̄i, X̄] = ∀i ∈ {1,…, k}. Teniendo en cuenta que X̄1, …, X̄k son independientes, ∀i ≠ j Cov [X̄i, X̄j] = 0, luego
N
k nj k
1 1 1 k 1 1 σ 2
σ 2
njCov[X̄i, X̄j] = (0 + ⋯ + niVar[X̄i] + ⋯ + 0) = ni
[1]
N∑ ∑ ∑ ∑
Cov[X̄i, X̄] = Cov X̄i, Xjl = Cov X̄i, nj X̄j = =
j=1 l=1
N j=1
N j=1
N N ni N
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
𝔼
[SSA]
Calcularemos [SSA] a partir del siguiente desarrollo, construido sobre los valores de las distintas μi:
∑i=1 ni (X̄i − X̄) = ∑i=1 ni (X̄i − μi + μi − X̄) = ∑i=1 ni [(X̄i − μi) + (X̄ − μi) − 2 (X̄i − μi) (X̄ − μi)] =
k 2 k 2 k 2 2
SSA =
∑i=1 ni (X̄i − μi) + ∑i=1 ni (X̄ − μi) − 2 ∑i=1 ni (X̄i − μi) (X̄ − μi)
k 2 k 2 k
=
A B C
k k k k k
[∑ ]
2
σ
ni (X̄i − μi) [( i i ) ]
2 [1] 2 [1] 2 2
∑ ∑ i ∑ i ni ∑
[A] = = ni X̄ − [ X̄ ] = n Var[ X̄ i] = n = σ 1 = kσ
i=1 i=1 i=1 i=1 i=1
k k k k k k
[∑ ]
2
σ σ
ni (X̄i − μi) (X̄ − μi) = [ i i ] ∑ i( ) ∑ i
[4] 2
∑ ∑
[C] = ni ( X̄ − μi)( X̄ − μ ) = n [X̄ i − μi] [ X̄ − μi] + Cov[ X̄ i , X̄] = n = ni = σ
i=1 i=1 i=1 i=1
N N i=1
Análogamente, a partir del estadístico SSA podemos calcular la suma de cuadrados media de
los tratamientos o MSA:
SSA
MSA =
k−1
A no ser que el segundo término se anule, algo que sucede si y sólo si μ1 = ⋯ = μk , esto es, si y
sólo si H0 es cierta. Ésta es la clave del contraste ANOVA.
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
𝔼
Proposición 1
A) Denotando N = n1 + ⋯ + nk:
N−k 2
MSE ∼ χN−k
σ 2
χn21−1 χn2k−1
obtenemos, despejando, una expresión alternativa para SSA, análoga a la que obtuvimos para S 2 en el Tema 4:
k
ni (X̄i − μ̄) − N (X̄ − μ̄) .
2 2
∑
SSA =
i=1
Por otra parte, al verificarse H0, se tiene que μ1 = ⋯ = μk = μ̄ y por tanto la Propiedad [1] puede reescribirse como
X̄i ∼ N(μ̄, σ/ ni ) ∀i ∈ {1,…, k}.
∑ ( σ/ ni ) ( σ/ N )
1 1 N X̄i − μ̄ X̄ − μ̄
( )
2 2 2 2 2
∑
SSA = n (
i iX̄ − μ̄) − X̄ − μ̄ = − ∼ χk − χ1 ∼ χk−1
σ 2 σ i=1
2 σ 2
i=1
N(0,1)2 N(0,1)2
Finalmente:
1 k − 1 SSA k−1 2
SSA = = MSA ∼ χk−1 ◼
σ 2 σ k−1
2 σ 2
C) Por la propia definición de la distribución F de Fisher como el cociente de dos distribuciones chi cuadrado
independientes, divididas entre sus respectivos grados de libertad:
k−1
2 MSA
χk−1 σ2
k − 1 k − 1 MSA
Fk−1,N−k ∼ 2 ∼ = ◼
χN−k N−k MSE
MSE
N−k σ2
N−k
Sin más que considerar la ratio (cociente) entre los dos nuevos estimadores definidos,
MSA
T= ,
MSE
obtenemos de manera indirecta un estadístico de contraste suficiente para decidir, en base a las
diferentes muestras extraídas, si las k poblaciones comparten o no la misma distribución:
N→∞
Bajo la asunción de que H0 es cierta, T ∼ Fk−1,N−k y por tanto [T ] = (N − k)/(N − k − 2) → 1
mse { ≫ 1
msa ≈ 1 si H0 : μ1 = ⋯μk = es cierta
t0 = =
en otro caso
Para resolver el contraste, fijado un nivel de significación 0 < α ≪ 1:
( mse )
msa
R0 = [0, fk−1,N−k,α], R1 = (fk−1,N−k,α, + ∞), p = p Fk−1,N−k >
sumas medias
g.l. f p-valor
cuadráticas cuadráticas
Proposición 2. Bajo las mismas consideraciones que la Proposición 1, ∀i, j ∈ {1,…, k}, i < j, el estadístico
X̄i − X̄j − (μi − μj)
T= ∼ tN−k
( ni nj )
1 1
MSE +
σ2 σ2 1 1
+ σ +
Z ni nj ni nj X̄i − X̄j − (μi − μj)
tN−k ∼ ∼ = = ◼
χN−k
2 N−k MSE
( ni nj )
MSE 1 1
N−k σ2 σ MSE +
N−k
La gran ventaja es que el estadístico de contraste T que resuelve todos los contrastes establecidos (que
podrían ser muchos) será el definido en la Proposición 2 anterior, el cual sigue la misma distribución tN−k
independientemente de las poblaciones i y j que enfrentemos en cada caso.
Dado un nivel de significación 0 < α ≪ 1, basta por tanto definir un único par de regiones
R0 = [−tN−k,α/2, tN−k,α/2] R1 = (−∞, − tN−k,α/2) ∪ (tN−k,α/2, + ∞)
También se podría hallar el p-valor para cada par de muestras: p(i, j) = 2p (tN−k > | t0(i, j) | ). Pero en este
caso, dado el alto número de contrastes planteados, es preferible usar siempre el Método 1
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Seminario. Hoja 6
Hoja 6· Ej. 1: Interesa comparar la rapidez con que actúan tres analgésicos. Para ello, se distribuyen N = 18
pacientes al azar en k = 4 grupos de tamaños n1 = 3 , n2 = n3 = n4 = 5 . En el momento en que el paciente
manifiesta dolor de cabeza, se le administra el fármaco y se mide el tiempo transcurrido (en unidades de 15
minutos) hasta que el dolor desaparece. Al grupo 1 se le administra un placebo y al resto, distintos fármacos,
obteniéndose los tiempos que se recogen en la siguiente tabla:
<latexit sha1_base64="wV50qjPUUaiUk7uze9M2Ui8JdIc=">AAACxHicdZFJT8MwEIWdsJetwJGLRQXiVCW0LEcWCXEEiQJSU1WOO02tOk7wglSF8iO5If4MTkjZedGTnmY+a2JPmHKmtOe9OO7U9Mzs3PxCZXFpeWW1urZ+oxIjKbRowhN5FxIFnAloaaY53KUSSBxyuA2HZ3n/9gGkYom41qMUOjGJBOszSrQtdauvQQgRE5kmoeFEjjP6+Egn37iCC0XSpAn28Q4+tD6wPsKfCgIcDPL53+g9SzVLer/M+//SDdttfFAT/0c3Szr3ZE6jIAIQvY+7dKs1r+4Vwr+DX4YaKnXZrT4HvYSaGISmnCjV9r1UdzIiNaMcxpXAKEgJHZII2jYKEoPqZMUSxnjbVnq4n0hroXFR/XoiI7FSozi0ZEz0QP3s5cW/em2j+0edjInUaBD0fVDfcKwTnG8U95gEqvnIBkIls/+K6YBIQrXde8U+gv/zyr/DzV7dP6j7V83a8Wn5HPNoE22hXeSjQ3SMLtAlaiHqnDiRkzr37rnLXeWad9R1yjMb6Jvcpze+uMKu</latexit>
grupo 1 7 6 8
Asumiendo normalidad, independencia y homocedasticidad, y escogiendo un
grupo 2 4 6 5 4 5
grupo 3 3 4 5 5 5 nivel de significación α = 0.05, razonar si los analgésicos producen algún alivio y,
grupo 4 3 3 2 4 3 en caso afirmativo, cuál o cuáles son más efectivos.
1
n3
1 + [02 + 02 + 12 + 12 + 02] = 2.0 + 2.8 + 3.2 + 2.0 = 10.0
x3j = (3 + 4 + 5 + 5 + 5) = 4.4
n3 ∑
x̄3 =
j=1
5 k
ni (x̄i − x̄) = n1 (x̄1 − x̄) + n2 (x̄2 − x̄) + n3 (x̄3 − x̄) + n4 (x̄4 − x̄) =
2 2 2 2 2
∑
n4 ssa =
1 1
n4 ∑
x̄4 = x4j = (3 + 3 + 2 + 4 + 3) = 3.0 i=1
j=1
5 = 3 ⋅ 2.44442 + 5 ⋅ 0.24442 + 5 ⋅ 0.15562 + 5 ⋅ 1.55562 ≃ 30.4444
Rechazamos H0 : μ1 = μ2 = μ3 = μ4
R0
R1
Luego los analgésicos surten efecto 3.34 ≃ f3,14,0.05 t0 ≃ 14.21 x
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Seminario. Hoja 6
Hoja 6· Ej. 2: Queremos comparar el efecto de cuatro plaguicidas distintos. Para ello planteamos un análisis
ANOVA con k = 4 niveles respecto de las variables Xi: «porcentaje de hortalizas dañadas al usar el plaguicida i»,
∀i ∈ {1,2,3,4}. Tomamos muestras de tamaños n1 = 13, n2 = 9, n3 = 7, n4 = 10 . Completar los campos vacíos de la
siguiente tabla del análisis de la varianza y razonar si los efectos de los plaguicidas difieren significativamente.
sumas medias
g.l. f p-valor
cuadráticas cuadráticas
1. A partir de los datos proporcionados, lo más fácil es co- 3. La evaluación del estadístico de contraste se calcula
menzar rellenando la columna de los grados de libertad: como el cociente entre las medias cuadráticas:
k =4⇒k−1=3 msa
t0 = = 1.1190/2.0751 ≃ 0.5393
mse
N = n1 + n2 + n3 + n4 = 13 + 9 + 7 + 10 = 39 ⇒ N − k = 39 − 4 = 35
2. Los grados de libertad establecen la relación entre las 4. Para hallar el p-valor sólo hay que evaluar en t0 la distribu-
sumas y medias cuadráticas: ción F de Fisher de (k − 1, N − k) = (3, 35) grados de libertad:
msa = ssa/(k − 1) = 3.3571/3 = 1.1190 p = p(Fk−1,N−k > t0) = p(F3,35 > 0.5393) ≃ 0.6585
mse = sse/ (N − k) ⇒ sse = (N − k) mse = 35 ⋅ 2.0751 = 72.6285
sumas medias
g.l. f p-valor
cuadráticas cuadráticas
5. Dado el elevadísimo p-valor obtenido, podemos admitir que no existen 2.8742 ≃ f3,35,0.05
diferencias significativas entre los efectos producidos por los cuatro
plaguicidas testados; en otras palabras:
no existen evidencias para rechazar H0 : μ1 = μ2 = μ3 = μ4 t0 ≃ 0.54 1 x
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM