0% encontró este documento útil (0 votos)
133 vistas20 páginas

Anova

Cargado por

qzdkdsf6fn
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
133 vistas20 páginas

Anova

Cargado por

qzdkdsf6fn
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

BIOESTADÍSTICA

6. ANOVA

Carlos Calvo Tapia


Unidad de Biomatemática
Facultad de Ciencias Biológicas
Universidad Complutense de Madrid
2024
Homocedasticidad

Decimos que dos o más variables aleatorias son homocedásticas si presentan la misma disper-
sión o variabilidad. La homocedasticidad implica por tanto homogeneidad de varianzas. Las
gráficas de densidad de dos variables aleatorias normales homocedásticas son idénticas, salvo
traslaciones a lo largo del eje de abscisas.

distribuciones normales distribuciones normales


homocedásticas heterocedásticas
f(x) f(x)

x x
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
ANOVA
Consideremos k > 1 poblaciones normales independientes, X1 ∼ N(μ1, σ), …, Xk ∼ N(μk, σ). En ocasiones
interesa contrastar si todas ellas se distribuyen o no del mismo modo. Formalmente:
H0 : μi = μj ∀i, j ∈ {1,…, k}
{ H1 : ∃i, j ∈ {1,…, k} | μi ≠ μj {H1 :
H0 : todas las medias son iguales: μ1 = ⋯ = μk

al menos dos medias son distintas

Si k = 2 obtenemos un contraste bilateral que ya hemos resuelto en el Tema 5, usando el estimador


X̄1 − X̄2 − (μX1 − μX2)
TμX −μX = ∼ tnX +nX −2
Sp̂ 1/nX1 + 1/nX2
1 2 1 2

Si k ≥ 3 tenemos dos opciones:


Comparar de manera exhaustiva cada par de parámetros μi, μj, i ≠ j, resolviendo contrastes 2 a 2.
Es desaconsejable, tanto por la acumulación de errores como por el enorme número de
intervenciones que conlleva: en total, k (k − 1) /2 contrastes bilaterales.
Proceder mediante lo que llamamos análisis de la varianza o ANOVA (acrónimo de analysis of
variance), una transformación que permite comparar las medias poblacionales de tres o más
distribuciones normales homocedásticas a través de un solo contraste.
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Medias por población y media de medias
Consideremos k > 2 muestras de tamaños n1, …, nk ∈ ℕ , respectivamente, tomadas sobre k pobla-
ciones normales homocedásticas e independientes:

X11, …, X1n1 ∼ X1 = N(μ1, σ) → m.a.s. sobre la población 1


⋯ ⋯
Xk1, …, Xknk ∼ Xk = N(μk, σ) → m.a.s. sobre la población k

Podemos calcular k medias muestrales independientes, una para cada población:


1
X̄1 =
n1 ( X11 + ⋯ + X1n1)

1
X̄k =
nk ( Xk1 + ⋯ + Xknk)

Si tratamos por igual las k poblaciones, sin hacer distinciones por nivel o tratamiento, podemos
construir una macro-muestra de tamaño N = n1 + ⋯ + nk formada por la unión de todas las
tomadas, X11, …, X1nX, …, Xk1, …, Xknk, y calcular la media muestral total como
k ni k
1 1
N∑ ∑ ∑
X̄ = Xij = ni X̄i
i=1 j=1
N i=1
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
SSE y SSA
Definimos la suma de cuadrados de los errores o SSE (sum of squared errors) como
k ni

∑ ∑ ( ij i) [ 11 1 ] [ k1 k ]
2
2 2 2 2
SSE = X − X̄ = (X − X̄ 1 ) + ⋯ + (X1n1 − X̄ ) + ⋯ + (X − X̄ k ) + ⋯ + (Xknk − X̄ )
i=1 j=1
( 1 ) X1 ( k ) Xk
2̂ 2̂
n −1 S n −1 S

Es un estadístico, luego podemos calcular su esperanza. Apoyándonos en la homocedasticidad


2̂ 2̂ 2
requerida, la cual garantiza que [SX1] = ⋯ = [SXk] = σ :

[SSE] = [(n1 − 1) + ⋯ + (nk − 1)] σ = (N − k) σ2 2

Si en la expresión de SSA sustituimos las Xij por X̄i y las X̄i por X̄ , obtenemos la expresión de lo que
llamamos suma de cuadrados de los tratamientos o SSA (sum of squared errors of all treatments):
k
ni (X̄i − X̄) = [(X̄1 − X̄)2 + ⋯ + (X̄1 − X̄)2] + ⋯ + [(X̄k − X̄)2 + ⋯ + (X̄k − X̄)2]
2

SSA =
i=1
n1(X̄1 − X̄) nk(X̄k − X̄)
2 2

El cálculo de su esperanza es un poco más laborioso:


k
[SSA] = (k − 1) σ + ni (μi − μ̄)
2 2

i=1
𝔼
𝔼
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Propiedades
Para obtener la expresión de la esperanza de SSA usaremos las siguientes propiedades:
1. X̄i ∼ N(μi, σ/ ni ) ∀i ∈ {1,…, k}. En efecto, dado que Xi ∼ N(μi, σ), para su media muestral: [X̄i] = μi y Var[X̄i] = σ 2 /ni
1
2. X̄ ∼ N(μ̄, σ/ N), siendo μ̄ = (n1μ1 + ⋯ + nk μk) la media ponderada de las medias poblacionales:
N
k ni k k k
1 1 1 [1] 1 1
[ ni X̄i] = ni [X̄i] = ni μi = (n1μ1 + ⋯ + nk μk) = μ̄
N∑ ∑ ∑ ∑ ∑
2.1. [X̄] = Xij =
i=1 j=1
N i=1
N i=1
N i=1
N

k ni k ni k ni 2 k 2 k 2 ni 2 2
1 1 1 σ σ σ σ σ
σ2 = 2 ni = 2 (n1 + ⋯ + nk) = 2 N =
N∑ ∑ ∑∑ ∑∑ ∑∑ ∑
2.2. Var[X̄] = Var Xij = 2 Var[Xij] = 2 1== 2
i=1 j=1
N i=1 j=1
N i=1 j=1
N i=1 j=1
N i=1
N N N
2
σ
[(X̄ − μi) ] = N + (μi − μ̄) ∀i ∈ {1,…, k}. Sumando y restando μ̄ dentro del paréntesis y desarrollando:
2 2
3.
0 2
σ
[(X̄ − μ̄ + μ̄ − μi) ] = [(X̄ − [X̄]) + (μ̄ − μi) + 2 (X̄ − μ̄) (μ̄ − μi)] = Var[X̄] + (μi − μ̄) − 2 (μi − μ̄) [X̄ − μ̄] = N + (μi − μ̄)
2 [2.1] 2 2 2 [2.2] 2

σ2
4. Cov [X̄i, X̄] = ∀i ∈ {1,…, k}. Teniendo en cuenta que X̄1, …, X̄k son independientes, ∀i ≠ j Cov [X̄i, X̄j] = 0, luego
N
k nj k
1 1 1 k 1 1 σ 2
σ 2
njCov[X̄i, X̄j] = (0 + ⋯ + niVar[X̄i] + ⋯ + 0) = ni
[1]
N∑ ∑ ∑ ∑
Cov[X̄i, X̄] = Cov X̄i, Xjl = Cov X̄i, nj X̄j = =
j=1 l=1
N j=1
N j=1
N N ni N
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
𝔼
[SSA]

Calcularemos [SSA] a partir del siguiente desarrollo, construido sobre los valores de las distintas μi:
∑i=1 ni (X̄i − X̄) = ∑i=1 ni (X̄i − μi + μi − X̄) = ∑i=1 ni [(X̄i − μi) + (X̄ − μi) − 2 (X̄i − μi) (X̄ − μi)] =
k 2 k 2 k 2 2
SSA =

∑i=1 ni (X̄i − μi) + ∑i=1 ni (X̄ − μi) − 2 ∑i=1 ni (X̄i − μi) (X̄ − μi)
k 2 k 2 k
=
A B C

k k k k k

[∑ ]
2
σ
ni (X̄i − μi) [( i i ) ]
2 [1] 2 [1] 2 2
∑ ∑ i ∑ i ni ∑
[A] = = ni X̄ − [ X̄ ] = n Var[ X̄ i] = n = σ 1 = kσ
i=1 i=1 i=1 i=1 i=1
k k k k k k

[ i=1 ] [(X̄ − μi) ] = ∑ ni ( N + (μi − μ̄) ) = N ∑ ni + ∑ ni (μi − μ̄) = σ + ∑ ni (μi − μ̄)


2 2
σ σ
ni (X̄ − μi)
2 2 [3] 2 2 2 2
∑ ∑
[B] = = ni
i=1 i=1 i=1 i=1 i=1
k k k 0 2 k k

[∑ ]
2
σ σ
ni (X̄i − μi) (X̄ − μi) = [ i i ] ∑ i( ) ∑ i
[4] 2
∑ ∑
[C] = ni ( X̄ − μi)( X̄ − μ ) = n [X̄ i − μi] [ X̄ − μi] + Cov[ X̄ i , X̄] = n = ni = σ
i=1 i=1 i=1 i=1
N N i=1

Apoyándonos en los valores de las esperanzas de estos estadísticos A, B y C:


k k
ni (μi − μ̄) − 2σ = (k − 1) σ + ni (μi − μ̄)
2 2 2 2 2 2
∑ ∑
[SSA] = [A] + [B] − 2 [C] = kσ + σ + ◼
i=1 i=1
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
MSE y MSA
A partir del estadístico SSE podemos construir la suma de cuadrados media del error o MSE . Lo
hacemos con intención de obtener un estimador insesgado de la varianza σ 2 compartida por las k
poblaciones. Por eso dividimos intencionadamente entre (N − k):
SSE SSE
MSE = =
N − k (n1 − 1) + ⋯ + (nk − 1)

Y como sabemos que [SSE] = (N − k) σ 2, entonces


1 1
( )
2 2
[MSE] = [SSE] = N − k σ = σ
N−k N−k

Análogamente, a partir del estadístico SSA podemos calcular la suma de cuadrados media de
los tratamientos o MSA:
SSA
MSA =
k−1

En este caso no podemos obtener (por poco) un nuevo estimador insesgado de σ 2:


k
1 1
ni (μi − μ̄) ≥ σ 2
2 2
k−1∑
[MSA] = [SSA] = σ +
k−1 i=1
𝔼
𝔼
𝔼
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
2
MSE y MSA como estimadores de σ

En resumen: dadas k muestras independientes extraídas sobre poblaciones normales homocedás-


ticas N(μ1, σ), …, N(μk, σ) , hemos construido dos nuevos estadísticos independientes, MSE y MSA , tales
que:
k
1
ni (μi − μ̄)
2
[MSE] = σ 2 2
k−1∑
[MSA] = σ +
i=1

MSE es un estimador insesgado de σ 2. Es decir, de la varianza que comparten las k poblaciones.


2
MSA sin embargo es un estimador sesgado de σ , ya que en general sobrestima su valor *
Cuanto más alto es el valor que toma MSA al evaluarse sobre el conjunto de las k muestras que
participan en el contraste, mayores son las discrepancias entre los valores de las medias
poblacionales, μ1, …, μk.

A no ser que el segundo término se anule, algo que sucede si y sólo si μ1 = ⋯ = μk , esto es, si y
sólo si H0 es cierta. Ésta es la clave del contraste ANOVA.
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
𝔼
Proposición 1

Proposición 1. Consideremos k > 2 muestras de tamaños n1, …, nk ∈ ℕ, respectivamente, tomadas sobre


k poblaciones normales X1, …, Xk independientes y homocedásticas de varianza σ 2 > 0.

A) Denotando N = n1 + ⋯ + nk:
N−k 2
MSE ∼ χN−k
σ 2

B) Si además se verifica H0 : μ1 = ⋯ = μk:


k−1 2
MSA ∼ χk−1
σ 2

C) Y al ser MSE y MSA estadísticos independientes, como consecuencia inmediata de A) y B) se tiene


que, bajo la asunción de que la hipótesis nula es cierta:
MSA
∼ Fk−1,N−k
MSE

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Proposición 1 (demostración)
Demostración:
A) Haciendo uso de la Proposición 1A del Tema 4 sobre cada población X1, …, Xn:
N−k N − k SSE 1 1 n1 − 1 2̂ nk − 1 2
(( 1 ) X1 ( k ) Xk)
2̂ 2̂ ̂ 2 2
MSE = = SSE = n − 1 S + ⋯ + n − 1 S = S + ⋯ + S ∼ χ = χN−k ◼
σ 2 σ N−k σ
2 2 σ 2 σ 2 X1
σ 2 Xk ( n1 −1) +⋯+( nk − 1 )

χn21−1 χn2k−1

B) Por un lado, partiendo del desarrollo


k k k k k
ni (X̄i − μ̄) = ni (X̄i − X̄ + X̄ − μ̄) = ni (X̄i − X̄) + (X̄ − μ̄) ni + 2 (X̄ − μ̄) ( X̄i − X̄) = SSA + N (X̄ − μ̄) ,
2 2 2 2 2
∑ ∑ ∑ ∑ ∑
i=1 i=1 i=1 i=1 i=1

obtenemos, despejando, una expresión alternativa para SSA, análoga a la que obtuvimos para S 2 en el Tema 4:
k
ni (X̄i − μ̄) − N (X̄ − μ̄) .
2 2

SSA =
i=1

Por otra parte, al verificarse H0, se tiene que μ1 = ⋯ = μk = μ̄ y por tanto la Propiedad [1] puede reescribirse como
X̄i ∼ N(μ̄, σ/ ni ) ∀i ∈ {1,…, k}.

Además, por la Propiedad [2]:


X̄ ∼ N(μ̄, σ/ N).
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Proposición 1 (demostración)

Dividiendo la nueva expresión para SSA entre la varianza σ 2 compartida:


2 2
k k

∑ ( σ/ ni ) ( σ/ N )
1 1 N X̄i − μ̄ X̄ − μ̄
( )
2 2 2 2 2

SSA = n (
i iX̄ − μ̄) − X̄ − μ̄ = − ∼ χk − χ1 ∼ χk−1
σ 2 σ i=1
2 σ 2
i=1

N(0,1)2 N(0,1)2

Finalmente:
1 k − 1 SSA k−1 2
SSA = = MSA ∼ χk−1 ◼
σ 2 σ k−1
2 σ 2

C) Por la propia definición de la distribución F de Fisher como el cociente de dos distribuciones chi cuadrado
independientes, divididas entre sus respectivos grados de libertad:
k−1
2 MSA
χk−1 σ2
k − 1 k − 1 MSA
Fk−1,N−k ∼ 2 ∼ = ◼
χN−k N−k MSE
MSE
N−k σ2
N−k

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Estadístico de contraste
Recordemos el contraste planteado en un inicio:
H0 : μi = μj ∀i, j ∈ {1,…, k}
{ H1 : ∃i, j ∈ {1,…, k} | μi ≠ μj

Sin más que considerar la ratio (cociente) entre los dos nuevos estimadores definidos,
MSA
T= ,
MSE
obtenemos de manera indirecta un estadístico de contraste suficiente para decidir, en base a las
diferentes muestras extraídas, si las k poblaciones comparten o no la misma distribución:
N→∞
Bajo la asunción de que H0 es cierta, T ∼ Fk−1,N−k y por tanto [T ] = (N − k)/(N − k − 2) → 1

Consecuentemente, es de esperar que la evaluación de T sobre el conjunto de k muestras valga:

mse { ≫ 1
msa ≈ 1 si H0 : μ1 = ⋯μk = es cierta
t0 = =
en otro caso
Para resolver el contraste, fijado un nivel de significación 0 < α ≪ 1:

( mse )
msa
R0 = [0, fk−1,N−k,α], R1 = (fk−1,N−k,α, + ∞), p = p Fk−1,N−k >

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


𝔼
Tabla ANOVA

Para presentar de manera unificada los resultados de un análisis de la varianza es bastante


común usar la siguiente tabla:

sumas medias
g.l. f p-valor
cuadráticas cuadráticas

tratamientos ssa k−1 msa t0 p(Fk−1,N−k > t0)

error sse N−k mse

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Proposición 2
Ahora bien, ¿qué ocurre si t0 ∈ R1, o equivalentemente, p < α? Si hay evidencias para rechazar H0, ¿qué
pares μi, μj difieren? En otras palabras, ¿qué poblaciones comparten la misma distribución y cuáles no?

Proposición 2. Bajo las mismas consideraciones que la Proposición 1, ∀i, j ∈ {1,…, k}, i < j, el estadístico
X̄i − X̄j − (μi − μj)
T= ∼ tN−k

( ni nj )
1 1
MSE +

sigue una distribución t de Student con N − k grados de libertad.


Demostración: Partiendo de la definición de la distribución t de Student y apoyándonos en la Proposición 1A,

X̄i − X̄j − (μi − μj) X̄i − X̄j − (μi − μj)

σ2 σ2 1 1
+ σ +
Z ni nj ni nj X̄i − X̄j − (μi − μj)
tN−k ∼ ∼ = = ◼
χN−k
2 N−k MSE

( ni nj )
MSE 1 1
N−k σ2 σ MSE +
N−k

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Prueba LSD de Fisher
Para determinar qué medias poblacionales difieren usaremos la llamada prueba LSD de Fisher (Least
Significant Difference), que se apoya en la Proposición anterior para establecer el siguiente protocolo:
Planteamos un total de k(k − 1)/2 contrastes bilaterales 2 a 2: para cada par (i, j) con i < j,
H0 : μi = μj H0 : μi − μj = 0
{H1 : μi ≠ μj {H1 : μi − μj ≠ 0

La gran ventaja es que el estadístico de contraste T que resuelve todos los contrastes establecidos (que
podrían ser muchos) será el definido en la Proposición 2 anterior, el cual sigue la misma distribución tN−k
independientemente de las poblaciones i y j que enfrentemos en cada caso.
Dado un nivel de significación 0 < α ≪ 1, basta por tanto definir un único par de regiones
R0 = [−tN−k,α/2, tN−k,α/2] R1 = (−∞, − tN−k,α/2) ∪ (tN−k,α/2, + ∞)

y obtener, para cada (i, j) con i < j el valor de t0 como


x̄i − x̄j
t0(i, j) =
mse (1/ni + 1/nj)

También se podría hallar el p-valor para cada par de muestras: p(i, j) = 2p (tN−k > | t0(i, j) | ). Pero en este
caso, dado el alto número de contrastes planteados, es preferible usar siempre el Método 1
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Seminario. Hoja 6
Hoja 6· Ej. 1: Interesa comparar la rapidez con que actúan tres analgésicos. Para ello, se distribuyen N = 18
pacientes al azar en k = 4 grupos de tamaños n1 = 3 , n2 = n3 = n4 = 5 . En el momento en que el paciente
manifiesta dolor de cabeza, se le administra el fármaco y se mide el tiempo transcurrido (en unidades de 15
minutos) hasta que el dolor desaparece. Al grupo 1 se le administra un placebo y al resto, distintos fármacos,
obteniéndose los tiempos que se recogen en la siguiente tabla:
<latexit sha1_base64="wV50qjPUUaiUk7uze9M2Ui8JdIc=">AAACxHicdZFJT8MwEIWdsJetwJGLRQXiVCW0LEcWCXEEiQJSU1WOO02tOk7wglSF8iO5If4MTkjZedGTnmY+a2JPmHKmtOe9OO7U9Mzs3PxCZXFpeWW1urZ+oxIjKbRowhN5FxIFnAloaaY53KUSSBxyuA2HZ3n/9gGkYom41qMUOjGJBOszSrQtdauvQQgRE5kmoeFEjjP6+Egn37iCC0XSpAn28Q4+tD6wPsKfCgIcDPL53+g9SzVLer/M+//SDdttfFAT/0c3Szr3ZE6jIAIQvY+7dKs1r+4Vwr+DX4YaKnXZrT4HvYSaGISmnCjV9r1UdzIiNaMcxpXAKEgJHZII2jYKEoPqZMUSxnjbVnq4n0hroXFR/XoiI7FSozi0ZEz0QP3s5cW/em2j+0edjInUaBD0fVDfcKwTnG8U95gEqvnIBkIls/+K6YBIQrXde8U+gv/zyr/DzV7dP6j7V83a8Wn5HPNoE22hXeSjQ3SMLtAlaiHqnDiRkzr37rnLXeWad9R1yjMb6Jvcpze+uMKu</latexit>

grupo 1 7 6 8
Asumiendo normalidad, independencia y homocedasticidad, y escogiendo un
grupo 2 4 6 5 4 5
grupo 3 3 4 5 5 5 nivel de significación α = 0.05, razonar si los analgésicos producen algún alivio y,
grupo 4 3 3 2 4 3 en caso afirmativo, cuál o cuáles son más efectivos.

1. Medias independientes por grupos: 2. Media total y sumas de cuadrados


k ni
1
n1
1 1 1 4 1 82
( 3 ⋅ 7.0 + 5 ⋅ 4.8 + 5 ⋅ 4.4 + 5 ⋅ 3.0) =
x1j = (7 + 6 + 8) = 7.0 N∑ ∑ ∑
x̄ = xij = ni x̄i = ≃ 4.5556
n1 ∑
x̄1 = N 18 18
j=1
3 i=1 j=1 i=1
n2 k ni
1 1
∑ ∑ ( ij i)
2
x2j = (4 + 6 + 5 + 4 + 5) = 4.8 [
2 2 2
] [
2 2 2 2 2
] [
2 2 2 2 2
]+

x̄2 = sse = x − x̄ = 0 + 1 + 1 + 0.8 + 1.2 + 0.2 + 0.8 + 0.2 + 1.4 + 0.4 + 0.6 + 0.6 + 0.6
n2 j=1 5 i=1 j=1

1
n3
1 + [02 + 02 + 12 + 12 + 02] = 2.0 + 2.8 + 3.2 + 2.0 = 10.0
x3j = (3 + 4 + 5 + 5 + 5) = 4.4
n3 ∑
x̄3 =
j=1
5 k
ni (x̄i − x̄) = n1 (x̄1 − x̄) + n2 (x̄2 − x̄) + n3 (x̄3 − x̄) + n4 (x̄4 − x̄) =
2 2 2 2 2

n4 ssa =
1 1
n4 ∑
x̄4 = x4j = (3 + 3 + 2 + 4 + 3) = 3.0 i=1
j=1
5 = 3 ⋅ 2.44442 + 5 ⋅ 0.24442 + 5 ⋅ 0.15562 + 5 ⋅ 1.55562 ≃ 30.4444

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Seminario. Hoja 6
3. Cuadrados medios y evaluación del 5. Prueba LSD de Fisher para testar las 6 hipótesis H0 : μi = μj, con i < j, α = 0.05
estadístico de contraste
R0 = [−tN−k,α/2, tN−k,α/2] = [−t14,0.025, t14,0.025] = [−2.1448, 2.1448]
sse 10 10
mse = = = ≃ 0.7143 R1 = (−∞, tN−k,α/2) ∪ (tN−k,α/2, + ∞) = (−∞, − 2.1448) ∪ (2.1448, + ∞)
N − k 18 − 4 14
ssa 30.4444 30.4444 Para expresar las diferencias entre medias es útil usar notación matricial:
msa = ≃ = ≃ 10.1481 k
k−1 4−1 3
0 +3.56 +4.21 +6.48
MSA x̄i − x̄j
T= ∼ Fk−1,N−k = F3,14 −3.56 0 +0.75 +3.37
(t0(i, j))i,j=1 =
k
MSE =
−4.21 −0.75 0 +2.62
msa 10.1481 mse (1/ni + 1/nj) −6.48 −3.37 −2.62 0
t0 = ≃ ≃ 14.2074
mse 0.7143 i,j=1
f(x)
Tras calcular para cada (i, j) las evaluaciones de T ∼ tN−k, analizamos:
4. Resolución del contraste ANOVA:
a) t0(2,3) ∈ R0, luego no hay evidencias para rechazar H0 : no existen
Método 1: regiones de aceptación y crítica,
diferencias significativas entre los tiempos de los grupos 2 y 3.
α = 0.05
b) t0(1,2), t0(1,3), t0(1,4), t0(2,4), t0(3,4) ∈ R1, luego rechazamos H0: i) los
R0 = [0, fk−1,N−k,α] = [0, f3,14,0.05] ≃ [0, 3.3439]
tres fármacos aceleran la desaparición del dolor de cabeza,
R1 = (fk−1,N−k,α, + ∞) = (3.3439, + ∞) ∋ t0 ya que los grupos 2, 3 y 4 se recuperan significativamente
Método 2: cálculo del p-valor antes que el 1 (control); ii) los pacientes del grupo 4 se
recuperan significativamente antes que los de los grupos 2 y 3
p = p(T > t0) = p(Fk−1,N−k > t0) = p(F3,14 > 14.2075) ≃ 0.0002

Rechazamos H0 : μ1 = μ2 = μ3 = μ4
R0
R1
Luego los analgésicos surten efecto 3.34 ≃ f3,14,0.05 t0 ≃ 14.21 x
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM
Seminario. Hoja 6
Hoja 6· Ej. 2: Queremos comparar el efecto de cuatro plaguicidas distintos. Para ello planteamos un análisis
ANOVA con k = 4 niveles respecto de las variables Xi: «porcentaje de hortalizas dañadas al usar el plaguicida i»,
∀i ∈ {1,2,3,4}. Tomamos muestras de tamaños n1 = 13, n2 = 9, n3 = 7, n4 = 10 . Completar los campos vacíos de la
siguiente tabla del análisis de la varianza y razonar si los efectos de los plaguicidas difieren significativamente.

sumas medias
g.l. f p-valor
cuadráticas cuadráticas

tratamientos 3.3571 k−1 msa t0 p (Fk−1,N−k > t0)

error sse N−k 2.0751

1. A partir de los datos proporcionados, lo más fácil es co- 3. La evaluación del estadístico de contraste se calcula
menzar rellenando la columna de los grados de libertad: como el cociente entre las medias cuadráticas:
k =4⇒k−1=3 msa
t0 = = 1.1190/2.0751 ≃ 0.5393
mse
N = n1 + n2 + n3 + n4 = 13 + 9 + 7 + 10 = 39 ⇒ N − k = 39 − 4 = 35

2. Los grados de libertad establecen la relación entre las 4. Para hallar el p-valor sólo hay que evaluar en t0 la distribu-
sumas y medias cuadráticas: ción F de Fisher de (k − 1, N − k) = (3, 35) grados de libertad:
msa = ssa/(k − 1) = 3.3571/3 = 1.1190 p = p(Fk−1,N−k > t0) = p(F3,35 > 0.5393) ≃ 0.6585
mse = sse/ (N − k) ⇒ sse = (N − k) mse = 35 ⋅ 2.0751 = 72.6285

Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM


Seminario. Hoja 6
Hoja 6· Ej. 2: Queremos comparar el efecto de cuatro plaguicidas distintos. Para ello planteamos un análisis
ANOVA con k = 4 niveles respecto de las variables Xi: «porcentaje de hortalizas dañadas al usar el plaguicida i»,
∀i ∈ {1,2,3,4}. Tomamos muestras de tamaños n1 = 13, n2 = 9, n3 = 7, n4 = 10 . Completar los campos vacíos de la
siguiente tabla del análisis de la varianza y razonar si los efectos de los plaguicidas difieren significativamente.

sumas medias
g.l. f p-valor
cuadráticas cuadráticas

tratamientos 3.3571 3 1.1190 0.5393 0.6585


error 72.6285 35 2.0751
densidad de una distribución
F de Fisher de (3, 35) g.l.
Con toda esta información, estamos en condiciones de resolver el contraste
ANOVA planteado, siempre y cuando asumamos: f(x)
[ MSE ]
MSA N−k 35
= [Fk−1,N−k ] = = ≃ 1.06
i) las v.a. X1, X2, X3 y X4 se distribuyen de manera Normal N − k − 2 33

ii) las v.a. X1, X2, X3 y X4 presentan la misma variabilidad (homocedasticidad)


Área :p ≃ 0.6585
iii) las muestras han sido tomadas de manera independiente

5. Dado el elevadísimo p-valor obtenido, podemos admitir que no existen 2.8742 ≃ f3,35,0.05
diferencias significativas entre los efectos producidos por los cuatro
plaguicidas testados; en otras palabras:
no existen evidencias para rechazar H0 : μ1 = μ2 = μ3 = μ4 t0 ≃ 0.54 1 x
𝔼
𝔼
Carlos Calvo Tapia· Unidad de Biomatemática· Facultad de Ciencias Biológicas· UCM

También podría gustarte