Para comparar medias entre 2 grupos utilizamos un test de t.
Llamaremos X 1 y X 2 a las medias de las muestras, s1 y s2 a sus
desvíos estándar, n1 y n2 a la cantidad de observaciones en
cada una de las muestras.
Si las varianzas son similares (no hay diferencias significativas
entre ellas), el estadístico a usar es:
X1 X 2 (n1 1) s12 (n2 1) s22
t dónde sp
1 1 n1 n2 2
sp
n1 n2
2
El cociente entre las varianzas sigue una distribución F.
La distribución F es una familia de distribuciones de
probabilidad cuyas curvas son asimétricas, de dominio
positivo y dependen de 2 parámetros (grados de libertad):
FBA
Ej : F 42 f(x)
0 5 10 F
Se plantea un contraste cuyas hipótesis son:
H o : A2 B2
H1 : A2 B2
El estadístico a calcular es:
s A2 A es la muestra con MAYOR varianza
1
F 1 2 α = tamaño de la muestra A
sB Β = tamaño de la muestra B
Si varianzas iguales este cociente será próximo a 1.
Este valor se compara con el valor crítico obtenido de la tabla.
- Si es MAYOR hay evidencia estadística de que las varianzas
son distintas (rechazo Ho)
4
Tabla de F para =0.05
F64
Se desea comparar valores medios de cierta variable entre 3 o
más grupos de datos.
Ejemplos:
- Se quiere investigar si las condiciones en las que se almacenan
muestras de sangre se acompañan de una modificación de la
dosificación de proteinemia. Se comparará la concentración
media de proteína en muestras almacenadas en condiciones
diferentes.
- Se estudia la exposición a efectos del monóxido de carbono en
pacientes con enfermedad coronaria. Se reclutan pacientes de
3 hospitales. Interesa saber si algunas características basales
son comparables, si el nivel de Volumen Espiratorio Forzado en
el primer Segundo (FEV1) es similar o diferente entre los 3
centros hospitalarios.
¿Comparamos medias 2 a 2 utilizando un test de t?
6
Suponiendo que las 3 medias son iguales (suponiendo Ho cierta)
Para cada test:
- La P(rechazar Ho/falsa) = 0.05 (alfa)
- La P(no rechazar Ho) =1-0.05=0.95
Si las 3 pruebas fueran independientes (3 comparaciones 2 a 2):
• La P(No rechazar Ho) en las 3 = (0.95)3= 0.857
• La P(No rechazar Ho) en las 3 = 1- P (rechazar Ho en al menos
1 de las pruebas)
Entonces, la P(rechazar Ho en al menos 1 de los test)
erróneamente será:
1-0.857=0.143
8
1. Diferencias aleatorias en las medidas debidas a la
variabilidad biológica.
2. Diferencias eventualmente debidas a diferencias
entre los grupos ( conocidas como factor
controlado o efecto fijo)
(Ejs: condiciones de almacenamiento, hospital de
procedencia)
El análisis de la varianza (ANOVA) permite separar
y estimar las distintas causas de variación.
Se quiere saber si un reactivo fluorescente es
estable bajo diferentes formas de almacenamiento.
Para cada condición de almacenamiento se hicieron
tres medidas de la fluorescencia.
Condiciones Medidas Media
A: Recientemente preparada 102,100,101 101
B: Una hora en la oscuridad 101,101,104 102
C: Una hora con luz tenue 97,95,99 97
D: Una hora con luz brillante 90,92,94 92
Media global 98
10
Ho: La media no difiere entre grupos
H1: Al menos una media difiere
La hipótesis nula es que todas las muestras se
extraen de una población con media y varianza o2.
¿Cómo podríamos estimar o2 ?
- la variación entre todas las observaciones
- la variación dentro de cada muestra
- la variación entre las distintas muestras
11
Para cada muestra se puede calcular la varianza con la fórmula:
n
(x
j 1
j x )2
s2
n 1
Condiciones Medidas Media
A: Recientemente preparada 102,100,101 101
B: Una hora en la oscuridad 101,101,104 102
C: Una hora con luz tenue 97,95,99 97
D: Una hora con luz brillante 90,92,94 92
s2A= (102-101)2+(100-101)2+(101-101)2/(3-1)=1
S2B=(101-102)2+(101-102)2+(104-102)2/(3-1)=3
s2 C=(97-97)2+(95-97)2+(99-97)2/(3-1)=4
s2 D=(89-91)2+(91-91)2+(93-91)2/(3-1)=4
Promedio de las varianzas: (1+3+4+4)/4=3
c/u con 2 g.l.=>4×2 g.l. 12
Si todas las muestras se extraen de una población
cuya varianza es o2, entonces sus medias
proceden de una población con varianza o2/n.
La varianza de las medias muestrales sería
entonces una buena estimación de o2/n
(101 98) 2 (102 98) 2 (97 98) 2 (92 98) 2 62
Var de medias muestrales=
4 1 3
o2 62
como o2 62 , estimación con 4-1=3 grados de libertad
n 3
13
Si la hipótesis nula es correcta, la estimación de la
varianza dentro de las muestras no debería diferir
de la estimación entre muestras.
Para investigar si la varianza entre muestras es
significativamente más grande se usa una prueba
de F (Para 3 y 8 grados de libertad, el valor crítico
para =0.05 es 4.066)
62
F83 20.7 4.066
3
Si el valor calculado de F es mayor que el valor
crítico del estadístico, se rechaza la hipótesis nula
(existen por lo menos dos medias distintas)
14
Si la Ho fuera verdadera, la varianza podría haberse
calculado a partir del conjunto de todos los datos:
i j
( xij X ) 2
s2
N 1
(102 98) 2 (100 98) 2 ... (94 98) 2 210
s
2
19.1
12 1 11
La suma de los cuadrados entre e intra grupo es igual a la
suma total de cuadrados, y lo mismo sucede con los grados
de libertad
15
Grupo1 Grupo2 .. Grupo i Grupo k
x11 x21 xk1
.. .. .. xij ..
.. .. .. intra grupos
Varianza .. ..
.. .. .. .. ..
x1 x2 xi x
Varianza entre grupos
(x
i 1
ij x ) 2 ( xij xi ) 2 ( xi x )2
i 1 i 1
16
Suma de Media
cuadrados gl Cuadrática
Sum of Mean
df F Sig.
Squares Square
Between Groups 186,000 3 62,000 20,667 ,000
Within Groups 24,000 8 3,000
Total 210,000 11
17
Hemos visto el caso particular en que todos los
grupos tienen el mismo tamaño. Los resultados
pueden generalizarse:
(n1 1) s12 (n2 1) s22 ... (nh 1) sk2
sw2
n1 n2 ... nh k
(n 1)s i
2
i
SCint ra
O sea: sw2 i 1
h
N k
n k
i 1
i
18
En nuestro ejemplo, la estimación de la varianza de cada
muestra tiene 2 grados de libertad (n-1) y son 4 muestras, por
lo que esta estimación de 2 a partir de las varianzas de las
muestras tiene 8 grados de libertad.
Y si las muestras no son todas iguales los GL serán:
G.L. (n1 1) (n2 1) ... (nh 1)
k
G.L. ( ni ) k N k
i 1
19
k
La fórmula para la estimación de la n ( xi x) 2
varianza entre muestras con grupos
iguales:
sB2 i 1
k 1
k
Si los grupos tienen distinto tamaño: s 2
n ( x x)
i i
2
SCentre
B
i 1
k 1 k 1
Dónde X es la media de todas las
observaciones, que se puede n1 x1 n2 x2 ... nh xh
x
obtener: n1 n2 n3
20
Variabilidad intra-grupo (within)
(n1 1)s12 (n 2 1)s 2 2 ... (n k 1)s k 2 SCintra
sw 2
(n1 1) (n 2 1) ... (n k 1) N-k
Variabilidad entre grupos (between):
n1 (x1 x) 2 n 2 (x 2 x)2 ... n k (x k x)2 SCentre
sB 2
k 1 k 1
21
Test F
k-1=grados de libertad del numerador (SB):
N-k =grados de libertad del denominador (Sw)
Si las varianzas son iguales ===> F deberá estar próximo a 1.
Si las varianzas son distintas ===> F deberá ser mayor a 1.
Debo compararlo con el F crítico.
Si es mayor que el F crítico implicará que las medias son
distintas.
22
Rechazar la hipótesis nula implica que hay por lo menos
una media que difiere significativamente de las demás.
Se utilizan tests "post hoc" para identificar cuáles son
las medias distintas.
Una de las alternativas es usar el test de Student 2 a 2
con la Corrección de Bonferroni :
La correccion de Bonferroni establece un nuevo “alfa”
(mas exigente) para estas comparaciones (menor a 5%)
23
23
Para contrastar: H o : 1 j
H1 : i j
calculamos: xi x j
t i,j
t N-k GDL
2 1 1
sw
n n
i j
Se capitaliza en Sw la información de k muestras.
24
• Se estudia la exposición a efectos del monóxido de
carbono en pacientes con enfermedad de las arterias
coronarias.
• Se reclutan pacientes de 3 hospitales. Interesa saber si
algunas características basales son comparables.
• En particular, investigaremos con un nivel de significación
del 5% si el Volumen Espiratorio Forzado en el primer
Segundo (FEV1) difiere en alguno de los hospitales.
25
Ejemplo 2
Distribución de los FEV1 según el centro.
4.5
4.0
3.5
3.0
2.5
2.0
FEV
6
1.5
N= 21 16 23
1 2 3
CENTER
n 21 16 23
x 2.63 3.03 2.88
s 0.496 0.523 0.498
26
H 0 :1 2 3
HA:i j Para algún par i,j
FEV
Suma
Sumdeof Media
Mean
cuadrados gl Cuadratica
Squares df Square F Sig.
Between Groups 1.583 k-1 2 SB .791 3.115 .052
Within Groups 14.480 N-k 57 Sw .254
Total 16.063 N-1 59
Zona Rechazo
Ho
F2 57=3.158 al 5%
27
Los ejemplos que hemos expuesto refieren a
grupos preestablecidos por un factor
"controlable" (Factor fijo)
La misma técnica puede utilizarse cuando se
desconoce exactamente cuáles son las
categorías con las que se trabaja pues estas
están regidas por el azar (Factor de efecto
aleatorio)
28
1. Normalidad de los residuos (eij).En general se
cumple con la distribución normal de la variable
en cada grupo.
2. Independencia de los eij. Esto significa que los
grupos son independientes.
3.Constancia de s2 (estabilidad de la varianza de la
variable dependiente-homocedasticidad)
29