0% encontró este documento útil (0 votos)
37 vistas15 páginas

Comparación de Medias y ANOVA en Estadística

El documento describe el uso de pruebas estadísticas, como el test t y ANOVA, para comparar medias entre dos o más grupos, analizando varianzas y estableciendo hipótesis nulas y alternativas. Se presentan ejemplos prácticos de comparación de medias en estudios de condiciones de almacenamiento y efectos de monóxido de carbono en pacientes. Se enfatiza la importancia de la corrección de Bonferroni en pruebas post hoc para identificar diferencias significativas entre grupos.

Cargado por

milagros
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
37 vistas15 páginas

Comparación de Medias y ANOVA en Estadística

El documento describe el uso de pruebas estadísticas, como el test t y ANOVA, para comparar medias entre dos o más grupos, analizando varianzas y estableciendo hipótesis nulas y alternativas. Se presentan ejemplos prácticos de comparación de medias en estudios de condiciones de almacenamiento y efectos de monóxido de carbono en pacientes. Se enfatiza la importancia de la corrección de Bonferroni en pruebas post hoc para identificar diferencias significativas entre grupos.

Cargado por

milagros
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

 Para comparar medias entre 2 grupos utilizamos un test de t.

 Llamaremos X 1 y X 2 a las medias de las muestras, s1 y s2 a sus


desvíos estándar, n1 y n2 a la cantidad de observaciones en
cada una de las muestras.
 Si las varianzas son similares (no hay diferencias significativas
entre ellas), el estadístico a usar es:

X1  X 2 (n1  1) s12  (n2  1) s22


t dónde sp 
1 1 n1  n2  2
sp 
n1 n2

2
 El cociente entre las varianzas sigue una distribución F.
 La distribución F es una familia de distribuciones de
probabilidad cuyas curvas son asimétricas, de dominio
positivo y dependen de 2 parámetros (grados de libertad):

FBA

Ej : F 42 f(x)

0 5 10 F

 Se plantea un contraste cuyas hipótesis son:


H o :  A2   B2
H1 :  A2   B2
 El estadístico a calcular es:

s A2 A es la muestra con MAYOR varianza


 1
F  1  2 α = tamaño de la muestra A
sB Β = tamaño de la muestra B

Si varianzas iguales  este cociente será próximo a 1.

Este valor se compara con el valor crítico obtenido de la tabla.


- Si es MAYOR  hay evidencia estadística de que las varianzas
son distintas (rechazo Ho)

4
Tabla de F para =0.05
F64

 Se desea comparar valores medios de cierta variable entre 3 o


más grupos de datos.

 Ejemplos:

- Se quiere investigar si las condiciones en las que se almacenan


muestras de sangre se acompañan de una modificación de la
dosificación de proteinemia. Se comparará la concentración
media de proteína en muestras almacenadas en condiciones
diferentes.

- Se estudia la exposición a efectos del monóxido de carbono en


pacientes con enfermedad coronaria. Se reclutan pacientes de
3 hospitales. Interesa saber si algunas características basales
son comparables, si el nivel de Volumen Espiratorio Forzado en
el primer Segundo (FEV1) es similar o diferente entre los 3
centros hospitalarios.

¿Comparamos medias 2 a 2 utilizando un test de t?


6
Suponiendo que las 3 medias son iguales (suponiendo Ho cierta)
Para cada test:
- La P(rechazar Ho/falsa) = 0.05 (alfa)
- La P(no rechazar Ho) =1-0.05=0.95

Si las 3 pruebas fueran independientes (3 comparaciones 2 a 2):

• La P(No rechazar Ho) en las 3 = (0.95)3= 0.857


• La P(No rechazar Ho) en las 3 = 1- P (rechazar Ho en al menos
1 de las pruebas)

Entonces, la P(rechazar Ho en al menos 1 de los test)


erróneamente será:

1-0.857=0.143

8
1. Diferencias aleatorias en las medidas debidas a la
variabilidad biológica.

2. Diferencias eventualmente debidas a diferencias


entre los grupos ( conocidas como factor
controlado o efecto fijo)
(Ejs: condiciones de almacenamiento, hospital de
procedencia)

El análisis de la varianza (ANOVA) permite separar


y estimar las distintas causas de variación.

 Se quiere saber si un reactivo fluorescente es


estable bajo diferentes formas de almacenamiento.
Para cada condición de almacenamiento se hicieron
tres medidas de la fluorescencia.

Condiciones Medidas Media


A: Recientemente preparada 102,100,101 101
B: Una hora en la oscuridad 101,101,104 102
C: Una hora con luz tenue 97,95,99 97
D: Una hora con luz brillante 90,92,94 92
Media global 98

10
Ho: La media no difiere entre grupos
H1: Al menos una media difiere

La hipótesis nula es que todas las muestras se


extraen de una población con media  y varianza o2.

¿Cómo podríamos estimar o2 ?

- la variación entre todas las observaciones


- la variación dentro de cada muestra
- la variación entre las distintas muestras

11

Para cada muestra se puede calcular la varianza con la fórmula:


n

 (x
j 1
j  x )2
s2 
n 1

Condiciones Medidas Media


A: Recientemente preparada 102,100,101 101
B: Una hora en la oscuridad 101,101,104 102
C: Una hora con luz tenue 97,95,99 97
D: Una hora con luz brillante 90,92,94 92

s2A= (102-101)2+(100-101)2+(101-101)2/(3-1)=1
S2B=(101-102)2+(101-102)2+(104-102)2/(3-1)=3
s2 C=(97-97)2+(95-97)2+(99-97)2/(3-1)=4
s2 D=(89-91)2+(91-91)2+(93-91)2/(3-1)=4
Promedio de las varianzas: (1+3+4+4)/4=3
c/u con 2 g.l.=>4×2 g.l. 12
 Si todas las muestras se extraen de una población
cuya varianza es o2, entonces sus medias
proceden de una población con varianza o2/n.

 La varianza de las medias muestrales sería


entonces una buena estimación de o2/n
(101  98) 2  (102  98) 2  (97  98) 2  (92  98) 2 62
Var de medias muestrales= 
4 1 3

 o2 62
como    o2  62 , estimación con 4-1=3 grados de libertad
n 3

13

 Si la hipótesis nula es correcta, la estimación de la


varianza dentro de las muestras no debería diferir
de la estimación entre muestras.

 Para investigar si la varianza entre muestras es


significativamente más grande se usa una prueba
de F (Para 3 y 8 grados de libertad, el valor crítico
para =0.05 es 4.066)
62
F83   20.7  4.066
3
 Si el valor calculado de F es mayor que el valor
crítico del estadístico, se rechaza la hipótesis nula
 (existen por lo menos dos medias distintas)

14
 Si la Ho fuera verdadera, la varianza podría haberse
calculado a partir del conjunto de todos los datos:


i j
( xij  X ) 2
s2 
N 1

(102  98) 2  (100  98) 2  ...  (94  98) 2 210


s 
2
  19.1
12  1 11

La suma de los cuadrados entre e intra grupo es igual a la


suma total de cuadrados, y lo mismo sucede con los grados
de libertad

15

Grupo1 Grupo2 .. Grupo i Grupo k

x11 x21 xk1


.. .. .. xij ..
.. .. .. intra grupos
Varianza .. ..
.. .. .. .. ..
x1 x2 xi x
Varianza entre grupos

 (x
i 1
ij  x ) 2   ( xij  xi ) 2   ( xi  x )2
i 1 i 1
16
Suma de Media
cuadrados gl Cuadrática

Sum of Mean
df F Sig.
Squares Square

Between Groups 186,000 3 62,000 20,667 ,000

Within Groups 24,000 8 3,000

Total 210,000 11

17

Hemos visto el caso particular en que todos los


grupos tienen el mismo tamaño. Los resultados
pueden generalizarse:

(n1  1) s12  (n2  1) s22  ...  (nh  1) sk2


sw2 
n1  n2  ...  nh  k

 (n  1)s i
2
i
SCint ra
O sea: sw2  i 1

h
N k
n  k
i 1
i

18
En nuestro ejemplo, la estimación de la varianza de cada
muestra tiene 2 grados de libertad (n-1) y son 4 muestras, por
lo que esta estimación de 2 a partir de las varianzas de las
muestras tiene 8 grados de libertad.

Y si las muestras no son todas iguales los GL serán:

G.L.  (n1  1)  (n2  1)  ...  (nh  1)


k
G.L.  ( ni )  k  N  k
i 1

19

k
La fórmula para la estimación de la n ( xi  x) 2
varianza entre muestras con grupos
iguales:
sB2  i 1
k 1
k

Si los grupos tienen distinto tamaño: s 2 


 n ( x  x)
i i
2
SCentre
B
i 1

k 1 k 1
Dónde X es la media de todas las
observaciones, que se puede n1 x1  n2 x2  ...  nh xh
x
obtener: n1  n2  n3

20
Variabilidad intra-grupo (within)

(n1  1)s12  (n 2  1)s 2 2  ...  (n k  1)s k 2 SCintra


sw 2
 
(n1  1)  (n 2  1)  ...  (n k  1) N-k

Variabilidad entre grupos (between):

n1 (x1  x) 2  n 2 (x 2  x)2  ...  n k (x k  x)2 SCentre


sB 2
 
k 1 k 1

21

Test F

k-1=grados de libertad del numerador (SB):


N-k =grados de libertad del denominador (Sw)
Si las varianzas son iguales ===> F deberá estar próximo a 1.

Si las varianzas son distintas ===> F deberá ser mayor a 1.

Debo compararlo con el F crítico.

Si es mayor que el F crítico implicará que las medias son


distintas.

22
 Rechazar la hipótesis nula implica que hay por lo menos
una media que difiere significativamente de las demás.

 Se utilizan tests "post hoc" para identificar cuáles son


las medias distintas.

 Una de las alternativas es usar el test de Student 2 a 2


con la Corrección de Bonferroni :

 La correccion de Bonferroni establece un nuevo “alfa”


(mas exigente) para estas comparaciones (menor a 5%)

23
23

Para contrastar: H o : 1   j
H1 : i   j
calculamos: xi  x j
t i,j 
 t N-k GDL
 
2  1   1 
sw   
n  n 
 i   j 

Se capitaliza en Sw la información de k muestras.

24
• Se estudia la exposición a efectos del monóxido de
carbono en pacientes con enfermedad de las arterias
coronarias.

• Se reclutan pacientes de 3 hospitales. Interesa saber si


algunas características basales son comparables.

• En particular, investigaremos con un nivel de significación


del 5% si el Volumen Espiratorio Forzado en el primer
Segundo (FEV1) difiere en alguno de los hospitales.

25

Ejemplo 2
Distribución de los FEV1 según el centro.
4.5

4.0

3.5

3.0

2.5

2.0
FEV

6
1.5
N= 21 16 23

1 2 3

CENTER

n 21 16 23
x 2.63 3.03 2.88
s 0.496 0.523 0.498
26
H 0 :1   2  3
HA:i  j Para algún par i,j

FEV
Suma
Sumdeof Media
Mean
cuadrados gl Cuadratica
Squares df Square F Sig.
Between Groups 1.583 k-1 2 SB .791 3.115 .052
Within Groups 14.480 N-k 57 Sw .254
Total 16.063 N-1 59
Zona Rechazo
Ho
F2 57=3.158 al 5%

27

 Los ejemplos que hemos expuesto refieren a


grupos preestablecidos por un factor
"controlable" (Factor fijo)

 La misma técnica puede utilizarse cuando se


desconoce exactamente cuáles son las
categorías con las que se trabaja pues estas
están regidas por el azar (Factor de efecto
aleatorio)

28
1. Normalidad de los residuos (eij).En general se
cumple con la distribución normal de la variable
en cada grupo.

2. Independencia de los eij. Esto significa que los


grupos son independientes.

3.Constancia de s2 (estabilidad de la varianza de la


variable dependiente-homocedasticidad)

29

También podría gustarte