P.
UNIVERSIDAD CATLICA DE CHILE FACULTAD DE MEDICINA DEPARTAMENTO DE SALUD PBLICA
Bioestadstica
Repaso
PROBLEMA
En un estudio hecho con 1500 nios escolares de 5to y 6to bsico en la Regin Metropolitana en 2007 (52.1% hombres y 47.9% mujeres, edad promedio 11.3 aos y desviacin estndar 0.8 aos), se encontr que el 39.3% tena obesidad o sobrepeso (17% y 22.3%, respectivamente). Un investigador que ley estos resultados, plantea que, adems de diferencias en su dieta, cantidad de ejercicio fsico o nivel socioeconmico, los nios con sobrepeso u obesidad se diferencian de los normopesos en caractersticas que vienen del nacimiento (quizs en el peso al nacer, su edad gestacional, a lo mejor tuvieron baja estatura al nacer, etc.)
1
Cmo podramos disear un estudio que permita determinar si el investigador est en lo correcto (o equivocado)?
Para verificar si la hiptesis es correcta:
Qu diseo de estudio es ms adecuado?
Tomar nios recin nacidos, recopilar datos de inters actuales (sexo, peso al nacer, talla, edad gestacional, patologas, etc.), hacer un seguimiento de estos nios hasta los 11 o 12 aos y recopilar informacin relevante en esa edad (edad, peso, talla, NSE, hbitos alimenticios, estado nutricional , etc.). Tomar nios de 5to y 6to bsico, recopilar datos de inters actuales (sexo, edad, peso, talla, NSE, hbitos alimenticios, estado nutricional, etc.) y recabar adems informacin sobre sus datos al nacimiento (peso, talla, edad gestacional, patologas, NSE, etc.)
PROSPECTIVO - RETROSPECTIVO
Cules nios deben participar en el estudio?
Todos los pertenecientes a la poblacin de inters. O sea, todos los recin nacidos o los nios de 11 o 12 aos en Chile (o en la R.M.), segn sea el tipo de estudio escogido. Una muestra de nios de la poblacin de inters.
POBLACION - MUESTRA
Cmo se deben seleccionar los nios que participarn?
Pararse en una esquina y entrevistar a cuanto nio pase por ah. Hacer un sorteo. O sea, seleccionar al azar a los recin nacidos o escolares que participarn.
LA MUESTRA DEBE SER ALEATORIA
Cuntos nios deben participar en el estudio?
Un nmero arbitrario de nios. Un nmero creciente de nios hasta completar una cuota predeterminada. El tamao muestral se debe determinar de acuerdo al nivel de precisin que se desea lograr en los resultados.
TAMAO MUESTRAL ADECUADO
Cmo podemos asegurarnos que la muestra finalmente escogida es representativa de la poblacin de la cual proviene?
La representatividad es una cualidad de la muestra, por lo que no la podemos medir. Debemos asegurarnos de que la muestra de individuos seleccionados de la poblacin de inters sea aleatoria y de un tamao mnimo adecuado. Ambos aspectos (manejables por el investigador), asegurarn una mayor representatividad.
LA MUESTRA DEBE SER REPRESENTATIVA
Qu tipo de muestreo es adecuado para este estudio?
Un muestreo aleatorio simple, si la poblacin (de recin nacidos o escolares) se considera homognea respecto a las variables de inters. Un muestreo estratificado, si la poblacin est dividida en estratos naturales que pueden afectar las variables de inters (hay diferencias regionales, por nivel socioeconmico, etc?). Un muestreo por conglomerados, si el muestreo aleatorio simple es econmicamente inviable.
UN TIPO DE MUESTREO ADECUADO ASEGURA UNA MAYOR REPRESENTATIVIDAD DE LA MUESTRA
Qu variables se deben recolectar en los nios seleccionados?
Sexo, presencia/ausencia de patologas RN, estado nutricional 11-12 aos. Nivel socioeconmico RN, NSE a los 11-12 aos, calidad de la dieta a los 11-12 aos (buena, regular, mala). Edad gestacional, Peso, talla e IMC RN, peso, talla e IMC a los 11-12 aos, nmero de sesiones de ejercicio fsico semanales.
Variables Nominales
Variables Ordinales
Variables Intervalares
VARIABLES CATEGRICAS Y NUMRICAS
Tipos de Variables
Fuente: Medical Statistics at a Glance. Petrie A, Sabin C. Blackwell Pub 2000
Dnde almacenaremos la informacin?
Podemos usar una planilla de clculo (como Excel). Podemos usar un administrador de bases de datos (como Access, Oracle, etc.). Podemos usar directamente un programa estadstico (como MINITAB, SPSS, Stata, SAS, R, etc.).
CUALQUIERA SEA EL MEDIO DE ALMACENAMIENTO, EL ANLISIS LO HAREMOS CON UN PROGRAMA ESTADSTICO
Ejemplo de base de datos (formato SPSS)
2
Qu descripcin es adecuada para resumir los datos disponibles?
ESTADSTICA DESCRIPTIVA
Estadstica Descriptiva
n, % en cada categora Categrica Grfico de barras o torta
Tipo de Variable
n, promedio, DS Simtrica Sin valores extremos Numrica Asimtrica Con valores extremos n, mediana, rango Histograma Boxplot (cajn con bigotes) Histograma Grfico de promedioDS Grfico de promedioSEM
Estadstica Descriptiva
Si la variable a describir es categrica, un programa estadstico nos puede entregar una tabla de frecuencias.
Clasificacin Nutricional 11-12 aos Frecuencia 35 1058 401 306 1800 Porcentaje 1.9 58.8 22.3 17.0 100.0 Porcentaje acumulado 1.9 60.7 83.0 100.0
Vlidos
bajo peso normal sobrepeso obeso Total
Si la muestra es representativa de la poblacin, los porcentajes tabulados estiman las correspondientes cantidades poblacionales.
Estadstica Descriptiva
Los resultados de la variable categrica se pueden presentar grficamente.
Estadstica Descriptiva
Si la variable es numrica, podemos resumir los resultados usando el nmero de casos, una medida de tendencia central y una medida de dispersin. nmero de casos, promedio y desviacin estndar, o nmero de casos, mediana y rango
Estadstica Descriptiva
Si la variable no tiene valores extremos (outliers) y existe simetra
Si la variable presenta valores extremos o no hay simetra
Estadstica Descriptiva
Presentacin grfica de resultados de la variable numrica.
Estadstica Descriptiva
Posibles formas de la distribucin de los datos.
Fuente: High-Yield Biostatistics. Glaser A. Lippincott Williams 2001
Varias formas de presentacin grfica
Fuente: Medical Statistics at a Glance. Petrie A, Sabin C. Blackwell Pub 2000
Estadstica Descriptiva
Presentacin grfica de resultados de la variable numrica.
Informe PESO obeso no obeso obeso Total Media 3337.12 3458.37 3357.74 N 1494 306 1800 Desv. tp. 528.759 568.208 537.441 Error tp. de la media 13.680 32.482 12.668
Para mostrar la comparacin de una variable numrica entre dos o ms grupos, se puede hacer un box-plot (cajn con bigotes), un grfico de promedio DS o de promedio SEM.
3
Qu anlisis sera adecuado hacer para verificar la hiptesis del investigador?
ASOCIACIN DE VARIABLES
Asociacin de Variables
Aunque el tipo de variable (categrica o numrica) permite aproximarse a los mtodos estadsticos adecuados, tambin influye la normalidad de las variables, homogeneidad de varianzas, etc.
Y Categrica
Test exacto de Fisher (X e Y con 2 niveles)
Y Numrica
t de Student muestras indep. (X con 2 niveles) Anlisis de la varianza (X con > 2 niveles) Test de rangos de Wilcoxon (X con 2 niveles) Test de Mann-Whitney (X con > 2 niveles)
Test chi-cuadrado (X o Y con > 2 niveles)
Categrica Odds Ratio, OR (estudio retrospectivo)
Riesgo Relativo, RR (estudio prospectivo)
t de Student muestras indep. (X con 2 niveles) Correlacin de Pearson (X e Y intervalares)
X Anlisis de la varianza (X con > 2 niveles) Numrica Regresin logstica (Y con 2 niveles)
Anlisis discriminante (Y con > 2 niveles)
Correlacin de Spearman (X o Y ordinal) Regresin lineal (Y intervalar) Regresin Poisson (Y discreta)
Asociacin de Variables
La clasificacin de los mtodos segn variable categrica o numrica es la ms simple de construir. Pero hay otras clasificaciones ms complejas.
Fuente: Swinscow TD. Statistics at Square One 10th Ed. BMJ Books.2002
Asociacin de Variables
Fuente: Petrie A, Sabin C. Medical Statistics at a Glance. Blackwell Pub 2000
Asociacin categrica - categrica
Si el fenmeno bajo estudio est representado como una variable categrica y la variable explicatoria de inters tambin es categrica.
Presentacin
Tabla de contingencia para resumir los datos Porcentajes por fila o columna para comparaciones Test chi-cuadrado si el tamao muestral es grande Test exacto de Fisher si el tamao muestral es chico Riesgo relativo (RR). Si el estudio es prospectivo Odds ratio (OR). Si el estudio es retrospectivo
Asociacin
Riesgo
Asociacin categrica - categrica
Tabla de 2x2. Permite la comparacin directa de porcentajes y de clculo de RR u OR.
Tabla de contingencia Bajo Peso de Nacimiento * Estado nutricional Estado nutricional no obeso obeso 320 52 86.0% 21.4% 1174 82.2% 78.6% 1494 83.0% 100.0% 14.0% 17.0% 254 17.8% 83.0% 306 17.0% 100.0%
Bajo Peso de Nacimiento
<3000 grs
>=3000 grs
Total
Recuento % de Bajo Peso de Nacimiento % de Estado nutricional Recuento % de Bajo Peso de Nacimiento % de Estado nutricional Recuento % de Bajo Peso de Nacimiento % de Estado nutricional
Pruebas de chi-cuadrado Valor 3.034b 2.770 3.152 gl 1 1 1
Total 372 100.0% 20.7% 1428 100.0% 79.3% 1800 100.0% 100.0%
Generalmente el programa estadstico nos indica si se debe usar test chi-cuadrado o exacto de Fisher.
Chi-cuadrado de Pearson Correccin por a continuidad Razn de verosimilitudes Estadstico exacto de Fisher Asociacin lineal por lineal N de casos vlidos
Sig. asinttica (bilateral) .082 .096 .076
Sig. exacta (bilateral)
Sig. exacta (unilateral)
.088 3.032 1800 1 .082
.046
a. Calculado slo para una tabla de 2x2. b. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 63.24.
Asociacin categrica - categrica
Tabla de nxm. Por lo general no permite la comparacin directa de porcentajes o el clculo de RR u OR. El test chi-cuadrado permite determinar si existe asociacin entre X e Y. No es necesario referirse a porcentajes. Se puede calcular OR o RR usando un grupo como referencia (por ejemplo: <3000)
Tabla de contingencia Peso nacimiento en rangos * Estado nutricional Estado nutricional no obeso obeso 320 52 86.0% 1049 83.5% 125 73.1% 1494 83.0% 14.0% 208 16.5% 46 26.9% 306 17.0%
Peso nacimiento en rangos
<3000 grs
3000-4000 grs
>4000 grs
Total
Recuento % de Peso nacimiento en rangos Recuento % de Peso nacimiento en rangos Recuento % de Peso nacimiento en rangos Recuento % de Peso nacimiento en rangos
Total 372 100.0% 1257 100.0% 171 100.0% 1800 100.0%
Pruebas de chi-cuadrado Valor 14.469a 13.183 10.798 1800 gl 2 2 1 Sig. asinttica (bilateral) .001 .001 .001
Chi-cuadrado de Pearson Razn de verosimilitudes Asociacin lineal por lineal N de casos vlidos
a. 0 casillas (.0%) tienen una frecuencia esperada inferior a 5. La frecuencia mnima esperada es 29.07.
Asociacin categrica - numrica
Si el fenmeno bajo estudio est representado como una variable numrica y la variable explicatoria de inters es categrica (o viceversa).
Presentacin
Nmero de casos, promediodesviacin estndar de la numrica para cada nivel de la categrica Nmero de casos, mediana y rango de la numrica para cada nivel de la categrica Test t de Student para muestras independientes si se comparan dos promedios Anlisis de la varianza (ANOVA) en una va si se comparan ms de dos promedios
Asociacin
Asociacin categrica - numrica
Comparacin de 2 promedios: test t de Student parea muestras independientesHay diferencias significativas entre las medias?
Estadsticos de grupo Estado nutricional no obeso obeso N 1494 306 Media 3337.12 3458.37 Desviacin tp. 528.759 568.208 Error tp. de la media 13.680 32.482
Peso nacimiento (grs)
Prueba de muestras independientes Prueba de Levene para la igualdad de varianzas
Prueba T para la igualdad de medias
F Peso nacimiento (grs) Se han asumido varianzas iguales No se han asumido varianzas iguales 3.590
Sig. .058
t -3.607 -3.440
gl 1798 420.089
Sig. (bilateral) .000 .001
Diferencia de medias -121.242 -121.242
Error tp. de la diferencia 33.611 35.245
IMPORTATE: La diferencia entre las medias es clnicamente relevante?
Asociacin categrica - numrica
Comparacin de ms de 2 promedios: Anlisis de la varianza en una va (one way ANOVA).
Descriptivos Z-Score de IMC
N <3000 grs 3000-4000 grs >4000 grs Total 372 1257 171 1800
Media -.904 -.501 -.197 -.555
Desviacin tpica 1.655 1.666 1.785 1.686
Error tpico .086 .047 .137 .040
Mnimo -3.946 -3.975 -3.929 -3.975
Mximo 3.081 2.994 2.974 3.081
ANOVA zbmi Suma de cuadrados 71.003 5044.184 5115.187 gl 2 1797 1799 Media cuadrtica 35.501 2.807 F 12.647 Sig. .000
Inter-grupos Intra-grupos Total
Cul es el promedio distinto al resto?
Asociacin categrica - numrica
Comparacin de ms de 2 promedios. Test de comparaciones mltiples para detectar el o los promedios distintos (en este caso, test de Hochberg).
Comparaciones mltiples Variable dependiente: Z-Score de IMC Hochberg Intervalo de confianza al 95% Lmite Lmite inferior superior -.640 -.167 -1.077 -.337 .167 .640 -.630 .023 .337 1.077 -.023 .630
(I) Peso nacimiento en rangos <3000 grs 3000-4000 grs >4000 grs
(J) Peso nacimiento en rangos 3000-4000 grs >4000 grs <3000 grs >4000 grs <3000 grs 3000-4000 grs
Diferencia de medias (I-J) Error tpico -.404* .099 -.707* .155 .404* .099 -.304 .137 .707* .155 .304 .137
Sig. .000 .000 .000 .077 .000 .077
*. La diferencia de medias es significativa al nivel .05.
Test de uso habitual en medicina: Bonferroni. El test ms potente, segn estudios actuales: Test de Benjamini-Hochberg.
Asociacin categrica - numrica
Comparacin no paramtrica. Los test no paramtricos habitualmente se basan en el rango (orden) de los datos, en vez de los datos originales.
Rangos Estado nutricional no obeso obeso Total N 1494 306 1800 Rango promedio 881.18 994.81 Suma de rangos 1316490 304410.50
Peso nacimiento (grs)
Si se ordenan los pesos RN de menor a mayor, el orden (ranking) promedio de los pesos del grupo No Obesos es menor que el del grupo Obesos. Y esta diferencia es estadsticamente significativa (p<0.001).
a Estadsticos de contraste
U de Mann-Whitney W de Wilcoxon Z Sig. asintt. (bilateral)
Peso nacimiento (grs) 199724.500 1316489.500 -3.484 .000
a. Variable de agrupacin: Estado nutricional
Asociacin numrica - numrica
Si el fenmeno bajo estudio est representado como una variable numrica y la variable explicatoria tambin es numrica.
Presentacin
Grfico de dispersin (scattergram)
Asociacin
Correlacin muestral de Pearson (si ambas variables son de origen intervalar) Correlacin por rangos de Spearman (si al menos una de las variables es de origen ordinal)
Asociacin numrica - numrica
Grfico de dispersin. Se puede agregar una lnea (regresin lineal simple) para mostrar la tendencia de los datos.
Asociacin numrica - numrica
Matriz de correlaciones de algunas variables numricas del estudio. Slo se hicieron correlaciones de Pearson, ya que no hay variables ordinales.
Correlaciones Peso nacimiento (grs) 1 1800 .802** .000 1800 .547** .000 1800 .113** .000 1800 .116** .000 1800 Talla Edad IMC 11-12 Z-Score nacimiento gestacional aos de IMC (cms) (semanas) .802** .547** .113** .116** .000 .000 .000 .000 1800 1800 1800 1800 1 .556** .036 .043 .000 .131 .066 1800 1800 1800 1800 .556** 1 .003 .006 .000 .882 .797 1800 .036 .131 1800 .043 .066 1800 1800 .003 .882 1800 .006 .797 1800 1800 1 1800 .934** .000 1800 1800 .934** .000 1800 1 1800
Peso nacimiento (grs)
Talla nacimiento (cms)
Edad gestacional (semanas)
Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N Correlacin de Pearson Sig. (bilateral) N
IMC 11-12 aos
Z-Score de IMC
**. La correlacin es significativa al nivel 0,01 (bilateral).
4
Las variables explicatorias se asocian independientemente con el fenmeno? Es posible predecir el fenmeno en estudio?
MODELOS ESTADSTICOS
Regresin Lineal
Cuando el fenmeno bajo estudio (Y) est representado como una variable numrica. Las variables explicatorias (X1, X2, etc.) pueden ser numricas o binarias (dicotmicas con valores 0 o 1).
Y = + 1 x1 + 2 x2 + ... + k xk +
Interesa estimar las pendientes 1, 2, etc., asociadas a cada variable X, para determinar la significancia (importancia) de cada X en el modelo. Interesa estimar tambin el coeficiente de determinacin (R2), para determinar la bondad de ajuste (capacidad predictiva) del modelo ajustado.
Regresin Lineal
Variables asociadas en forma conjunta e independiente con el valor de z-score de IMC a los 11-12 aos.
Coeficientesa Coeficientes no estandarizados B Error tp. 3.897 1.387 .774 .125 -.087 .029 -.071 .033 Coeficientes estandarizad os Beta .247 -.120 -.062
Modelo 1
(Constante) Peso nacimiento (kg) Talla nacimiento (cms) Edad gestacional (semanas)
t 2.810 6.178 -2.985 -2.166
Sig. .005 .000 .003 .030
a. Variable dependiente: Z-Score de IMC
Resumen del modelo
Capacidad predictiva del modelo medida con el coeficiente de determinacin R2. (R2=2.3%)
Modelo 1
R R cuadrado .152a .023
R cuadrado corregida .021
a. Variables predictoras: (Constante), Edad gestacional (semanas), Peso nacimiento (grs), Talla nacimiento (cms)
Regresin Logstica
Se usa cuando el fenmeno bajo estudio (Y) est representado como una variable dicotmica (generalmente con valores 0 o 1). Las variables explicatorias (X1, X2, etc.) pueden ser numricas o binarias.
Y * = + 1 x1 + 2 x2 + ... + k xk +
Interesa estimar las pendientes 1, 2, etc., asociadas a cada variable X, para determinar la significancia (importancia) de cada X en el modelo. Generalmente la bondad de ajuste del modelo logstico se determina mediante curvas ROC.
Regresin Logstica
Adems de la significancia de las variables, la regresin logstica provee un mtodo para estimar OR de cada variable ajustando por las dems variables en el modelo.
Variables en la ecuacin I.C. 95.0% para EXP(B) Inferior Superior 1.952 4.178 .777 .929 .856 1.053
Paso a 1
pesorn TALLA SEMANAS Constante
B 1.049 -.163 -.052 4.986
E.T. .194 .046 .053 2.221
Wald 29.208 12.844 .976 5.041
gl 1 1 1 1
Sig. .000 .000 .323 .025
Exp(B) 2.856 .849 .949 146.364
a. Variable(s) introducida(s) en el paso 1: pesorn, TALLA, SEMANAS.
Al estudiar la obesidad a los 11-12 aos como variable dicotmica, podran obtenerse resultados distintos que si se mide como variable numrica (la obesidad es un punto de corte del z-score)