Diseño de Estudios Clínicos 4 Edc PDF
Diseño de Estudios Clínicos 4 Edc PDF
4.ª EDICIÓN
Diseño de estúdios
clínicos
4.ª EDICIÓN
Steven R. Cummings, MD
Founding Director, San Francisco Coordinating Center
Senior Scientist, California Pacific Medical Center Research lnstitute
Professor Emeritus, Department of Medicine, and of Epidemiology & Biostatistics
School of Medicine, University of California, San Francisco (California, EE.UU.)
~ • Wolters Kluwer
Health
Philadelphia • Baltimore • New York • London
Buenos Aires • Hong Kong • Sydney • Tokyo
:ZtWolters Kluwer
Health
Traducción y revisión:
M. ª Jesús del Sol Jaquotot
Licenciada en Medicina y Cirugía
Antonio Díez Herranz
Doctor en Medicina y Cirugía
Se han adoptado las medidas oportunas para confirmar la exactitud de la información presentada y describir
la práctica más aceptada. No obstante, los autores, los redactores y el editor no son responsables de los
errores u omisiones del texto ni de las consecuencias que se deriven de la aplicación de la información que
incluye, y no dan ninguna garantía, explícita o implícita, sobre la actualidad, integridad o exactitud del
contenido de la publicación. Esta publicación contiene información general relacionada con tratamientos
y asistencia médica que no debería utilizarse en pacientes individuales sin antes contar con el consejo
de un profesional médico, ya que los tratamientos clínicos que se describen no pueden considerarse
recomendaciones absolutas y universales.
El editor ha hecho todo lo posible para confirmar y respetar la procedencia del material que se reproduce
en este libro y su copyright. En caso de error u omisión, se enmendará en cuanto sea posible. Algunos
fármacos y productos sanitarios que se presentan en esta publicación sólo tienen la aprobación de la Food
and_ Drug Administration (FDA) para un uso limitado al ámbito experimental. Compete al profesional
sanitario averiguar la situación de cada fármaco o producto sanitario que pretenda utilizar en su práctica
clínica, por lo que aconsejamos la consulta con las autoridades sanitarias competentes.
Edición en español de la obra original en lengua inglesa Designing clinicaI research (4th ed.) de Stephen B
Hulley, publicada por Lippincott Williams & Wilkins
Copyright© 2013 Lippincott Wiliiams & Wilkins
Two Commerce Square
2001 Market Street
Philadelphia, PA 19103
Colaboradores ........................................................ ix
Introducción ......................................................... xi
Agradecimientos ..................................................... xiii
SECCIÓN l.
Ingredientes básicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Cómo empezar: anatomía y fisiología
de las investigaciones clínicas ............ '. ..................... 2
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings
SECCIÓN 11.
Diseño de los estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7 Diseño de estudios transversales y de cohortes .................. 85
Stephen B. Hui ley, Steven R. Cummings y Thomas B. Newman
VII
viii Índice de contenidos
SECCIÓN 111.
Ejecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
14 Abordaje de cuestiones éticas .. . ... . ........................ 209
Bernard Lo y Deborah G. Grady
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Respuestas a los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Glosario ....... .. ...... . .......... . . .. . . .. .. .. .. ........ .. . . . .. .. . . 327
Índice alfabético de materias ....... . . . .. ... ........ . ... . .............. 351
Colaboradores
Bernard Lo, MD
Presid~nt, The Greenwall Foundation
Profes sor of Medicine, Emeritus
f?irector of Program in Medica! Ethics, Emeritus ·
University of California, San Francisco (California, EE.UU.)
IX
Introducción
Esta 4.' edición de Diseño de estudios clínicos marca el 25.º aniversario de la publicación de nuestra
l.ª edición. Se ha convertido en el libro de texto de este tipo más utilizado , con más de 130000 copias
vendidas y ediciones en idiomas extranjeros publicadas en español, portugués , árabe, chino, coreano
y japonés. Lo diseñamos como manual para la investigación clínica en todas sus facetas: ensayos
clínicos, epidemiología observacional, ciencia aplicada, investigación orientada a patentes, ciencia
conductual e investigación de servicios sanitarios. Hemos utilizado términos y principios epidemio-
lógicos, presentado material conceptual avanzado de una forma práctica y amigable, y propuesto
formas sencillas de abordar los complejos criterios que intervienen en el diseño de un estudio.
Muchos de nuestros lectores son médicos, enfermeras, farmacéuticos y otros científicos del ám-
bito sanitario que, durante su formación y como miembros jóvenes del cuerpo docente, están desarro-
llando su carrera profesional en investigación clínica y utilizan este libro como guía para diseñar y
realizar sus estudios. Otros muchos son médicos en programas de residencia y estudiantes predoc-
.: torales de facultades profesionales (Medicina, Enfermería, Farmacia y Salud Pública, entre otros) que
utilizan Diseño de estudios clínicos para poder convértirse en lectores perspicaces, capaces de apren-
der los puntos fuertes y las limitaciones de los estudios de investigación que dan forma a la práctica
clínica de base científica. Un tercer grupo de lectores son estudiantes preuniversitarios que se pre-
pllran para solicitar su ingreso en estas escuelas y que están interesados en un futuro en el mundo
de la investigación clínica.
¿Qué hay de nuevo en la 4." edición? La innovación más visible es el color, que, además de me-
jorar la estética, acelerará la comprensión de los componentes codificados en colores. Las principa-
les revisiones de la 4." edición son la actualización y mejora del texto, las figuras y las tablas de todos
los capítulos; los muchos nuevos ejemplos y referencias biográficas; y las nuevas secciones que
abordan recientes avanc~s en este campo. Por ejemplo:
• Se han reorganizado los capítulos sobre estudios de observación, con un capítulo entero dedicado
ahora a los diversos diseños de casos y testigos , incluyendo el abordaje de densidad de la inciden-
cia para analizar las modificaciones de los niveles de los factores de riesgo y las diferencias en el
tiempo de seguimiento.
• En los capítulos sobre ensayos clínicos hay una sección ampliada sobre los ensayos de ausencia de
inferioridad, que se han popularizado en la investigación de la eficacia comparativa, y se analiza
con más detalle el análisis de subgrupos y la modificación del efecto.
• En el capítulo sobre el estudio de pruebas médicas hay una nueva sección sobre la creciente prác-
tica de elaborar reglas de predicción clínica.
• En el capítulo sobre la utilización de bases de datos ya existentes se insiste en opciones atractivas
para que los investigadores noveles publiquen de una manera rápida y económica.
• Se ha actualizado el capítulo sobre la ética de la investigación, para reflejar las políticas actuales
sobre el secuenciado pangenómico y otros temas, con nuevos casos que ilustran la resolución de
los dilemas éticos en la investigación clínica.
• El capítulo sobre gestión de los datos se ha actualizado de manera extensa con los últimos abor-
dajes basados en Internet.
• En el capítulo sobre financiación hay estrategias para enfrentarse a los nuevos requisitos para la
solicitud de subvenciones a los NIH, además de actualizaciones sobre la financiación por funda-
ciones y promotores corporativos.
XI
xii Introducción
La 4.ª edición está acompañada por una página web en inglés del libro en www.epibiostat.ucsf.
edu/dcr/, que contiene materiales para enseñar el diseño de estudios clínicos, con vínculos a un
programa detallado para los talleres ele DEC de 4 y 7 semanas que impartimos a 300 alumnos cada
año en la UCSF También hay notas de los instructores para los talleres, que serán útiles para los
docentes que impartan este material, y enlaces a nuestro programa de grado de maestría de formación
en investigación clínica (Training In Clínica! Research, TICR) en la UCSF, con 1rnjs de 30 cursos adi-
cionales y sus materiales. Además, hay herramientas útiles para los investigadores, entre ellas una
excelente calculadora interactiva del tamaño de la muestra.
Hay muchas cosas que no han cambiado en la 4.ª edición. Éste sigue siendo un libro sencillo que
omite los aspectos técnicos innecesarios e invita al investigador a que se centre en lo importante:
cómo encontrar una buena pregunta de la investigación y planificar un diseño eficiente, eficaz y
ético. Los capítulos sobre la estimación del tamaño de la muestra siguen desmitificando el proceso
y permiten que lectores con una formación mínima en estadística hagan estos cálculos ellos mismos
de manera meditada y si,n necesidad de luchar con fórmulas. El libro sigue funcionando de manera
óptima cuando se combina con el ingrediente esencial ele uno o más mentores a largo plazo. Todavía
no aborda las importantes áreas ele cómo analizar, presentar y publicar los hallazgos ele la investiga-
ción clínica, temas que nuestros lectores pueden buscar en otros libros (por ejemplo, 1-4).
El proceso de transformarse en un científico clínico independiente puede ser difícil, especialmen-
te conseguir una subvención importante por primera vez . Pero es gratificante que muchos de nues-
tros antiguos alumnos que utilizaron este libro han conseguido este objetivo, han descubierto que
les gusta investigar, y se han orientado hacia una gran carrera profesional. Para los que tienen men-
tes inquisitivas, la búsqueda de la verdad puede convertirse en una fascinación que dura toda la vida.
Para los perfeccionistas y los artesanos , hay retos interminables en la creación de estudios elegantes
que respondan de manera concluyente a preguntas, grandes y pequeñas, con un coste asequible en
cuanto a tiempo y dinero. Los investigadores que disfrutan del trabajo en equipo llegarán a tener
relaciones gratificantes con los compañeros, el personal y los estudiantes, además ele hacerse amigos
de sus colaboradores que trabajan en el mismo campo en lugares distantes. Y para aquellos cuya
ambición es hacer una contribución duradera a la sociedad, existe la perspectiva de que con habili-
dad y tenacidad puedan participar en los avances incrementales ele la práctica clínica y de salud
pública que forman parte del orden natural de nuestra ciencia.
BIBLIOGRAFÍA
l. Vittinghoff E, Glidden DV, Shiboski SC, et al. Regression methods in biostatistics: linea,; logistic, survival, and repeated
measures models, 2nd ed. New York: Springer-Verlag, 2011.
2. Katz MH. Multivariable analysis: a practica! guide far clinicians and public health ,·esearchers, 3rd ed. New York:
Cambridge University Press, 2011.
3. Newman TB, Kohn MA. Evidence-based diag110sis. Cambridge, MA: Cambridge University Press, 2009.
4. Browner WS. Publishing and presenting clinical research, 3rd ed. Philadelphia , PA: Lippincott Williams &:
Wilkins, 2012.
=•;~'¡B-Y.J"'i
~ ·:rr~
•:-iir_::~
·.. ~-;J,--;;,i;'
Agradecimientos
N uestro agradecimiento a la Andrew P Mellon Foundation, por unirse a nosotros hace 30 años
para comenzar el viaje de 5 años para el desarrollo de materiales docentes que se convirtieron en la
l.ª edición; a nuestro editor, por insistir constantemente en una 4." edición hasta que la resistencia
se hizo inútil, y por poner a nuestra disposición a unos profesionales con un talento y un apoyo
excepcionales que nos han ayudado a reunir todo el material; a nuestras familias , por su paciente
apoyo cuando trabajábamos en esta obra; a muchos compañeros en la UCSF y otros lugares , cuyas
ideas y facultades nos han influido; a nuestros estudiantes de los últimos años , cuyos logros hemos
disfrutado, al tiempo que han estimulado nuestras ideas, y a nuestros lectores, responsables del
éxito de este libro.
XIII
•
SECCIÓN D
'
Ingredientes básicos
.
-·
~-
1
CAPÍTULO D
Cómo empezar: anatomía y fisiología
de las investigaciones clínicas
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings
Este capítulo presenta la investigación clínica desde dos puntos de vista, estableciendo temas que
discurren a la par a lo largo del libro. Uno de ellos es la anatomía de la investigación: de qué está
hecha . Incluye los elementos tangibles del plan del estudio: la pregunta tema del estudio, el diseño,
los participantes, las mediciones o determinaciones, el cálculo del tamaño de la muestra, etc. El
objetivo de un investigador es crear estos elementos de tal manera que el proyecto sea viable y efi-
ciente.
El otro tema es la fisiología de la investigación: cómo funciona. Los estudios son útiles en la
medida en que proporcionan inferencias o deducciones válidas, primero sobre lo que ocurrió
en la muestra del estudio, y después sobre cómo se pueden generalizar estos hallazgos del estudio a
las personas que no participan en él. El objetivo es reducir al mínimo los errores, aleatorios y siste-
máticos, que amenazan a las conclusiones basadas en estas inferencias.
La separación de ambos temas es artificial, del mismo modo que la anatomía del cuerpo humano
no tiene mucho sentido sin comprender algo su fisiología. Aunque la separación tiene la misma
ventaja: aclara nuestras ideas sobre un tema complejo.
Pregunta de la investigación
La pregunta de la investigación es el objetivo del estudio, la incertidumbre que el investigador desea
resolver. A menudo estas preguntas se inician con una preocupación general que debe reducirse a
un tema concreto , que se pueda investigar. Considere, por ejemplo, la siguiente pregunta general:
Es un buen punto para empezar, pero la pregunta deberá concretarse antes de poder empezar con
la planificación. Con frecuencia esto supone fragmentar la pregunta en componentes más específicos,
y elegir uno o dos de ellos para elaborar el protocolo a su alrededor:
Una buena pregunta debe superar la prueba «¿Y qué?». Lograr la respuesta debe contribuir de
forma provechosa a nuestros conocimientos. El acrónimo FINER indica cinco características esen-
ciales de una buena pregunta de investigación: debe ser factible, interesante, novedosa, ética y re-
; levante (cap. 2).
Antecedentes e importancia
En una breve sección de un protocolo sobre los antecedentes y la importancia se describe el" estudio
propuesto dentro de un contexto y se proporciona su fundamento: ¿Qué se conoce del tema que se
aborda? ¿Por qué es importante la pregunta de la investigación? ¿Qué tipo de respuestas proporcio-
nará el estudio? En esta sección se mencionan investigaciones anteriores importantes (incluso el
trabajo de los propios investigadores) , y se señalan los problemas que surgieron y qué cuestiones
quedan sin resolver. Se especifica aquí también. de qué forma los hallazgos del estudio propuesto
ayudarán a resolver estas cuestiones, conducirán a nuevos conocimientos científicos o influirán en
las directrices sobre la p{áctica clínica o las políticas de salud pública. Con frecuencia , la revisión de
la literatura y la síntesis que se realice para la sección sobre la importancia del problema llevan al
investigador a modificar la pregunta de la investigación.
Diseño
El diseño de un estudio es un tema complejo. Una decisión fundamental será si se opta por adoptar
una actitud pasiva en la obtención de las mediciones de los participantes en el estudio en un estudio
de observación, o por realizar una intervención y examinar sus efectos en un ensayo clínico (ta-
bla 1-2). Entre los estudios de observación, dos diseños habituales son los estudios de cohortes , en
los que las observaciones se realizan en un grupo de personas a las que se evalúa durante un período
de seguimiento, y los estudios transversales , en los que las observaciones se realizan en una sola
ocasión. Los estudios de cohortes pueden dividirse en estudios prospectivos , que se inician en el
presente y siguen a los participantes en el futuro, y estudios retrospectivos , que examinan la infor-
mación recopilada durante un período de tiempo en el pasado. Una tercera opción habitual es el
diseño de casos y testigos , en el que el investigador compa'ra un grupo de personas con una enfer-
medad u otro criterio de valoración con otro grupo que no lo presenta. Entre las opciones de ensayos
clínicos, el ensayo aleatorizado y con enmascaramiento suele lSer el mejor diseño , aunque los dise-
ños no aleatorizados o sin enmascaramiento pueden ser lo único de lo que se disponga para algunas
preguntas de investigación.
No existe un abordaje que sea siempre mejor que los otros, y cada pregunta de investigación
precisa la determinación de cuál de los diseños será el modo más eficaz deJograr una respuesta sa-
tisfactoria. A menudo se sostiene que el estudio aleatorizado y con enmascaramiento es el mejor
4 Sección 1 • Ingredientes básicos
Diseños de observación
Estudio de cohortes Se identifica a un grupo de El investigador m'ide el consumo de
participantes al comienzo, y se pescado en un grupo de ·participantes al
los sigue a lo largo del tiempo principio, y los revisa periódicamente en
visitas de seguimiento para ve r si aquellos
que consumen más pescado tienen menos
epis.odios de card iopatía isquémica (CI) .
Estudio transversal Se estudia a un grupo en un .El investigador entrevi sta a un grupo de
punto temporal participantes sobre el consumo de pescado
en el pasado y en la actualidad, y
correlaciona los resultados con los
antecedentes de CI y la puntuación de
calcio coronario actual.
Estudio de casos y testigos Se seleccionan dos grupos por El investigador examina a un grupo de
la presencia o ausencia de un pacientes con CI (los «casos») y los
resultado compara con un grupo que no tiene CI (los
«testigos »), preg~tando por el consumo
de pescado en el pasado.
Diseño del estudio clínico
Estud io aleatorizado con Se crean dos grupos mediante un El investigador asigna aleatoriamente a
enmascarami ento proceso aleatorio, y se aplica los participantes a recibir complementos
una intervención con de aceite de pescado o un placebo con un
enmascaramiento aspecto idéntico, y después sigue ambos
grupos.de tratamiento durante varios
años para observar la incidencia de CI.
diseño para establecer la causalidad y la eficacia de las intervenciones, pero hay muchas situaciones
en las que un estudio de observación es una mejor elección o la única opción viable. El coste relati-
vamente baj o de los estudios de casos y testigos , y su adecuación para resultados poco frecuentes ,
hacen que sean atractivos para algunas pregun tas. Para elegir diseños para el estudio de pruebas
diagnósticas se aplican consideraciones especiales. Estos temas se comentan en los capítulos 7 a 12,
en cada uno de los cuales se aborda un tipo concreto de diseño.
Una secuencia típica para estudiar un, tema se inicia con estudios de observación de un tipo que
con frecuencia se denomina descriptivo . En estos estudios se explora la «configuración del terreno »,
por ejemplo , describiendo distribuciones de características relacionadas con la salud en la población:
A los estudios descriptivos los suelen seguir o acompañar estudios analíticos , que evalúan aso-
ciaciones·para poder realizar inferencias sobre relaciones de causa y efecto:
• ¿Las personas con CI que consumen mucho pescado tienen menor riesgo de infarto de miocardio
recurrente qu e las personas con antecedentes de CI que consumen pescado con poca frecuencia?
El paso final es , con frecuencia, un ensayo clínico para establecer los efectos de una intervención:
• ¿El tratamiento con cápsulas de aceite de pescado reduce la mortalidad total en las personas
con CI?
Los ensayos clínicos suelen realizarse relativamente tarde en una serie de estudios de investigación
sobre una determinada pregun ta , porque tienden a ser más difíciles y caros, y responden de manera
Capítu lo 1 • Cómo empezar: anatomía y fisio logía de las investigaciones clínicas S
más concluyente las preguntas más concretas que surgen de los hallazgos de los estudios de obser-
vación.
Resulta útil caracterizar un estudio en una sola frase que resuma el diseño y la pregunta de la inves-
tigación. Si el estudio tiene dos fases importantes, debe mencionarse el diseño de cada una de ellas:
• Este es un estudio transversal de los hábitos dietéticos de personas de 50 a 69 años de edad con
antecedentes de CI , seguido por un estudio de cohortes prospectivo sobre si el consumo de pes-
cado se asocia a un riesgo menor de sufrir episodios coronarios en el futuro.
Esta frase es el análogo en investigación de la frase que inicia un informe médico de un residente
sobre un nuevo ingreso hospitalario: «Mujer policía caucásica de 62 años ele edad que se sintió bien
hasta 2 h antes de su ingreso, momento en el que presentó_ dolor torácico opresivo que se irradiaba
al hombro izquierdo. »
Algunos diseños no encajan fácilmente en las categorías enumeradas anteriormente, y su clasifi-
cación con una sola frase puede resultar sorprendentemente difícil. Merece la pena el esfuerzo: una
descripción precisa del diseño y de la pregunta de la investigación aclara las ideas del investigador,
y resulta útil para orientar a los colaboradores y asesores.
Variables
Otro grupo importante de decisiones en el diseño de cualquier estudio se refiere a la elección de las
variables que se van a medir (cap. 4). Un estudio sobre el consumo de pescado en la dieta, por ejem-
plo, podría preguntar sobre los diferentes tipos de pescado que contienen diferentes concentraciones
de áci~g s grasos omega 3, e incluir preguntas sobre el tamaño de la ración, si el pescado estaba frito
o asado, y sobre el consumo de complementos de aceite de pescado.
En un estudio analítico, el investigador estudia las asociaciones entre variables para predecir
respuestas y extraer inferencias sobre causa y efecto. Al considerar la asociación entre dos variables,
la que se observa primero o es más probable que sea causal partiendo de supuestos biológicos se
denomina variable predictiva; la otra se denomina variable de respuesta 1 . La mayor parte de los
estudios de observación tienen muchas variables predictivas (edad, raza, sexo , antecedentes de ta-
baquismo, consum_o de pescado y complemento de aceite de pescado) y varias variables de respues-
ta (infartos, accidentes cerebrovasculares, calidad ele vida, mal olor).
Los ensayos clínicos examinan los efectos de una intervención (un tipo especial de variable pre-
dictiva que el investigador manipula), como el tratamiento con cápsulas de aceite de pescado.
Este diseño permite observar los efectos sobre la variable de respuesta usando la aleatorización para
reducir al mínimo la influencia de las variables de confusión: otros factores que pueden influir en
la respuesta, como el tabaquismo y el nivel de ingresos, que podrían estar asociados con el pescado
de la dieta e introducir confusión en la interpretación de los hallazgos.
1
Las variables predictivas en ocasiones se denominan variables independientes, y las variables de respuesta variables
dependientes , aunque el significado de estos términos es menos evidente y preferimos evitar su uso .
6 Sección 1 • Ingredientes básicos ·
Aspectos estadísticos
Los investigadores deben elaborar planes para calcular el tamaño de la muestra y para gestionar y
analizar los datos del estudio. Esto conlleva, generalmente, la especificación de una hipótesis
(cap. 5):
Hipótesis: las mujeres de 50 a 69 años de edad con CI que tomen complementos de aceite de
pescado presentarán un menor riesgo de sufrir infarto de miocardio recurrente que aquellas que
no lo hacen.
Esta es una versión de la pregunta ele la investigación que constituye la base para estudiar la sig-
nificación estadística de los hallazgos. La hipótesis permite también al investigador calcular el ta-
maño de la muestra: cantidad de personas necesarias para observar la diferenci~ esperada en la
respuesta entre grupos de estudio con una probabilidad razonable (atributo que se conoce como
potencia) (cap. 6). En los estudios puramente descriptivos (¿qué proporción de personas con CI
toma complementos de aceite de pescado?) no se realizan pruebas de significación estadística y, por
tanto, no precisan una hipótesis; en lugar de ello, puede calcularse el número de personas necesario
para obtener intervalos de confianza aceptablemente estrechos para medias, proporciones u otros
estadísticos descriptivos.
VALIDEZ VALIDEZ
EXTERNA INTERNA
IIFIGURA 1-1 . El proceso del diseño y la realización de un proyecto de investigación prepara el escenario para extraer
conclusiones basadas en inferencias de los hallazgos.
Capítulo 1 • Cómo empezar: anatomía y fisio logía de las investigaciones clínicas 7
Esta pregunta no puede contestarse con una exactitud perfecta , porque sería imposible estudiar
a todos los pacientes con CI, y los métodos para descubrir si una persona tiene CI y toma aceite de
pescado son imperfectos. Por lo tanto, el investigador se contenta con una pregunta relacionada que
pueda responderse en el estudio:
En una muestra de pacientes atendidos en la consulta del investigador que presentan un diagnós-
tico anterior de CI y que respondieron a un cuestionario enviado por correo, ¿qué proporción
comentó que tomaba a diario complementos de aceite de pescado?
Inferencia
REALIDAD REALIDAD
EN EL ESTUDIO
Fenómenos
de interés Variables
previstas
Proporción que toma
complementos Consumo autorreferido
de aceite de pescado de complementos de
VALIDEZ aceite de pescado
EXTERNA
■ FIGURA 1-2. Errores de diseño y validez externa: si la muestra y las variables previstas no representan lo suficiente la
población objetivo y los fe nómenos de interés, estos errores pueden alterar las inferencias sobre lo que realmente ocurre
en la población.
8 Sección 1 • Ingredientes básicos
Inferencia causal
Un tipo especial de problema de validez surge en los estudios que examinan la asociación entre una
variable predictiva y una variable de respuesta con el fin de obtener una inferencia causal. Si un estudio
de cohortes halla una asociación entre el consumo de pescado y episodios de CI, ¿representa esto una
relación de causa y efecto, o es el pescado un inocente espectador en una red de causalidad en la que
intervienen otras variables? La reducción de la probabilidad de confusión y de otras explicaciones al-
ternativas es uno de los principales retos que tiene el diseño de un estudio de observación (cap. 9) .
Errores de la investigación
Tras reconocer que ningún estudio está libre de errores, el objetivo es aumentar al máximo la validez
de las inferencias extraídas de lo que se observó en la muestra del estudio a la naturaleza de lo que
Inferencia
REALIDAD HALLAZGOS
EN EL ESTUDIO DEL ESTUDIO
t
•··· { Errores } ······•••••••·•·••••••·••····•
j
.
Plan del estudio Estudio real
Muestra
-
Realización Participantes
prevista reales
Los 104 pacientes con
Los 215 pacientes con
diagnóstico de CI en el
antecedente de CI
registro del último año
atendidos en la consulta
que rellenaron el
en el último año
cuestionario
Variables Mediciones
previstas reales
Respuestas a las
Uso autorreferido de preguntas del
complementos de aceite
cuestionario sobre los
de pescado complementos de aceite
de pescado
VALIDEZ
INTERNA
■ FIGURA 1-3. Errores de real ización y validez interna: si los participantes y las mediciones reales no representan lo
suficiente la muestra y las variables previstas, estos errores pueden alterar las inferencias sobre lo que ha ocurrido en el
estudio.
Capítulo 1 • Cómo empezar: anatomía y fisiología de las investigaciones clínicas 9
ocurre en la población. Las inferencias erróneas pueden abordarse en la fase del análisis de la inves-
tigación, pero una mejor estrategia será centrarse en el diseño y la ejecución ~fig. 1-4), evitando,
· desde el principio, que se produzcan errores en la medida que esto sea práctico.
Los dos tipos principales de errores que interfieren con las inferencias de la investigación son el
error aleatorio y el error sistemático. La distinción es importante , porque las estrategias para redu-
cirlos al mínimo son bastante diferentes .
El error aleatorio es un resultado erróneo debido al azar: fuentes de variación con la misma pro-
babilidad de alterar las mediciones del estudio en una u otra dirección. Si la frecuencia real de con-
sumo diario de complementos de aceite de pescado en los varios centenares de pacientes de 50 a
69 años de edad con CI en la consulta del investigador es del 20 %, una muestra bien diseñada de
100 pacientes de esa población podría contener exactamente 20 pacientes que consumen esos com-
plementos. Sin embargo , es más probable que la muestra contenga un número próximo, como 18,
19 , 21 o 22. En ocasiones, el azar produciría una cifra notablemente diferente, como 12 o 28. Entre
las diversas técnicas para reducir la influencia del error aleatorio (cap. 4) , la más sencilla consiste en
aumentar el tamaño de la muestra. El uso de una muestra de mayor tamaño disminuye la probabi-
lidad de que se produzca un resultado muy erróneo al aumentar la precisión del cálculo: el grado en
que la prevalencia observada se aproxima al 20 % cada vez que se obtiene una muestra.
El error sistemático es un resultado erróneo debido al sesgo: fuentes de variación que alteran los
hallazgos del estudio en una dirección. Un ejemplo es la decisión en la figura 1-2 de estudiar pacientes
en la consulta del investigador, donde los patrones de tratamiento locales han respondido a su interés
en el tema y sus compañeros tienen más probabilidad que otros médicos de recomendar el aceite de
pescado. EH aumento del tamaño de la muestra carece de efecto sobre el error sistemático. El mejor modo
_: de aumentar la exactitud del cálculo (grado en que se aproxima al valor verdadero) es diseñar el estudio
de tal modo que reduzca la magnitud de los diversos sesgos. De manera alternativa, el investigador
puede buscar información adicional para evaluar la importancia de los posibles sesgos. Un ejemplo sería
comparar los resultados con los de una segunda muestra de pacientes con CI obtenida de otro entorno ,
pbr ejemplo, examinar si los hallazgos de pacientes de este tipo atendidos en una consulta de cardiolo-
gía son diferentes de los encontrados en pacientes de una consulta de atención primaria.
Los ejemplos de error aleatorio y error sistemático de los dos párrafos anteriores son componen-
tes del error de muestreo , que amenaza las inferencias desde los participantes del estudio a la po-
blación. Ambos tipos de errores (aleatorio y sistemático) pueden contribuir también al error de
medición , que amenaza las inferencias desde las mediciones del estudio a los fenómenos de interés.
Inferencia Inferencia
r
t ...., r
t
'
Error Solución Error Solución
Error Mejorar el diseño (caps. 7-13) Error Control de calidad (cap. 17)
aleatorio Aumentar el tamaño de la aleatorio
muestra
5 estrategias para
aumentar la precisión (cap. 4)
Error Mejorar el diseño (caps. 7-13) Error Control de calidad (cap. 17)
sistemático 7 estrategias para aumentar la sistemático
exactitud (cap. 4)
' ' ~
J
Diseño Realización
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 1-4. Errores de investigación . Estos detalles, desarrollados de los recuadros de errores de las figuras 1-2 y
1-3, muestran estrategias para controlar el error aleatorio y sistemático en las fases de diseño y realización del estudio.
10 Sección 1 • Ingredientes básicos ·
Inferencia Inferencia
REALIDAD
~f-- REALIDAD
~f-- HALLAZGOS
EN EL UNIVERSO t EN EL ESTUDIO t DEL ESTUDIO
..•........••.........
Pregunta
Error
aleatorio
y sistemático
•..•........•....
Plan
-- Error
aleatorio
y sistemático
······~---·········
Estudio
de investigación del estudio real
Población
objetivo _l Diseño
Muestra
pretendida _l
Realizar
Participantes
reales
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 1-5. Fisiología de la investigación: cómo funciona.
• Resumen del estudio (v. tabla 1-1 y apéndice 1-1). Este resumen del diseño en una página actúa
como lista de comprobación estandarizada que recuerda al investigador que debe abordar todos
los componentes. También es importante que la secuencia tenga una lógica ordenada que ayude
a aclarar las ideas del investigador sobre el tema.
• Protocolo del estudio. Esta ampliación del resumen del estudio habitualmente varía de 5 a 15 pá-
ginas y se utiliza para planificar el estudio y solicitar la aprobación del CEI y financiación. A lo
largo del libro se exponen las partes del protocolo, y se resumen en el capítulo 19.
• Manual operativo. Esta recopilación de instrucciones específicas sobre el procedimiento , los
cuestionarios y otros materiales está diseñada para asegurar un método uniforme y normalizado
para realizar el estudio con un buen control de calidad (caps. 4 y 17) .
La pregunta de la investigación y el resumen del estudio deben redactarse en una fase inicial.
Reflejar las ideas en un papel transforma las ideas vagas en planes específicos, y proporciona una
base concreta para obtener opiniones de compañeros y asesores . Hacerlo constituye un reto (es más
fácil hablar de las ideas que escribirlas), pero las recompensas serán un inicio más rápido y un pro-
yecto mejor.
En el apéndice 1 se presenta un ejemplo de un resumen de un estudio. Este resumen de una pá-
gina se refiere más a la anatomía de la investigación (v. tabla 1-1) que a su fisiología (v. fig. 1-5), por
lo que el investigador debe recordar los errores que pueden producirse en el momento de obtener
Capítulo 1 • Cómo empezar: anatomía y fis iolog ía de las investigaciones clínicas 11
inferencias , desde las medidas de la muestra en estudio hasta los fenómenos de interés en la pobla-
ción. Las virtudes y los problemas de un estudio pueden revelarse al considerar explícitamente en
qué difiere la pregunta a la que es probable que responda el estudio de la pregunta de la investigación,
según los planes para obtener participantes y realizar mediciones, y según los posibles problemas de
ejecución.
Con el resumen del estudio en la mano y las inferencias propuestas en la mente, el investigador
puede pasar a los detalles de su protocolo. Aquí se incluye la obtención de opiniones de compañeros,
el bosquejo de métodos de inclusión de pacientes y de medición específicos, la consideración de la
idoneidad científica y ética, la modificación de la pregunta del estudio y de su resumen cuando sea
necesario, las pruebas preliminares para la inclusión de pacientes y los métodos específicos de me-
dición, la realización de más cambios, la obtención de más opiniones, etc. Este proceso iterativo
constituye la naturaleza del diseño de la investigación y será el tema del resto de este libro.
Concesiones
Lamentablemente, los errores son una parte inherente de todos los estudios. El principal tema es si
estos errores serán lo suficientemente grandes como para cambiar las conclusiones de un modo
importante. Cuando diseña un estudio , el investigador se encuentra en una posición muy parecida
a la de un miembro de un sindicato negociando un nuevo contrato. Este empieza con una lista de
deseos: menos horas , más dinero, mejora de la asistencia sanitaria, etc. Luego debe hacer concesio-
nes , conservando las cosas que son más importantes y renunciando a las que no son esenciales o
realistas . Al final de las negociaciones hay un paso fundamental: mira el mejor contrato que puede
negociar 3/ decide si se ha vuelto tan malo que ya no merece la pena.
} El mi.smo tipo de concesiones debe hacer un investigador cuando transforma la pregunta de la
investi'gación en el plan del estudio y considera los posibles problemas de su ejecución. A un lado
se encuentran los problemas de validez interna y externa; al otro , la viabilidad. A veces, se omite el
último paso esencial del-negociador del sindicato. Una vez que se ha formulado el plan del estudio,
el investigador debe decidir si aborda adecuadamente la pregunta de la investigación y si puede
realizarse con unos niveles de error aceptables. A menudo la respuesta es no, y será necesario empe-
zar el proceso de nuevo. Pero ¡anímese! Los buenos científicos se distinguen no tanto por sus ideas
de investigación uniformemente buenas como por su entusiasmo en abandonar las que no funcionan
y pasar a otras mejores .
■ RESUMEN
l. La anatomía de la investigación es el conjunto de elementos tangibles que conforman el plan
del estudio: la pregunta de la investigación y su importancia, y el diseño , los participantes en
ei'~studio y los métodos de medición. El reto consiste en diseñar elementos que sean relativa-
mente económicos y fáciles de realizar.
2. La fisiología de la investigación es el modo en que se realiza el estudio. Los hallazgos de este se
usan para obtener inferencias sobre lo que sucedió en la muestra de estudio (validez interna)
y sobre acontecimientos fuera de este (validez externa). El reto aquí consiste en diseñar y eje-
cutar un plan de estudio con un control adecuado sobre dos importantes -amenazas a estas infe-
rencias: el error aleatorio (azar) y el error sistemático (sesgo).
3. Al diseñar un· estudio el investigador puede encontrar que es útil considerar la figura 1-5 , las
relaciones entre la pregunta de la investigación (lo que se quiere responder), el plan del estudio
(lo que el estudio pretende responder) y el estudio real (lo que el estudio realmente responderá,
según los errores de ejecución que pueden preverse).
4. Una buena forma de desarrollar el plan del estudio consiste en empezar con una versión de la
pregunta de la investigación en una frase que especifique las variables principales y la población,
y ampliarla en un resumen de una página que describa los elementos en una secuencia norma-
lizada. Más adelante se ampliará en el protocolo y el manual operativo .
5. Se necesita un buen juicio por parte del investigador y el consejo de los colaboradores para
las numerosas concesiones que se deben hacer, y para determinar la viabilidad general del
proyecto.
12 Secc ión 1 • Ingredientes bás icos
APÉNDICE 1
Resumen de un estudio
Este es el plan del estudio en una página de un proyecto realizado por Valerie Flaherman, MD, MPH,
que comenzó cuando era residente de pediatría general en UCSF. Para la mayoría de los investigado-
res principiantes es más fácil iniciar estudios de observación, aunque en este caso era posible un
estudio clínico aleatorizado de un tamaño y un ámbito moderados, el único diseño que permitía
abordar adecuadamente la pregunta de la investigación, y .en último término tuvo éxito (v. en la
publicación de Flaherman y cols. 1 los hallazgos que, si se confirman, podrían alterar las políticas de
cómo iniciar mejor la lactancia materna).
Importancia
l. El volumen de la leche materna es bajo hasta que comienza la producción de leche madura
2-5 días después del parto.
2. Algunas madres se preocupan si el inicio de la producción de leche madura es tardío y su hijo
pierde mucho peso, y todo ello las lleva a abandonar la lactancia materna en la primera semana.
Una estrategia que aumentará la proporción de madres que tienen éxito en la lactancia materna
produciría muchos beneficios sanitarios y psicosociales para la madre y el niño.
3. En estudios de observación se ha encontrado que la alimentación con fórmula en los prime-
ros días tras el parto se asocia a una disminución de la lactancia materna. Aunque esto se
podría deber a la confusión por la indicación (v. cap. 9), este hallazgo ha llevado a directrices
de la OMS y de los CDC dirigidas a reducir el uso de fórmula durante la hospitalización del
parto.
4. Sin embargo, la combinación de una pequeña cantidad de fórmula con la lactancia materna y el
consejo médico podría hacer que la experiencia de lactancia materna temprana fuera más posi-
tiva y aumentaría la probabilidad de éxito. Hace falta un estudio clínico para evaluar los posibles
beneficios y perjuicios de esta estrategia.
Participantes
• Criterios de inclusión: recién nacidos a término sanos de 24-48 h de edad que hayan perdido
2: 5 % del peso corporal en las primeras 36 h tras el nacimiento.
• Diseño del muestreo: muestra consecutiva de pacientes que dieron su consentimiento en dos
centros médicos académicos del norte de California.
BIBLIOGRAFÍA
l. Flaherman VJ, Aby J, Burgos AE, et al. Effect of early limited formula on duration and exclusivity of breastfeeding
in at-risk infants: an RCT. Pediatrics, en prensa. '
.
,
CAPITULO D
Elaboración de la pregunta
de la investigación y desarrollo
del plan del estudio
Steven R. Cummings, Warren S. Browner y Stephen B. Hulley
~-~~~~-~~~~~-~~---~rror
1 1
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 2-1 . Este capítu lo se centra en el área dentro de la línea verde discontinua, el reto de elegir una pregunta de
la investigación que tenga interés y que se pueda abordar con un plan de estudio viable.
14
Capítu lo 2 • Elaboración de la pregunta de la investigación y desarro llo de l plan del estudio 15
persona creativa plantee nuevos enfoques a los problemas antiguos, la falta de experiencia es , sobre
todo , un impedimento.
Una buena forma de comenzar es clarificar la diferencia entre una pregunta de la investigación
y un interés de la investigación. Tome en consideración esta pregunta de la investigación:
Esta pregunta la podría plantear alguien cuyo interés de investigación se refiere a la eficacia del
asesoramiento de grupo, o a la prevención de la violencia doméstica, o a la mejora de la salud en
inmigrantes recientes . La distinción entre preguntas de la investigación e intereses de la investigación
es importante, porque puede ocurrir que la pregunta de la investigación específica no se pueda
transformar en un plan de estudio viable , aunque el investigador puede seguir abordando su interés
de la investigación haciendo una pregunta diferente.
Por supuesto , es imposible formular una pregunta de la investigación si no se está seguro siquie-
ra del interés de la investigación (aparte de saber qué se supone que quiere uno). Si usted se encuen-
tra en esta situación, no está solo: muchos nuevos investigadores todavía no han descubierto un tema
que les interese y que sea susceptible de un plan de estudio que puedan diseñar. Puede empezarse
considerando qué tipos de estudios de investigación han estimulado su interés cuando los ve en una
revista médica. O tal vez se haya sentido preocupado por un paciente específico cuyo tratamiento
parecía inadecuado o incorrecto: ¿qué se podría haber realizado de manera diferente para mejorar el
resultado,? O tal vez uno de los médicos ayudantes le haya comentado que la hipopotasemia siempre
: producía una ·s ed profunda, y otro dijo lo contrario, de una manera igual de dogmática.
~
tratamiento más doloroso y más prolongado en el servicio de urgencias, aunque la evaluación con
enmascaramiento mostró que los tiempos de curación y los resultados estéticos eran similares. Esto
se ha convertido actualmente en el abordaje estándar que se utiliza en la práctica clínica.
La aplicación de nuevas tecnologías a menudo genera nuevas ideas y preguntas sobre problemas clí-
nicos habituales, que, a su vez, pueden generar nuevos paradigmas (3). Los avances en el diagnóstico por
la imagen y en técnicas de análisis genéticos y moleculares, por ejemplo, han generado estudios de inves-
tigación aplicada que han llevado a nuevos tratamientos y pruebas que han modificado la medicina clí-
nica. Del mismo modo, la obtención de un nuevo concepto, tecnología o hallazgo en un campo y su
aplicación a un problema de un campo diferente pueden conducir a la formulación de buenas preguntas
de investigación. Por ejemplo, una densidad ósea baja es un factor de riesgo de fracturas. Los investiga-
dores aplicaron esta tecnología a otros problemas y observaron que las mujeres con densidad ósea baja
tienen mayor velocidad de deterioro cognitivo (4), lo cual estimuló la investigación de factores , corno
concentraciones endógenas bajas de estrógenos, que podrían llevar a la pérdida de hueso y de memoria.
Su mentor le puede ofrecer una base de datos y pedirle que venga con una pregunta de la inves-
tigación. En esa situación es importante identificar: 1) la superposición entre lo que hay en la base
de datos y sus propios intereses de investigación, y 2) la calidad de la base de datos. Si no hay sufi-
ciente superposición o_si los datos contienen errores irrevocables, debe encontrarse una forma de
pasar a otro proyecto.
Factible
Es mejor conocer los límites y problemas prácticos del estudio de una pregunta en fases tempranas
de la investigación, antes de invertir mucho tiempo y esfuerzo en líneas impracticables.
• Número de participantes. Muchos estudios no logran los objetivos propuestos por no poder contar
con suficientes participantes. Puede ser muy útil hacer pronto un cálculo preliminar de los requi-
sitos del tamaño de la muestra del estudio (cap. 6), junto con un cálculo del número de partici-
pantes de los que probablemente se dispondrá para el estudio, el número de los que serían exclui-
dos o rechazarían participar, y el número de los que se perderían durante el seguimiento. Incluso
una planificación meticulosa produce muchas veces cálculos que son excesiv¡i.mente optimistas, y
el investigador debe asegurarse de que haya suficientes participantes idóneos y dispuestos. A veces
: es nec;esario realizar un estudio piloto o una revisión de las historias clínicas para estar seguro. Si
par~'ce que el número de participantes es insuficiente, el investigador puede considerar varias es-
trategias: ampliación de los criterios de inclusión, eliminación de criterios de exclusión innecesa-
rios, alargamiento del plazo de tiempo para incluir participantes, adquisición de otras fuentes de
' participantes, desarrollo de métodos de medición más precisos, invitación a compañeros para
que participen en un estudio multicéntrico y utilización de un diseño del estudio diferente.
• Experiencia técnica. Los investigadores deben tener la capacidad, el equipo y la experiencia ne-
cesarios para diseñar el estudio, incluir a los participantes, medir las variables, y gestionar y
analizar los datos. Los consultores pueden ayudar a apuntalar aspectos técnicos con los que no
estén familiarizados los investigadores, pero, para áreas importantes del estudio, es mejor contar
con un compañero con experiencia que participe intensamente como coinvestigador; por ejemplo,
es sensato contar con un estadístico como miembro del equipo de investigación desde el principio
del proceso de planificación. Es mejor utilizar métodos familiares y ya establecidos, porque el
proceso de elaborar nuevos métodos y aptitudes lleva tiempo y no es seguro. Cuando se precisa
un nuevo 'método, como la medición de un nuevo biomarcador, debe buscarse la experiencia en
la forma de llevar a cabo la innovación.
• Coste de tiempo y económico. Es importante calcular los costes de cada uno de los componentes
del proyecto, teniendo en cuenta que el tiempo y el dinero necesarios superarán generalmente las
cantidades previstas al principio. Si los costes proyectados superan los fondos de los que se dispone,
las únicas opciones serán considerar un estudio más barato o buscar nuevas fuentes de financiación.
Reconocer pronto que un estudio es demasiado caro o que va a requerir demasiado tiempo puede
hacer que se modifique o se abandone el plan antes de que se haya realizado un gran esfuerzo.
• Ámbito. A menudo surgen problemas cuando un investigador intenta conseguir demasiado, rea-
lizando muchas determinaciones en contactos repetidos con un gran grupo de participantes en
un intento de responder a demasiadas preguntas. La solución estará en acortar el campo de estu-
dio y centrarse solo en los objetivos más importantes. Muchos científicos piensan que es difícil
abandonar la oportunidad de responder a preguntas accesorias interesantes, pero la recompensa
puede ser lograr una mejor respuesta a la pregunta principal.
• Posibi lidad de financiación . Pocos investigadores disponen de recursos personales o institucio-
nales para financiar sus propios proyectos de investigación, particularmente si se debe incluir y
seguir a pacientes, o si se deben realizar mediciones costosas. La propuesta de investigación con
el diseño más elegante no será viable si no hay quien la pague. En el capítulo 19 se analiza la
búsqueda de fuentes de financiación.
Interesante
Un investigador puede tener muchos motivos para perseguir una pregunta de la investigación concre-
ta: porque le proporcionará dinero, porque es un siguiente paso , lógico o importante, en su carrera
profesional, o porque resulta interesante buscar la verdad del tema. Nos gusta esta última razón; crece
a medida que se ejercita, y proporciona la intensidad de esfuerzo necesaria para superar los numerosos
obstáculos y frustraciones del proceso de investigación. Sin embargo , es prudente confirmar que no es
usted el único que encuentra que una pregunta es interesante. Hable con mentores, expertos externos
y representantes de posibles agencias de financiación, como los encargados de proyectos del NIH,
antes de emplear demasiada energía en desarrollar un plan de investigación o una propuesta de finan-
ciación que los compañeros y entidades financieras pueden considerar carente de interés.
Novedosa
Una buena investigación clínica aportará información novedosa. Un estudio que simplemente reitere
lo que ya está establecido no merece el esfuerzo ni el coste, y es improbable que reciba financiación. La
novedad de un estudio propuesto puede determinarse mediante una revisión exhaustiva de la biblio-
grafía, la consulta con expertos familiarizados en la investigación en curso no publicada y la búsqueda
de resúmenes de proyectos en el campo de interés que han sido financiados consultando la página web
NIH Research Portfolio Online Reporting Tools (RePORT) (http://report.nih.gov/categorical_spending.
aspx.). Las revisiones de estudios enviados al NIH dan un peso considerable a si un estudio propuesto
es innovador (5), de modo que un resultado positivo podría cambiar paradigmas de investigación o la
práctica clínica mediante el uso de nuevos conceptos, métodos o intervenciones (cap. 19). Aunque
la novedad es un criterio importante, no es necesario que una pregunta de investigación sea totalmente
original: puede merecer la pena preguntarse si puede repetirse una observación anterior, si los hallazgos
en una población se aplican también a otras, o si un nuevo método de medición puede aclarar la relación
entre factores de riesgo conocidos y una enfermedad. Un estudio de confirmación será particularmente
útil si evita los puntos débiles de estudios anteriores o si el resultado a confirmar era inesperado.
Ética
Una buena pregunta de investigación debe ser ética. Si el estudio presenta riesgos físicos inaceptables
o invasión de la ·privacidad (cap. 14), el investigador debe buscar otras vías para responder a la pre-
Capítulo 2 • Elaboración de la pregunta de la investigación y desarrollo del plan del estudio 19
gunta . Si existen dudas sobre si el estudio es ético , será útil comentarlo al principio con un repre-
sentante del comité de ética de la investigación (CEI).
Relevante
Un buen método para decidir sobre la importancia es imaginar los diversos resultados que pueden
suceder y considerar cómo cada posibilidad podría hacer avanzar el conocimiento científico, influir
en directrices prácticas y políticas sanitarias, u orientar a investigaciones posteriores. Los revisores
del NIH insisten en la relevancia de un estudio propuesto: la importancia del problema, en qué
medida el proyecto mejorará el conocimiento científico, y de qué manera el resultado modificará
conceptos, métodos o servicios clínicos.
Problemas y abordajes
Dos abordajes complementarios a los problemas que supone la formulación de una pregunta de
: investigación merecen especial atención.
La primera es la importancia de obtener un buen asesoramiento . Recomendamos un equipo de
investigación que incluya representantes de cada una de las principales disciplinas del estudio, y que
incluya al menos un científico con experiencia. Además, es una buena idea consultar con especialis-
ta·s que puedan orientar el descubrimiento de investigaciones anteriores sobre el tema, así como la
elección y el diseño de las técnicas de medición. A veces lo hará un experto local, pero a menudo
resulta útil contactar con personas de otros centros que hayan publicado algún trabajo acerca del
tema ..Un nuevo investigador puede verse intimidado por la idea de escribir o llamar a alguien a quien
solo conoce como autor en la revistajournal of the American Medica! Association, pero la mayoría de
los científicos responden favorablemente a las peticiones de estos consejos.
El segundo abordaje ~s permitir que el plan de estudio surja gradualmente de un proceso iterati-
vo de realización de cambios incrementales en el diseño del estudio , estimación del tamaño de la
muestra, revisión con los compañeros, estudio previo de las características principales y revisión.
Una vez que se ha especificado el resumen del estudio en una página, la revisión formal por los
compafieros habitualmente llevará a mejoras importantes. A medida que el protocolo va tomando
forma, estudios piloto de la disponibilidad y la voluntad de números suficientes de participantes
pueden llevar a cambios del plan de inclusión. La prueba de imagen preferida puede llegar a ser
prohibitivamente cara, por lo que hay que buscar una alternativa más barata.
■ INVESTIGACIÓN APLICADA
La investigación aplicada se refiere a los estudios que buscan la manera de llevar los hallazgos des-
de la «torre de marfil» al «mundo real», de garantizar que la creatividad científica tenga consecuen-
cias favorables sobre la salud pública. La investigación aplicada (6) se presenta en dos modalidades
principales (fig. 2-2):
/
V
.Y
,Y
■ FIGURA 2-2 . La investigación aplicada es el componente de la investigación clínica que interactúa con la investigación
científica básica (área sombreada T1) o con la investigación en la población (área sombreada T2).
Capítu lo 2 • Elaboración de la pregunta de la investigación y desarrollo del plan del estudio 21
Por ejemplo, suponga que un científico básico ha identificado un gen que afecta al ritmo circadiano
en los ratones. Un investigador clínico con experiencia en el estudio del sueño tiene acceso a un es-
tudio de cohortes con datos sobre los ciclos del sueño y un banco de ADN almacenado , y desea
estudiar si existe una asociación entre las variantes del homólogo humano de ese gen y el sueño. Con
el fin de proponer un estudio Tl que contemple esa asociación, necesita colaboradores que estén fa-
miliarizados con ese gen y con las ventajas y limitaciones de los diversos métodos de genotipificación.
Del mismo modo, imagine que un investigador de laboratorio ha descubierto un patrón de ex-
presión génica característico en muestras de biopsias tisulares de pacientes con cáncer de mama. No
debe proponer un estudio de su uso como prueba para predecir el riesgo de recurrencia del cáncer
de mama sin colaborar con alguien que conozca la importancia de los aspectos de la investigación
clínica, como la fiabilidad de las pruebas, el muestreo y el enmascaramiento, así como los efectos de
la probabilidad previa de enfermedad sobre la posibilidad de aplicación de su descubrimiento. Una
buena investigación aplicada necesita experiencia en más de un campo. Así pues , un equipo de in-
vestigación que esté interesado en estudiar un nuevo fármaco necesita científicos familiarizados con
la biología molecular, la farmacocinética, la farmacodinámica , los ensayos clínicos de fase I y II, y la
práctica actual en el correspondiente campo de la medicina.
■ RESUMEN
l. Todos los estudios deben empezar con una pregunta de la investigación que aborde lo que el
investigador desearía conocer. El objetivo es encontrar una que pueda desarrollarse en un buen
plan de estudio.
22 Sección 1 • Ingred ientes básicos
2. La erudición es esencial para formular preguntas de investigación que merezcan la pena estu-
diarse. Una revisión sistemática de la investigación relativa a un campo de investigación de
interés es un buen lugar para comenzar. La asistencia a conferencias, y estar alerta a los nuevos
resultados, amplía la experiencia del investigador más allá de lo que ya se ha publicado.
3. La decisión única más importante que toma un nuevo investigador es la elección de uno o dos
científicos con experiencia para que sean sus mentores: investigadores experimentados que
dedicarán tiempo a reunirse, ofrecerán recursos y contactos, estimularán la creatividad, y fo-
mentarán la independencia y la visibilidad de los científicos jóvenes a su cargo.
4. Las buenas preguntas de investigación surgen de encontrar buenos colaboradores en conferen-
cias, del pensamiento crítico sobre la práctica clínica y sus problemas, de la aplicación de nuevos
métodos a viejos problemas, y de considerar ideas que surgen de la docencia, de las ensoñacio-
nes diurnas y de la búsqueda tenaz de soluciones a problemas graves.
5. Antes de dedicar mucho tiempo y esfuerzo a escribir -una propuesta o a llevar a cabo un estudio,
el investigador debe tener en cuenta si la pregunta y el plan del estudio son: factibles , intere-
santes, novedosos, éticos y relevantes . Quienes financian investigaciones dan prioridad a las
propuestas que puedan tener consecuencias innovadoras y significativas en la ciencia y la salud.
6. Al principio, la pregunta de investigación debe desarrollarse en un resumen del estudio escrito
en una página, que describa específicamente cuántos participantes serán necesarios, y cómo se
elegirán estos participantes y se realizarán las mediciones . _,,--,----
7. El desarrollo de la pregunta de la investigación y el plan del estudio es un proceso iterativo que
incluye consultas con asesores y amigos, una creciente familiaridad con la bibliografía, y estu-
dios piloto de los abordajes del reclutamiento y de las mediciones.
8. La mayor parte de los estudios tienen más de una pregunta, aunque es útil centrarse en una
única pregunta principal al diseñar y realizar el estudio.
9. La investigación aplicada es un tipo de investigación clínica que estudia la aplicación de los
hallazgos básicos a los estudios clínicos de pacientes {Tl ), así como el modo de aplicar estos ha-
llazgos para mejorar las prácticas sanitarias en la comunidad (T2); necesita la colaboración
entre investigadores de laboratorio e investigadores basados en la población, usando los mé-
todos de investigación clínica que se presentan en este libro.
BIBLIOGRAFÍA
l. The ATAC Trialists Group. Anastrazole alone or in combination with tamoxifen versus tamoxifen alone for adju-
vant treatment of postmenopausal women with early brease cancer: first results of the ATAC randomized trials.
Lancet 2002;359:2131-2139.
2. Quinn J, Cummings S, Callaham M, et al. Suturing versus conservative management of lacerations of the hand:
randomized controlled tria!. BMJ 2002;325:299-301.
3. Kuhn TS. The structure of scientific revolutions . Chicago, IL: University of Chicago Press, 1962.
4. Yaffe K, Browner W, Cauley J, et ál. _Association between bone mineral density and cognitive decline in older
women.J Am Geriatr Soc 1999;47:1176-1182.
5. Prentice RL, Caan B, Chlebowski RT, et al. Low-fat dietary pattern and risk of invasive breast cancer. JAMA
2006;295:629- 642.
6. Zerhouni EA. US biomedical research: basic, translational and clinical sciences. JAMA 2005;294:1352-1358.
CAPITULO IJ
Elección de los participantes
del estudio: especificación,
muestreo e inclusión
Stephen B. Hulley, Thomas B. Newman y Steven R. C:ummings
U na buena elección de los participantes del estudio cumple el objetivo esencial de asegurar que
sus hallazgos representen de forma exacta lo que sucede en la población de interés. El protocolo
debe especificar una muestra de participantes que pueda estudiarse con un coste de tiempo y eco-
nómico aceptable (es decir, de tamaño moderado y de acceso sencillo), pero que sea lo suficiente-
mente grande para controlar el error aleatorio y lo suficientemente representativa para permitir la
generalización de los hallazgos del estudio a las poblaciones de interés. Un importante precepto aquí
es que la posibilidad de generalizar rara vez es un sencillo asunto de sí o no ; es una opinión cuali-
tativa compleja que depende de la elección de la población y del diseño del muestreo por parte del
.: investig<idor.
Regfesaremos al tema de la elección del número adecuado de participantes del estudio en el capí-
tulo 6. En este capítulo se orienta el proceso de especificación y muestreo de los tipos de participan-
tes que serán representativos y viables (fig. 3-1). También se comentan las estrategias para la selec-
CÍón de estas personas que van a participar en el estudio._
Inferencia Inferencia
REALIDAD -----t f--- REALIDAD -----t f--- HALLAZGOS
EN EL UNIVERSO
Pregunta
..6 ....~~~~~-~~~~1~ -- - 6 ..
~ Plan del estudio ~
DEL ESTUDIO
Estudio
de la investigac!ón real
,---~-------~
: Población
Diseño
---~~m~ -- -- ----------
Muestra
Realización
Participantes
: objetivo prevista reales ,
'--- - - - - - ~ -~ -------------- - - - - - - - -·- ------------- -·---- -------' ; J
Fenómenos
de interés
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 3- 1. Este capítulo aborda la elección de una muestra de participantes en el estudio que represente a la po-
blación de interés para la pregunta de la investigación.
23
24 Sección 1 • Ingredientes básicos
• Las características clínicas y demográficas definen la población objetivo , el gran grupo de perso-
nas de todo el mundo a las que se pueden generalizar los resultados: los adolescentes con asma ,
por ejemplo.
• La población accesible es un subgrupo de la población objetivo definido geográfica y temporal-
mente , y del que puede disponerse para su estudio: adolescentes con asma que viven este año en
la ciudad del investigador.
• La muestra del estudio prevista es el subgrupo de población accesible que el investigador inten-
ta incluir en el estudio.
• La muestra real del estudio es el grupo real de personas que participan en el estudio .
REALIDAD HALLAZGOS
EN EL UNIVERSO DEL ESTUDIO
(G ENERALIZACIÓN
MENOS SEGURA)
. Existe la misma
asociación en:
a) Otros adultos de
Estados Unidos
(p. ej., de raza
negra del centro
de la ciudad)
b) Personas que
viven en otros
países
c) Personas que
vivirán en 2030
d) Etc.
■ FIGURA 3-2. Las inferencias en la generalización desde los participantes del estudio a las poblaciones objetivo avan-
zan de derecha a izqu ierda .
Capítu lo 3 • Elección de los participantes del estudio: especificación, muestreo e inclusión 25
REALIDAD REALIDAD
EN EL UNIVERSO EN EL ESTUDIO
CRITERIOS
--- y geográficas
CRITERIOS
--- CRITERIOS
Adecuados Representativos de Representativos
a la pregunta de poblaciones objetivo de una población
investigación y disponibles accesible y de fácil
estudio
Especificación Muestreo
_: ■ FIGURA 3-3. Pasos del diseño del protocolo para elegir los participantes del estudio.
,
hasta qué punto se ha producido un daño . Los errores de muestreo del estudio de Framingham no
parecen ser lo suficientemente importantes como para invalidar la conclusión de que sus hallazgos
(p. ej ., que la hipertensión es un factor de riesgo de sufrir cardiopatía isquémica [CI]) pueden gene-
ralizarse a todos los residentes de Framingham. -
El segundo problema es la validez que tiene la generalización del hallazgo de que la hipertensión
es u~ factor de riesgo de CI obtenido en la población accesible de los residentes de Framingham a
poblaciones objetivo de cualquier otro lugar. Esta inferencia es más subjetiva. Se escogió la ciudad
de Framingham no con un diseño científico del muestreo, sino porque parecía bastante típica de las
comunidades residencia.les de clase media de Estados Unidos y a los investigadores les venía bien.
La validez de la generalización de las relaciones de riesgo de Framingham a poblaciones de otros Í El-
puntos del país conlleva la norma de que, en general, los ensayos clínicos y estudios analíticos que .:S
abordan relaciones biológicas producen resultados más ampliamente generalizables en las diversas
poblaciones que los estudios descriptivos que abordan distribuciones de características. Así, la im-
portancia de la hipertensión como factor de riesgo de CI es similar en los residentes caucásicos de
Framingham y en los afroamericanos de ciudades del interior, pero la frecuencia de la hipertensión
es mucho mayor en esta última población.
Pasos del diseño del protocolo para seleccionar participantes para el estudio
Las inferencias de la figura 3-2 se presentan de derecha a ,i zquierda , la secuencia que se usa para
interpretar los haliazgos de un estudio completo. Un investigador que está planificando un estudio
invierte esta secuencia, empezando por la izquierda (fig. 3-3). Comienza especificando las caracte-
rísticas clínicas y demográficas de la población objetivo que sirven para la pregunta de la investiga-
ción. A continuación utiliza criterios geográficos y temporales para especificar una muestra del
estudio que sea representativa y práctica.
■ CRITERIOS DE SELECCIÓN
Un investigador que desea comparar la eficacia de los suplementos de testosterona en dosis baja con
un placebo para aumentar la libido en mujeres posmenopáusicas empieza creando criterios de selec-
ción que definan la población que se va a estudiar.
26 Sección 1 • Ingredientes básicos
dades referidas por ellos mismos, aunque probablemente esto excluyera a un gran número de pacientes
que son perfectamente adecuados para la pregunta de la investigación que se quiere abordar.
Sería más razonable que pudiera excluir solo a los que tengan enfermedades que pudieran inter-
ferir con el seguimiento, como cáncer metastásico. Esto sería un ejemplo de «criterios de exclusión »,
que se refieren a las personas que cumplen los criterios de inclusión y que serían adecuadas para el
estudio de no ser por características que podrían interferir con el éxito de los intentos de seguimien-
to, la calidad de los datos o la aceptabilidad del tratamiento aleatorizado (v. tabla 3-1). La dificultad
con el idioma español, los problemas psicológicos, el alcoholismo y las enfermedades graves son
ejemplos de criterios de exclusión. Los ensayos clínicos difieren de los estudios de observación en
que es más probable que haya exclusiones exigidas por la preocupación de la seguridad de una in-
tervención en determinados pacientes; por ejemplo, el uso de fármacos en embarazadas (cap. 10) .
Una buena regla general que hace que las cosas sigan siendo sencillas y conserva el número de po-
sibles participantes en el estudio es tener el menor número de criterios de exclusión posible.
■ MUESTREO
A menudo, el número de personas que cumplen los criterios de selección es demasiado grande, y es
necesario seleccionar una muestra (subgrupo) de la población para su estudio.
Muestras no probabilísticas
En investigación c~ínica, la muestra del estudio está formada a menudo por personas que cumplen
los criterios de admisión y a las que el investigador tiene fácil acceso. Es lo que se denomina una
muestra de conveniencia, y tiene ventajas evidentes en cuanto a coste y logística, lo que hace que
sea una buena elección para algunas preguntas de investigación.
Una muestra consecutiva puede reducir al mínimo el sesgo de participación voluntaria y otros
sesgos de selección, al elegir de forma consecutiva a los pacientes que cumplan los criterios de admi-
sión. Este abordaje es especialmente deseable, por ejemplo, cuartdo significa incluir a toda la población
accesible a lo largo de un período lo suficientemente largo como para que puedan producirse variacio-
nes estacionales u otros cambios temporales que son importantes para la pregunta de la investigación.
La validez de extraer inferencias de cualquier muestra es la premisa de que, con el fin de respon-
der la pregunta de la investigación, representa suficientemente la población. Con muestras de con-
veniencia, esto requiere una opinión subjetiva.
28 Sección 1 • Ingredientes básicos
Muestras probabilísticas
A veces, particularmente con preguntas de investigación descriptivas, es necesaria una base científica
para generalizar los hallazgos de la muestra en estudio a la población. El muestreo probabilístico, el
método de referencia para asegurar la posibilidad de generalizar los resultados, utiliza un proceso alea-
torio para garantizar que cada unidad de la población tenga una posibilidad específica de verse incluida
en la muestra. Se trata de un método científico que proporciona una base rigurosa para calcular la fide-
lidad con que los fenómenos observados en la muestra representan los de la población, y para calcular
la significación estadística y los intervalos de confianza. Existen varias versiones de este método:
• Una muestra aleatoria simple se extrae enumerando (contando) todas las personas de la población
de la que se extraerá la muestra, y seleccionando aleatoriamente un subgrupo. El uso más frecuente de
este método en investigación clínica es cuando el investigador desea seleccionar un subgrupo repre-
sentativo de una población que es mayor de lo que necesita. Para tomar una muestra aleatoria de los
pacientes operados de cataratas en su hospital, por ejemplo, el investigador podría obtener una lista
de todos estos pacientes de los partes de quirófano d~rante el período del estudio, y usar después una
tabla de números aleatorios para seleccionar pacientes para su estudio (apéndice 3).
• Una muestra sistemática es similar a una muestra aleatoria simple en el primer paso, la enumera-
ción de la población, pero difiere en que la muestra se elige mediante un proceso periódico prede-
terminado (p. ej., el método Framingham de obtener las primeras dos de cada tres familias de una
lista de familias residentes-en la ciudad ordenadas por dirección). El muestreo sistemático puede pre-
sentar errores causados por periodicidades naturales en la población, y permite al investigador
predecir, y quizás manipular, quiénes estarán en la muestra. No ofrece ventajas logísticas sobre el
muestreo aleatorio simple, y rara vez es una opción mejor en la investigación clínica.
• Una muestra aleatoria estratificada comienza dividiendo la población en subgrupos según carac-
terísticas como el sexo o la raza, y se toma una muestra aleatoria de cada uno de esos «estratos».
Pueden asignarse pesos a las submuestras de una muestra estratificada para extraer una propor-
ción anormalmente elevada de subgrupos que son menos frecuentes en la población, pero que
tienen un interés especial para el investigador. Al estudiar la incidencia de la toxemia en el em-
barazo, por ejemplo, el investigador podría estratificar la población según la raza y, a continuación,
obtener muestras de igual tamaño de cada estrato. Entonces, las razas menos frecuentes estarían
sobrerrepresentadas, lo que permitiría obtener estimaciones de la incidencia con una precisión
comparable en todos los grupos raciales.
• Una muestra de conglomerados es una muestra aleatoria de agrupaciones (conglomerados) na-
turales de individuos de la población. Este muestreo es muy útil _cuando la población está muy
~ispersa y no se puede realizar una lista y hacer un muestreo de todos sus elementos. Considere,
por ejemplo, el problema de entrevistar a pacientes con cáncer de pulmón seleccionados aleato-
riamente de una base de datos de diagnósticos al alta hospitalaria de ámbito estatal; se podría
estudiar a los pacientes con un coste menor escogiendo una muestra aleatoria de los hospitales y
obteniendo los casos de estos. Los estudios en la comunidad a menudo usan una muestra de
conglomerados en dos etapas: una muestra aleatoria de manzanas de la ciudad se obtiene de las
manzanas de la ciudad enumeradas en un mapa, y un equipo de campo visita las manzanas de la
muestra, hace una lista de todas las direcciones de cada una y selecciona una submuestra para su
estudio mediante un segundo proceso aleatorio. Un inconveniente del muestreo de conglomera-
dos es que 19s grupos que aparecen de forma natural son, a menudo, más homogéneos en relación
con las variables de interés que la población; cada manzana de la ciudad, por ejemplo, tiende ·a
albergar personas de un nivel socioeconómico similar. Esto significa que el tamaño eficaz de la
muestra (después de ajustar la uniformidad dentro de los conglomerados) será algo menor que el
número de participantes, y que el análisis estadístico debe tener en cuenta el agrupamiento.
preferiblemente con un diseño consecutivo, es un enfoque práctico que a menudo resulta adecuado.
La decisión sobre si el diseño de muestreo propuesto es satisfactorio necesita que el investigador
emita un juicio: para la pregunta de la investigación que se plantea, ¿las conclusiones que se extraigan
de las observaciones del estudio serán similares a las conclusiones que se obtendrían del estudio de
una muestra probabilística verdadera de la población accesible? Y, aparte de eso, ¿las conclusiones
serán adecuadas para la población objetivo?
■ SELECCIÓN
Objetivos de la selección
Un factor importante que hay que tener en cuenta en el momento de elegir la población accesible y
el método de muestreo es la posibilidad de reunir participantes para el estudio. Dos son los objeüvos
principales: 1) reunir una muestra que represente adecuadamente a la población objetivo, minimi-
zando la posibilidad de obtener una respuesta incorrecta a la pregunta de la investigación debido al
error sistemático (sesgo), y 2) reunir un tamaño de la muestra suficiente para minimizar la proba-
bilidad de obtener una respuesta incorrecta debido al error aleatorio (por el azar).
lar la magnitud del problema de selección empíricamente mediante una prueba previa, planificar el
estudio con una población accesible que sea mayor de lo que se cree que será necesario, y elaborar
planes de contingencia por si surge la necesidad de obtener participantes adicionales. Mientras se
realiza la selección, es importante controlar estrechamente el progreso en cuanto al cumplimiento de
los objetivos de la selección y tabular las razones por las que no se llega a los objetivos. Conocer por
qué se pierde a los posibles participantes en el estudio en diferentes fases puede llevar a estrategias
para reducir estas pérdidas. A veces, la inclusión supone seleccionar pacientes que los miembros del
equipo de investigación ya conocen (p. ej ., en un estudio de un nuevo tratamiento en pacientes que
acuden a la consulta del investigador). Aquí, el principal problema es presentar de manera justa la
oportunidad de participar en el estudio, dejando claros las ventajas y los inconvenientes. Al comentar
la participación, el investigador debe reconocer los dilemas éticos que surgen cuando su consejo , como
médico del paciente, podría entrar en conflicto con sus intereses como investigador ~cap. 14).
A menudo, la selección conlleva entrar en contacto con poblaciones desconocidas para los miem-
bros del equipo investigador. Será útil que al menos un miembro del equipo tenga alguna experien-
cia con los métodos para contactar con los posibles participantes. Entre ellos se encuentran: de-
tección selectiva en entornos laborales o lugares públicos, como centros comerciales; envío de gran
cantidad de publicidad por correo a listados de, por ejemplo, personas con carné de conducir; pu-
blicidad en Internet; invitación a remisiones por parte de otros médicos; revisión retrospectiva de
historias clínicas; y examen de listas de pacientes atendidos en consultas y hospitales. Algunos
de estos métodos, en concreto los dos últimos, acarrean temas como la intromisión en la vida privada,
que debe tener en cuenta el comité de ética de la investigación médica .
Puede resultar útil prepararse para la selección obteniendo el apoyo de organizaciones importan-
tes. Por ejemplo, el investigador puede reunirse con administradores del hospital para hablar sobre
una muestra de pacientes de la consulta, y con los dirigentes comunitarios, la sociedad médica y el
departamento de salud de la región para planificar una operación de detección en la comunidad o
el envío de cartas a los médicos. Pueden incluirse apoyos por escrito , como un apéndice en las soli-
citudes de financiación. En estudios de gran tamaño puede ser útil la creación de un clima favorable
en la comunidad mediante conferencias públicas, o con publicidad en la radio, la televisión, la pren-
sa, folletos, páginas web y envíos publicitarios masivos por correo.
■ RESUMEN
l. La mayor parte de la investigación clínica se basa, desde el punto de vista filosófico y práctico,
en el uso de una muestra que represente a una población.
2. La ventaja del muestreo es la eficiencia ; permite al investigador extraer inferencias sobre una
población de gran tamaño examinando un subgrupo con un coste relativamente pequeño en
cuanto a tiempo y esfuerzo. El inconveniente está en las fuentes de error que introduce. Si la
muestra no es suficientemente representativa para la pregunta de la investigación, los hallazgos
pueden no generalizarse bien a la población objetivo, y, si no es suficientemente grande, los
hallazgos pueden no minimizar la importancia del azar .
3. Cuando diseña una muestra, el investigador comienza conceptualizando la población objetivo
con un grupo específico de participantes que se adapten bien a la pregunta de la investigación.
4. Después, selecciona una población accesible y adecuada, que sea asequible desde los puntos de
vista geográfico y temporal, y define un conjunto económico de criterios de exclusión que eli-
minen a las personas cuyo estudio no sería ético o adecuado.
5. El siguiente paso será diseñar un método de muestreo en la población. Puede ser adecuada una
muestra de conveniencia, especialmente para el estudio inicial de algunas preguntas, y muchas
veces es una buena opción una muestra consecutiva. Puede realizarse un muestreo aleatorio sim-
ple para reducir el tamaño de una muestra de conveniencia, si es necesario; en determinadas situa-
ciones son útiles otras estrategias de muestreo probabilístico (estratificado y por conglomerados).
6. Finalmente, el investigador debe diseñar y llevar a cabo estrategias para la selección de una
muestra de participantes que sea suficientemente representativa de la población objetivo para _
controlar las fuentes sistemáticas de error, y suficientemente grande para controlar las fuentes
aleatorias de error.
Capítu lo 3 • Elección de los participantes del estudio: especificación, muestreo e inclusión 31
APÉNDICE 3
Esta tabla presenta una sencilla forma en papel para seleccionar una muestra aleatoria del 10 % gra-
cias a una tabla de números aleatorios. Comience enumerando (realizando una lista y asignando un
número) a todas las personas de la población de la que se va a obten er la muestra. Después, decida
una regla para obtener una serie adecuada de números; por ejemplo, si su lista tiene 741 elementos
(a los que se han asignado números del 1 a 741 ), la regla podría ser recorrer verticalmen te hacia
abaj o cada una de las columnas de esta tabla, utilizando los primeros tres dígitos de cada número
(comenzando en la esquina superior izquierda, los números son 104, 223 , etc.) , y seleccionar los
primeros 74 números diferentes que se encuentren en el intervalo de 1 a 741. Finalmente, seleccio-
n e un punto de p~rtida mediante un proceso arbitrario (cerrar los ojos y pon er el lápiz en algún
número de la tabla es una forma de hacerlo) y comience a aplicar la regla. El a,bordaj e moderno, con
una serie computarizada de números aleatorios, funciona básicamen te de la misma manera.
BIBLIOGRAFÍA
l. www.framinghamheartstudy.org/abou t/background.h tml, último acceso, 7/23/12.
CAPÍTULO D ■
Planificación de las mediciones:
precisión, exactitud y validez
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings
■ ESCALAS DE MEDIDA
En la tabla 4-1 , se presenta una clasificación simplificada de escalas de medida y la información que
se obtiene. La clasificación es importante, porque algunos tipos de variables son más informativos
que otros, añadiendo potencia o reduciendo los requisitos de tamaño de la muestra, y revelando
patrones de distribución más detallados.
Inferencia Inferencia
------t ¡-..-;- ------t !---
REALIDAD REALIDAD HALLAZGOS
EN EL UNIVERSO EN EL ESTUDIO DEL ESTUDIO
Error Error
Pregunta Plan Estudio
del estudió del estudio real
1
: Fenómenos Variables Mediciones
: de interés previstas reales
·--- - --~- - - -- -- --- - -- - - - - - - - - - - - ·- - - - -- --- --- - --- - - - - - - - - - - - - - -- - --- - - - ------ - - 1
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 4-1. Diseño de mediciones que representen los fenómenos de interés.
Capítulo 4 • Planificación de las mediciones: precisión, exactitud y va li dez 33
Categórica
Continua Espectro ordenad.o con Peso, número de Además de lo ant erior: Elevada
o discreta t interva los cuant ificables cigarrillos/día med ias, desviaciones
típicas
t Las variab les continuas t ienen un número infin ito de va lores (p. ej., peso), mientras que las variables numéricas dis-
cretas son más limitadas (p. ej., número de ciga rrillos/día). Las va ri abl es discretas que t ienen un gran número devalo-
res posibles parecen variables continuas con fines prácticos de med ida y aná lisis.
corporal, por ejemplo, está limitado solo por la sensibilidad del aparato que se utilice para medirlo.
Las variables continuas poseen mucha información. Las variables discretas cuantifican cuántos en
; una escala con unidades fijas , habitualmente enteros, como el número de veces que ha estado em-
barazada una mujer. Las variables discretas que tienen un elevado número de valores posibles pueden
parecer variables continuas en los análisis estadísticos y ser equivalentes para el objetivo de diseñar
mediciones .
peso real al nacimiento, en lugar de indicar si es mayor o menor que el umbral convencional de
2 500 g; esto deja abiertas las opciones analíticas, como modificar el valor de corte que define el bajo
peso o el desarrollo de una escala ordinal con varias categorías de peso al nacimiento (p . ej.,> 2 500 g,
2000-2499 g, 1500-1999 g y< 1500 g).
Igualmente, cuando existe la opción de diseñar el número de categorías de respuesta en una esca-
la ordinal (como en una pregunta sobre preferencias alimentarias), a menudo resulta útil proporcionar
media docena de categorías que oscilen desde no gustar nada a gustar enormemente. Los resultados
pueden quedar más adelante colapsados en una dicotomía (no gustar y gustar), pero no lo contrario.
Muchas características, sobre todo síntomas como el dolor o aspectos de los hábitos de vida, son
difíciles de describir con categorías o números. Pero estos fenómenos, con frecuencia, son importantes
en el diagnóstico y las decisiones terapéuticas, y el intento de medirlos es una parte esencial del mé-
todo científico de descripción y análisis. Esto se ilustra mediante el cuestionario Short Form (SF)-36,
un cuestionario normalizado para evaluar la calidad de vida que permite obtener puntuaciones nu-
méricas discretas (2). El proceso de clasificación y medición, si se realiza bien, puede aumentar la
objetividad de nuestro conocimiento, reducir los sesgos y proporcionar un medio de comunicación.
■ PRECISIÓN
La precisión de una variable es el grado en que· es reproducible, con casi el mismo valor cada vez
que se mida. Una balanza puede medir el peso corporal con gran precisión, mientras que es más
probable que una entrevista para medir la calidad de vida produzca valores que varíen de un obser-
vador o una ocasión a otro. La precisión tiene una gran influencia en la potencia de un estudio.
Cuanto más precisa sea la medida, mayor será la potencia estadística con un tamaño de la muestra
concreto para calcular valores medios y comprobar hipótesis (cap. 6).
La precisión (denominada también reproducibilidad, fiabilidad y consistencia) es una función
del error aleatorio (variabilidad por el azar); cuanto mayor sea el error, menos precisa será la medi-
da. Existen tres fuentes principales de error aleatorio al realizar medidas:
• Variabilidad del observador: se debe al observador, e incluye factores como escoger palabras en
una entrevista o tener habilidad para usar un instrumento mecánico.
• Variabilidad del instrumento: se debe al instrumento, e incluye factores ambientales cambiantes
(p. ej., temperatura), el desgaste de los componentes mecánicos, lotes diferentes de reactivos, etc.
• Variabilidad del participante: se debe a la variabilidad biológica intrínseca de los participantes en
el estudio, que no se relaciona con las variables en estudio, como la variabilidad debida a la hora
del día de las mediciones o el tiempo desde la última medicación.
Evaluación de la precisión
La precisión se valora como la reproducibilidad de mediciones repetidas, ya sea comparando medi-
ciones realizadas por la misma persona (reproducibilidad intraobservador) o por personas diferentes
(reproducibilidad entre observadores). Igualmente, puede evaluarse para un instrumento o entre
diversos instrumentos. La reproducibilidad de las variables continuas se expresa, a menudo, como
la desviación típica intraobservador o el coeficiente de variación (desviación típica intraobservador
dividida por la ·media) 1 . Para las variables categóricas se utiliza a menudo la concordancia porcentual,
el coeficiente de correlación intraclase y el estadístico kappa (3-5).
1
Cuando hay dos mediciones de una variable continua por participante, puede ser tentador expresar su concordancia
utilizando un coeficiente de correl(lción. Sin embargo, como el coeficiente de correlación es muy sensible a los valores
extremos (3,4), un abordaje mejor es el «g!áfico de Bland y Alt!!!_an», en el que se representa la diferencia entre las
dos mediciones en función de su media. Si el valor absoluto de la diferencia entre las mediciones tiende a aumentar
linealmente con la media, el coeficiente de correlación es una forma mejor de medir la variabilidad que la desviación
típica intrapaciente.
Capítulo 4 • Planificación de las mediciones: precisión, exactit ud y va lidez 35
l. Normalización de los métodos de medida. Todos los protocolos de estudio deberían incluir ins-
trucciones específicas para hacer las mediciones (definiciones operativas). Entre ellas se encueri-
tran direcciones escritas sobre cómo preparar el entorno y el participante, cómo realizar y registrar
la entrevista, cómo calibrar el instrumento, etc. (apéndice 4). Esta serie de materiales, parte del
manual operativo , es esencial en los estudios grandes y complejos, y recomendable en los más
pequeños. Aun cuando solo exista un único observador, las directrices específicas por escrito para
realizar cada una de las mediciones ayudarán a que su ejecución sea uniforme a lo largo del estu-
dio y servirán de base para describir los métodos cuando se publiquen los resultados.
2. Formación y certificación de los observadores. La formación mejorará la homogeneidad de las
técnicas de medición, especialmente cuando intervienen varios observadores. A menudo es desea-
ble diseñar una prueba formal del dominio de las técnicas especificadas en el manual de instruc-
ciones y certificar que los observadores han logrado el nivel recomendado de rendimiento (cap. 17).
3. Perfeccionamiento de los instrumentos. Los instrumentos mecánicos y electrónicos pueden di-
señarse para reducir la variabilidad. Igualmente, los cuestionarios y las entrevistas pueden escri-
birse para aumentar la claridad y evitar posibles ambigüedades (cap. 15) .
4. Automatización de los instrumentos. Pueden eliminarse las variaciones en la forma en que los
observadores humanos realizan las mediciones mediante dispositivos mecánicos automáticos y
cuestionarios de autorrespuesta.
5. Repetición. La influencia del error aleatorio de cualquier tipo se reduce repitiendo la medición, y
usando la media de las dos o de más determinaciones . Con esta estrategia aumentará notablemen-
te la precisión, siendo la principal limitación el coste añadido y las dificultades prácticas para
repe~ir •las determinaciones.
Parl cada una de las mediciones del estudio, el investigador debe decidir cuánto hincapié debe
hacer en cada una de estas estrategias. Esta decisión puede basarse en la importancia de la variable,
■ EXACTITUD
La exactitud de una variable es el grado en que representa el valor verdadero .
La exactitud es diferente de la precisión en los aspectos que se muestran en la tabla 4-3, y las dos
no están necesariamente unidas. Si se midiera repetidamente el colesterol sérico usando patrones
que se han diluido inadvertidamente dos veces, por ejemplo, el resultado sería inexacto , pero podría
seguir siendo preciso (consistentemente por un factor de 2). Este concepto se ilustra también en la
figura 4-2. Sin embargo, exactitud y precisión a menudo van de la mano, en el sentido de que muchas
de las estrategias para aumentar la precisión también mejorarán la exactitud.
La exactitud depende del error sistemático (sesgo); cuanto mayor sea el error, menos exacta será
la variable. Cada una de las tres clases principales de error de medición observadas en la sección
anterior sobre la precisión tiene su equivalente aquí:
0
Buena precisión Mala precisión Buena precisión ' Mala precisión
Mala exactitud Buena exactitud Buena exactitud Mala exactitud
■ FIGURA 4-2. Diferencia entre precisi ón y exactitud.
Capítulo 4 • Planificación de las mediciones: precisión, exactitud y validez 37
de mama que creen que el alcohol es una causa de su cáncer, por ejemplo, pueden exagerar el
consumo que refieren.
La exactitud de una medición se evalúa mejor comparándola, cuando es posible, con un << criterio
de referencia »: una medición de referencia realizada por un técnico que se piensa que es la que
mejor representa el verdadero valor de la característica. La decisión sobre qué abordaje de la medición
se debe considerar como criterio de referencia puede ser un juicio difícil que tiene que hacer el in-
vestigador, basándose en el trabajo previo en ese campo.
Para las mediciones en una escala continua, el grado de exactitud se puede expresar como la di-
ferencia media entre la medición en investigación y el criterio de referencia en los distintos partici-
pantes en el estudio. Para las mediciones en una escala dicotómica, la exactitud en comparación con
el criterio de referencia se puede describir con la sensibilidad y la especificidad (cap. 12) . Para las
mediciones en escalas categóricas con más de dos opciones de respuesta, se puede calcular el por-
centaje de valores correctos con cada método.
La decisión del interés que se debe poner en aplicar cada una de estas siete estrategias para cada
una de las mediciones se basa , como ya se ha señalado en el caso de la precisión, en el juicio·del in-
vestigador. Las consideraciones son las posibles consecuencias que tendrá el grado previsto de
inexactitud sobre las conclusiones del estudio, y la viabilidad y el coste de la estrategia. Las dos
primeras estrategias (normalización y formación) se deben utilizar siempre, la calibración es nece-
saria en cualquier ~nstrumento que pueda cambiar a lo largo del tiempo, y el enmascaramiento es
esencial siempre que sea posible. ·
■ VALIDEZ
La validez es similar a la exactitud, aunque nos gusta pensar que añade una dimensión cualitativa
a la consideración del grado en que una medición representa el fenómeno de interés. Por ejemplo,
\ las mediciones de la creatinina y la cistatina C en la sangre, dos productos químicos excretados por
l ~ los riñones, podrían tener la misma exactitud (p. ej ., a menos del 1% de la concentración verdadera) ,
pero la cistatina C puede ser más vdlida como medición del funcionamiento renal, porque la con-
centración de creatinina también depende de la cantidad de músculo (7). En la figura 4-2 podemos
pensar que la validez describe si el centro de la diana está en la diana correcta.
38 Sección 1 • Ingredientes básicos
• Validez del contenido. Examina hasta qué punto la evaluación representa todos los aspectos de
los fenómenos en estudio ; por ejemplo, incluyendo preguntas sobre la capacidad funcional social,
física , emocional e intelectual para evaluar la calidad de vida.
• Validez aparente. Parece inherentemente razonable, como la medición del dolor en una escala de
10 puntos o la clase social por los ingresos del hogar.
• Validez de constructo. Es el grado en el que un dispositivo de medición específico concuerda con
un constructo teórico; por ejemplo, una prueba de cociente intelectual debe distinguir entre per-
sonas que, según la teoría u otras medidas, tienen diferentes niveles de inteligencia.
• Validez predictiva. Es la capacidad que tiene la medición de predecir un resultado ; por ejemplo,
en qué medida un cuestionario diseñado para evaluar la depresión predice la pérdida de trabajo
o el suicidio.
• Validez relacionada con el criterio. Es el grado en que una nueva medida se relaciona con medidas
existentes y aceptadas.
El método general para medir fenómenos subjetivos y abstractos es comenzar haciendo una bús-
queda en la bibliografía y consultando con expertos en un intento de encontrar un instrumento
adecuado (generalmente un cuestionario) que ya haya sido validado. El uso de un instrumento como
ese tiene la ventaja de hacer los resultados de un nuevo estudio comparables a trabajos anteriores
dentro del mismo campo , y puede simplificar y reforzar el proceso de aplicación para financia-
ción y publicación de los resultados. Sus inconvenientes, no obstante, son que el proceso de validación
puede haber sido subóptimo , y que un instrumento retirado de la estantería puede estar anticuado
y no ser adecuado para la pregunta de la investigación.
· Si los instrumentos de que se dispone no son adecuados para las necesidades del estudio, el in-
vestigaáor puede decidir desarrollar un nuevo méto'do de medición y validarlo por sí mismo. Puede
ser un reto interesante e incluso llevar a una contribución notable a la bibliografía, aunque general-
mente hace falta mucho tiempo y esfuerzo (cap. 15). Es justo decir que el proceso es, a menudo , me-
nos concluyente de lo que la palabra «validación» implica.
por ejemplo, los marcadores inflamatorios ofrecen información útil sobre la fisiopatología de mu-
chas enfermedades. Es importante consultar con expertos sobre los tubos de recogida de muestras
y las condiciones de almacenamiento adecuados, con el fin de mantener la calidad de las mues-
tras y hacer que estén disponibles para una amplia variedad de usos posteriores. También es impor-
tante obtener el consentimiento informado de los participantes, que incluya la extensión de los
posibles usos de las muestras .
■ RESUMEN
l. Las variables pueden ser numéricas y categóricas. Las variables numéricas pueden ser continuas
(se cuantifican en una escala infinita) o discretas (se cuantifican en una escala finita, como los
números enteros); las variables categóricas pueden ser nominales (desordenadas) u ordinales
(ordenadas), y las que tienen tan solo dos categorías se denominan dicotómicas .
2. Las variables que contienen más información confieren más potencia o permiten menores ta-
maños de la muestra, de acuerdo con la siguiente jerarquía: variables continuas > variables
discretas numéricas >variables ordinales > variables nominales y dicotómicas.
3. La precisión de una determinación (es decir, la reproducibilidad de medidas repetidas) es· otro
importante determinante de la potencia y el tamaño de la muestra. Se ve disminuida por el error
aleatorio (azar) debido a tres fuentes de variabilidad: del observador, del participante y del
instrumento.
4. Las estrategias para aumentar la precisión que deben formar parte de cada estudio son definir
de forma operativa y normalizar los métodos en un manual operativo . Otras estrategias que
con frecuencia son útiles son la formación y la certificación de los observadores , el perfeccio-
namiento y la automatización de los instrumentos , y la repetición (utilizar la media de medi-
ciones repetidas).
5. La exactitud de una medición es el grado en el que se aproxima a un patrón de referencia. La
exactitud disminuye por el error sistemático (sesgo) a partir de las tres mismas fuentes: obser-
vador, participante e instrumento .
6. Las estrategias para aumentar la exactitud incluyen todas las enumeradas con respecto a la
precisión, con la excepción de la repetición. Además, la exactitud se fomenta por medidas no
molestas, calibración y (en comparaciones entre grupos) enmascaramiento .
7. La validez es el grado en el que una medida representa los fenómenos de pretende medir; se
utiliza habitualmente para variables más abstractas y subjetivas, y se evalúan mediante la validez
de contenido , la validez aparente , la validez de constructo , la validez predictiva y la validez re-
lacionada con el criterio .
8. LaJ mediciones individuales deben ser sensibles, específicas, apropiadas y objetivas , y deben
dar lugar a un intervalo de valores . En conjunto, deben ser amplias pero parcas , atendiendo a
la pregunta de la investigación con un coste moderado en cuanto a tiempo y dinero.
9. Los investigadores deben considerar almacenar imágenes y otros materiales para posteriores
determinaciones que puedan aprovecharse de nuevas tecnologías a medida que se desarrollen,
y de la eficacia de diseños de casos y testigos anidados .
42 Sección 1 • Ingredientes básicos
APÉNDICE 4
l. Demostrar la prueba al' participante. Mientras se demuestra, use la siguiente descripción: «Este
aparato mide la fuerza del brazo y la parte superior del cuerpo. Mediremos la fuerza de prensión
en ambos brazos. Le demostraré cómo se realiza. Doble el codo formando un ángulo de 90º, con
el antebrazo paralelo al suelo. No deje que el brazo toque el costado. Baje el aparato y apriete lo
más fuerte que pueda mientras cuento hasta tres. Una vez que el brazo esté totalmente extendi-
do, puede aflojar su prensión».
2. Permita un ensayo con cada brazo, empezando con el derecho si el participante es diestro. En el
segundo ensayo, registre los kilogramos de fuerza del dial hasta el punto de 0,5 kg más próximo.
3. Vuelva a colocar en cero el dial. Repita el procedimiento con el otro brazo.
El brazo no debe entrar en contacto con el cuerpo. La acción de prensión debe ser un apretón
lento y sostenido, en lugar de un apretón explosivo.
BIBLIOGRAFÍA
l. Michaelsson K, Baron JA, Snellman G, et al. Plasma vitamin D and mortality in older men: a community-based
prospective cohort study. Am] Clin Nutr 2010;92:841- 848.
2. Ware JE, Gandek B Jr. Overview of the SF-36 health survey and the International Quality of Life Assessment Pro-
ject. J Clin Epidemiol 1998;51:903-912.
3. Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996;313:41-42; also, Measurement
error proportional to the mean. BMJ 1996;313:106.
4. Newman TB, Kohn M. Evidence-based diagnosis . New York: Cambridge University Press, 2009.
5. Cohenj. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960;20:37- 46.
6. Filion K, Kukanich KS, Chapman B, et al. Observation-based evaluation of hand hygiene practices and the effects
of an intervention ata public hospital cafetería. Am] Infect Contrnl 2011;39:464-470.
7. Peralta CA, Shlipak MG, Judd S, et al. Detection of chronic kidney disease with creatinine, cystatin C, and urine
albumin-to-creatinine ratio and association with progression to end-stage renal disease and mortality JAMA
2011;305: 1545- 1552.
8. Guttmacher AE, Collins FS. Genomic medicine: a primer: NEJM 2002;347:1512- 1520.
9. Healy DG. Case-control studies in the genomic era: a clinician's guide. The Lancet Neurology 2006;5:701-707.
CAPITULO D
Preparación para el cálculo
del tamaño de la muestra: hipótesis
y principios subyacentes
Warren S. Browner, Thomas B. Newman y Stephen B. Hulley
D espués de que el investigador ha decidido a quién y qué va a estudiar, y el diseño que va a usar,
deberá decidir cuántos participantes integrarán la muestra. Incluso el estudio de ejecución más ri-
gurosa puede fracasar en la respuesta a su pregunta de investigación si el tamaño de la muestra es
demasiado pequeño. Por otro lado, un estudio con una muestra demasiado grande resultará más
difícil y costoso de lo necesario. El objetivo de la planificación del tamaño de la muestra consiste en
calcular un número adecuado de participantes para un diseño de estudio concreto.
Aunque constituyen una guía útil, los cálculos del tamaño de la muestra dan una impresión en-
gañosa de•. objetividad estadística. Son solo igual de exactos que los datos y cálculos en los que se
; basan, que, a menudo, son simplemente supuestos informados. Debe considerarse que la planifica-
ción del tamaño de la muestra es una forma mate~ática de realizar un cálculo aproximado. A me-
nudo demuestra que el diseño de investigación no es posible o que se necesitan diferentes variables
predictivas o de respuesta. Por lo tanto , el tamaño de la muestra debe calcularse al principio de la
fase de diseño de un estudio, cuando todavía es posible realizar cambios importantes.
Antes de establecer los métodos específicos para calcular el tamaño de la muestra para varios di-
seños de investigación habituales, en el capítulo 6, dedicaremos algún tiempo a considerar los prin-
cipios subyacentes . Los lectores que encuentren algunos de estos principios confusos disfrutarán
descubriendo que la planificación del tamaño de la muestra no requiere un dominio total. Sin em-
bargo, igual que una receta tiene más sentido si el cocinero está algo familiarizado con los ingredien-
tes , los cálculos del tamaño de la muestra son más senillos si el investigador conoce los conceptos
básicos. Incluso si tiene previsto pedir a un amigo bioestadístico que calcule el tamaño de la muestra
de su estudio, tener algunos conocimientos de cómo funciona el proceso le permitirá participar más
activa~~nte en la consideración de los supuestos y estimaciones implicados en el cálculo.
■ HIPÓTESIS
El proceso comienza reformulando la pregunta de la investigación como hipótesis de investigación,
que resume los principales elementos del estudio: la muestra y las variables predictivas y de respues-
ta. Por ejemplo, suponga que su pregunta de la investigación es que las personas que realizan cruci-
gramas tienen menos probabilidad de presentar demencia. Su hipótesis de investigación tendría que
especificar la muesÚa (p. ej., personas que viven en una comunidad de jubilados que tienen una
función cognitiva normal), la variable predictiva (realizar crucigramas al menos una vez·a la semana
en promedio) y la variable de respuesta (una puntuación anómala en una prueba estandarizada de
función cognitiva después de 2 años de seguimiento).
Las hipótesis en sí mismas no son necesarias en los estudios descriptivos, que describen cómo se
distribuyen las características en una población, como la prevalencia de una función cognitiva anó-
mala en la comunidad de jubilados. (Esto no significa, sin embargo, que no vaya a necesitar calcular
el tamaño de una muestra para un estudio descriptivo , sino que los métodos para hacerlo, descritos
en el capítulo 6, son diferentes.) Se necesitan las hipótesis en estudios que usarán pruebas de signi-.
ficación estadística para comparar hallazgos entre grupos, como si los ancianos que realizan cruci-
gramas con frecuencia tienen menos probabilidad de llegar a tener demencia. Debido a que la mayor
43
44 Sección 1 • Ingredientes bás icos
parte de los estudios de observación y todos los estudios experimentales plantean preguntas de in-
vestigación que conllevan la realización de comparaciones, la mayor parte de los estudios necesita
especificar, al menos , una hipótesis. Si alguno de los siguientes términos aparece en la pregunta de
la investigación, el estudio no será simplemente descriptivo , y deberá formularse una hipótesis de la
investigación: mayor que, menor que, más probable que, asociado a, comparado con, relacionado
con, similar, correlacionado con, causa y produce.
En pacientes con diabetes de tipo II, un estilo de vida sedentario se asocia a mayor riesgo de pre-
sentar proteinuria.
En pacientes con diabetes de tipo II , un estilo de vida sedentario y el consumo de alcohol se aso-
cian -a mayor riesgo de presentar proteinuria.
En pacientes con diabetes de tipo II , el consumo de alcohol se asocia a mayor riesgo de presentar
proteinuria y neuropatía.
Las hipótesis complejas como estas no se comprueban fácilmente con una sola prueba estadística,
y se abordan más fácilmente como dos o más hipótesis sencillas. A veces, no obstante, puede utili-
zarse una variable predictiva o de respuesta combinada:
En pacientes con diabetes de tipo II , el consumo de alcohol se asocia a mayor riesgo de presentar
una complicación microvascular (como proteinuria, nefropatía o retinopatía).
En este ejemplo, el investigador ha decidido qué ocurre si un participante tiene una complicación,
no qué tipo de complicación se produce.
El uso previo de antidepresivos tricíclicos durante al menos 6 semanas es más frecuente en pa-
cientes ingresados por infarto de miocardio en el hospital Longview que en los testigos ingresados
por neumonía.
La frase es larga, pero comunica la naturaleza del estudio de una forma clara, que reduce al mínimo
cualquier oportunidad de probar algo que sea un poco diferente una vez que se han examinado los
hallazgos del estudio. Sería incorrecto sustituir, durante la fase de análisis del estudio, una medida di-
ferente de la variable predictiva, como la depresión comunicada por el propio paciente, sin considerar
el tema del estudio de múltiples hipótesis (un punto que se comentará al final del capítulo) . General-
mente, para mantener concisa la hipótesis de la investigación, algunos de estos detalles se dejan claros
en el plan de estudio, en lugar de establecerse en la hipótesis de investigación. Pero deben estar siempre
claros en la concepción del estudio por parte del investigador, y deben explicarse en el protocolo.
Capítu lo 5 • Preparación para el cá lculo de l tamaño de la muestra : hipótesis y princ ipios 45
Una vez más, si la hipótesis de investigación llega a ser difícil de manejar, pueden omitirse las
definiciones siempre que se aclaren en algún otro lugar.
Las p ersonas de Phnom Penh que beben agua del grifo tienen el mismo riesgo de presentar enfer-
meq~d ulcerosa péptica que las que beben agua embotellada.
La proposición de que hay una asociación ( «Las personas ele Phnom Penh que beben agua del
grifo tienen mayor riesgo de presentar enfermedad ulcerosa péptica que las que beben agua embo-
tellada») se denomina hipótesis alternativa. La hipótesis alternativa no se puede estudiar directa-
mente; se acepta por defecto si la prueba de significación estadística rechaza la hipótesis nula (v. más
adelante).
Hacen falta otros términos confusos. La hipótesis alternativa puede ser unilateral o bilateral. Una
hipótesis alternati~a unilateral especifica la dirección de la asociación entre las variables predictiva
y de respuesta. La hipótesis de que beber agua del grifo aumenta el riesgo de enfermedad ulcerosa
péptica (en comparación con el agua embotellada) es una hipótesis unilateral. Una hipótesis alter-
nativa bilateral afirma únicamente que hay una asociación; no especifica la dirección. Por ejemplo,
«beber agua del grifo se asocia a un riesgo diferente de enfermedad ulcerosa péptica (mayor o menor)
que beber agua embotellada».
Las hipótesis unilaterales pueden ser apropiadas en determinadas circunstancias, como cuando
solo es clínicamente importante o biológicamente significativa una dirección para una asociación.
Un ejemplo lo constituye la hipótesis unilateral de que un nuevo fármaco para la hipertensión tiene
más probabilidad de causar exantema que un placebo; no suele merecer la pena comprobar la posi-
bilidad de que el fármaco cause menos exantema que el placebo (sin embargo, lo merecería si el
46 Sección 1 • Ingredientes básicos
fármaco tuviera propiedades antiinflamatorias). Una hipótesis unilateral también puede ser apropia-
da cuando existen pruebas importantes, a partir de estudios previos, de que es improbable que se
produzca una asociación en una de las dos direcciones, como en un estudio en el que se comprobó
si fumar cigarrillos afecta al riesgo de cáncer cerebral. Debido a que el tabaquismo se ha asociado a
mayor riesgo de muchos tipos diferentes de cáncer, podría bastar una hipótesis alternativa unilateral
(p . ej., que fumar aumenta el riesgo de cáncer cerebral) . Sin embargo, los investigadores deben co-
nocer que muchas hipótesis bien fundamentadas (p. ej. , que el tratamiento con 13 caroteno disminui-
rá el riesgo de cáncer de pulmón , o que el tratamiento con fármacos que reducen el número de ex-
trasístoles ventriculares disminuirá la muerte súbita entre los pacientes con arritmias ventriculares)
se tornarán erróneas cuando se estudien en ensayos aleatorizados. Efectivamente, en estos dos ejem-
plos, los resultados de ensayos bien realizados revelaron un efecto estadísticamente significativo de
dirección opuesta a la que los investigadores esperaban encontrar (1-3). En general, creemos que la
mayoría de las hipótesis alternativas deben ser bilaterales.
Es importante tener en cuenta la diferencia entre la hipótesis de investigación, que habitualmente
es unilateral, y la hipótesis alternativa, que se usa cuando se planifica el tamaü.o de la muestra y que
casi siempre es bilateral. Por ejemplo, suponga que la hipótesis de investigación es que el uso recurren-
te de antibióticos durante la infancia se asocia a mayor riesgo de enfermedad inflamatoria intestinal.
Esa hipótesis especifica la dirección del efecto anticipado, por lo que es unilateral. ¿Por qué usar una
hipótesis alternativa bilateral al planificar el ta1i1aü.o de la muestra? La respuesta está en que la mayor
parte de las veces ambos lados de la hipótesis alternativa (es decir, iñayor riesgo o menor riesgo) son
interesantes, y los investigadores podrían desear publicar los resultados independientemente de cuál
fuera la dirección observada. El rigor estadístico precisa que el investigador escoja entre hipótesis uni-
laterales y bilaterales antes de analizar los datos; el cambio de una hipótesis bilateral a otra unilateral
para reducir el valor de p (v. más adelante) no es correcto. Además (y esta es probablemente la razón
por la que las hipótesis alternativas bilaterales son mucho más frecuentes), la mayor parte de los revi-
sores de financiaciones y manuscritos esperan hipótesis-bilaterales y critican los enfoques unilaterales.
Inocencia: el acusado no falsificó dinero Hipótesis nula: no existe asociación entre el caroteno
de la dieta y la incidencia de cáncer de colon en la
población
Culpabilidad: el acusado falsificó dinero Hipótesis alternativa: existe una asociación entre el
caroteno de la dieta y la incidencia de cáncer de colon
Referencia para rechazar la inocencia: Referencia para rechazar la hipótesis nula: nivel de
más allá de una duda razonable significación estadística (a)
Juicio correcto: condenar a un falsificador Inferencia correcta: concluir que existe una asociación
entre el caroteno de la dieta y el cancer de colon cuando
existe en la población
Juicio correcto: absolver a una persona Inferencia correcta: concluir que no ' existe asociación
inocente entre el caroteno y el cáncer de colon cuando no existe
Juicio incorrecto: condenar a una persona Inferencia incorrecta (error de tipo 1): concluir que existe
inocente una asociación entre el caroteno de la dieta y el cáncer
de colon cuando en realidad no hay ninguna
Juicio incorrecto: absolver a un falsificador Inferencia incorrecta (error de tipo 11): concluir que no
existe asociación entre el caroteno de la dieta y el cáncer
de colon cuando en rea lidad existe
' realmente es falsa en la población. Aunque estos errores nunca pueden evitarse totalmente, el inves-
tigadof puede reducir su probabilidad aumentando el tamaño de la muestra (cuanto mayor sea la
muestra , menos probable será que difiera notablemente de la población) , o manipulando el diseño
o las determinaciones de otros modos que se comentarán.
' En este capítulo y en el siguiente solo se abordarán modos de reducir los errores de tipo I y de
tipo II debidos a la variación por el azar, también conocidos como error aleatorio. También pueden
producirse resultados positivos falsos y negativos falsos debido a sesgo , pero estos errores por sesgo
no suelen denominarse errores de tipo I y de tipo II. Son errores molestos porque pueden ser difíci-
les de detectar, y generalmente no pueden cuantificarse usando métodos estadísticos ni evitarse
aumentando el tamaño de la muestra. (En los caps. 1, 3, 4 y 7-12, se exponen modos de reducir los
errores debidos al sesgo .)
Muchos estudios tienen varias magnitudes del efecto, porque miden varias variables predictivas
y de respuesta diferentes. Cuando se diseña un estudio, se debe determinar el tamaño de la muestra
utilizando la magnitud del efecto deseada para la hipótesis más importante; podrán calcularse en-
tonces las magnitudes del efecto detectables para otras hipótesis. Si existen varias hipótesis de
importancia similar, el tamaño de la muestra para el estudio deberá basarse en cualquiera de las hi-
pótesis que necesite la muestra mayor.
a, /3 y potencia
Tras completar un estudio, el investigador usa pruebas estadísticas para intentar rechazar la hipóte-
sis nula en favor de su alternativa, casi del mismo modo que un fiscal intenta convencer al jurado
para que rechace la inocencia a favor de la culpabilidad. Dependiendo de si la hipótesis nula es
verdadera o falsa en la población en estudio, y suponiendo que el estudio carezca de sesgo, se pueden
producir cuatro situaciones (tabla 5-2). En dos de ellas, los hallazgos en la muestra y en la realidad
en la población coinciden, y la inferencia del investigador será correcta. En las otras dos situaciones,
se ha producido un error de tipo I o de tipo II, y la inferencia será incorrecta.
El investigador establece, antes de hacer el estudio, la máxima probabilidad que tolerará de rea-
lizar errores de tipo I y II. La máxima probabilidad de cometer un error de tipo I (rechazar la hipó-
tesis nula cuando en realidad es cierta) se denomina a (alfa). Otro nombre para a es nivel de signi-
ficación estadística .
Si, por ejemplo, a un estudio de los efectos del ejercicio sobre la glucemia en ayunas se le asigna
un valor a de 0,05, el investigador ha establecido el 5% como la probabilidad máxima de rechazo
incorrecto de la hipótesis nula si esta es cierta (con lo que se infiere que el ejercicio y la glucemia en
ayunas están asociados en la población cuando, de hecho, no lo están) . Este es el nivel de dudara-
zonable que el investigador estará dispuesto a aceptar cuando use pruebas estadísticas para analizar
los datos una vez completado el estudio.
La probabilidad de cometer un error de tipo •Il (no rechazar la hipótesis nula cuando en realidad
es falsa) se denomina {3 (beta). La cantidad O -/3) se denomina potencia, y es la probabilidad de re-
chazar correctamente la hipótesis nula en la muestra si el efecto real en la población es igual (o mayor)
que la magnitud del efecto.
Si se establece el valor de /3 en 0,10 , el investigador ha decidido que está dispuesto a aceptar un
riesgo del 1 % de perder una asociación de una magnitud del efecto concreta si existe. Esto represen-
ta una potencia de 0,90, es decir, una posibilidad del 9 % de encontrar una asociación de ese tamaño
o mayor. Por ejemplo, suponga que el ejercicio realmente conduce a una reducción promedio de
20 mg/dl de la glucemia en ayunas en mujeres diabéticas de la población. Si el investigador repitiera
el estudio con la misma potencia del 9 % en numerosas ocasiones, esperaríamos que en 9 de cada
10 estudios rechazara correctamente la ·hipótesis nula con el nivel de alfa especificado (0,05), y
concluiría que el ejercicio se asocia a la glucemia basal. Esto no significa que el investigador no
pudiera detectar una magnitud del efecto menor en la población, por ejemplo, una reducción de
15 mg/dl; sencillamente significa que tendrá una probabilidad menor del 9 % de hacerlo.
De forma ideal, a y {3 deberían ser próximos a O, lo que minimizaría la posibilidad de obtener
resultados positivos falsos y negativos falsos. Sin embargo, reducirlos requiere que se aumente el
tamaño de la muestra, o una de las otras estrategias que se discuten en el capítulo 6. La planificación
del tamaño de la muestra pretende escoger una cantidad suficiente de participantes para mantener
ay {3 en un nivel aceptablemente bajo sin que el estudio sea innecesariamente caro y difícil.
Muchos estudios establecen a en 0,05 y f3 en 0,20 (una potencia de 0,80). Son valores arbitrarios,
y a veces se utilizan otros: los límites convencionales para a están entre 0,01 y 0;10, y los de f3 entre
0,05 y 0,20. En general, el investigador debe usar un valor de a bajo cuando la pregunta de la inves-
tigación hace que sea particularmente importante evitar un error de tipo I (positivo falso): por
ejemplo, al probar la eficacia de un fármaco que puede ser peligroso. Debe usar un valor de f3 bajo
(y una magnitud del efecto pequeña) cuando es especialmente importante evitar un error de tipo II
(negativo falso): por ejemplo, al tranquilizar a las personas de que vivir cerca de un vertedero de
residuos tóxicos no es peligroso.
1
En ocasiones se denominan pruebas de una y de dos colas, por las colas (áreas de los extremos) de las distribuciones
estadísticas.
50 Sección 1 • Ingredientes básicos
■ OTROS PUNTOS
Variabilidad
_No es simplemente la magnitud de un efecto lo que es importante; su variabilidad también lo es. Las
pruebas estadísticas dependen de si son capaces de mostrar una diferencia entre los grupos que se
comparan. Cuanto mayor es la variabilidad (o dispersión) de la variable de respuesta entre los par-
ticipantes , más probable será que se superpongan los valores de los grupos, y más difícil será demos-
trar una diferencia-general entre ellos. Debido a que_el error de medida contribuye a la variabilidad
general, las medidas menos precisas requieren tamaños de muestra mayores (5).
Considere un estudio sobre los efectos de dos dietas (pocas grasas y pocos hidratos de carbono)
en la consecución de una pérdida de peso en 20 pacientes obesos. Si todos los que siguen la dieta
baja en grasas pierden unos 3 kg y todos los que siguen la dieta con pocos hidratos de carbono pier-
den poco peso o no pierden peso (una magnitud del efecto de 3 kg), ,es probable que la primera
dieta sea realmente mejor (fig. 5-lA). Por otro lado, si la pérdida promedio de peso es de 3 kg en el
grupo con la dieta baja en grasas y de O kg en el grupo de la dieta con hidratos de carbono , pero hay
mucha superposición entre los dos grupos (la situación de la figura 5-lB), la mayor variabilidad
haría que fuera más difícil detectar una diferencia entre las dietas, y haría falta un mayor tamaño de
la muestra.
Cuando una de las variables usadas en el cálculo del tamaño de la muestra es continua (p. ej. ,
peso corporal en la fig . 5-1), el investigador deberá calcular su variabilidad. (Para más detalles, v. la
sección sobre la prueba de la t de Student en el cap. 6.) En la demás situaciones, la variabilidad ya
está incluida en los otros parámetros introducidos en las fórmulas y tablas del tamaño de la muestra,
y no es necesario que se especifique.
6
Media de la d ieta Medi a de la dieta
con pocas con pocos l:=:J Dieta con pdcas
grasas = 3 kg C HO = 0 kg grasas
1 1
~
2 -
1,r
-·
o 1 1 1 1 1 1 1 1 1 1 1 1 1
-9 -8 -7 -6 - 5 - 4 - 3 - 2 - 1 O 2 3 4 5 6 7 8 9
Variación de peso (kg)
A
6
l:=:J Dieta con pocas
grasas
Media de la dieta Media de la dieta - Dieta con pocos
4 con pocas co n pocos
C HO
N grasas= 3 kg C HO = O kg
'° o
-9 - 8 - 7 -6 -5 -4 -3 -2 -1 o 2 3 4 5 6 7 8 9
Variación de peso (kg)
B
■ FIGURA 5-1 . A: Pérdida de peso lograda con dos dietas. Todos los que siguieron la dieta con pocas grasas perdieron de
2 a 4 kg, mientras que la va riación de peso en los que siguieron la dieta baja en hidratos de carbono (CHO) variaba desde -1
a + 1 kg. Como no hay superposición entre los dos grupos, es razonab le inferir que la dieta baja en grasas es mejor para
perder peso que la que contiene pocos hidratos de carbono (como se confirmaría mediante una prueba de la t, que per-
mitió obtener un va lor de p <0,0001). B: Pérdida de peso lograda con dos dietas. Existe una notable superposición en
variación de peso en los dos grupos. Aunque la magnitud del efecto es la misma (3 kg) que en A, hay pocas pruebas de
que una dieta sea mejor que la otra (como se confirmaría mediante una prueba de la t, que se asocia a un va lor de p
de 0,19).
se pierde la significación estadística después del ajuste de Bonferroni, lo que podría representar
la imposibilidad de respaldar una asociación que estaba realmente presente en la población (error
de tipo II).
Especialmente en estos casos, decidir qué nivel de significación se va a usar depende más de la
probabilidad previa de cada hipótesis que del número de hipótesis probadas , y por este motivo
nuestro punto de vista general es que el uso sistemático del abordaje de Bonferroni para el estudio
de múltiples hipótesis muchas veces es demasiado estricto. Existe una analogía con el uso de pruebas
diagnósticas que p~ede ser útil (6,7). Cuando interpreta los resultados de una prueba diagnóstica,
un médico considera la probabilidad de que el paciente que está estudiando tenga la enfermedad en
cuestión. Por ejemplo, el resultado ligeramente anómalo de una prueba en una persona sana (una
concentración sérica de fosfatasa alcalina que es un 15 % mayor del límite superior de la normalidad)
es probablemente una prueba falsamente positiva, que no es probable que tenga mucha importancia
clínica. Igualmente, un valor de p de 0,05 para una hipótesis improbable es también, posiblemente,
un resultado falso positivo.
Sin embargo, no es probable que una concentración de fosfa'tasa alcalina que sea 10 a 20 veces
mayor que el límite superior normal se haya producido por casualidad (si bien pudiera ser un error
de laboratorio) . Así, también, no es probable que un valor de p muy pequeño (es decir,< 0,001) haya
sucedido por casualidad (aunque pudiera deberse al sesgo) . Es difícil desechar resultados de pruebas
52 Sección 1 • Ingredientes básicos
muy anómalos como positivos falsos o desechar valores de p muy pequeños como debidos al azar,
incluso si la probabilidad previa de la enfermedad o la hipótesis era baja 2 .
Además, el número de pruebas que se habían pedido, o de hipótesis que se estudiaron, no siempre
es relevante. La interpretación de una concentración de ácido úrico sérico elevada en un paciente
con una articulación inflamada y dolorosa no debe depender de si el médico solicitó una sola prue-
ba (la concentración de ácido úrico) o de si obtuvo el resultado como parte de un panel de 20 pruebas.
Igualmente, cuando se interpreta el valor de p para verificar una hipótesis de investigación que
tenga sentido, no debe importar que el investigador verifique también varias hipótesis improbables.
Lo que más importa es la racionalidad de la hipótesis de investigación que se está estudiando: que
tiene una probabilidad previa elevada de ser correcta. (La probabilidad previa, en este método «ba-
yesiano », suele ser una opinión subjetiva basada en datos de otras fuentes.) Las hipótesis que se
formulan durante el diseño de un estudio suelen cumplir este requisito; después de todo , ¿por qué
otro motivo emplearía el investigador tiempo y esfuerzo en planificar y realizar el estudio?
¿Qué ocurre con asociaciones no previstas que aparecen durante la recogida y el análisis de los
resultados de un estudio? Este proceso se denomina, a veces, generación de hipótesis o, con un
enunciado menos favorable, «prospección de datos» o «expedición de pesca». Las numerosas com-
paraciones informales que se realizan durante el análisis de datos son una forma de estudiar múltiples
hipótesis. Surge un problema similar cuando se vuelven a definir variables durante el análisis de los
datos, o cuando se presentan los resultados para·subgrupos de la muestra. Valores de p significativos
para hipótesis generadas por datos que no se llegaron a plantear durante el diseño del estudio se
deben , a menudo, al azar. Deben contemplarse con interés, pero con escepticismo, y debe conside-
rarse que son una fuente de posibles preguntas de investigación para estudios futuros.
A veces, no obstante, un investigador no puede especificar una hipótesis concreta por adelantado,
aunque esa hipótesis parece razonable cuando llega la hora de analizar los datos. Esto podría suceder,
por ejemplo, si otros autores descubren un nuevo factor de riesgo mientras se está realizando el estu-
dio, o si el investigador no pensó en una hipótesis concreta cuando se estaba diseñando el estudio. El
punto importante no es tanto si se formuló la hipótesis antes de iniciar el estudio, como si existe una
probabilidad previa razonable, basada en datos de otras fuentes, de que la hipótesis sea cierta (6, 7).
Hay algunas ventajas específicas para definir más de una hipótesis al planificar un estudio . El uso
de múltiples hipótesis no relacionadas aumenta la eficacia del estudio, haciendo que sea posible
responder a más preguntas con un solo esfuerzo de investigación y descubrir más de las verdaderas
asociaciones que existen en la población. También puede ser una buena idea formular varias hipó-
tesis relacionadas; si los hallazgos son congruentes, las conclusiones del estudio se refuerzan. En
estudios realizados en pacientes con insuficiencia cardíaca, se ha observado que el uso de inhibido-
res de la enzima convertidora de la angiotensina es beneficioso para reducir los ingresos de causa
cardíaca, la mortalidad cardiovascular y la mortalidad total. Si se hubiera estudiado solo una de estas
hipótesis, las inferencias de estos estudios habrían sido menos definitivas. Suponga que cuando se
analizan estas hipótesis relacionadas y preestablecidas, solo una resulta estadísticamente significati-
va. Entonces, el investigador debe decidir (e intentar convencer a editores y lectores) si los resultados
significativos, los no significativos o ambos grupos de resultados son correctos.
2
Una vez más , la excepción son algunos estudios genéticos en los que se pueden explorar millones o incluso miles de
millones de asociaciones.
Capítulo 5 • Preparación para el cálculo del tamaño de la muestra : hipótesis y principios 53
Una buena norma , particularmente para ensayos clínicos, es establecer por adelantado tantas
hipótesis como tengan sentido, pero especificar solo una como la hipótesis principal, que puede
verificarse estadísticamente sin necesidad de plantear si se debe hacer un ajuste para estudiar múl-
tiples hipótesis. Más importante aún, tener una hipótesis principal ayuda a centrar el estudio en su
objetivo principal y proporciona una base clara para el cálculo del tamaño de la muestra principal.
Muchos estadísticos y epidemiólogos están pasando del estudio de hipótesis, con su énfasis en los
valores de p, a utilizar intervalos de confianza para describir la precisión de los resultados del estudio
(8-10). De hecho, algunos autores piensan que todo el proceso de basar la planificación del tamaño
de la muestra en las hipótesis es erróneo, en parte porque depende de cantidades que son descono-
cidas (magnitud del efecto) o arbitrarias (a y {3) (ll). Sin embargo, el abordaje que hemos asumido
es práctico y sigue siendo la norma en la planificación de la investigación clínica.
■ RESUMEN
l. La planificación del tamaño de la muestra es una parte importante del diseño de los estudios
analíticos y descriptivos. El tamaño de la muestra debe calcularse en fases tempranas del proce-
so de desarrollar el diseño de la investigación, de modo que puedan hacerse modificaciones
adecuadas.
2. Los estudios analíticos y experimentales necesitan una hipótesis que especifique, para las pos-
teriores pruebas estadísticas, la asociación prevista entre l~s principales variables predictivas y
de respuesta. Los estudios puramente descriptivos, que carecen de estrategia comparativa, no
necesitan una hipótesis.
; 3. Las buenas hipótesis son específicas sobre el modo en que se muestreará a la población y se
midirán las variables, sencillas (solo existe una variable predictiva y una variable de respuesta)
y formuladas por adelantado .
4. La hipótesis nula, que propone que la variable predictiva no está asociada con las variables de
respuesta, constituye la base de las pruebas de signifi~ación estadística. La hipótesis alternativa
propone que sí están asociadas . Las pruebas estadísticas intentan rechazar la hipótesis nula de
ausencia 'de asociación a favor de la hipótesis alternativa de que sí existe una asociación.
5. Una hipótesis alternativa es unilateral (solo se estudiará una dirección de asociación) o bilateral (se
analizarán ambas direcciones). Las hipótesis unilaterales solo deben usarse en circunstancias no
habituales, cuando solo una dirección de la asociación es clínicamente o biológicamente significativa.
6. En experimentos y estudios analíticos, el tamaño de la muestra es un cálculo del número de
participantes necesarios para detectar una asociación de una magnitud del efecto y variabilidad
determinadas con una probabilidad especificada de cometer errores de tipo I (positivos falsos)
y 4t tipo 11 (negativos falsos). La probabilidad máxima de cometer un error de tipo I se deno-
mina a la de cometer un error de tipo II se denomina {3. La cantidad (1 - /3) es la potencia, la
posibilidad de observar una asociación con una magnitud del efecto determinada o mayor en
una muestra si está realmente presente en la población.
7. A menudo es deseable establecer más de una hipótesis por adelantado, aunque el investigador
debe especificar una sola hipótesis principal como objetivo y para el cálculo del tamaño de la
muestra. La interpretación de los hallazgos tras estudiar múltiples hipótesis en la muestra, in-
cluyendo halla_zgos no previstos que surgen a partir de los datos, se basa en una opinión sobre
la probabilidad previa que representan fenómenos reales en la población.
BIBLIOGRAFÍA
l. The Alpha-Tocopherol, Beta Carotene Cancer Prevention Study Group. The effect of vitamin E and beta carotene
on the incidence of lung cancer and other cancers in male smokers. N, Engl] Med 1994;330:l 029-1035.
2. Echt DS, Liebson PR, Mitchell LB, et al. Mortality and morbidity in patients receiving encainide, flecainide, or
placebo. The Cardiac Arrhythmia Suppression Trial. N Eng!] Med 1991;324:781- 788.
3. The Cardiac Arrhythmia Suppression Tria! 11 Investigators. Effect of the antiarrhythmic ageht moricizine on sur-
vival after myocardial infarction. N Eng!J Med 1992;327:227-233.
4. Van Walraven C, MahonJL, Moher D, et al. Surveying physicians to determine the minimal important difference:
implications for sample-size calculation. J Clin Epidemia! 1999;52:717-723.
54 Sección 1 • Ingredientes básicos
5. McKeown-Eyssen GE, Tibshirani R. Implications of measurement error in exposure for the sample sizes of case-
control studies. Am] Epidemiol 1994;139:415-421.
6. Browner WS, Newman TB. Are all significant P values created equal? The analogy between diagnostic tests. and
clinical research. JAMA 1987 ;25 7: 2 459-2 463.
7. Newman TB, Kohn, MA. Evidence-based diagnosis. New York: Cambridge University Press, 2009. Chapter 11.
8. Daly LE. Confidence limits made easy: interval estimation using a substitution method. Am] Epidemial 1998;
147:783-790.
9. Goodman SN. Toward evidence-based medica! statistics. 1: The P value fallacy. Ann Intem Med 1999;130:995-1004.
10. Goodman SN. Toward evidence-based medica! statistics. 2: The Bayes factor. Ann Intern Med 1999;130: 1005-1 O13.
11. Bacchetti P. Current sample size conventions: flaws, harms, and alternatives. BMC Med. 2010;8:l 7.
CAPÍTULO m
Cálculo de la potencia y el tamaño
de la muestra: aplicaciones
y ejemplos
Warren S. Browner, Tho mas B. Newman y St ep hen B. Hull ey
En el capítulo 5 se presentaron los principios básicos para los cálculos del tamaño de la muestra.
Este capítulo presenta varias técnicas «de manual» para usar esos principios en el cálculo del tama-
ño de la muestra necesario para un proyecto de investigación. La primera sección aborda los cálcu-
los del tamaño de la muestra para un estudio experimental o analítico , incluyendo algunos puntos
especiales que se aplican a estos estudios, como el análisis multivariado. La segunda sección consi-
dera estudios que son fundamentalmente descriptivos . Las siguientes secciones abordan estudios
que tienen un tamaño de la muestra fijo , estrategias para aumentar al máximo la potencia de un
estudio y el modo de calcular el tamaño de la muestra cuando parece existir información insuficien-
; te con la que trabajar. El capítulo finaliza con los errores habituales que hay que evitar.
Al final del capítulo se ofrecen tablas y fórmuias , en los apéndices, para varios métodos bá-
sicos de calcular el tamaño de la muestra. Además, existe una calculadora en nuestra página web
(www.epibiostat.ucsf.edu/dcr/) , y hay muchas páginas en Internet que pueden realizar cálculos
interactivos e instantáneos del tamaño de la muestra; i:r:itente buscar por «calculadora de tama-
ño muestral» (sample size calculator, en inglés). La mayor parte de los programas estadísticos
también pueden calcular el tamaño de la muestra a partir de diseños de estudios habituales.
Incluso si hay dudas sobre el valor exacto de uno o más de los ingredientes, es importante calcu-
lar el tamaño de la muestra al principio de la fase de diseño. Esperar hasta el último minuto para
prepararlo puede llevar a un brusco despertar: puede que sea necesario empezar de nuevo con nue-
vos ingredientes, lo que puede significar volver a diseñar el estudio completo. Esta es la razón por
la que este tema se aborda al principio de este libro.
No todos los estudios analíticos se encuadran claramente en una de las tres categorías principales
de cálculo del tamaño de la muestra descritos en las secciones siguientes: utilización de la prueba de
la x2 si las variables predictiva y de respuesta son dicotómicas, utilización de la prueba de la t si una
es dicotómica y la otra continua, y utilización del coeficiente de correlación si las dos son continuas.
55
56 Sección 1 • Ingred ientes bás icos
Algunas de las excepciones más habituales se analizan en la sección denominada «Otras considera-
ciones y problemas especiales» (pág. 60).
Prueba de la t
La prueba de la t (a veces, denominada «prueba de la t de Student», por el seudónimo de su creador)
suele utilizarse para determinar si el valor medio de una variable continua en un grupo difiere significati-
vamente del valor en el otro grupo. Por ejemplo,·sería adecuado usar la prueba de la t al comparar las
puntuaciones medias de depresión en pacientes tratados con dos antidepresivos diferentes, o el índice de
masa corporal medio en personas que tienen y no tienen diabetes. La prueba de la t supone que la distri-
bución de la variable en cada uno de los dos grupos se aproxima a una curva normal (con fonna de cam-
pana). Sin embargo, la prueba de la tes notablemente sólida, por lo que puede usarse en casi cualquier
distribución, salvo que el número de participantes sea pequeño (menor de 30 a 40) o haya valores extremos.
Aunque la prueba de la t habitualmente se utiliza para comparar resultados continuos, también
se puede utilizar para estimar el tamaño de la muestra para un resultado dicotómico (como en los
estudios de casos y testigos) si el estudio tiene una variable predictiva continua. En esta situación, .
la prueba de la t compara el valor medio de la variable predictiva en los casos con el de los testigos.
Para calcular el tamaño de la muestra para un estudio en el que los valores medios de una variable
de respuesta continua se compararán mediante una prueba de la t (v. ejemplo 6-1), el investigador debe:
La magnitud del efecto y la variabilidad pueden calcularse, a menudo, a partir de estudios previos
de la bibliografía y de la consulta con expertos. En ocasiones, será necesario un pequeño estudio pi-
loto para calcular la desviación típica de la variable (v. también la sección «Cómo calcular el tamaño
de la muestra cuando no existe información suficiente» en la pág. 70). Cuando la variable de respues-
ta es el cambio de una medición continua (p. ej., cambio de peso durante un estudio), el investigador
debe usar la desviación típica del cambio de esa variable (no la desviación típica de la propia variable)
en los cálculos del tamaño de la muestra. La desviación típica del cambio de una variable suele ser
menor que la desviación típica de la variable; por tanto, el tamaño de la muestra también será menor.
En ocasiones, un investigador no puede obtener ninguna información significativa sobre la des-
viación típica de una variable. En esta situación, merece la pena utilizar una cantidad denominada
magnitud del efecto normalizada , que es una cantidad adimensional que posibilita la estimación del
tamaño de la muestra; también simplifica las comparaciones entre las magnitudes del efecto de di-
ferentes variables. Por ejemplo, una diferencia de 10 mg!dl de la concentración sérica de colesterol,
que tiene una desviación típica poblacional de aproximadamente 40 mg/dl, sería igual a una magni-
tud del efecto normalizada de 0,25. Cuanto mayor sea la magnitud del efecto normalizada, menor
Capítu lo 6 • Cálcu lo de la potencia y el tamaño de la muestra: aplicaciones y ejemplos 57
será el tamaño de muestra necesario. En la mayor parte de los estudios, la magnitud del efecto nor-
malizada será > 0,1. Magnitudes más pequeñas son difíciles de detectar (se necesitan tamaños de
muestra muy grandes) y no suelen ser muy importantes clínicamente.
En el apéndice 6A se muestran los requisitos de tamaüo de la muestra para diversas combinacio-
nes de a y f3 para varias magnitudes normalizadas. Para usar la tabla 6A, busque en la columna si-
tuada más a la izquierda la magnitud del efecto normalizada. A continuación, recorra la tabla hasta
los val;res de a y f3 elegidos para encontrar el tamaño de la muestra necesario por grupo. (Los nú-
meros de la tabla 6A suponen que los dos grupos que se comparan tienen el mismo tamaño de
muestra; use la fórmula que está bajo la tabla, un paquete estadístico o un programa interactivo en
la Web si esa suposición no es cierta.)
Existe un atajo cómodo para obtener una aproximación del tamaño de la muestra usando la
prueba de la t cuando se van a estudiar más de unos 30 participantes y se establece la potencia en
0,80 (/3 = 0,2) y a \bilateral) en 0,05 (1) . La fórmula es:
Tamaño de l:;i. muestra (por grupo de igual tamaño)= 16/(magnitud del efecto normalizada) 2
1
En el ejemplo 6-1, el cálculo del tamaüo de la muestra por el atajo sería 16/0,22 = 400 por grupo.
Prueba de la x2 \
l. Establecer la hipótesis nula y decidir si la hipótesis alternativa debe ser unilateral o bilateral.
2. Calcular la magnitud del efecto y la variabilidad desde el punto de vista de P1 , la proporción con la
variable de respuesta en un grupo, y de P2 , la proporción con la variable de respuesta en el otro grupo.
3. Establecer a'y {3.
un investigador podría estudiar si las mujeres que toman anticonceptivos orales tienen al menos el
doble de probabilidad de sufrir un infarto de miocardio que las que no los usan. En un estudio de
cohortes (o experimental) es directo transformar el riesgo relativo en las dos proporciones (P 1 y P2)
y viceversa, ya que el riesgo relativo es P 1 dividido por _P 2 (o viceversa).
Sin embargo, en un estudio de casos y testigos, la situación es algo más compleja, porque el ries-
go relativo debe aproximarse mediante la razón de posibilidades (RP) :
RP= (P 1 x[l-P 2])
(P 2 X [l-P1 ])
El investigador debe especificar la razón de posibilidades (RP) y P2 (la proporción de testigos expues-
tos a la variable predictiva). Por lo tanto, P 1 (ia proporción de casos expuestos a la variable predictiva) es:
RP X P2
P¡= - - - - - - --
(1 - P 2) + (RP X P2)
Por ejemplo, si el investigador espera que el 10% de las testigos estarán expuestas a los anticoncep-
tivos orales (P2 = 0,1) y desea detectar una razón de posibilidades de 3 asociada a la exposición, entonces:
3 X 0,1 0,3
P 1 = - - - - - - - = - - = O 25
(1 - 0,1) + (3 X 0,1) 1,2 '
Coeficiente de correlación
Aunque el coeficiente de correlación (r) no se usa habitualmente en el cálculo del tamaño de la
; muestra , puede ser útil cuando tanto la variable predictiva como la de respuesta son continuas. Este
coeficiente es una medida de la solidez de la asociación lineal entre las dos variables. Varía entre -1 y
+l. Los valores negativos indican que, a medida que una variable aumenta, la otra disminuye (como
la concentración de plomo en sangre y el CI en los niños). Cuanto más próximo está el valor de r a
1, más fuerte es la asociación; cuanto más próximo está a cero, más débil es la asociación. La altura
y el peso en los adultos, por ejemplo, están muy relacionadas en algunas poblaciones, con r"' 0,9.
Estos valores altos, sin embargo, no son frecuentes; muchas asociaciones biológicas tienen coeficien-
tes de correlación mucho más pequeños.
Los coeficientes de correlación son frecuentes en algunos campos de la investigación clínica, como
la medicina conductista, pero su utilización para calcular el tamaño de la muestra presenta un in-
conveniente: los coeficientes de correlación tienen poco significado intuitivo. Cuando se eleva al
cuadrado (r2-), un coeficiente de correlación representa la proporción de la dispersión (varianza) de
una variable de respuesta que se debe a su asociación lineal con una variable predictiva, y viceversa.
Este es el motivo por el que valores pequeños de r, como los que son :S 0,3, pueden ser estadística-
mente ;ignificativos si la muestra es lo suficientemente grande sin ser muy significativa clínicamen-
te o científicamente, ya que «explican» a lo sumo el 9% de la varianza.
Una forma alternativa (a menudo, preferida) de calcular el tamaño de una muestra para un estu-
dio en el que las variables predictiva y de respuesta son ambas continuas es dicotomizar una de las
dos variables (p . ej ., utilizando como referencia la mediana) y usar, en su lugar, los cálculos de la
prueba de la t. Esto tiene la ventaja de expresar la magnitud del efecto como una diferencia entre dos
grupos (la interpretación de coeficientes de correlación, que no comunica la magnitud del efecto, es
más indefinida). P·ara calcular el tamaño de la muestra para un estudio que se analizará con un
coeficiente de correlación (ejemplo 6.3) , el investigador debe:
Variables categóricas
Aunque hay motivos matemáticos por los que puede no ser adecuado estimar el tamaño de una
muestra para variables ordinales utilizando una prueba, en la práctica, las variables ordinales mu-
chas veces se pueden tratar como variables continuas, especialmente si el número de categorías es
relativamente grande (seis o más) y el promedio de los valores de la variable tiene sentido.
En otras situaciones, la mejor estrategia es cambiar ligeramente la hipótesis de la investigación, di-
cotomizando la variable categórica. A modo de ejemplo, suponga que un investigador está estu-
diando si hablar inglés como segundo idioma se asocia al número de veces que los pacientes diabé-
ticos consultan con el podólogo en 1 año. El número de visitas está distribuido irregularmente:
muchas personas no acudirán nunca, algunas acudirán una vez y solo unas pocas acudirán dos o
más veces. En esta situación, el investigador podría calcular el tamaño de la muestra como si la va-
riable fuera dicotómica (ninguna visita frente a una o más visitas).
Análisis de supervivencia
Cuando un investigador desea comparar la supervivencia o cualquier otro dato de tiempo hasta un
episodio, como cuál de los tratamientos es más eficaz en la prolongación de la vida en mujeres con
Capítulo 6 • Cálcu lo de la potencia y el tamaño de la muestra : ap licaciones y ejemp los 61
cáncer de mama avanzado, el análisis de supervivencia será una técnica adecuada para analizar los
datos (2,3). Aunque la variable de respuesta, como los meses de supervivencia, parece ser continua,
la prueba de la t no es adecuada, porque lo que se está evaluando en realidad no es el tiempo (una
variable continua), sino la proporción de pacientes (una variable dicotómica) que sigue con vida en
cada momento a lo largo del tiempo. De manera similar, un investigador podría estar comparando
la incidencia de aparición del resultado (por cada 100 personas/año de seguimiento) en dos grupos .
Se puede realizar una aproximación razonable simplemente estimando la proporción de pacientes
que se espera que lleguen a tener ese resultado en los dos grupos y calculando el tamaño de la mues-
tra con la prueba de la x2 . Sin embargo, si se espera que el resultado se produzca en la mayoría de
los pacientes, como la muerte en un estudio de cáncer de mama avanzado, una estrategia mejor
(porque minimiza el tamaño de la muestra total) es estimar el tamaño de la muestra basado en las
proporciones de pacientes de cada grupo que se espera que tengan el resultado en un momento del
seguimiento en el que se haya producido aproximadamente la mitad de los resultados totales. Por
ejemplo, en un estudio en el que se compara la supervivencia sin enfermedad recurrente en pacien-
tes con cáncer de mama tratadas con un tratamiento estándar o con otro experimental, en el que se
espera que hayan muerto aproximadamente el 60% de las pacientes del grupo de tratamiento están-
dar a los 2 años, en comparación con el 40% de las que reciban el tratamiento experimental, el
tamaño de la muestra se puede estimar utilizando la «supervivencia a los 2 años» como resultado
dicotómico.
Muestras de conglomerados
Algunos diseños de investigación conllevan el uso de muestras de conglomerados, en las que los
; participantes se muestrean por grupos (cap. 11). Considere, por ejemplo, un estudio de si una in-
tervención educativa continua para médicos mejor~ la tasa de abandono del tabaquismo entre sus
pacientes. Suponga que se asignan aleatoriamente 20 consultas de médicos al grupo que recibe la
intervención, y 20 consultas se asignan a un grupo de control. Un año después, los investigadores
planean revisar las historias de una muestra aleatoria d(:'. 50 pacientes de cada consulta que eran
fumadores al principio para determinar cuántos han dejado de fumar. ¿Equivale el tamaño de la
mues_tra a 40 (el número de médicos) o a 2000 (el número de pacientes)? La respuesta, que se en-
cuentra en algún punto entre esos dos extremos, depende de lo similares que sean los pacientes de
la consulta de un médico (en cuanto a su probabilidad de dejar de fumar) en comparación con la
similitud entre todos los pacientes. Para calcular esta cantidad, a menudo se necesita conseguir datos
piloto, salvo que otro investigador haya realizado anteriormente un estudio similar. Existen varias
técnicas para calcular el tamaño de la muestra requerido para un estudio que utiliza muestras de
conglomerados (4- 7), pero suelen precisar la ayuda de un estadístico.
Empa'rejamiento
Por diversas razones, un investigador puede escoger usar un diseño emparejado (cap. 9). Sin embar-
go, las técnicas de este capítulo, que ignoran cualquier emparejamiento, ofrecen estimaciones razo-
nables del tamaño de la muestra necesario, salvo que la exposición (en estudios de casos y testigos
emparejados) o el resultado (en estudios de cohortes emparejados) tenga una correlación elevada
con la correspondiente variable. Pueden realizarse cálculos más precisos, lo que precisa que el in-
vestigador especifisi.ue la correlación entre las exposiciones o los resultados en pares emparejados,
usando abordajes normalizados (8), programas estadísticos o programas interactivos de la red.
y la solidez de la asociación entre la variable de confusión y la de respuesta. Estos efectos son com-
plejos, y no existen reglas generales que abarquen todas las situaciones.
Los estadísticos han desarrollados métodos multivariados, como la regresión lineal y la regresión
logística, que permiten al investigador corregir las variables de confusión. Una técnica estadística
muy utilizada , el análisis de riesgos proporcionales de Cox, puede corregir tanto variables de con-
fusión como diferencias en la duración del seguimiento. Si va a utilizarse una de estas técnicas para
analizar los datos, existen métodos correspondientes para calcular el tamaño de muestra necesario
(3,11-14). También se dispone de técnicas para calcular el tamaño de la muestra para otros diseños,
como estudios de posibles factores de riesgo genético o de genes candidatos (15-17), estudios eco-
nómicos (18-20), estudios de dosis y respuesta (21) o estudios en los que intervienen más de dos
grupos (22). De nuevo , Internet es un recurso útil para estos métodos más sofisticados (p. ej., buscar
sample size y logistic regression, tamaño de la muestra y regresión logística).
Suele ser más fácil, al menos para investigadores principiantes, calcular el tamaño de la muestra
suponiendo un método de análisis más sencillo, como la prueba de la x2 o la prueba de la t. Supon-
ga, por ejemplo, que un investigador está pensando en un estudio de casos y testigos sobre si la
concentración de colesterol sérica (una variable continua) está asociada con la aparición de tumores
cerebrales (una variable dicotómica). Incluso si el plan final es analizar los datos con la técnica de
regresión logística, puede calcularse un tamaño de muestra aproximado con la prueba de la t. El re-
sultado es que los métodos simplificados suelen producir cálculos de tamaño de muestra que son si-
milares a los generados por técnicas más sofisticadas. Sin embargo, puede que sea necesario consul-
tar con un bioestadístico experto si se ha enviado una propuesta económica que conlleva costes
importantes para lograr financiación: los revisores de la propuesta económica esperarán que se uti-
lice un método sofisticado, aunque reconozcan que los cálculos del tamaño de la muestra se basan
en supuestos sobre el riesgo de los resultados, la magnitud del efecto, etc. Conseguir que un estadís-
tico sea quien estime el tamaño de la muestra también transmite el mensaje de que usted tiene ac-
ceso a los colaboradores que serán necesarios para manejar y analizar los datos del estudio. De hecho ,
un bioestadístico contribuirá de otras muchas maneras al diseño y la ejecución del estudio, aunque
seguramente agradecerá trabajar con un investigador clínico que haya pensado en los problemas y
haya realizado, al menos, un intento inicial de estimación del tamaño de la muestra.
la hipótesis nula. Los investigadores de un estudio convencional, que están intentando rechazar una
hipótesis nula, tienen un importante incentivo para realizar el mejor estudio posible. Sin embargo,
estas salvaguardas no se aplican a los estudios de ausencia de inferioridad, en los que el objetivo es
no encontrar ninguna diferencia.
Varia151es continuas
Cuando la variable de interés es continua, con frecuencia se comunica un intervalo de confianza
alrededor del valor medio de esa variable. Para calcular el tamaño de la muestra para ese intervalo
de confianza (ejemplo 6.4), el investigador debe:
Para usar el apéndice 6D, normalice la amplitud total del intervalo (divídala por la desviación
típica de la variable) y busque en la columna situada más a la izquierda de la tabla 6D la amplitud
normalizada esperada. A continuación, recorra la tabla hasta el nivel de confianza escogido para el
tamaño de muestra requerido. 1
Variables dicotómicas
En un estudio descriptivo de una variable dicotómica, los resultados pueden expresarse como un
intervalo de confianza alrededor de la proporción calculada de participantes con uno de los valores.
Esto incluye estudios de la sensibilidad y la especificidad de una prueba diagnóstica, que parecen
64 Sección 1 • Ingredientes básicos
ser, a primera vista, variables continuas, pero que en realidad son dicotómicas: proporciones expre-
sadas como porcentajes (cap . 12). Para calcular el tamaño de la muestra para ese intervalo de con-
fianza, el investigador debe:
l. Calcular la proporción esperada de la variable de interés en la población. (Si se espera que más
de la mitad de la población tenga la característica, planifique el tamaño de la muestra según la
proporción que se espera que no tenga la característica.)
2. Especificar la precisión deseada (amplitud total) del intervalo de confianza.
3. Seleccionar el nivel de confianza para el intervalo (p . ej., 95%) .
Solución: los ingredientes para el cálculo del tamaño de la muestra usando una variable de
respuesta dicotómica (muy débil frente a no muy débil) son los siguientes:
1. Hipótesis nula: la proporción de ancianos en residencias que están muy débiles (máximo
momento de torsión del cuádriceps < 20 N-m) tras recibir complementos nutricionales du-
rante 6 meses es la misma que la proporción de los que están muy débiles con una dieta
normal.
Hipótesis alternativa: la proporción de ancianos de residencias que están muy débiles (máxi-
mo momento de torsión del cuádriceps < 20 N-m) tras recibir complementos nutricionales
durante 6 meses difiere de la proporción de los que siguen una dieta habitual.
2. P1 (proporción de personas muy débiles con una dieta habitual) = 0,10; P2 (en el grupo con
complementos) = 0,05. El menor de estos valores es 0,05, y la diferencia f".ntre ellos (P 1 - P2)
es 0,05.
3. a (bilateral) = 0,05; {3 = 0,20.
Usando la tabla 6B-l, recorriendo transversalmente desde 0,05 en la columna situada más a
la izquierda y descendiendo desde una diferencia esperada de 0,05 , para encontrar el número
central (para a [bilateral] = 0,05 y {3 = 0,20), este diseño necesitaría 4 73 participantes por grupo.
Los ingredientes para el cálculo del tamaño de la muestra usando una variable de respuesta
continua (fuerza del cuádriceps como máximo momento de ,torsión) son los siguientes:
1. Hipótesis nula: la fuerza media del cuádriceps (como máximo momento de torsión en N-m)
en ancianos de residencias tras recibir complementos nutricionales durante 6 meses es la
mis~a que la fuerza media del cuádriceps en los que siguen una dieta habitual.
Hjpótesis alternativa: la fuerza media del cuádriceps (como máximo momento de torsión en
N-m) en ancianos de residencias tras recibir complementos nutricionales durante 6 meses
difiere de la fuerza media del cuádriceps en los que siguen una dieta habitual.
2. Magnitud del efecto= 5 N-m.
3. Desviación estándar de la fuerza del cuádriceps = 10 N-m.
4. Magnitud del efecto normalizada= magnitud del efecto/desviación típica= 5 N-m/10 N-m = 0,5.
S. a (bilateral) = 0,05; {3 = 0,20.
Usando la tabla 6A, recorriendo transversalmente desde una magnitud del efecto normaliza-
da de 0,50, siendo a (bilateral) = 0,05 y {3 = 0,20, este diseño necesitaría unos 64 participantes
en cada grupo. (En este ejemplo, el atajo para el cálculo del tamaño de la muestra de la página
57 de 16/[magnitud del efecto normalizada]2, o 16/[0,5] 2 da el mismo cálculo de 64 participan-
tes por grupo.) La consecuencia es que el uso de una variable de respuesta continua lleva a un
tamaño del efecto mucho menor.
primer caso permite un tamaño de muestra menor para una potencia concreta, o una potencia mayor
para un tamaño de muestra determinado.
En el ejemplo 6-7, la variable de respuesta continua permite analizar el efecto de los complemen-
tos nutritivos sobre la fuerza muscular en los ancianos. La variable de respuesta dicotómica permite
analizar sus efecto_s sobre la proporción de participantes que tienen al menos una mínima cantidad
de fuerza, lo que puede ser una medida indirecta más válida de la posible morbilidad relacionada
con las caídas.
una dieta tiene menos variabilidad que el peso final , porque este último está muy relacionado con
el peso inicial. El tamaño de la muestra para este tipo de prueba de la t se calcula del modo ha-
bitual (ejemplo 6-8), con la excepción de que la magnitud del efecto normalizada (E/D en la ta-
bla 6A) es la diferencia prevista del cambio de la variable dividido por la desviación típica de ese
cambio.
Por ejemplo , con e= 2 testigos por caso , entonces ([2 + 1]/[2 x 2]) X n = ¾ X n, y solo se nece-
sita el 75 % más de casos. Cuando e se hace mayor, n' se acerca al 50 % de n (cuando e = 10, por
ejemplo, n' = 11/20 x n).
de mama en mujeres sanas, precisan tamaños de muestra muy grandes para contar con una poten-
cia adecuada.
Una de las mejores formas para que un resultado se produzca con más frecuencia es incluir par-
ticipantes con mayor riesgo de presentar esa variable (como mujeres con antecedentes familiares de
cáncer de mama).
· Otras serán ampliar el período de seguimiento, de modo que exista más tiempo para acumular
. resultados, o ampliar la definición de lo que constituye una respuesta (p. ej. , incluyendo el carcino-
ma in situ ductal) . Todas estas técnicas (ejemplo 6.10), no obstante, pueden modificar la pregunta
del estudio, por lo que deben usarse con precaución.
habitualmente, ignorando los valores extremos. Por ejemplo, si es probable que la mayoría de los
participantes tengan una concentración de sodio sérico entre 135 y 143 mEq/1, la desviación típica
del sodio sérico es de unos 2mEq/l (1/4 X 8 mEq/1).
Otra estrategia cuando hay dudas sobre la media y la desviación típica de una variable continua
o categórica es dicotomizar la variable . Las categorías se pueden agregar en dos grupos, y las va-
riables continuas se pueden separar en la media o la mediana. Por ejemplo, dividir la calidad de
vida en «mejor que la mediana» y «la mediana o menos» evita tener que estimar la desviación
típica de la muestra, aunque todavía se tiene que estimar la proporción de pacientes que estarían
por encima de la media general en cada uno de los dos grupos en estudio. Después, se puede uti-
lizar la prueba de la x2 para hacer una estimación razonable, aunque algo elevada, del tamaño de
la muestra .
Sin embargo, muchas veces el investigador debe elegir la magnitud del efecto detectable de acuer-
do con un valor que considera que tiene significado clínico . En esa situación, el investigador debe
comentar su elección con compañeros que conozcan el tema. Por ejemplo , suponga que un investi-
gador está estudiando un nuevo tratamiento invasivo para la gastroparesia refractaria grave, enfer-
medad de la que, como mucho , el 5 % de los pacientes mejoran espontáneamente. Si se demuestra
que el tratamiento es eficaz, sus colegas digestólogos indicarían que estarían deseosos de tratar has-
ta a cinco pacientes para obtener una mejoría mantenida en tan solo uno de ellos (como el trata-
miento tiene efectos adversos graves y es costoso, no piensan que el número sea mayor de cinco).
Un número que es necesario tratar (NNT) de 5 corresponde a una diferencia de riesgos del 20 %
(NNT = 1/diferencia de riesgos) , por lo que el investigador debe estimar el tamaño de la muestra
basado en' una comparación de P 1 = 5 % con P2 = 25 % (es decir, 59 pacientes por grupo con una
; potencia de 0,8 y un valor de a bilateral de 0,05).
Si toáo esto falla, el investigador deberá hacer un supuesto mejorado sobre los valores probables
de los ingredientes perdidos. El proceso de pensar sobre el problema e imaginar los hallazgos dará
lugar, a menudo, a un cálculo razonable, y de eso se trata en la planificación del tamaño de la mues-
tra. Esta suele ser una mejor opción que solo decidir, en a]lsencia de cualquier justificación, diseñar
el estudio para tener una potencia del 80 % con un valor a bilateral de 0,05 a fin de detectar una
magnitud del efecto normalizada de, por ejemplo, 0,5 entre los dos grupos (n = 64, por grupo). Muy
pocos revisores de subvenciones aceptarán ese tipo de decisión arbitraria.
Muchos investigadores inexpertos (¡y algunos con experiencia!) comenten errores al planificar el
tamaño de la muestra. He aquí algunos de los más frecuentes:
l. Un error frecuente es calcular tarde el tamaño de la muestra durante el diseño del estudio . Há-
galo al principio del proceso , cuando todavía pueden hacerse cambios fundamentales.
2. Las variables dicotómicas pueden parecer continuas cuando se expresan como un porcentaj e o
una tasa. Por ejemplo, la situación vital (vivo o muerto) podría interpretarse erróneamente como
continua cuando se expresa como porcentaje de vivos . Igualmente, en el análisis de superviven-
cia, en el que no todos los participantes mueren, un resultado dicotómico puede parecer conti-
nuo (p. ej., me.diana de supervivencia en meses). Por todo esto, la propia variable de respuesta
es realmente dicotómica (una proporción), y el método sencillo adecuado al planificar el tama-
ño de la muestra sería la prueba de la x2 .
3. El tamaño de la muestra calcula el número de participantes con datos de respuesta, y no el nú-
mero que se necesita que participe. El investigador debe planificar siempre pensando en los
abandonos y en los participantes con datos ausentes.
4. Las tablas que se ofrecen al final del capítulo suponen que los dos grupos que se están estudian-
do tienen tamaños de muestra iguales. A menudo, esto no es así; por ejemplo, un estudio de
cohortes sobre si el uso de complementos vitamínicos reduce el riesgo de sufrir quemaduras
solares no incluiría, probablemente, el mismo número de personas que toman o no toman vita-
minas. Si los tamaños de las muestras no son iguales, deben usarse las fórmulas que siguen a las
tablas o calculadoras de Internet, o programas estadísticos.
72 Sección 1 • Ingred ientes básicos
■ RESUMEN
l. Al calcular el tamaño de la muestra para un estudio analítico , deben darse los siguientes pasos:
a) establecer las hipótesis nula y alternativa, especificando el número de lados;
b) seleccionar una prueba estadística que pueda usarse para analizar los datos, según los tipos
de variables predictivas y de respuesta (prueba de la x2 si las dos son dicotómicas, prueba
de la t si una es dicotómica y la otra continua, y coeficiente de correlación si las dos son
continuas); ·
c) calcular la magnitud del efecto (y su variabilidad, si es necesario); y
d) especificar valores adecuados de a y f3 según la importancia de evitar los errores de tipo I y
de tipo 11.
2. Otras consideraciones al calcular el tamaño de la muestra para estudios analíticos son el ajuste
para tener en cuenta los posibles abandonos , y estrategias para abordar variables categóricas,
análisis de supervivencia, muestras de conglomerados, ajuste multivariado y abordajes esta-
dísticos especiales para los estudios de equivalencia y ausencia de inferioridad.
3. Los pasos para calcular el tamaño de la muestra para estudios descriptivos , que carecen de
hipótesis, son: a) calcular la proporción de participantes con una respuesta dicotómica o la
desviación típica de una respuesta continua; b) especificar la precisión deseada (amplitud del
intervalo de confianza), y e) especificar el nivel de confianza (p. ej., 95%).
4. Cuando el tamaño de la muestra está predeterminado, el investigador puede trabajar retrospec-
tivamente para calcular la magnitud del efecto detectable o, con menos frecuencia, la potencia
del estudio.
5. Las estrategias para reducir al mínimo el tamaño de muestra comprenden: usar variables conti-
nuas , determinaciones más precisas, determinaciones emparejadas y más respuestas frecuentes ,
además de aumentar el número de testigos por caso en los estudios de casos y testigos.
6. Cuando no parece haber suficiente información para calcular el tamaño de la muestra, el inves-
tigador debe revisar la bibliografía en áreas relacionadas y consultar con compañeros para poder
elegir un tamaño de la muestra que sea clínicamente significativo.
7. Los errores que se deben evitar incluyen estimación del tamaño de la muestra demasiado tarde,
interpretación errónea de las proporciones expresadas como porcentajes, no tener en conside-
ración los sujetos y los datos ausentes, y no abordar adecuadamente los datos agrupados y pa-
reados.
APÉNDICE 6A
Tamaño de muestra necesario
por grupo al usar la prueba de la t
para comparar medias de variables
continuas
TABLA 6A. TAMAÑO DE MUESTRA POR GRUPO PARA COMPARAR DOS MEDIAS
1
UNILATERAL a= 0,005 0,025 0,05
E/D 1
/3= 0,05 0,10 0,20 0,05 0,10 0,20 0,05 o, 10 0,20
0,10 3.565 2.978 2.338 2.600 2.103 1.571 2.166 1.714 1.238
o, 15 1.586 1.325 1.040 1.157 935 699 963 762 551
'
0,20 893 746 586 651 527 394 542 429 310
,
0,25 572 478 376 417 338 253 347 275 199
I
0,30 398 333 262 290 235 176 242 191 139
./
■ CÁLCULO DE LA VARIABILIDAD
La variabilidad suele comunicarse como la desviación típica o el error típico de la media (ETM) . Para
calcular el tamaño de la muestra es más útil la desviación típica de la variable. Afortunadamente, es
fácil pasar de una medida a otra: la desviación típica es , sencillamente, el error típico multiplicado
por la raíz cuadrada de N , siendo N el número de participantes que componen la media. Suponga un
estudio que comunicó que la pérdida de peso de 25 personas que siguieron una dieta con poca fibra
fu e de 10 ± 2 kg (media ± ETM) . La desviación típica sería: 2 X -y25 = 10 kg .
Za = desviación normal típica de a (si la hipótesis alternativa es bilateral, Za = 2,58 cuando a= 0,01 ,
Za = 1,96 cuando a= 0,05 , y Za = 1,645 cuando a= 0,10. Si la hipótesis alternativa es unilate-
ral, Za = 1,645 cuando a= 0,05) .
73
74 Sección 1 • Ingredientes básicos
Z~= desviación normal típica de /3 (Zp = 0,84 cuando f3 = 0,20, y Zp = 1,282 cuando f3 = 0,10) .
q1 = proporción de participantes en el grupo 1
q2 = proporción de participantes en el grupo 2
N = número total de participantes necesarios"
Entonces:
Los lectores que deseen evitar el trabajo que supone calcular a mano esta fórmula pueden lograr una
respuesta instantánea con una calculadora o con nuestra página web (www.epibiostat.ucsf.edu/dcr/J.
( Como esta fórmula se basa en una aproximación del estadístico t con el estadístico Z, infravalorará
ligeramente el tamaño de la muestra cuando N sea menor de 30, aproximadamente. La tabla 6A usa
el estadístico t para calcular el tamaño de la muestra.)
APÉNDICE 6B
Tamaño de muestra necesario
por grupo cuando se usa la 2 x
o la prueba de la Z para comprobar
las proporciones de variables
dicotómicas
DIFERENCIA ENTRE P1 Y P2
MENOR
DE P1 Y P2 * 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
75
76 Sección 1 • Ingred ientes básicos
Los lectores que deseen evitar el trabajo que supone calcular a mano con esta fórmula pueden
obtener una respuesta instantánea con una calculadora o en nuestra página web (www.epibiostat.
ucsf.edu/dcr/). (Esta fórmula no incluye la corrección de continuidad de Fleiss-Tytun-Ury y, por
tanto, infravalora el tamaño de muestra necesario hasta en un 10%. En las tablas 6B-l y 6B-2 se
incluye esta corrección de continuidad.)
APÉNDICE 6C
Tamaño total de la muestra necesario
cuando se usa el coeficiente
de correlación {r)
(3= 0,05 0,10 0,20 0,05 0,10 0,20 0,05 0,10 0,20
r*
0,05 7.118 5.947 4.663 5.193 4.200 3.134 4.325 3.424 2.469
I
0,10 1.773 1.481 1.162 1.294 1.047 ', 782 1.078 854 616
o, 15 783 655 514 572 463 346 477 378 273
0,20 436 365 287 319 259 194 266 211 153
0,25' 276 231 182 202 164 123 169 134 98
0130 189 158 125 139 113 85 116 92 67
0,35 136 114 90 100 82 62 84 67 49
0,40 102 86 68 75 62 47 63 51 37
0,45 79 66 53 58 48 36 49 39 29
0,50 62 52 42 46 - 38 29 39 31 23
0,60 40 . 34 27 30 25 19 26 21 16
,0,70 27 23 19 20 17 13 17 14 11
0,80 18 15 13 14 12 9 12 10 8
•Para calcula r el tamaño total de la muestra, recorra transversalmente desde r (el coeficie nte de correlación es pe rado)
y descienda desd e los valores especificados de a y /3 .
79
APÉNDICE 6D
Tamaño de la muestra
para un estudio descriptivo
de una variable continua
Para otros valores de A y D y un nivel de confianza de (1 - a), el número total de participantes ne-
cesarios (N) es:
80
APÉNDICE 6E
Tamaño de la muestra
para un estudio descriptivo
de una variable dicotómica
TABLA 6E. TAMAÑO DE LA MUESTRA PARA PROPORCIONES
NÚMERO SUPERIOR: NIVEL DE CONFIANZA DEL 90 %
NÚMERO MEDIO: NIVEL DE CONFIANZA DEL 95 %
NÚMERO INFERIOR: NIVEL DE CONFIANZA DEL 99 %
PROPORCIÓN
ESPERADA (P)* 0,10 0,15 0,20 0,25 0,30 0,35 0.40
0,10 98 44
138 61
239 106
o, 15 139 62 35 22
196 87 49 31
I
339 151 85 54
0,20 174 77 44 28 19 14
246 109 61 39 27 20
426 189 107 68 47 35
0,25 204 91 51 33 23 17 13
288 128 72 46 32 24 18
499 222 125 80 55 41 31
0,30 229 102 57 37 25 19 14
323 143 81 52 36 26 20
559 249 140 89 62 46 35
0,40 261 116 65 42 29 21 16
369 164 92 59 41 30 23
639 284 160 102 71 52 40
0,50 272 121 68 44 30 22 17
384 171 96 61 43 31 24
666 296 166 107 74 54 42
•Para calcular el tamaño de la muestra, recorra horizontalmente la proporción esperada (P) que tiene la variable de
interés y descienda desde la amplitud total (A) deseada del intervalo de confianza. Los tres números representan el
tamaño de la muestra necesario para niveles de confianza del 90 %, 95 % y 99 %.
MOMENTO DE LA
DETERMINACIÓN TRATAMIENTO (N = 100) TESTIGO (N = 100) VALOR DE P
82
Ca pítulo 6 • Cálrnlo de la potencia y el tamaño de la muestra: ap licaciones y ejemplos 83
BIBLIOGRAFÍA
l. Lehr R. Sixteen S-squared over D-squared: a relation for crude sample size estimates. Slat Mecl 1992;11:1099-1102.
2. Barthel FM, Babiker A, Royston P, Parmar MK. Evaluation of sample size and power for multi-arm survival
trials allowing for non-uniform accrual, non-proportional hazards, loss to follow-up and cross-over. Stat Mecl
2006;25(15) :2521-254 2.
3. Ahnn S, Anderson SJ. Sample size determination in complex clinical trials comparing more than two groups for
survival endpoints. Stat Mecl 1998;17(21):2525-2534.
4. Donner A. Sample size requirements for stratified cluster randomization designs [published erratum appears in
Stat Mecl 1997;30(16):2927]. Stat Mecl 1992;11:743-750.
5. Kerry SM, BlandJM. Trialswhich randomize practices 11: sample size. Fam Pract 1998;15:84-87.
6. Hernming K, Girling AJ, Sitch AJ, et al. Sample size calculations for cluster randomised controlled trials with a
fixed number of clusters. BMC Mecl Res Methoclo! 2011 ;11:102.
7. Jahn-Eimermacher A, lngel K, Schneider A. Sarnple size in cluster-randomized trials with time to event as the
primary endpoint. Stat Mecl 2013;32(5):739-751.
8. Edwardes MD. Sample size requirements for case-control study designs. BMC Mecl Res Metlwclo! 2001;1:ll .
9. Drescher K, Timm J, Jócl<el KH. The design of case-control studies: the effect of confounding on sample size
requirements. Stat Mecl 1990;9:765-776.
10. Lui KJ. Sample size determination for case-control studies: the influence of the joint distribution of exposure and
confounder. Stat Mecl 1990;9: 1485-1493.
11. Latouche A, Porcher R, Chevret S. Sample size formula for proportional hazards modelling of competing risks. Stat
Mecl 2004;23(21):3263-3274.
12. Novikov I, Fund N, Freedman LS. A rnodified approach to estimating'sarnple size for simple logistic regression
with one continuous covariate. Stat Mecl 2010;29(1):97-107.
13. Vaeth M, Skovlund E. A simple approach to power and sample size calculations in logistic regression and Cox
regressión models. Stat Mecl 2004;23(1 l): 1781-1792.
~14_ Dupont WD, Plummer WD Jr. Power and sample size calculations for studies involving linear regression. Control
Clin 'frials 1998;19:589-601.
15. Murcray CE, Lewinger JP, Conti DV, et al. Sample size requirements to detect gene-environment interactions in
genome-wide association studies. Genet Epiclemio! 2011;35(3):201-210.
16. Wang S, Zhao H. Sample size needed to detect gene-gene interactions using linkage analysis. A1111 Hum Genet
2007;71(Pt 6) :828-842.
17. Witte JS. Rare genetic variants and treatment response: sample size and analysis issues. Stat Mecl 2012;31(25):
3041-3050.
18. Willan AR. Sample size determination for cost-effectiveness trials. Phannacoeco110111ics 2011;29(11):933-949.
19. Glick HA. Sample size and power for cost-effectivenes_s analysis (Pan 2): che effect ofmaxirnum willingness to pay.
Phannacoeconomics 2011;29(4):287-296.
20. Glick HA. Sample size and power for cost-effectiveness analysis (Part 1) . Phannacoeco110111ics 2011 ;29(3):189-198.
21. Patel Hl. Sample size for a <lose-response study [published erraturn appears inJ Biophann Stat 1994;4:127] .] Biophann
Stat 1992;2:l-8.
22. Day SJ, Graharn DF Sample size estimation for comparing two or more treatment groups in clinical trials. Stat Mecl
1991;10:33-43.
23. Guo jH, Chen HJ, Luh WM. Sample size planning with the cost constraint for testing superiority and equivalence
of two independent groups. Br J Math Stat Psycho! 2011;64(3):439-461.
24. Zhang P. A simple formula for sample size calculation in equivalence studies.J Biophann Stat 2003;13(3):529-538.
25. Stucke K, Kieser M. A general approach for sample size calculation for the three-arm 'gold standard' non-inferiority
design. Stat Mecl 2012;31(28) :3579-3596.
26. Julious SA, Owen RJ. A comparison of methods for sample size estimation for non-inferiority studies with binaiy
outcornes. Stat Methocls Med Res 2011;20(6):595-6 12.
27. Obuchowski NA. Sample size tables for receiver operating characteristic studies. AJR Am] Roentgenol 2000;175(3):
603-608.
28. Simel DL, Samsa GP, Matchar DB. Likelihood ratios with confidence: sample size estirnation for diagnostic test
studies. J Clin Epiclemiol 1991;44:763-770.
29. SimJ, Wtight CC. The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Phys Ther
2005;85(3):257-268.
30. Jewell NP. Statistics far epidemiology. Boca Raton: Chapman and Hall, 2004, p. 68.
. SECCIÓNm
84
1 .. CAPÍTULO EJ
Diseño de estudios transversales
y de cohortes
Stephen B. Hu lley, Steven R. Cummings y Thomas B. Newman
L os estudios observacionales tienen dos finalidades principales: descriptiva, analizar las distribucio-
nes de las variables predictivas y las variables de respuesta en una población, y analítica , caracterizar las
asociaciones entre estas variables predictivas y de respuesta. En este capítulo se presentan dos diseños
observacionales básicos, que se clasifican por el marco temporal en el que se realizan las mediciones.
En un estudio transversal, el investigador realiza todas las mediciones en una única ocasión o en
un período de tiempo corto. Extrae una muestra de la población y estudia las distribuciones de las
variables en esa muestra, en ocasiones denominándolas variables predictivas y variables de resulta-
dos, de acuerdo con la credibilidad biológica y la información liistórica. Por ejemplo, si está intere-
sado en estudiar la relación entre el peso corporal y la presión arterial, podría medir estas variables
en una única visita en la consulta en todos los pacientes del estudio, y explorar si las personas con
, mayor peso corporal tienen más probabilidad de tener hipertensión.
En un estudio de cohortes , las mediciones se realizan en un período de tiempo en un grupo de
participantes a los que se ha identificado al comienzo del estudio («la cohorte »). Por lo tanto , la
característica que define los estudios de cohortes es que se sigue longitudinalmente a un grupo
reunido al comienzo . Por ejemplo, el investigador podría medir el peso corporal y la presión arterial
en una cohorte de personas en estudio en una visita inicial en la consulta y después seguirlas duran-
te 5 años para determinar la relación entre el peso inicial y la incidencia de hipertensión. En este
capítulo se analizan los diseños de cohortes prospectivos y retrospectivos , y los diseños de cohortes
múltiples . También se abordan los abordajes del análisis •estadístico y la importancia de optimizar
la retención de la cohorte durante el seguimiento.
■ ESTUDIOS TRANSVERSALES
En un estudio transversal, todas las mediciones se realizan aproximadamente al mismo tiempo ; sin
período de seguimiento (fig. 7-1). Los diseños transversales son adecuados para el objetivo de des-
cribir variables y sus patrones de distribución. Por ejemplo, en el Nationa! Hea!th and Nutrition
Examination Survey (NHANES), a principios de la década dé 1970, se entrevistó y exploró a una
muestra diseñada para representar a toda la población estadounidense de 1-74 años. Este estudio
transversal fue una importante fuente de información sobre la salud y los hábitos de la población
estadounidense el año en que se realizó, y ofreció estimaciones de aspectos como la prevalencia del
tabaquismo en diversos grupos demográficos. Posteriormen,te se han realizado de manera periódica
otros estudios NHA.NES transversales , y todos los conjuntos de datos de los estudios NHANES están
disponibles para su uso por el público (www.cdc.gov/nchs/nhanes.htm) .
Los estudios transversales se pueden utilizar para explorar asociaciones, aunque la elección de
qué variables se van a considerar predictivas y cuáles de respuesta depende de las hipótesis de causa
y efecto del investigador, más que del diseño del estudio. Esta elección es fácil para factores consti-
tucionales , como edad, raza y sexo; estos factores no se pueden 1alterar por otras variables , por lo que
siempre son factores predictivos. Sin embargo, para otras variables, la elección puede ir en ambos
sentidos. Por ejemplo, en el estudio NHANES III hubo una asociación transversal entre la obesidad
infantil y las horas que se pasaba viendo la televisión (1) . El que se considere que la obesidad o el
tiempo viendo la televisión sea la variable predictiva y la otra la variable de respuesta depende de la
hipótesis causal del investigador.
85
86 Sección 11 • Diseño de los estud ios
PRESENTE
Población ~ -----------
.,,..... ... ...
,,,..-' .........
; ; ''
;
; ''
; '
I I ' \
I \
, I \
\
,' Muestra \
'
''
\
'
,----~------, \
\
1
: Medir las variables \
: actuales \
1 1
1
, Obtener información :
, histórica cuando ,
\ proceda ,'
''
1 '
■ FIGURA 7.1. En un estudio transversal, los pasos \
\
\ I
son: \ I
,,
\ I
\
• Definir los criterios de selección e incluir una \
\ I
muestra de la población. \ I
Al contrario de los estudios de cohortes, que tienen una dimensión temporal longitudinal que se
puede utilizar para estimar la incidencia (la proporción que llega a presentar una enfermedad a lo largo
del tiempo), los estudios transversales ofrecen información sobre la prevalencia , la proporción que
tiene una enfermedad o trastorno en un momento determinado. La prevalencia le importa al médico,
que debe estimar la probabilidad de que el paciente que está en su consulta tenga una enfermedad
concreta; cuanto mayor sea la prevalencia, mayor será la <<probabilidad previa» de la enfermedad (la
probabilidad antes de que se disponga de los resultados de las diversas pruebas diagnósticas; cap. 12).
Es este el motivo por el que más pacientes con dolor de rodilla tienen artrosis que reumatismo palin-
drómico. La prevalencia también es útil para los planificadores sanitarios, que quieren saber cuántas
personas tienen determinadas enfermedades para poder asignar suficientes recursos para atenderlas.
Cuando se analizan estudios transversales, se puede comparar la prevalencia del resultado en los que
tienen y no tienen una exposición, lo que permite obtener la prevalencia relativa del resultado , el
equivalente transversal del riesgo relativo (pueden verse ejemplos en el apéndice 8A).
En ocasiones, los estudios transversales describen la prevalencia de haber realizado algo o de
haber tenido alguna vez una enfermedad o trastorno. En este caso, es importante asegurarse de que
el tiempo de seguimiento sea igual en las personas expuestas y no expuestas. Esto se ilustra en el
ejemplo 7-1, en el que se analizó la prevalencia de haber probado alguna vez el tabaco en un estudio
transversal de niños con diferentes niveles de exposición a películas en las que los actores fuman .
Por supuesto, los niños que habían visto más películas también eran mayores, por lo que habían
tenido más tiempo para probar el tabaco, por lo que era importante ajustar la edad en los análisis
multivariados (cap. 9).
' enferm\dades poco frecuentes, salvo que la muestra se extraiga de una población de pacientes en-
fermos yno de la población general. Una serie de casos de este tipo es más adecuada para describir
las características de la enfermedad que para analizar diferencias entre estos pacientes y las personas
sanas, aunque las comparaciones informales con la experiencia previa en ocasiones permiten iden-
tificar factores de riesgo muy potentes. Por ejemplo, en una serie de casos de los 1000 primeros
pacientes con sida, 727 eran hombres homosexuales o bisexuales y 236 consumían drogas por vía
intravenosa (3). No hizo falta un grupo testigo formal para concluir que estos grupos tenían aumen-
to del riesgo. Además, en una muestra de personas con una enfermedad puede haber asociaciones
de interés, como el mayor riesgo de sarcoma de Kaposi en pacientes con sida que eran homosexuales
que en los que consumían drogas inyectables.
Como los estudios transversales miden únicamente la prevalencia y no la incidencia, es impor-
tante tener precaución cuando se extraigan inferencias sobre las causas, el pronóstico o la evolución
natural de una enfermedad. Un factor que se asocia a la prevalencia de una enfermedad puede ser
una causa de la enfermedad, aunque también se podría asociar simplemente a la duración de la en-
fermedad. Por ejemplo, la prevalencia de la insuficiencia renal crónica depende no solo de su inci-
dencia, sino también de su supervivencia una vez que se ha producido. A la vista de la observación
de que la obesidad se asocia a mayor supervivencia de pacientes en diálisis (4), en un estudio trans-
versal de los factores predictivos de la insuficiencia renal crónica se podría sobrestimar la asociación
entre obesidad e insuficiencia renal.
Estudios en serie
En ocasiones, los investigadores realizan una serie de estudios transversales en la misma población,
por ejemplo, cada 5 años. Se puede utilizar este diseño para extraer inferencias sobre los patrones
cambiantes a lo largo del tiempo. Por ejemplo, Zito y cols. (5) , utilizando estudios transversales
anuales, describieron que la prevalencia del consumo de fármacos psicótropos de venta con receta
en jóvenes ( < 20 años de edad) había aumentado más de tres veces entre 1987 y 1996 en una pobla-
ción de la región del Atlántico medio atendida por Medicaid. Los estudios transversales en serie
tienen un marco temporal longitudinal, pero no son lo mismo que un estudio de cohortes, porque
cada vez se extrae una nueva muestra. En consecuencia, no se pueden evaluar los cambios que se
producen en las personas, y los hallazgos se pueden ver modificados por las personas que entran o
salen de la población (y, por lo tanto , de las muestras) por nacimientos, muertes y movimientos
migratorios.
88 Sección 11 • Diseño de los estudios
■ ESTUDIOS DE COHORTES
Estudios de cohortes prospectivos
Cohorte era el término romano que design¡¡ba a un grupo de soldados que avanzaban juntos, y en
las investigaciones clínicas una cohorte es un grupo de personas, especificado al comienzo del estu-
dio y al que se sigue a lo largo del tiempo. En un estudio de cohortes prospectivo, el investigador
empieza reuniendo una muestra de participantes (fig. 7-2). Mide en cada participante características
que podrían predecir los resultados subsiguientes, y sigue a estas personas, realizando_determina- ¡
ciones periódicas de las variables de respuesta de interés (ejemplo 7-2). \
PRESENTE FUTURO
'' I
I
' \
\ I
I
I
Pérdida durante
\ I
'' I
I
el seguimiento
I
'' I
I
' ,, ... , ;
I
.,,.,,,
', ' ,, ....... ________ ,,,._,
--
■ FIGURA 7-2. En un estudio de cohortes prospectivo, los pasos son:
• Definir los criterios de selección e incluir una muestra de la población (« la cohorte»).
• Medir las variab les predictivas y, si procede, el nivel in icial de la variable de respuesta.
• Plantear la opción de almacenar muestras, imágenes, etc., para el análisis posterior de las variables predictivas.
• Seguir a la cohorte a lo largo del tiempo, minimizando las pérdidas durante el seguimiento.
• Medir las variab les de respuesta durante el seguimiento.
Capítulo 7 • Diseño de estudios transversales y de cohortes 89
cáncer de mama, aparecen con una incidencia tan baja en cualquier año determinado que debe se-
guirse a una gran cantidad de personas durante largos períodos de tiempo para observar suficientes
respue~tas a fin de obtener resultados significativos. Los diseños de cohortes son más eficaces para
variables de respuesta dicotómicas, que son más frecuentes e inmediatas, y para variables de respues-
ta continuas.
predictivas en una cohorte de personas a las que se ha reunido por otros motivos, como una base de
datos clínica o administrativa electrónica (ejemplo 7-3).
PASADO PRESENTE
Población
' I
1
1
' \
\ I
I
'
\ I
\
\
I Pérdida durante
I
\
\ I
I el seguimiento
' ' ... ,, I
I
I
,. /
..............
--- _____________ .... ,,,,.,.,,.,'
■ FIGURA 7-3. En un estudio de cohortes retrospectivo, la selección de la cohorte y el seguimiento se han realizado en
el pasado, por lo que los pasos son:
• Identificar una cohorte existente que tenga alguna información predictiva que ya se haya registrado.
• Evaluar las pérdidas durante el seguimiento que se han producido.
• Medir las variables de respuesta que ya se han producido.
Capítu lo 7 • Diseño de estudios transversa les y de cohortes 91
mayor incidencia de cáncer de pulmón, Wagoner y cols. {10) compararon la incidencia de cánceres
respiratorios en 3 415 mineros del uranio con la de personas blancas que vivían en los mismos esta-
dos. La mayor incidencia de cáncer de pulmón que se observó en los mineros ayudó a establecer que
la exposición laboral a las radiaciones ionizantes es una importante causa de cáncer de pulmón.
Puntos f uertes y puntos débi les de los diseños de cohortes mú ltip les
El diseño de cohortes múltiples puede ser el único abordaje viable para estudiar exposiciones infre-
cuentes a posibles riesgos laborales y ambientales. La utilización de datos de un censo o registro
Población con
un valor de
exposición ~ _________ _
,, .,. ... -- ......... '
,,' ...... ,
,,' ',,
, '
,' ',
I '
,' Muestra '\\
I
I
I
~ \
\
\
1 1
1 Medir las variables 1
1 1 Medir los
predictivas 1
1 resultados
Almacenar muestras 1 cuando se
1
1 produzcan
1 (opcional) 1
\
1
1
\ I
I
1
1
•
,, Investigar las
\ I
\
,,
\
pérdidas durante
' \
,, el seguimiento
''
',, ,-'
',, ,, .,.,;'
...... ________ _
---
Población con
otro valo~_de ------------
expos1c1on ------..._ _________ _
,,,""'
... .......
.............
-
,,," ',,
,' ', '
I
,, ' \
,' Muestra '\\
I
I
I
~ \
\
\
1 1
1 Medir las variables 1
1 1 Medir los
1 predictivas 1
1 - resultados
1 cuando se
Almacenar muestras 1
1 1 produzcan
1 (opcional) 1
1
\
\
\ I
I
1
I
•
\
\ I
I Investigar las
\
,I pérdidas durante
' \
,, el seguimiento
' ' ... ,, ,,,'
',,
',, ... ________ _
,,--'
■ FIGURA 7-4. En un estudio de cohortes dobles (que se puede realizar prospectiva o retrospectivamente), los pasos
son :
• Seleccionar dos o más cohortes de poblaciones con diferentes niveles de la exposición (variable predictiva principal).
• Medir otras variab les predictivas.
• Medir las variables de respuesta durante el seguimiento.
como grupo testigo externo tiene la ventaja adicional de basarse en la población y ser económico.
Por lo demás , los puntos fuertes de este diseño son similares a los de otros estudios de cohortes.
El problema de la confusión se acentúa en los estudios de cohortes múltiples, porque las cohortes
se reúnen a partir de poblaciones distintas que pueden diferir en aspectos importantes (aparte de la
exposición a la variable predictiva) que pueden influir en los resultados. Aunque algunas de estas
diferencias, como la edad y la raza, se pueden emparejar o utilizar para ajustar estadísticamente
los hallazgos , otras caracterí'sticas pueden no ser medibles y crean problemas en la interpretación
de las asociaciones observadas.
Capítu lo 7 • Diseño de estudios transversa les y de cohortes 93
todo para el análisis multivariado de los datos de este tipo (en ocasiones denominados datos de
«tiempo hasta un acontecimiento»); permite la estimación de cocientes de riesgos instantáneos ,
que son similares a los cocientes de incide~cia y han llegado a utilizarse de manera generalizada
como medida de la asociación en los análisis de regresión de Cox .
■ RESUMEN
l. En un estudio transversal , todas las variables se miden en un único punto temporal, sin distin-
ción estructural entre variables predictivas y variables de respuesta. Los estudios transversales
ofrecen datos de causalidad más débiles que los estudios de cohortes, porque no se puede de-
mostrar que la variable predictiva preceda a la variable de respuesta .
2. Los estudios transversales son útiles para obtener información descriptiva sobre la prevalencia ,
y tienen la ventaja de evitar el tiempo , el gasto y los problemas de abandono de un diseño de
seguimiento; muchas veces son útiles como primer paso de un estudio de cohortes o un estudio
experimental, y se los puede vincular a estudios en serie con muestras independientes para
mostrar cambios poblacionales a lo largo del tiempo.
3. Los estudios transversales precisan un gran tamaño de la muestra cuando se estudian enferme-
dades y variables poco frecuentes en la población general, aunque pueden ser útiles en una serie
de casos de una enfermedad poco frecuente.
Capítulo 7 • Diseño de estudios transversales y de cohortes 95
1. Contactar periódicamente con los participantes para obtener información, enviar resu ltados y prestar
apoyo:
a. Por te léfono: puede ser necesario llamar durante los fines de semana y por la noche
b. Por correo: envíos repetidos por correo electrónico o con tarjetas franqueadas para su devolución
c. Otros: boletín· de noticias, rega los simbólicos
2. Para aquellos con los que no se contacta por teléfono o por correo:
a. Contactar con amigos, familiares o médicos
b. Solicitar direcciones de reenvío al servicio postal
c. Buscar direcciones a través de otras fuentes públicas, como guías telefónicas e Internet
d. Con pacientes que están en Medicare, obtener datos de altas hospitalarias de la administración de
la segu'ridad social ·
e. Determinar la situación vital con datos del Ministerio de Sanidad del estado o del National Death
Registry (registro de mortalidad nacional)
En todo momento
1. Tratar a los participantes del estudio con amab ilidad, afecto y respeto, ayudándoles a entender la
pregunta de la investigación de modo que quieran participar en que el estudio tenga éxito.
•Esto·supone que los participantes en el estudio han dado su consentimiento informado para que se recopile ia infor-
mación y para el contacto de segu imiento.
4. En los estudios de cohortes se sigue a lo largo del tiempo a un grupo de participantes identifi-
cados al comienzo para describir la incidencia o la evolución natural de una enfermedad y
descubrir los factores predictivos (factores de riesgo) de diversos resultados. La posibilidad de
meair la variable predictiva antes de que se produzca la variable de respuesta establece la se-
cuencia de los acontecimientos y controla el sesgo en esa medición.
5. Los estudios de cohortes prospectivos comienzan al principio del seguimiento y pueden preci-
sar grandes números de participantes a los que se seguirá durante períodos de tiempo prolon-
gados. Esta última desventaja , en ocasiones, se puede superar identificando una cohorte retros-
pectiva en la que ya se hayan realizado las m ediciones de las variables predictivas.
6. El diseño de cohortes múltiples , que compara la inci\iencia de las variables de respuesta en
cohortes que difieren en una variable predictiva ( «la exposición »), es útil para estudiar los
efectos de exposiciones infrecuentes y de exposiciones laborales.
7. Los riesgos , las oportunidades y las tasas de incidencia son tres formas de estimar la frecuencia
de una variable de respuesta dicotómica durante el seguimiento; de ellas, las tasas de incidencia,
que tienen en consideración las personas-tiempo de los participantes que siguen vivos y sin
episodios en el estudio , forman la base de los abordajes modernos del cálculo de los cocientes
de riesgo multivariados utilizando el modelo de riesgos proporcionales de Cox.
8. Las inferencias sobre causa y efecto se refuerzan midiendo y ajustando todas las posibles varia-
bles de confusión que se puedan concebir. Se evitará el sesgo en la evaluación de las respuestas
mediante la normalización de las determinaciones y el enmascaramiento de las personas que
relacionan la variable de respuesta con los valores de la variable predictiva.
96 Sección 11 • Diseño de los estud ios
9. Los puntos fuertes de un diseño de cohortes pueden debilitarse por un seguimiento incompleto
de los participantes. Las pérdidas pueden reducirse al mínimo, excluyendo al comienzo a los
p articipantes que puedan no estar disponibles para el seguimiento, recopilando información
inicial que facilite su localización y permaneciendo en contacto periódicamente con todos los
participantes.
BIBLIOGRAFÍA
l. Andersen RE, Crespo CJ, Bartlett SJ, et al. Relationship of physical activity and television watching with body
weight and leve! of fatness among children: results from the Third National Health and Nutrition Examination
Survey. JAMA 1998;279(12):938-942.
2. Sargent JD, Beach ML, Adachi-Mejia AM, et al. Exposure to movie smoking: its relation to smoking initiation
among US adolescents. Pediatrics 2005;116(5):1183-1191.
3. Jaffe HW, Bregman DJ, Selik RM. Acquired immune deficiency syndrome in the United States: the first 1,000 cases.
] Infect Dis 1983;148(2):339-345.
4. Kalantar-Zadeh K, Abbott KC, Salahudeen AK, et al. Survival advantages of obesity in dialysis patients. Am] Clin
Nutr 2005; 81: 543-554.
5. Zito JM, Safer DJ , DosReis S, et al. Psychotropic practice patterns for youth: a 10-year perspective. Arch Pediatr
Adolesc Med 2003;157(1):17-25.
6. Huang Z, Hankinson SE; Colditz GA, et al. Dual effect of weight and weight gain on breast cancer risk. JAMA
1997;278:1407-1411.
7. Pearce MS, Salotti JA, Little MP, et aL Radiation exposure from CT scans in childhood and subsequent risk of
leukemia and brain tumors: a retrospective cohort study. Lancet 2012;380:499-505.
8. Newman TB, Liljestrand P, Jeremy RJ, et al. Outcomes of newborns with total serum bilirubin levels of 25 mgldL
or more. N Engl] Med 2006;354:1889-1900.
9. Escobar GJ, Liljestrand P, Hudes ES, et al. Five-year neurodevelopmental outcome of neonatal dehydration.
J Pediatr 2007;151(2):127-133, 133 el.
10. Wagoner JK, Archer VE, Lundin FE, et al. Radiation as the cause of lung cancer among uranium miners. N Engl
] Med 1965;273:181-187.
CAPÍTULO m
Diseño de estudios de casos
y testigos
Thomas B. Newman, Warren S. Browner, Steven R. Cummings
y Stephen B. Hulley
En el capítulo 7 se han presentado los estudios de cohortes , en los que la secuencia de las deter-
minaciones es la misma que la cronología de causa y efecto: se miden primero las variables predic-
tivas y después se observan las variables de respuesta durante el seguimiento . Por el contrario, en
un estudio de casos y testigos , el investigador trabaja hacia atrás. Comienza eligiendo una muestra
de personas con la respuesta (los casos) y otra muestra de personas sin esa respuesta (los testigos);
posteriormente se comparan los niveles de las variables predictivas en las dos muestras para ver
cuáles de ellas se asocian a la respuesta. Por ejemplo , en un e's tudio de casos y testigos se podría
recoger un grupo de casos de melanoma ocular y una muestra de testigos sanos , a lo que seguiría la
obtención de datos de ambos grupos sobre la exposición previa a la soldadura con arco para estimar
; en qué medida esta exposición afecta al riesgo de melanoma ocular. El diseño de casos y testigos es
relativamente económico y tiene una eficiencia elevada para estudiar enfermedades infrecuentes.
En este capítulo también se presentan diversas variaciones del diseño de casos y testigos sencillo
que se ha señalado más arriba. En un diseño de casos y testigos anidado se comparan los casos in-
cidentes anidados en un estudio de cohortes con testigos extraídos aleatoriamente del resto de la
cohorte; este diseño controla el sesgo de muestreo y de medida , y ahorra dinero si las variables
predictivas son mediciones costosas que se pueden realizar en muestras almacenadas o imágenes
recogidas al comienzo del estudio de cohortes. Un diseño de casos y testigos de densidad de inci-
dencia permite que los investigadores analicen las relaciones de riesgo , teniendo en ·consideración
los cambios a lo largo del tiempo de los niveles de los factores de riesgo y las pérdidas durante el
seguimiento. Yun diseño de casos y cohortes anidado permite que una muestra aleatoria de toda la
cohorte actúe como testigo para diferentes conjuntos de casos. El capítulo finaliza con consejos
sobre la elección de los diseños de estudios de observación que se analizan en los capítulos 7 y 8.
PRESENTE
Población
de casos
I \
I \
: Confirmar la respuesta \
: como un caso
1
Medición actual y 1
1 1
1 valores históricos de las 1
1 I
\ variables predictivas I
\ I
\ I
\ I
\ I
\ I
,,
I
''
'' ,,,,,,'
' ',, ...
-- --- ......... _
--- ---
.,,,,.,,,,"
Población
de testigos
~ ,,,.'
-------------------,, ',,
/ ''
I
,, '\
I \
,' Muestra ~ \
I \
I \
I -----~-----~ \
I \
I \
en tre los que ya tienen una enfermedad. Además, cuando las respuestas no deseadas son la norma en
lugar de la excepción, los casos de un estudio de casos y testigos pueden ser los pacientes, poco fre-
cuentes, con una buena respuesta, como la recuperación de una enfermedad habitualmente mortal.
Los estudios de casos y testigos son el «tinto de la casa» en la lista de vinos del diseño de inves-
tigación: más modestos y con algo más de riesgo que las otras selecciones, pero mucho más baratos
y, a veces, sorprendentemente buenos. El diseño de un estudio de casos y testigos es difícil debido a
la mayor oportunidad para que se produzca sesgo, pero hay mu chos ej emplos de estudios de este
tipo bien diseñados que han proporcionado resultados importantes. Entre ellos se encuentran los
que establecieron los vínculos entre el consumo materno de dietilestilbestrol y el cáncer vaginal en
las hij as (¡un estudio clásico que proporcionó una conclusión definitiva basándose solo en siete
casos!) (1), y entre la posición de decúbito prono al dormir y el síndrome de la muerte súbita del
lactante (2), un sencillo resultado que ha salvado miles de vidas (3).
Capítu lo 8 • Diseño de estud ios de casos y test igos 99
hospitalización y que son sencillas de diagnosticar, como la fractura de cadera y las amputaciones trau-
máticas, pueden muestrearse con seguridad a partir de casos diagnosticados y accesibles, al menos en los
países desarrollados. Por otro lado, las afecciones que pueden no llegar a ser atendidas por médicos son
más difíciles de analizar en estudios de casos y testigos, debido a la selección que precede al diagnóstico.
Por ejemplo, las mujeres atendidas en una consulta ginecológica con abortos espontáneos en el primer
trimestre probablemente difieran de toda la población de mujeres que sufren abortos espontáneos, mu-
chas de las cuales no solicitan asistencia médica. Por lo tanto, las mujeres con antecedentes de esterilidad
estarían sobrerrepresentadas en una muestra clínica, mientras que las que tuvieran un acceso escaso a
los cuidados prenatales estarían infrarrepresentadas. Si una variable predictiva de interés se asocia a la
asistencia ginecológica en la población (como el uso anterior de un dispositivo intrauterino [DIU]), el
muestreo de casos de la consulta podría ser una importante fuente de sesgo. Si, por otro lado, una varia-
ble predictiva no está relacionada con la asistencia ginecológica (como el grupo sanguíneo) , existiría
menos probabilidad de que una muestra procedente de la consulta no fuera representativa.
Aunque es importante pensar en estos aspectos, la selección de los casos a menudo está limitada
a las fuentes accesibles de pacientes. La muestra de casos puede no ser totalmente representativa,
pero ser lo único con lo que el investigador puede trabajar. Las decisiones difíciles a las que se en-
frenta un investigador al diseñar un estudio de casos y testigos se relacionan con la tarea más abier-
ta de seleccionar los testigos adecuados. El objetivo general es muestrear testigos de una población
que habrían llegado a convertirse en casos del estudio si hubieran presentado la enfermedad. A con-
tinuación se presentan cuatro estrategias para el muestreo de los testigos:
• Testigos a partir de hospitales o consultas. Una estrategia para compensar el posible sesgo de
selección, causado por obtener casos de una consulta o un hospital , es elegir testigos de los mis-
mos 'centros. Por ejemplo, en un estudio del uso anterior de un DIU como factor de riesgo de
aborto espontáneo , la muestra de testigos puede seleccionarse a partir de una población de mu-
jeres que acuden por otros problemas (p. ej., vaginitis) a la misma consulta ginecológica. En
comparación con una muestra aleatoria de mujeres de la_misma zona, estas testigos representarían,
presumiblemente, mejor a la población de mujeres que, de haber tenido un aborto espontáneo,
habrían acudido a la consulta y constituirían un caso.
Sin embargo, la selección de una muestra no representativa de testigos para compensar una mues-
tra no representativa de casos puede ser algo problemático. Si el factor de riesgo de interés causa un
problema médico para el que los testigos solicitan asistencia, la prevalencia del factor de riesgo en el
grupo testigo estará falsamente elevada, lo que reduciría o invertiría la asociación entre el factor de
riesgo y la respuesta. Si, por ejemplo, muchas mujeres del grupo testigo solicitaran asistencia en la
consulta por una enfermedad médica asociada al uso previo de un DIU (p. ej. , esterilidad por los mo-
delos~antiguos de DIU), habría un exceso de usuarias previas de DIU entre las testigos, lo que reduci-
ría la magnitud de la asociación entre el uso previo de DIU y el aborto espontáneo en el estudio.
Como los testigos seleccionados del hospital o la consulta muchas veces tienen enfermedades
asociadas a los factores de riesgo que se estudian, los hallazgos que ofrecen estos tipos de testigos
pueden llevar a error. Por lo tanto, es esencial tener en consideración si la comodidad de utilizar
testigos procedentes del hospital o la consulta justifica la posible amenaza a la validez del estudio.
• Uso de una muestra de casos basada en la población. Debido a un rápido aumento del uso de los
registros de enfermedades en poblaciones geográficas y en planes sanitarios, actualmente se pue-
den realizar estudios de casos y testigos de base poblacional para muchas enfermedades. Los casos
obtenidos de estos registros suelen ser representativos de la población general de pacientes con
la enfermedad en el área de origen, lo que simplifica la elección de un grupo testigo: debe ser una
muestra representativa de «no casos» procedentes de la población que abarca el registro. En el
ejemplo 8-1, el gobierno local incluyó en un registro a todos los residentes de la ciudad, lo que
1
hizo que la selección de una muestra fuera sencilla.
Cuando se dispone de registros, los estudios de casos y testigos basados en la población son
claramente los diseños más deseables. Cuando el registro de la enfermedad se acerca a la totalidad
y la población que abarca se acerca a la estabilidad (no hay inmigración ni emigración) , un estu-
dio de casos y testigos basado en la población se aproxima a un estudio de casos y testigos que
está anidado en un estudio de cohortes o un ensayo clínico (pág. 104), asumiendo que se puede
102 Sección 11 • Diseño de los estudios
identificar e incluir a los testigos. Estas últimas tareas son relativamente sencillas cuando la po-
blación se ha enumerado y sus historias están disponibles para los investigadores, como en el
estudio de vitamina K y leucemia que se describe en el ejemplo 8-1. Cuando no se dispone de
dichas historias de registro, un abordaje· que se utiliza con frecuencia es la marcación aleatoria
de números de teléfono (fijos) con prefijos de la región que abarca el registro. ( Cuando se selec-
cionan los testigos de esta forma , se deben excluir los casos que no tengan teléfono fijo.) Debido
al aumento del número de hogares que solo tienen teléfono móvil, este abordaje ha llegado a ser
problemático (12). Se puede realizar la marcación aleatoria, incluyendo los números -de teléfono
móvil, aunque se debe realizar cuidadosamente, finalizando inmediatamente si el receptor está
conduciendo y evitando llamadas que pudieran suponer un coste para el receptor (13).
Sin embargo, debe reconocerse que se puede introducir sesgo siempre que se deba establecer con-
tacto con los participantes para obtener información, porque algunos participantes (p. ej., los que no
hablen inglés o los que tengan problemas de audición) pueden tener menos probabilidad de ser in-
cluidos. Puede producirse un problema similar siempre que haga falta un consentimiento informado.
• Usar dos o más grupos testigos. Debido a que la selección de un grupo testigo puede ser dema-
siado difícil, particularmente cuando los casos puedan no constituir una muestra representativa de
los que tienen la enfermedad, a veces es aconsejable usar dos o más grupos testigos elegidos
de modos diferentes. En el estudio del Public Health Service sobre el síndrome de Reye y los fár-
macos (14), por ejemplo, se usaron cuatro tipos de testigos: testigos del servicio de urgencias
(atendidos en el mismo servicio de urgencias que los casos) , testigos ingresados (ingresados en
el mismo hospital que los casos), testigos escolares (que acudían a la misma escuela o centro de
día que los casos) y testigos de la comunidad (identificados por llamadas de teléfono al azar). La
razón de posibilidades del uso de salicilatos en los casos en comparación con cada uno de estos
grupos testigos fue, en todos los casos, de al menos 30, y fue estadísticamente muy significativa.
El hallazgo constante de una intensa asociación usando grupos testigos que tendrían diferentes
sesgos de muestreo refuerza la inferencia de que hay una asociación real en la población.
Lamentablemente, pocas asociaciones tienen valores de la razón de posibilidades en modo
alguno tan elevados , y los sesgos asociados a diferentes estrategias para seleccionar los testigos
pueden hacer que los resultados utilizando diferentes grupos de testigos entren en conflicto mu-
tuamente, lo que revelaría la inherente fragilidad del diseño de casos y testigos para la pregunta
de la investigación que se maneja. Cuando esto sucede, el investigador debe buscar información
adicional (p. ej., el motivo de consulta de los testigos procedentes de la consulta) para intentar
determinar la magnitud de los posibles sesgos de cada uno de los grupos testigos (cap. 9). En
cualquier caso , es mejor tener resultados incongruentes y concluir que se desconoce la respuesta,
a tener tan solo un grupo testigo y extraer la conclusión errónea.
• Emparejamiento. Es un método sencillo para asegurar que los casos y los testigos sean comparables
con respecto a factores importantes que están relacionados con la enfermedad, pero carecen de inte-
rés para el investigador. Hay tantos factores de riesgo y enfermedades relacionadas con la edad y el
sexo, por ejemplo, que los resultados del estudio pueden no ser convincentes, salvo que los casos y
los testigos sean comparables respecto a esas dos variables. Un método para evitar este problema es
elegir testigos que se emparejen con los casos en estas variables predictivas constitucionales. Sin
embargo , el emparejamiento tiene desventajas importantes, en concreto cuando se emparejan varia-
bles predictivas modificables, como los ingresos o la concentración de colesterol sérico. Los motivos
de esto y las alternativas que generalmente se prefieren al emparejamiento se analizan en el capítulo 9.
o referir sus exposiciones de una manera diferente a los testigos; este error de clasificación diferen-
cial de la exposición, denominado sesgo de recuerdo , tiene efectos impredecibles sobre las asocia-
ciones medidas en un estudio.
Por ejemplo, la publicidad generalizada sobre la relación entre la exposición al sol y el melanoma
maligno podría llevar a los casos diagnosticados de ese cáncer a recordar su antecedente de exposi-
ción al sol de una manera diferente a los testigos. Cockburn y cols. (15) encontraron datos de este
fenómeno en un inteligente estudio de gemelos discordantes en relación con el melanoma: la razón
de posibilidades emparejada para tomar baños de sol en la infancia era de 2,2 (IC del 95 %: 1,0 a 4,7)
cuando se preguntaba al gemelo con melanoma qué gemelo había tomado más baños de sol en la
infancia, aunque era de tan solo 0,8 (0 ,4 a 1,8) cuando se hacía la misma pregunta al gemelo que no
tenía melanoma . Sin embargo, para otras preguntas, como qué gemelo se bronceaba o se quemaba
con más facilidad, no hubo datos de sesgo de recuerdo.
No puede producirse sesgo de recuerdo en un estudio de cohortes, porque se pregunta a los pa-
cientes por las exposiciones antes del diagnóstico de la enfermedad. En un estudio de casos y testi-
gos de melanoma maligno anidado dentro de una cohorte en la que se habían recogido varios años
antes los datos de exposición al sol, se realizó un estudio directo del sesgo de recuerdo: los investi-
gadores compararon la exposición al sol referida por los propios participantes en los casos y en los
testigos tanto antes como después de que el caso fuera diagnosticado ele melanoma (16). Los inves-
tigadores encontraron ciertas inexactitudes en los recuerdos ele h, exposición tanto en los casos como
en los testigos, aunque con pocos datos ele sesgo de recuerdo (16) . Por lo tanto, aunque es impor-
tante tener en consideración la posibilidad de sesgo de recuerdo, no es inevitable (17).
Además de las estrategias establecidas en el capítulo 4 para controlar el sesgo en las mediciones
' (normalizar las definiciones operativas de las variables , escoger métodos objetivos, complementar
variablés clave con datos de varias fuentes, etc.), hay dos estrategias específicas para evitar el sesgo
en la medición de las exposiciones en los estudios de casos y testigos:
• Usar datos registrados antes de que se produzca la respuesta. Puede que sea posible, por ejem-
plo , examinar las historias clínicas perinatales en un estudio de casos y testigos de uso de vitami-
na K intramuscular como factor de riesgo de cáncer. Esta excelente estrategia está limitada en la
medida en que la información registrada sobre el factor de riesgo de interés esté disponible y sea
fiable. Por ejemplo, la información sobre la administración de vitamina K no estaba a menudo en
las historias clínicas, y el modo en que se trató esa información perdida afectaba a los resultados
de algunos estudios de vitamina K y posterior riesgo de cáncer (8).
• Usar enmascaramiento. El método general de enmascaramiento se comentó en el capítulo 4, pero
hay algunos puntos que son específicos del diseño de entrevistas en los estudios de casos y testi-
gos. En teoría , tanto los observadores como los participantes en el estudio podrían desconocer el
estado de casos y testigos de cada uno de los pacientes y el factor de riesgo que se estudia; por lo
tanto , son posibles cuatro tipos de enmascaramiento (tabla 8-1).
Participante Posible si tanto casos como testigos tienen Incluir factores de riesgo
enfermedades que podrían posiblemente «simulados» y sospechar si difieren
relacionarse con el factor de riesgo entre los casos y los testigos
1
Puede no funcionar si ya se ha
dado publicidad al factor de riesgo
de la enfermedad
Observador Posible si los casos no se distinguen Posible si el entrevistador no es el
externamente de los testigos, pero sutiles signos investigador, pero puede ser difícil
y afirmaciones que realizan voluntariamente los de mantener
participantes lo hacen difícil
104 Sección 11 • Diseño de los estudios
Idealmente, ni los participantes ni los observadores deben saber qué participantes son casos y qué par-
ticipantes son testigos. En la práctica, esto muchas veces es difícil. Los participantes saben si están enfermos
o no, por lo que solo se les puede ocultar su C!>tado de caso o testigo si los testigos también presentan en-
fermedades que creen que podrían estar relacionadas con los factores de riesgo que se están estudiando.
Los esfuerzos para que los entrevistadores desconozcan la información se ven dificultados por la naturale-
za obvia de algunas enfermedades (un entrevistador puede fácilmente notar si el participante tiene ictericia
o ha sufrido una laringectomía) y por los indicios que pueden obtener de las respuestas de los participantes.
El enmascaramiento de los factores de riesgo específicos que se están estudiando suele ser más fácil
que el enmascaramiento del estado de casos o testigos. Un estudio de casos y testigos es, con frecuen-
cia, el primer paso en la investigación de una enfermedad, por lo que puede que no haya tan solo un
factor de riesgo de particular interés. Por ello, se pueden ocultar a los participantes del estudio y los
entrevistadores las hipótesis del estudio, incluyendo preguntas «simuladas » sobre posibles factores de
riesgo no asociados a la enfermedad. Por ejemplo, en un estudio de consumo de miel como factor
de riesgo de botulismo del lactante se pueden incluir en la entrevista preguntas con el mismo nivel de
detalle sobre el yogur y los plátanos. Este tipo de enmascaramiento no evita el sesgo diferencial, pero
permite calcular si constituye un problema: si los casos comunican más exposición a la miel, pero nin-
gún aumento de los demás alimentos, el sesgo diferencial en la medición será menos probable. Esta
estrategia no funcionaría si la asociación entre tomar miel y el botulismo del lactante hubiera sido
ampliamente divulgada anteriormente, o si alguno de los factores de riesgo simulados llegara a ser real.
El hecho de que el observador desconozca el estado de los participantes del estudio como casos o
testigos es una estrategia particularmente buena para detenninaciones de laboratorio, como los análisis
de sangre y las radiografías. Es fácil el enmascaramiento en estas circunstancias, y debe realizarse siem-
pre, simplemente pidiendo que una persona distinta a aquella que va a realizar la medición aplique una
etiqueta con una identificación codificada a cada una de las muestras (o pacientes). La importancia del
enmascaramiento se ilustró en 15 estudios de casos y testigos en los que se compararon determinaciones
de la masa ósea de pacientes con fractura de cadera y testigos; se observaron diferencias mayores en los
estudios que usaban determinaciones sin enmascaramiento que en los estudios con él (18).
PASADO PRESENTE
Población
~
,... ...... --- .... ... ...,
, ''
,, '' Medición Todos
,, ' de la respuesta los casos
,' Muestra '
f
f ' \
\
I
Variables predictivas
\
Medición Muestra
I
I
---------- 1
1
Segu imiento
de la respuesta
1 disponibles para su 1
1 de la cohorte de testigos
1
1
1
medición en
1
1
1
muestras, imágenes, 1
1
1
1
etc., almacenadas f
I Resto
\ f dela
\
\ , f
cohorte
' ,
',,, ,,,' Perdido durante
',.... ,,' el seguimiento
... ........ _____ ...... ,
■ FIGURA 8-3. Un estudio de casos y testigos anidad o puede ser prospectivo o retrospectivo. Para la versión retrospec-
tiva, los pasos son:
• Identificar una cohorte de la pob lación con muestras, imágenes y otros datos almacenados previamente.
• Medir la va riable de resp uesta que distingue los casos de los testigos.
• Medir las variables pred ictivas en muestras, imágenes y otros datos almacenados desd e que se formó la cohorte,
además de otras va riab les, en todos los casos y en una muestra de los no casos (testigos).
respues'ta al final del seguimiento (los casos), y después selecciona una muestra aleatoria de partici-
pantes que también formaban parte de la cohorte pero que no hayan presentado la respuesta (los
testigos). Después, el investigador mide las variables predictivas en los casos y en los testigos , y
compara los niveles del factor de riesgo en los casos con los niveles en la muestra de testigos. Esto
es un estudio de casos y testigos anidado simple (ejemplo 8-2).
Población
,,
- ------- ... ... ', '
.,,.....
' Persona-tiempo
, ,-' Cohorte ',, sin exposición
, , "-... '' ~
Persona-tiempo
,,
~
''
1
1
1 -- . + No es caso al final
del seguimiento
1
1
\
,
,,
\
\
,,
\
''
',
' ',
__
,. ,
,,
,
/ 7 \
----- ---
' ', , ,,"'
Conjunto I Conjunto 11 Conjunto 1
de riesgo 1 de riesgo 2 de riesgo 3
■ FIGURA 8-4. Un estudio de casos y testigos anidado ton densidad de incidencia puede ser prospectivo o retrospectivo.
Para la versión prospectiva, los pasos son: ·
• Definir los criterios de selección e incluir una cohorte de la población.
• Definir la fecha de inclusión de cada uno de los miembros de la cohorte para al inear los tiempos de seguimiento.
• Almacenar muestras, imágenes, etc., para su análisis posterior.
• Seguir la cohorte para identificar los casos y la fech a en que fueron diagnosticados.
• Obtener una muestra de uno o más testigos para cada caso a partir de los «conjuntos de riesgo», que se definen como
miembros de la cohorte a los que se ha seguido durante el mismo tiempo que al caso y que no se han tra nsformado
en casos, no han muerto ni se han perdido durante el seguimiento en el momento en el que se diagnosticó al caso.
• Medir las variables predictivas en las muestras, imágenes, etc., almacenadas desde el comienzo, además de otras
variab les actuales, en los casos y los testigos emparejados.
gador selecciona una muestra aleatoria de todos los miembros de la cohorte, independientemente de
la respuesta. Algunos participantes que formen parte de la muestra aleatoria pueden haber presen-
tado la respuesta (el número es muy bajo cuando la respuesta es infrecuente). Una ventaja del dise-
ño de casos y cohortes es que una única muestra aleatoria de la cohorte puede aportar los testigos
1
En el capítulo 9 se señalará que el aumento de la potencia por el muestreo de más de cuatro testigos por caso es peque-
ño , aunque, en este caso, el coste adicional fu e bajo, porque ya se disponía de los datos electrónicos. Incluso con 20 tes-
tigos por caso el abordaje de casos y testigos anidado tiene una eficiencia computacional mucho mayor que un estudio
de cohortes retrospectivo.
108 Sección 11 • Diseño de los estud ios
para varios estudios de casos y testigos de diferentes respuestas. Además, la muestra aleatoria de la
cohorte ofrece información sobre la prevalencia general de los factores de riesgo en la cohorte.
Puntos fuertes
Los estudios de casos y testigos anidados y de casos y cohortes son especialmente útiles para mediciones
costosas en el suero y otras muestras, o para imágenes que se han archivado al comie=o del estudio y se
han conservado para su análisis posterior. La realización de mediciones costosas en todos los casos y en
una muestra de los testigos es mucho menos costosa que hacer las mediciones en toda la cohorte.
Este diseño conserva todas las ventajas de los estudios de cohortes, que se deben a la recogida de
las variables predictivas antes de que se hayan producido las respuestas. Además, evita los posibles
sesgos de los estudios de casos y testigos convencionales de que no se pueden realizar mediciones en
los casos que fallecen y no se pueden extraer los casos y los testigos de poblaciones diferentes.
Puntos débiles
Estos diseños comparten ciertas desventajas con otros diseños de observación: las posibilidades de que las
asociaciones observadas se deban al efecto de variables de confusión no medidas o medidas de manera
imprecisa, y de que las mediciones iniciales se puedan ver afectadas por la enfermedad preclínica silente.
Otras consideraciones
Los diseños de casos y testigos anidados y de casos y cohortes se han utilizado con menos frecuencia
de lo que deberían. Un investigador que planifique estudios prospectivos extensos debe plantearse
conservar muestras biológicas (p. ej., bancos de suero congelado) o almacenar imágenes o historias
que sean costosas de analizar para análisis de casos y testigos anidados posteriores. Debe asegurarse
de que las condiciones de almacenamiento permitan conservar durante muchos años las sustan-
cias de interés. También puede ser útil obtener nuevas muestras o información durante el período de
seguimiento, que también se podrán utilizar en las comparaciones entre casos y testigos.
■ ESTUDIOS CRUZADOS
El diseño de cruzamiento de casos es una variante del diseño de casos y testigos que es útil para
estudiar los efectos a corto plazo de exposiciones intermitentes. Como los estudios de casos y testi-
gos habituales, estos estudios retrospectivos se inician con un grupo de casos: las personas que han
presentado la respuesta de interés. Sin embargo , a diferencia de los estudios de casos y testigos tra-
dicionales, en los que se comparan las exposiciones de los casos con las exposiciones de un grupo de
testigos, en los estudios cruzados cada caso actúa como su propio testigo. Las exposiciones de los
casos en el momento (o justo antes) de producirse la respuesta se comparan con las exposiciones de
esos mismos casos en uno o más momentos en el tiempo.
Por ejemplo, McEvoy y cols. (23) estudiaron casos que resultaron heridos en accidentes de tráfico y
comunicaron tener o usar un teléfono móvil. Con los registros de la compañía telefónica, compararon el
uso del móvil en los 10 min anteriores al accidente con el uso cuando los participantes iban conduciendo
en el mismo momento del día anterior, 72 h antes y 7 días antes del accidente. Observaron que el uso del
móvil era más probable en los 10 min previos a un accidente que en los períodos de tiempo de comparación,
con una razón de posibilidades de alrededor de 4. El análisis de un estudio cruzado es como el de un es-
tudio de casos y testigos emparejado, excepto que las exposiciones de los testigos son exposiciones del caso
en diferentes períodos de tiempo en lugar de exposiciones del testigo emparejado. Esto se ilustra en el
apéndice 8A, situación número 4. Los diseños de cruzamiento de casos se han utilizado en poblaciones
extensas para estudiar exposiciones que varían a lo largo del tiempo, como los niveles de contaminación
ambiental; se han encontrado asociaciones con el infarto de miocardio (24, 25), las visitas al servicio de
urgencias por enfermedades respiratorias (26) e incluso la mortalidad en menores de 1 año (27).
Transversal
Duración relativamente corta No establece la secuencia
Un buen primer paso para un estudio de los acontecimientos
de cohortes o un estudio clínico No es posible para variables
Ofrece la prevalencia de múltiples predictivas infrecuentes o variables
variables predictivas y de respuesta de respuesta infrecuentes
No permite calcular la incidencia
Diseños de cohortes
Todos Establece la secuencia de los acontecimientos A menudo precisa grandes tamaños
Múltiples variables predictivas y de respuesta de muestra
El número de sucesos de respuesta aumenta Menos factible para variables de
con el tiempo respuesta poco frecuentes
Permite calcular incidencia, riesgo relativo,
exceso de riesgo
Estudio de Más control sobre la selección de El período de seguimiento puede
cohortes los participantes y las mediciones ser prolongado
prospectivo ' Evita el sesgo al medir variables predictivas A menudo caro
Estudio de El seguimiento es en el pasado Menos control sobre la selección
cohortes Relativamente barato de participantes y mediciones
retrospectivo
Cohortes múltiples Útil cuando distintas cohortes tienen Sesgo y confusión por muestreo
exposiciones diferentes o poco frecuentes en varias poblaciones
Casos y testigos
Útil para respuestas poco habituales Sesgo y confusión por muestreo
Corta duración, muestra pequeña en dos poblaciones
Relativamente barato Sesgo de medición diferencial
Limitado a una variable de respuesta
La secuencia de los acontecimientos
puede no estar clara
No permite calcular prevalencia,
incidencia ni exceso de riesgo, salvo
que esté anidado dentro de una
cohorte
Diseños híbridos
Casos y testigos Ventajas de un diseño de cohortes Las mediciones de los factores de
anidaclo retrospectivo, menos costoso si la medición riesgo están sometidas a sesgos si no
de las variables predictivas es cara se habían medido previamente o si
se basan en muestras o imágenes
almacenadas previamente;
habitualmente se necesita una
cohorte definida preexistente
Casos y testigos Permite que los investigadores analicen las Precisa la medición de los niveles de
anidado con relaciones de riesgo teniendo en los factores de riesgo y la incidencia
densidad de consideración los cambios a lo largo del de los casos a lo largo del tiempo
incidencia tiempo de los niveles de los factores de riesgo durante el seguimiento;
y las pérdidas durante el seguimiento habitualmente precisa una cohorte
definida preexistente
Casos y cohortes Igual que los estudios de casos y testigos Igual que los estudios de casos y
anidado anidados, y puede utilizar un grupo testigo testigos anidados
único para múltiples estudios de casos y
testigos con diferentes variables de respuesta
Cruzamiento Los casos sirven como sus propios testigos, ~equiere que la exposición tenga
reduciendo el error aleatorio y la confusión únicamente efectos inmediatos, a
corto plazo
*Todos estos diseños de observación tienen el inconveniente (en comparación con los estudios aleatorizados) de poder
sufrir la influencia de variables de confusión (cap. 9).
110 Sección 11 • Diseño de los estudios
una puntualización final. Entre todos es