0% encontró este documento útil (0 votos)
385 vistas381 páginas

Diseño de Estudios Clínicos 4 Edc PDF

Cargado por

Anita Pugliese
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
385 vistas381 páginas

Diseño de Estudios Clínicos 4 Edc PDF

Cargado por

Anita Pugliese
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Diseño de estudios clínicos

4.ª EDICIÓN
Diseño de estúdios
clínicos
4.ª EDICIÓN

Stephen B. Hulley, MD, MPH


Professor and Chair, Emeritus
Department of Epidemiology & Biostatistics
School of Medicine, University of California, San Francisco (California, EE .UU.)

Steven R. Cummings, MD
Founding Director, San Francisco Coordinating Center
Senior Scientist, California Pacific Medical Center Research lnstitute
Professor Emeritus, Department of Medicine, and of Epidemiology & Biostatistics
School of Medicine, University of California, San Francisco (California, EE.UU.)

Warren S. Browner, MD, MPH


Chief Executive Officer, California Pacific Medical Center
Adjunct Professor, Department of Epidemiology & Biostatistics
School of Medicine, University of California, San Francisco (California, EE.UU.)

Deborah G. Grady, MD, MPH


Professor of Medicine
Associate Dean for Clinical and Translational Research
School of _
M edicine, University of California, San Francisco (California, EE.UU.)

Thomas B. Newman, MD, MPH


Professor of EpidemiolQgy & Biostatistics, and of Pediatrics
Chief, Division of Clinical Epidemiology
Attending Physician, Department of Pediatrics
School of Medicine, University of California, San Francisco (California, EE .UU .)

~ • Wolters Kluwer
Health
Philadelphia • Baltimore • New York • London
Buenos Aires • Hong Kong • Sydney • Tokyo
:ZtWolters Kluwer
Health

Av. Carrilet, 3, 9.ª planta - Edifici D


08902 I.'.Hospitalet de Llobregat. Barcelona (Espaüa)
Tel.: 93 344 47 18
Fax: 93 344 47 16
e-mail: [email protected]

Traducción y revisión:
M. ª Jesús del Sol Jaquotot
Licenciada en Medicina y Cirugía
Antonio Díez Herranz
Doctor en Medicina y Cirugía

Se han adoptado las medidas oportunas para confirmar la exactitud de la información presentada y describir
la práctica más aceptada. No obstante, los autores, los redactores y el editor no son responsables de los
errores u omisiones del texto ni de las consecuencias que se deriven de la aplicación de la información que
incluye, y no dan ninguna garantía, explícita o implícita, sobre la actualidad, integridad o exactitud del
contenido de la publicación. Esta publicación contiene información general relacionada con tratamientos
y asistencia médica que no debería utilizarse en pacientes individuales sin antes contar con el consejo
de un profesional médico, ya que los tratamientos clínicos que se describen no pueden considerarse
recomendaciones absolutas y universales.

El editor ha hecho todo lo posible para confirmar y respetar la procedencia del material que se reproduce
en este libro y su copyright. En caso de error u omisión, se enmendará en cuanto sea posible. Algunos
fármacos y productos sanitarios que se presentan en esta publicación sólo tienen la aprobación de la Food
and_ Drug Administration (FDA) para un uso limitado al ámbito experimental. Compete al profesional
sanitario averiguar la situación de cada fármaco o producto sanitario que pretenda utilizar en su práctica
clínica, por lo que aconsejamos la consulta con las autoridades sanitarias competentes.

Derecho a la propiedad intelectual (C. P. Art. 270)


Se considera delito reproducir, plagiar, distribuir o comunicar públicamente, en todo o en parte, con
ánimo de lucro y en perjuicio de terceros, una obra literaria, artística o científica, o su transformación,
interpretación o ejecución artística fijada en cualquier tipo de soporte o comunicada a través de cualquier
medio, sin la autorización de los titulares de los correspondientes derechos de propiedad intelectual o de
sus cesionarios .

Reservados todos los derechos.


Copyright de la edición en espaüol
© 2014 Wolters Kluwer Health, S.A., Lippincott Williams & Wilkins
ISBN edición en espaüol: 978-84-15840-86-2
Depósito legal: M-35751-2013

Edición en español de la obra original en lengua inglesa Designing clinicaI research (4th ed.) de Stephen B
Hulley, publicada por Lippincott Williams & Wilkins
Copyright© 2013 Lippincott Wiliiams & Wilkins
Two Commerce Square
2001 Market Street
Philadelphia, PA 19103

ISBN edición original: 978-1-60831-804-9


Producción: InVivo Proyectos Editoriales
Impresión: R. R. Donnelley-Shenzhen
Impreso en China
A nuestras familias y nuestros alumnos
Índice de contenidos

Colaboradores ........................................................ ix
Introducción ......................................................... xi
Agradecimientos ..................................................... xiii

SECCIÓN l.
Ingredientes básicos. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1 Cómo empezar: anatomía y fisiología
de las investigaciones clínicas ............ '. ..................... 2
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings

• 2 Elaboración de la pregunta de la investigación


v¡ desarrollo del plan del estudio .............................. 14
Steven R. Cummi'ngs, Warren S. Browner y Stephen B. Hui ley

,3 Elección de los participantes del estudio: especificación,


muestreo e inclusión ............... ·~·........................ 23
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings

4 Planificación de las mediciones: precisión, exactitud y validez ...... 32


Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings

5 Preparación para el cálculo del tamaño de la muestra:


hipótesis y principios subyacentes ............................. 43
Warren S. Browner, Thomas B. Newman y Stephen B. Hulley

6 Cál.culo de la potencia y el tamaño de la muestra: aplicaciones


y ejemplos ................................................ 55
Warren S. Browner, Thomas B. Newman y Stephen B. Hulley

SECCIÓN 11.
Diseño de los estudios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84
7 Diseño de estudios transversales y de cohortes .................. 85
Stephen B. Hui ley, Steven R. Cummings y Thomas B. Newman

8 Diseño de estudios de casos y testigos ......................... 97


Thomas B. Newman, Warren S. Browner, Steven R. Cummings
\
y Stephen B. Hulley

9 Mejora de la inferencia causal en estudios de observación ........ 117


Thomas B. Newman, Warren S. Browner y Stephen B. Hui ley

VII
viii Índice de contenidos

10 Diseño de un estudio aleatorizado con enmascaramiento ........ 137


Steven R. Cummings, Deborah G. Grady y Stephen B. Hui ley

11 Otros diseños de ensayos clínicos y problemas en su realización ... 151


Deborah G. Grady, Steven R. Cummings y Stephen B. Hulley

12 Diseño de estudios de pruebas médicas .............. , ........ 171


Thomas B. Newman, Warren S. Browner, Steven R. Cummings
y Stephen B. Hulley

13 Investigación utilizando datos existentes ........ . .. .. ......... 192


Deborah G. Grady, Steven R. Cummings y Stephen B. Hulley

SECCIÓN 111.
Ejecución . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208
14 Abordaje de cuestiones éticas .. . ... . ........................ 209
Bernard Lo y Deborah G. Grady

15 Diseño de cuestionarios, entrevistas y encuestas por Internet ..... 223


Steven R. Cummings, Michael A. Kohn y Stephen B. Hulley

16 Gestión de los datos ......... . ..... . .......... . ............ 237


Michael A. Kohn, Thomas B. Newman y Stephen B. Hulley

17 Realización del estudio y control de calidad ....... . ............ 250


Deborah G. Grady y Stephen B. Hulley

18 Estudios comunitarios e internacionales .. . ............. . ...... 268


Norman Hearst y Thomas Novotny

19 Elaboración de una propuesta para la financiación


de la investigación . . .............. . ................ . .... . . 277
Steven R. Cummings, Deborah G. Grady y Stephen B. Hulley

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 292
Respuestas a los ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 306
Glosario ....... .. ...... . .......... . . .. . . .. .. .. .. ........ .. . . . .. .. . . 327
Índice alfabético de materias ....... . . . .. ... ........ . ... . .............. 351
Colaboradores

Norman Hearst, MD, MPH


Professor of Family and Community Medicine
School of Medicine, University of California, San Francisco (California, EE.UU.)
Attending Physician, University of California Medica! Center
San Francisco (California, EE.UU.)

Michael A. Kohn, MD, MPP


Associate Professor of Epidemiology and Biostatistics
School of Medicine, University of California, San Francisco (California, EE.UU.)
Attending Physician, Emergency Department
Mills-Peninsula Medica! Center, Burlingame (California, EE.UU.)

Bernard Lo, MD
Presid~nt, The Greenwall Foundation
Profes sor of Medicine, Emeritus
f?irector of Program in Medica! Ethics, Emeritus ·
University of California, San Francisco (California, EE.UU.)

Thomas Edward Novotny, MD, MPH


Professor and Associate Director far Border and Global Health
Graduate Schoo! of Public Hea!th
San Diego State University, San Diego (California, EE.UU.)

IX
Introducción

Esta 4.' edición de Diseño de estudios clínicos marca el 25.º aniversario de la publicación de nuestra
l.ª edición. Se ha convertido en el libro de texto de este tipo más utilizado , con más de 130000 copias
vendidas y ediciones en idiomas extranjeros publicadas en español, portugués , árabe, chino, coreano
y japonés. Lo diseñamos como manual para la investigación clínica en todas sus facetas: ensayos
clínicos, epidemiología observacional, ciencia aplicada, investigación orientada a patentes, ciencia
conductual e investigación de servicios sanitarios. Hemos utilizado términos y principios epidemio-
lógicos, presentado material conceptual avanzado de una forma práctica y amigable, y propuesto
formas sencillas de abordar los complejos criterios que intervienen en el diseño de un estudio.
Muchos de nuestros lectores son médicos, enfermeras, farmacéuticos y otros científicos del ám-
bito sanitario que, durante su formación y como miembros jóvenes del cuerpo docente, están desarro-
llando su carrera profesional en investigación clínica y utilizan este libro como guía para diseñar y
realizar sus estudios. Otros muchos son médicos en programas de residencia y estudiantes predoc-
.: torales de facultades profesionales (Medicina, Enfermería, Farmacia y Salud Pública, entre otros) que
utilizan Diseño de estudios clínicos para poder convértirse en lectores perspicaces, capaces de apren-
der los puntos fuertes y las limitaciones de los estudios de investigación que dan forma a la práctica
clínica de base científica. Un tercer grupo de lectores son estudiantes preuniversitarios que se pre-
pllran para solicitar su ingreso en estas escuelas y que están interesados en un futuro en el mundo
de la investigación clínica.
¿Qué hay de nuevo en la 4." edición? La innovación más visible es el color, que, además de me-
jorar la estética, acelerará la comprensión de los componentes codificados en colores. Las principa-
les revisiones de la 4." edición son la actualización y mejora del texto, las figuras y las tablas de todos
los capítulos; los muchos nuevos ejemplos y referencias biográficas; y las nuevas secciones que
abordan recientes avanc~s en este campo. Por ejemplo:

• Se han reorganizado los capítulos sobre estudios de observación, con un capítulo entero dedicado
ahora a los diversos diseños de casos y testigos , incluyendo el abordaje de densidad de la inciden-
cia para analizar las modificaciones de los niveles de los factores de riesgo y las diferencias en el
tiempo de seguimiento.
• En los capítulos sobre ensayos clínicos hay una sección ampliada sobre los ensayos de ausencia de
inferioridad, que se han popularizado en la investigación de la eficacia comparativa, y se analiza
con más detalle el análisis de subgrupos y la modificación del efecto.
• En el capítulo sobre el estudio de pruebas médicas hay una nueva sección sobre la creciente prác-
tica de elaborar reglas de predicción clínica.
• En el capítulo sobre la utilización de bases de datos ya existentes se insiste en opciones atractivas
para que los investigadores noveles publiquen de una manera rápida y económica.
• Se ha actualizado el capítulo sobre la ética de la investigación, para reflejar las políticas actuales
sobre el secuenciado pangenómico y otros temas, con nuevos casos que ilustran la resolución de
los dilemas éticos en la investigación clínica.
• El capítulo sobre gestión de los datos se ha actualizado de manera extensa con los últimos abor-
dajes basados en Internet.
• En el capítulo sobre financiación hay estrategias para enfrentarse a los nuevos requisitos para la
solicitud de subvenciones a los NIH, además de actualizaciones sobre la financiación por funda-
ciones y promotores corporativos.

XI
xii Introducción

La 4.ª edición está acompañada por una página web en inglés del libro en www.epibiostat.ucsf.
edu/dcr/, que contiene materiales para enseñar el diseño de estudios clínicos, con vínculos a un
programa detallado para los talleres ele DEC de 4 y 7 semanas que impartimos a 300 alumnos cada
año en la UCSF También hay notas de los instructores para los talleres, que serán útiles para los
docentes que impartan este material, y enlaces a nuestro programa de grado de maestría de formación
en investigación clínica (Training In Clínica! Research, TICR) en la UCSF, con 1rnjs de 30 cursos adi-
cionales y sus materiales. Además, hay herramientas útiles para los investigadores, entre ellas una
excelente calculadora interactiva del tamaño de la muestra.
Hay muchas cosas que no han cambiado en la 4.ª edición. Éste sigue siendo un libro sencillo que
omite los aspectos técnicos innecesarios e invita al investigador a que se centre en lo importante:
cómo encontrar una buena pregunta de la investigación y planificar un diseño eficiente, eficaz y
ético. Los capítulos sobre la estimación del tamaño de la muestra siguen desmitificando el proceso
y permiten que lectores con una formación mínima en estadística hagan estos cálculos ellos mismos
de manera meditada y si,n necesidad de luchar con fórmulas. El libro sigue funcionando de manera
óptima cuando se combina con el ingrediente esencial ele uno o más mentores a largo plazo. Todavía
no aborda las importantes áreas ele cómo analizar, presentar y publicar los hallazgos ele la investiga-
ción clínica, temas que nuestros lectores pueden buscar en otros libros (por ejemplo, 1-4).
El proceso de transformarse en un científico clínico independiente puede ser difícil, especialmen-
te conseguir una subvención importante por primera vez . Pero es gratificante que muchos de nues-
tros antiguos alumnos que utilizaron este libro han conseguido este objetivo, han descubierto que
les gusta investigar, y se han orientado hacia una gran carrera profesional. Para los que tienen men-
tes inquisitivas, la búsqueda de la verdad puede convertirse en una fascinación que dura toda la vida.
Para los perfeccionistas y los artesanos , hay retos interminables en la creación de estudios elegantes
que respondan de manera concluyente a preguntas, grandes y pequeñas, con un coste asequible en
cuanto a tiempo y dinero. Los investigadores que disfrutan del trabajo en equipo llegarán a tener
relaciones gratificantes con los compañeros, el personal y los estudiantes, además ele hacerse amigos
de sus colaboradores que trabajan en el mismo campo en lugares distantes. Y para aquellos cuya
ambición es hacer una contribución duradera a la sociedad, existe la perspectiva de que con habili-
dad y tenacidad puedan participar en los avances incrementales ele la práctica clínica y de salud
pública que forman parte del orden natural de nuestra ciencia.

BIBLIOGRAFÍA
l. Vittinghoff E, Glidden DV, Shiboski SC, et al. Regression methods in biostatistics: linea,; logistic, survival, and repeated
measures models, 2nd ed. New York: Springer-Verlag, 2011.
2. Katz MH. Multivariable analysis: a practica! guide far clinicians and public health ,·esearchers, 3rd ed. New York:
Cambridge University Press, 2011.
3. Newman TB, Kohn MA. Evidence-based diag110sis. Cambridge, MA: Cambridge University Press, 2009.
4. Browner WS. Publishing and presenting clinical research, 3rd ed. Philadelphia , PA: Lippincott Williams &:
Wilkins, 2012.
=•;~'¡B-Y.J"'i
~ ·:rr~
•:-iir_::~
·.. ~-;J,--;;,i;'

Agradecimientos

N uestro agradecimiento a la Andrew P Mellon Foundation, por unirse a nosotros hace 30 años
para comenzar el viaje de 5 años para el desarrollo de materiales docentes que se convirtieron en la
l.ª edición; a nuestro editor, por insistir constantemente en una 4." edición hasta que la resistencia
se hizo inútil, y por poner a nuestra disposición a unos profesionales con un talento y un apoyo
excepcionales que nos han ayudado a reunir todo el material; a nuestras familias , por su paciente
apoyo cuando trabajábamos en esta obra; a muchos compañeros en la UCSF y otros lugares , cuyas
ideas y facultades nos han influido; a nuestros estudiantes de los últimos años , cuyos logros hemos
disfrutado, al tiempo que han estimulado nuestras ideas, y a nuestros lectores, responsables del
éxito de este libro.

XIII

SECCIÓN D
'

Ingredientes básicos

.

~-

1
CAPÍTULO D
Cómo empezar: anatomía y fisiología
de las investigaciones clínicas
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings

Este capítulo presenta la investigación clínica desde dos puntos de vista, estableciendo temas que
discurren a la par a lo largo del libro. Uno de ellos es la anatomía de la investigación: de qué está
hecha . Incluye los elementos tangibles del plan del estudio: la pregunta tema del estudio, el diseño,
los participantes, las mediciones o determinaciones, el cálculo del tamaño de la muestra, etc. El
objetivo de un investigador es crear estos elementos de tal manera que el proyecto sea viable y efi-
ciente.
El otro tema es la fisiología de la investigación: cómo funciona. Los estudios son útiles en la
medida en que proporcionan inferencias o deducciones válidas, primero sobre lo que ocurrió
en la muestra del estudio, y después sobre cómo se pueden generalizar estos hallazgos del estudio a
las personas que no participan en él. El objetivo es reducir al mínimo los errores, aleatorios y siste-
máticos, que amenazan a las conclusiones basadas en estas inferencias.
La separación de ambos temas es artificial, del mismo modo que la anatomía del cuerpo humano
no tiene mucho sentido sin comprender algo su fisiología. Aunque la separación tiene la misma
ventaja: aclara nuestras ideas sobre un tema complejo.

■ ANATOMÍA DE LA INVESTIGACIÓN: DE QUÉ ESTÁ HECHA


La estructura de un proyecto de investigación empieza en su protocolo , o plan del estudio por es-
crito . Los protocolos son elementos que se usan para solicitar financiación y la aprobación del
comité de ética de la investigación ( CEI), pero también póseen una función científica esencial:
ayudar al investigador a organizar su estudio de un modo lógico , dirigido y eficaz. En la tabla 1-1 se
esbozan los componentes de un protocolo . Presentamos aquí todos ellos, se ampliarán todos los
componentes en los siguientes capítulos del libro , y se volverán a reunir todas las piezas en el ca-
pítulo 19.

Pregunta de la investigación
La pregunta de la investigación es el objetivo del estudio, la incertidumbre que el investigador desea
resolver. A menudo estas preguntas se inician con una preocupación general que debe reducirse a
un tema concreto , que se pueda investigar. Considere, por ejemplo, la siguiente pregunta general:

• ¿Deben las personas comer más pescado?

Es un buen punto para empezar, pero la pregunta deberá concretarse antes de poder empezar con
la planificación. Con frecuencia esto supone fragmentar la pregunta en componentes más específicos,
y elegir uno o dos de ellos para elaborar el protocolo a su alrededor:

• ¿Con qüé frecuencia comen pescado los estadounidenses?


• ¿El consumo ele pescado reduce el riesgo de sufrir enfermedades carcliovasculares?
• ¿Existe riesgo de intoxicación por mercurio si los ancianos aumentan el consumo de pescado?
• ¿Tienen los complementos ele aceite de pescado los mismos efectos sobre las en fermedades car-
diovasculares que el pescado ele la dieta?
• ¿Qué complementos ele aceite ele pescado no hacen que las personas huelan a pescado ?
2
Capítu lo 1 • Cómo empezar: anatom ía y fisiolog ía de las investigaciones clínicas 3

TABLA 1-1. ANATOMÍA DE LA INVESTIGACIÓN: PLAN DEL ESTUDIO


COMPONENTES DEL DISEÑO OBJETIVO

Preguntas de la investigación ¿Qué preguntas abordará el estudio?


Introducción e importancia ¿Por qué son importantes estas preguntas?
Diseño ¿Cómo se estructura el estudio?
Marco temporal
Diseño epidemiológico
Participantes ¿Quiénes son los participantes y cómo se seleccionarán?
Criterios de selección
Diseño del muestreo
Variables ¿Qué mediciones se realizarán?
Variab les predictivas
Variables de confusión
Variables de respuesta
Datos estadísticos ¿Qué tamaño tiene el estudio y cómo se ana lizará?
Hipótesis
Tamaño de la muestra
Método ana lítico

Una buena pregunta debe superar la prueba «¿Y qué?». Lograr la respuesta debe contribuir de
forma provechosa a nuestros conocimientos. El acrónimo FINER indica cinco características esen-
ciales de una buena pregunta de investigación: debe ser factible, interesante, novedosa, ética y re-
; levante (cap. 2).

Antecedentes e importancia
En una breve sección de un protocolo sobre los antecedentes y la importancia se describe el" estudio
propuesto dentro de un contexto y se proporciona su fundamento: ¿Qué se conoce del tema que se
aborda? ¿Por qué es importante la pregunta de la investigación? ¿Qué tipo de respuestas proporcio-
nará el estudio? En esta sección se mencionan investigaciones anteriores importantes (incluso el
trabajo de los propios investigadores) , y se señalan los problemas que surgieron y qué cuestiones
quedan sin resolver. Se especifica aquí también. de qué forma los hallazgos del estudio propuesto
ayudarán a resolver estas cuestiones, conducirán a nuevos conocimientos científicos o influirán en
las directrices sobre la p{áctica clínica o las políticas de salud pública. Con frecuencia , la revisión de
la literatura y la síntesis que se realice para la sección sobre la importancia del problema llevan al
investigador a modificar la pregunta de la investigación.

Diseño
El diseño de un estudio es un tema complejo. Una decisión fundamental será si se opta por adoptar
una actitud pasiva en la obtención de las mediciones de los participantes en el estudio en un estudio
de observación, o por realizar una intervención y examinar sus efectos en un ensayo clínico (ta-
bla 1-2). Entre los estudios de observación, dos diseños habituales son los estudios de cohortes , en
los que las observaciones se realizan en un grupo de personas a las que se evalúa durante un período
de seguimiento, y los estudios transversales , en los que las observaciones se realizan en una sola
ocasión. Los estudios de cohortes pueden dividirse en estudios prospectivos , que se inician en el
presente y siguen a los participantes en el futuro, y estudios retrospectivos , que examinan la infor-
mación recopilada durante un período de tiempo en el pasado. Una tercera opción habitual es el
diseño de casos y testigos , en el que el investigador compa'ra un grupo de personas con una enfer-
medad u otro criterio de valoración con otro grupo que no lo presenta. Entre las opciones de ensayos
clínicos, el ensayo aleatorizado y con enmascaramiento suele lSer el mejor diseño , aunque los dise-
ños no aleatorizados o sin enmascaramiento pueden ser lo único de lo que se disponga para algunas
preguntas de investigación.
No existe un abordaje que sea siempre mejor que los otros, y cada pregunta de investigación
precisa la determinación de cuál de los diseños será el modo más eficaz deJograr una respuesta sa-
tisfactoria. A menudo se sostiene que el estudio aleatorizado y con enmascaramiento es el mejor
4 Sección 1 • Ingredientes básicos

TABLA 1-2. EJEMPLOS DE DISEÑOS DE INVESTIGACIÓN CLÍNICA PARA AVERIGUAR


SI EL CONSUMO DE PESCADO REDUCE EL RIESGO DE CARDIOPATÍA ISQUÉMICA
DISEÑO EPIDEMIOLÓGICO CARACTER(STICA PRINCIPAL EJEMPLO

Diseños de observación
Estudio de cohortes Se identifica a un grupo de El investigador m'ide el consumo de
participantes al comienzo, y se pescado en un grupo de ·participantes al
los sigue a lo largo del tiempo principio, y los revisa periódicamente en
visitas de seguimiento para ve r si aquellos
que consumen más pescado tienen menos
epis.odios de card iopatía isquémica (CI) .
Estudio transversal Se estudia a un grupo en un .El investigador entrevi sta a un grupo de
punto temporal participantes sobre el consumo de pescado
en el pasado y en la actualidad, y
correlaciona los resultados con los
antecedentes de CI y la puntuación de
calcio coronario actual.
Estudio de casos y testigos Se seleccionan dos grupos por El investigador examina a un grupo de
la presencia o ausencia de un pacientes con CI (los «casos») y los
resultado compara con un grupo que no tiene CI (los
«testigos »), preg~tando por el consumo
de pescado en el pasado.
Diseño del estudio clínico
Estud io aleatorizado con Se crean dos grupos mediante un El investigador asigna aleatoriamente a
enmascarami ento proceso aleatorio, y se aplica los participantes a recibir complementos
una intervención con de aceite de pescado o un placebo con un
enmascaramiento aspecto idéntico, y después sigue ambos
grupos.de tratamiento durante varios
años para observar la incidencia de CI.

diseño para establecer la causalidad y la eficacia de las intervenciones, pero hay muchas situaciones
en las que un estudio de observación es una mejor elección o la única opción viable. El coste relati-
vamente baj o de los estudios de casos y testigos , y su adecuación para resultados poco frecuentes ,
hacen que sean atractivos para algunas pregun tas. Para elegir diseños para el estudio de pruebas
diagnósticas se aplican consideraciones especiales. Estos temas se comentan en los capítulos 7 a 12,
en cada uno de los cuales se aborda un tipo concreto de diseño.
Una secuencia típica para estudiar un, tema se inicia con estudios de observación de un tipo que
con frecuencia se denomina descriptivo . En estos estudios se explora la «configuración del terreno »,
por ejemplo , describiendo distribuciones de características relacionadas con la salud en la población:

• ¿Cuál es el número medio de raciones de pescado a la semana en la dieta de los estadounidenses


con antecedentes de cardiopatía isquémica (CI) ?

A los estudios descriptivos los suelen seguir o acompañar estudios analíticos , que evalúan aso-
ciaciones·para poder realizar inferencias sobre relaciones de causa y efecto:

• ¿Las personas con CI que consumen mucho pescado tienen menor riesgo de infarto de miocardio
recurrente qu e las personas con antecedentes de CI que consumen pescado con poca frecuencia?

El paso final es , con frecuencia, un ensayo clínico para establecer los efectos de una intervención:

• ¿El tratamiento con cápsulas de aceite de pescado reduce la mortalidad total en las personas
con CI?

Los ensayos clínicos suelen realizarse relativamente tarde en una serie de estudios de investigación
sobre una determinada pregun ta , porque tienden a ser más difíciles y caros, y responden de manera
Capítu lo 1 • Cómo empezar: anatomía y fisio logía de las investigaciones clínicas S

más concluyente las preguntas más concretas que surgen de los hallazgos de los estudios de obser-
vación.
Resulta útil caracterizar un estudio en una sola frase que resuma el diseño y la pregunta de la inves-
tigación. Si el estudio tiene dos fases importantes, debe mencionarse el diseño de cada una de ellas:

• Este es un estudio transversal de los hábitos dietéticos de personas de 50 a 69 años de edad con
antecedentes de CI , seguido por un estudio de cohortes prospectivo sobre si el consumo de pes-
cado se asocia a un riesgo menor de sufrir episodios coronarios en el futuro.

Esta frase es el análogo en investigación de la frase que inicia un informe médico de un residente
sobre un nuevo ingreso hospitalario: «Mujer policía caucásica de 62 años ele edad que se sintió bien
hasta 2 h antes de su ingreso, momento en el que presentó_ dolor torácico opresivo que se irradiaba
al hombro izquierdo. »
Algunos diseños no encajan fácilmente en las categorías enumeradas anteriormente, y su clasifi-
cación con una sola frase puede resultar sorprendentemente difícil. Merece la pena el esfuerzo: una
descripción precisa del diseño y de la pregunta de la investigación aclara las ideas del investigador,
y resulta útil para orientar a los colaboradores y asesores.

Participantes del estudio


Deben tomarse dos decisiones importantes al elegir los participantes del estudio (cap. 3). La prime-
ra es especificar los criterios de inclusión y exclusión que definen la población a estudiar: los tipos
de personas más adecuados para la pregunta de la investigación. La segunda decisión se refiere al
.: modo de.reunir un número adecuado de personas a partir de un sub grupo accesible de esta población
para qúe participen en el estudio. Por ejemplo, para el estudio sobre el consumo de pescado en
personas con CI, se podría identificar a pacientes atendidos en la consulta con códigos diagnósticos
de infarto de miocardio, angioplastia o injerto de derivación arterial coronaria en la historia clínica
electrónica. Las decisiones sobre qué pacientes se deben estudiar representan concesiones; el estudio
de.una muestra al azar de personas con CI de todo el país (o al menos de varios estados y entornos de
atención sanitaria diferentes) aumentaría la posibilidad de generalización, pero sería mucho más
difícil y costoso.

Variables
Otro grupo importante de decisiones en el diseño de cualquier estudio se refiere a la elección de las
variables que se van a medir (cap. 4). Un estudio sobre el consumo de pescado en la dieta, por ejem-
plo, podría preguntar sobre los diferentes tipos de pescado que contienen diferentes concentraciones
de áci~g s grasos omega 3, e incluir preguntas sobre el tamaño de la ración, si el pescado estaba frito
o asado, y sobre el consumo de complementos de aceite de pescado.
En un estudio analítico, el investigador estudia las asociaciones entre variables para predecir
respuestas y extraer inferencias sobre causa y efecto. Al considerar la asociación entre dos variables,
la que se observa primero o es más probable que sea causal partiendo de supuestos biológicos se
denomina variable predictiva; la otra se denomina variable de respuesta 1 . La mayor parte de los
estudios de observación tienen muchas variables predictivas (edad, raza, sexo , antecedentes de ta-
baquismo, consum_o de pescado y complemento de aceite de pescado) y varias variables de respues-
ta (infartos, accidentes cerebrovasculares, calidad ele vida, mal olor).
Los ensayos clínicos examinan los efectos de una intervención (un tipo especial de variable pre-
dictiva que el investigador manipula), como el tratamiento con cápsulas de aceite de pescado.
Este diseño permite observar los efectos sobre la variable de respuesta usando la aleatorización para
reducir al mínimo la influencia de las variables de confusión: otros factores que pueden influir en
la respuesta, como el tabaquismo y el nivel de ingresos, que podrían estar asociados con el pescado
de la dieta e introducir confusión en la interpretación de los hallazgos.

1
Las variables predictivas en ocasiones se denominan variables independientes, y las variables de respuesta variables
dependientes , aunque el significado de estos términos es menos evidente y preferimos evitar su uso .
6 Sección 1 • Ingredientes básicos ·

Aspectos estadísticos
Los investigadores deben elaborar planes para calcular el tamaño de la muestra y para gestionar y
analizar los datos del estudio. Esto conlleva, generalmente, la especificación de una hipótesis
(cap. 5):

Hipótesis: las mujeres de 50 a 69 años de edad con CI que tomen complementos de aceite de
pescado presentarán un menor riesgo de sufrir infarto de miocardio recurrente que aquellas que
no lo hacen.

Esta es una versión de la pregunta ele la investigación que constituye la base para estudiar la sig-
nificación estadística de los hallazgos. La hipótesis permite también al investigador calcular el ta-
maño de la muestra: cantidad de personas necesarias para observar la diferenci~ esperada en la
respuesta entre grupos de estudio con una probabilidad razonable (atributo que se conoce como
potencia) (cap. 6). En los estudios puramente descriptivos (¿qué proporción de personas con CI
toma complementos de aceite de pescado?) no se realizan pruebas de significación estadística y, por
tanto, no precisan una hipótesis; en lugar de ello, puede calcularse el número de personas necesario
para obtener intervalos de confianza aceptablemente estrechos para medias, proporciones u otros
estadísticos descriptivos.

■ FISIOLOGÍA DE LA INVESTIGACIÓN: CÓMO FUNCIONA


El objetivo de la investigación clínica es extraer inferencias de los hallazgos del estudio sobre la
naturaleza del universo que les rodea (fig. 1-1) . En la interpretación de un estudio intervienen dos
grupos principales de inferencias (se ilustran de derecha a izquierda en la fig. 1-1). La inferencia n.º 1
alude a la validez interna, o grado en que el investigador extrae las conclusiones correctas sobre lo
que realmente ocurrió en el estudio. La inferencia n.º 2 alude a la validez externa (también llamada
posibilidad ele generalización), o grado en que estas conclusiones pueden aplicarse de forma ade-
cuada a las personas y sucesos no incluidos en el estudio.
Cuando un investigador planifica· un estudio, invierte el proceso, trabajando ele izquierda a dere-
cha en la mitad inferior de la figura 1-1, con el objetivo ele aumentar al máximo la validez de estas
inferencias al final del estudio. Diseña un plan de estudio en el que la elección de la pregunta de la
investigación, los participantes y las mediciones aumenta la validez externa del estudio y conduce a
su realización con un alto grado de validez interna. En las siguientes secciones se aborda el diseño
y la realización antes de volver a los errores que amenazan la validez de estas inferencias.

Diseño del estudio


Considere esta sencilla pregunta descriptiva:

¿Cu ál es la prevalencia del consumo diario de complementos de aceite de pescado en personas


con CI?

Extracción REALIDAD Inferencia REALIDAD Inferencia HALLAZGOS


de conclusiones EN EL UNIVERSO EN EL ESTUDIO EN EL ESTUDIO

··-······································ .•...•......•.. ························--··


Diseño Pregunta Plan Estudio
y realización de la investigación del estudio real
Diseño Realización

VALIDEZ VALIDEZ
EXTERNA INTERNA

IIFIGURA 1-1 . El proceso del diseño y la realización de un proyecto de investigación prepara el escenario para extraer
conclusiones basadas en inferencias de los hallazgos.
Capítulo 1 • Cómo empezar: anatomía y fisio logía de las investigaciones clínicas 7

Esta pregunta no puede contestarse con una exactitud perfecta , porque sería imposible estudiar
a todos los pacientes con CI, y los métodos para descubrir si una persona tiene CI y toma aceite de
pescado son imperfectos. Por lo tanto, el investigador se contenta con una pregunta relacionada que
pueda responderse en el estudio:

En una muestra de pacientes atendidos en la consulta del investigador que presentan un diagnós-
tico anterior de CI y que respondieron a un cuestionario enviado por correo, ¿qué proporción
comentó que tomaba a diario complementos de aceite de pescado?

En la figura 1-2, se ilustra la transformación desde la pregunta de investigación al plan del


estudio . Un componente importante de esta transformación es la elección de una muestra de
participantes que representarán a la población . El grupo de participarites especificado en el pro-
tocolo puede ser simplemeute una muestra de la población de interés, porque existen barreras
prácticas para estudiar a toda la población. La decisión de estudiar pacientes de la consulta del
investigador identificados a través del sistema de historias clínicas electrónicas es una concesión.
Es una muestra que puede estudiarse, pero tiene la desventaja de que puede proporcionar una
frecuencia de consumo de aceite de pescado diferente de la que se encuentra en todas las personas
con CI.
El otro componente importante de la transformación es la elección de las variables que represen-
tarán los fenómenos de interés . Las variables especificadas en el plan del estudio suelen ser marca-
dores indirectos de estos fenómenos. La decisión de usar un cuestionario de autoevaluación para
valorar ekonsumo de aceite de pescado es una forma rápida y barata de recopilar información, pero
.: es improbable que sea perfectamente exacto, porque habitualmente las personas no recuerdan con
exactitud ni registran cuánto toman en una semana típica.
Én resumen, cada una de las diferencias de la figura 1-2 entre la pregunta de investigación y el
plan del estudio tiene como finalidad hacer que el estudio sea más práctico . El coste de este aumen-
tó de la utilidad práctica, sin embargo, es el riesgo de que los cambios del diseño puedan hacer que
el .estudio lleve a una conclusión errónea o engañosa, porque está diseñado para responder a una
pregunta algo diferente a la pregunta de interés de la investigación.

Inferencia
REALIDAD REALIDAD
EN EL ESTUDIO

---~~-~~-~~~~-~~~-~----------[ E,L., i-----.


Pregunta ♦ Plan
de la inve$tigación ____..,)____.,_ del estudio
Diseño
Muestra
prevista
Población
objetivo Todos los pacientes
con antecedente de CI
Personas con CI
atendidos en consulta
el último año .

Fenómenos
de interés Variables
previstas
Proporción que toma
complementos Consumo autorreferido
de aceite de pescado de complementos de
VALIDEZ aceite de pescado
EXTERNA
■ FIGURA 1-2. Errores de diseño y validez externa: si la muestra y las variables previstas no representan lo suficiente la
población objetivo y los fe nómenos de interés, estos errores pueden alterar las inferencias sobre lo que realmente ocurre
en la población.
8 Sección 1 • Ingredientes básicos

Realización del estudio


Retomando la figura 1-1, el lado derecho se dedica a la realización y el grado en que el estudio real
cumple el plan del estudio . La cu estión aquí es el problema de una respuesta incorrecta a la pregun-
ta de la investigación, porque el modo en que se consiguió la muestra y se realizaron las medidas
difería de forma notable del modo en que estaban diseñadas (fig. 1-3).
La muestra real de participantes del estudio casi siempre es diferente de la muestra que se pretende.
Los planes para estudiar, por ejemplo , a todos los pacientes de la consulta con CI elegibles podrían
alterarse por diagnósticos incompletos en la historia clínica electrónica, direcciones erróneas del
cuestionario enviado por correo o rechazo a participar. Las personas que aceptan participar pueden
tener una frecu encia de consumo de aceite de pescado diferente de la que tienen las que no están
interesadas en hacerlo. Además de estos problemas con los participantes, las mediciones reales pue-
den diferir de las pretendidas. Si el formato del cuestionario no está claro , las personas pueden
confundirse y marcar la casilla equivocada o, simplemente, pueden omitir la pregunta por error.
Estas diferencias entre el plan del estudio y el estudio real pueden alterar la respuesta a la pregunta
de la investigación. La figura 1-3 muestra que los errores de la ejecución del estudio se juntan a errores
del diseño en el camino hacia una respuesta errónea o engañosa a la pregunta de la investigación.

Inferencia causal
Un tipo especial de problema de validez surge en los estudios que examinan la asociación entre una
variable predictiva y una variable de respuesta con el fin de obtener una inferencia causal. Si un estudio
de cohortes halla una asociación entre el consumo de pescado y episodios de CI, ¿representa esto una
relación de causa y efecto, o es el pescado un inocente espectador en una red de causalidad en la que
intervienen otras variables? La reducción de la probabilidad de confusión y de otras explicaciones al-
ternativas es uno de los principales retos que tiene el diseño de un estudio de observación (cap. 9) .

Errores de la investigación
Tras reconocer que ningún estudio está libre de errores, el objetivo es aumentar al máximo la validez
de las inferencias extraídas de lo que se observó en la muestra del estudio a la naturaleza de lo que

Inferencia
REALIDAD HALLAZGOS
EN EL ESTUDIO DEL ESTUDIO
t
•··· { Errores } ······•••••••·•·••••••·••····•
j
.
Plan del estudio Estudio real

Muestra
-
Realización Participantes
prevista reales
Los 104 pacientes con
Los 215 pacientes con
diagnóstico de CI en el
antecedente de CI
registro del último año
atendidos en la consulta
que rellenaron el
en el último año
cuestionario

Variables Mediciones
previstas reales
Respuestas a las
Uso autorreferido de preguntas del
complementos de aceite
cuestionario sobre los
de pescado complementos de aceite
de pescado
VALIDEZ
INTERNA
■ FIGURA 1-3. Errores de real ización y validez interna: si los participantes y las mediciones reales no representan lo
suficiente la muestra y las variables previstas, estos errores pueden alterar las inferencias sobre lo que ha ocurrido en el
estudio.
Capítulo 1 • Cómo empezar: anatomía y fisiología de las investigaciones clínicas 9

ocurre en la población. Las inferencias erróneas pueden abordarse en la fase del análisis de la inves-
tigación, pero una mejor estrategia será centrarse en el diseño y la ejecución ~fig. 1-4), evitando,
· desde el principio, que se produzcan errores en la medida que esto sea práctico.
Los dos tipos principales de errores que interfieren con las inferencias de la investigación son el
error aleatorio y el error sistemático. La distinción es importante , porque las estrategias para redu-
cirlos al mínimo son bastante diferentes .
El error aleatorio es un resultado erróneo debido al azar: fuentes de variación con la misma pro-
babilidad de alterar las mediciones del estudio en una u otra dirección. Si la frecuencia real de con-
sumo diario de complementos de aceite de pescado en los varios centenares de pacientes de 50 a
69 años de edad con CI en la consulta del investigador es del 20 %, una muestra bien diseñada de
100 pacientes de esa población podría contener exactamente 20 pacientes que consumen esos com-
plementos. Sin embargo , es más probable que la muestra contenga un número próximo, como 18,
19 , 21 o 22. En ocasiones, el azar produciría una cifra notablemente diferente, como 12 o 28. Entre
las diversas técnicas para reducir la influencia del error aleatorio (cap. 4) , la más sencilla consiste en
aumentar el tamaño de la muestra. El uso de una muestra de mayor tamaño disminuye la probabi-
lidad de que se produzca un resultado muy erróneo al aumentar la precisión del cálculo: el grado en
que la prevalencia observada se aproxima al 20 % cada vez que se obtiene una muestra.
El error sistemático es un resultado erróneo debido al sesgo: fuentes de variación que alteran los
hallazgos del estudio en una dirección. Un ejemplo es la decisión en la figura 1-2 de estudiar pacientes
en la consulta del investigador, donde los patrones de tratamiento locales han respondido a su interés
en el tema y sus compañeros tienen más probabilidad que otros médicos de recomendar el aceite de
pescado. EH aumento del tamaño de la muestra carece de efecto sobre el error sistemático. El mejor modo
_: de aumentar la exactitud del cálculo (grado en que se aproxima al valor verdadero) es diseñar el estudio
de tal modo que reduzca la magnitud de los diversos sesgos. De manera alternativa, el investigador
puede buscar información adicional para evaluar la importancia de los posibles sesgos. Un ejemplo sería
comparar los resultados con los de una segunda muestra de pacientes con CI obtenida de otro entorno ,
pbr ejemplo, examinar si los hallazgos de pacientes de este tipo atendidos en una consulta de cardiolo-
gía son diferentes de los encontrados en pacientes de una consulta de atención primaria.
Los ejemplos de error aleatorio y error sistemático de los dos párrafos anteriores son componen-
tes del error de muestreo , que amenaza las inferencias desde los participantes del estudio a la po-
blación. Ambos tipos de errores (aleatorio y sistemático) pueden contribuir también al error de
medición , que amenaza las inferencias desde las mediciones del estudio a los fenómenos de interés.

Inferencia Inferencia

r
t ...., r
t
'
Error Solución Error Solución

Error Mejorar el diseño (caps. 7-13) Error Control de calidad (cap. 17)
aleatorio Aumentar el tamaño de la aleatorio
muestra
5 estrategias para
aumentar la precisión (cap. 4)
Error Mejorar el diseño (caps. 7-13) Error Control de calidad (cap. 17)
sistemático 7 estrategias para aumentar la sistemático
exactitud (cap. 4)
' ' ~

J
Diseño Realización

VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 1-4. Errores de investigación . Estos detalles, desarrollados de los recuadros de errores de las figuras 1-2 y
1-3, muestran estrategias para controlar el error aleatorio y sistemático en las fases de diseño y realización del estudio.
10 Sección 1 • Ingredientes básicos ·

Inferencia Inferencia
REALIDAD
~f-- REALIDAD
~f-- HALLAZGOS
EN EL UNIVERSO t EN EL ESTUDIO t DEL ESTUDIO

..•........••.........
Pregunta
Error
aleatorio
y sistemático
•..•........•....
Plan
-- Error
aleatorio
y sistemático
······~---·········
Estudio
de investigación del estudio real

Población
objetivo _l Diseño
Muestra
pretendida _l
Realizar
Participantes
reales

Fenómenos de Variables Mediciones


interés pretendidas reales

VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 1-5. Fisiología de la investigación: cómo funciona.

Un ejemplo del error de medición aleatorio es la variación de la respuesta cuando se administra al


paciente el cuestionario de la dieta en varias ocasiones. Un ejemplo de error de medición sistemáti-
co es la infravaloración de la frecuencia del consumo de aceite de pescado debido a la falta de clari-
dad en la forma de expresar la pregunta. En los capítulos 3 y 4 se presentan más estrategias para
controlar todas estas fuentes de error.
En la figura 1-5 se resumen los conceptos que se han presentado en las páginas anteriores. Lograr
la respuesta correcta a la pregunta de investigación es cuestión de diseñar y ejecu tar el estudio de un
modo que reduzca al mínimo la magnitud de los errores de inferencia.

■ DISEÑO DEL ESTUDIO


Protocolo del estudio
El proceso de elaborar el plan del estudio comienza con la pregunta de la investigación, en una
frase que especifique el principal factor predictivo y las variables de respuesta y la población. Se
elaboran secuencialmente tres versiones del plan del estudio, cada una mayor y más detallada que
la que le precede:

• Resumen del estudio (v. tabla 1-1 y apéndice 1-1). Este resumen del diseño en una página actúa
como lista de comprobación estandarizada que recuerda al investigador que debe abordar todos
los componentes. También es importante que la secuencia tenga una lógica ordenada que ayude
a aclarar las ideas del investigador sobre el tema.
• Protocolo del estudio. Esta ampliación del resumen del estudio habitualmente varía de 5 a 15 pá-
ginas y se utiliza para planificar el estudio y solicitar la aprobación del CEI y financiación. A lo
largo del libro se exponen las partes del protocolo, y se resumen en el capítulo 19.
• Manual operativo. Esta recopilación de instrucciones específicas sobre el procedimiento , los
cuestionarios y otros materiales está diseñada para asegurar un método uniforme y normalizado
para realizar el estudio con un buen control de calidad (caps. 4 y 17) .

La pregunta de la investigación y el resumen del estudio deben redactarse en una fase inicial.
Reflejar las ideas en un papel transforma las ideas vagas en planes específicos, y proporciona una
base concreta para obtener opiniones de compañeros y asesores . Hacerlo constituye un reto (es más
fácil hablar de las ideas que escribirlas), pero las recompensas serán un inicio más rápido y un pro-
yecto mejor.
En el apéndice 1 se presenta un ejemplo de un resumen de un estudio. Este resumen de una pá-
gina se refiere más a la anatomía de la investigación (v. tabla 1-1) que a su fisiología (v. fig. 1-5), por
lo que el investigador debe recordar los errores que pueden producirse en el momento de obtener
Capítulo 1 • Cómo empezar: anatomía y fis iolog ía de las investigaciones clínicas 11

inferencias , desde las medidas de la muestra en estudio hasta los fenómenos de interés en la pobla-
ción. Las virtudes y los problemas de un estudio pueden revelarse al considerar explícitamente en
qué difiere la pregunta a la que es probable que responda el estudio de la pregunta de la investigación,
según los planes para obtener participantes y realizar mediciones, y según los posibles problemas de
ejecución.
Con el resumen del estudio en la mano y las inferencias propuestas en la mente, el investigador
puede pasar a los detalles de su protocolo. Aquí se incluye la obtención de opiniones de compañeros,
el bosquejo de métodos de inclusión de pacientes y de medición específicos, la consideración de la
idoneidad científica y ética, la modificación de la pregunta del estudio y de su resumen cuando sea
necesario, las pruebas preliminares para la inclusión de pacientes y los métodos específicos de me-
dición, la realización de más cambios, la obtención de más opiniones, etc. Este proceso iterativo
constituye la naturaleza del diseño de la investigación y será el tema del resto de este libro.

Concesiones
Lamentablemente, los errores son una parte inherente de todos los estudios. El principal tema es si
estos errores serán lo suficientemente grandes como para cambiar las conclusiones de un modo
importante. Cuando diseña un estudio , el investigador se encuentra en una posición muy parecida
a la de un miembro de un sindicato negociando un nuevo contrato. Este empieza con una lista de
deseos: menos horas , más dinero, mejora de la asistencia sanitaria, etc. Luego debe hacer concesio-
nes , conservando las cosas que son más importantes y renunciando a las que no son esenciales o
realistas . Al final de las negociaciones hay un paso fundamental: mira el mejor contrato que puede
negociar 3/ decide si se ha vuelto tan malo que ya no merece la pena.
} El mi.smo tipo de concesiones debe hacer un investigador cuando transforma la pregunta de la
investi'gación en el plan del estudio y considera los posibles problemas de su ejecución. A un lado
se encuentran los problemas de validez interna y externa; al otro , la viabilidad. A veces, se omite el
último paso esencial del-negociador del sindicato. Una vez que se ha formulado el plan del estudio,
el investigador debe decidir si aborda adecuadamente la pregunta de la investigación y si puede
realizarse con unos niveles de error aceptables. A menudo la respuesta es no, y será necesario empe-
zar el proceso de nuevo. Pero ¡anímese! Los buenos científicos se distinguen no tanto por sus ideas
de investigación uniformemente buenas como por su entusiasmo en abandonar las que no funcionan
y pasar a otras mejores .

■ RESUMEN
l. La anatomía de la investigación es el conjunto de elementos tangibles que conforman el plan
del estudio: la pregunta de la investigación y su importancia, y el diseño , los participantes en
ei'~studio y los métodos de medición. El reto consiste en diseñar elementos que sean relativa-
mente económicos y fáciles de realizar.
2. La fisiología de la investigación es el modo en que se realiza el estudio. Los hallazgos de este se
usan para obtener inferencias sobre lo que sucedió en la muestra de estudio (validez interna)
y sobre acontecimientos fuera de este (validez externa). El reto aquí consiste en diseñar y eje-
cutar un plan de estudio con un control adecuado sobre dos importantes -amenazas a estas infe-
rencias: el error aleatorio (azar) y el error sistemático (sesgo).
3. Al diseñar un· estudio el investigador puede encontrar que es útil considerar la figura 1-5 , las
relaciones entre la pregunta de la investigación (lo que se quiere responder), el plan del estudio
(lo que el estudio pretende responder) y el estudio real (lo que el estudio realmente responderá,
según los errores de ejecución que pueden preverse).
4. Una buena forma de desarrollar el plan del estudio consiste en empezar con una versión de la
pregunta de la investigación en una frase que especifique las variables principales y la población,
y ampliarla en un resumen de una página que describa los elementos en una secuencia norma-
lizada. Más adelante se ampliará en el protocolo y el manual operativo .
5. Se necesita un buen juicio por parte del investigador y el consejo de los colaboradores para
las numerosas concesiones que se deben hacer, y para determinar la viabilidad general del
proyecto.
12 Secc ión 1 • Ingredientes bás icos

APÉNDICE 1
Resumen de un estudio
Este es el plan del estudio en una página de un proyecto realizado por Valerie Flaherman, MD, MPH,
que comenzó cuando era residente de pediatría general en UCSF. Para la mayoría de los investigado-
res principiantes es más fácil iniciar estudios de observación, aunque en este caso era posible un
estudio clínico aleatorizado de un tamaño y un ámbito moderados, el único diseño que permitía
abordar adecuadamente la pregunta de la investigación, y .en último término tuvo éxito (v. en la
publicación de Flaherman y cols. 1 los hallazgos que, si se confirman, podrían alterar las políticas de
cómo iniciar mejor la lactancia materna).

■ TÍTULO: EFECTO DEL USO PRECOZ DE UNA FÓRMULA LIMITADA


SOBRE LA LACTANCIA MATERNA
Pregunta de la investigación
En recién nacidos a término que han perdido 2: 5 % del peso al nacimiento antes de las 36 h de edad,
¿la administración de 10 cm de fórmula con una jeringuilla después de cada toma de lactancia ma-
terna antes del inicio de la producción de leche madura aumenta la probabilidad de éxito en la lac-
tancia materna posterior?

Importancia
l. El volumen de la leche materna es bajo hasta que comienza la producción de leche madura
2-5 días después del parto.
2. Algunas madres se preocupan si el inicio de la producción de leche madura es tardío y su hijo
pierde mucho peso, y todo ello las lleva a abandonar la lactancia materna en la primera semana.
Una estrategia que aumentará la proporción de madres que tienen éxito en la lactancia materna
produciría muchos beneficios sanitarios y psicosociales para la madre y el niño.
3. En estudios de observación se ha encontrado que la alimentación con fórmula en los prime-
ros días tras el parto se asocia a una disminución de la lactancia materna. Aunque esto se
podría deber a la confusión por la indicación (v. cap. 9), este hallazgo ha llevado a directrices
de la OMS y de los CDC dirigidas a reducir el uso de fórmula durante la hospitalización del
parto.
4. Sin embargo, la combinación de una pequeña cantidad de fórmula con la lactancia materna y el
consejo médico podría hacer que la experiencia de lactancia materna temprana fuera más posi-
tiva y aumentaría la probabilidad de éxito. Hace falta un estudio clínico para evaluar los posibles
beneficios y perjuicios de esta estrategia.

Diseño del estudio


Estudio controlado y aleatorizado sin enmascaramiento, con ocultación para la evaluación de los
criterios de valoración.

Participantes
• Criterios de inclusión: recién nacidos a término sanos de 24-48 h de edad que hayan perdido
2: 5 % del peso corporal en las primeras 36 h tras el nacimiento.
• Diseño del muestreo: muestra consecutiva de pacientes que dieron su consentimiento en dos
centros médicos académicos del norte de California.

Variable predictiva, asignada aleatoriamente, pero sin enmascaramiento


• Testigo: se enseñan a los progenitores técnicas para calmar al lactante.
• Intervención: se enseña a los progenitores a administrar con una jeringuilla 10 cm de fórmu-
la después de cada toma de lactancia materna hasta el inicio de la producción de leche ma-
dura.
Capítulo 1 • Cómo empezar: anatomía y fisio logía de las investigaciones clínicas 13

Variables de respuesta evaluadas con enmascaramiento de la asignación


l. Cualquier toma de fórmula al cabo de 1 semana y de 1, 2 y 3 meses.
2. Cualquier toma de lactancia materna al cabo de 1 semana y de 1, 2 y 3 meses.
3. Valor mínimo del peso.

Hipótesis nula principal


La administración temprana limitada de fórmula no afecta a la proporción de mujeres que alimentan
a su hijo con lactancia natural a los 3 meses.

BIBLIOGRAFÍA
l. Flaherman VJ, Aby J, Burgos AE, et al. Effect of early limited formula on duration and exclusivity of breastfeeding
in at-risk infants: an RCT. Pediatrics, en prensa. '

.
,
CAPITULO D
Elaboración de la pregunta
de la investigación y desarrollo
del plan del estudio
Steven R. Cummings, Warren S. Browner y Stephen B. Hulley

La pregunta de la investigación es la incertidumbre que el investigador quiere resolver realizando


el estudio. No hay escasez de buenas preguntas de investigación, e incluso si logramos dar respues-
ta a algunas, seguimos rodeados por otras. Por ejemplo, en algunos ensayos clínicos se ha estableci-
do que los tratamientos que bloquean la síntesis de estradiol (inhibidores de la aromatasa) reducen
el riesgo de cáncer de mama en mujeres que han sufrido cáncer en estadio inicial (1). Pero esto ha
llevado a nuevas preguntas: ¿durante cuánto tiempo debe continuarse el tratamiento?; ¿previene este
tratamiento el cáncer de mama en pacientes con mutaciones de BRCAl y BCRA2?, y ¿cuáles el me-
jor modo de prevenir la osteoporosis, que es un efecto adverso de estos fármacos? Aparte de eso, se
plantean dudas sobre la prevención primaria: ¿son estos fármacos eficaces y seguros para la preven-
ción del cáncer de mama en mujeres sanas?
El reto en la búsqueda de una pregunta de la investigación es la definición de una pregunta im-
portante que se pueda transformar en un plan de estudio viable y válido. En este capítulo se presen-
tan estrategias para lograrlo (fig. 2-1).

■ ORÍGENES DE UNA PREGUNTA DE INVESTIGACIÓN


Para un investigador con experiencia, las mejores preguntas de investigación suelen surgir de los
hallazgos y problemas que ha observado en sus propios estudios anteriores , así como en los de otros
investigadores que trabajan en el mismo campo. Un nuevo investigador no ha desarrollado todavía
esta base de experiencia. Aunque una perspectiva nueva es útil a veces, porque permite que una

.---- - ----- - ------- - - - ----------------- - ------ - -- 11


Inferencia : Inferencia
REALIDAD ------t~ REALIDAD :------t~ HALLAZGOS

~-~~~~-~~~~~-~~---~rror
1 1

•r ••• · - ~~~-~~-~~~~ ~ - .L~ E r r o r


••••-~~-~ ~-~~~~ ~ ---·
Pregunta Plan del estudio : Estudio
de la investigación :1 real
1
_ __ _ _ _ _ _ _ _ _ _ _ _ _ _ __ -~i:~~C: _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ J Realización

Población Muestra Participantes


objetivo prevista reales

Fenómenos Variables Mediciones


de interés previstas reales

VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 2-1 . Este capítu lo se centra en el área dentro de la línea verde discontinua, el reto de elegir una pregunta de
la investigación que tenga interés y que se pueda abordar con un plan de estudio viable.

14
Capítu lo 2 • Elaboración de la pregunta de la investigación y desarro llo de l plan del estudio 15

persona creativa plantee nuevos enfoques a los problemas antiguos, la falta de experiencia es , sobre
todo , un impedimento.
Una buena forma de comenzar es clarificar la diferencia entre una pregunta de la investigación
y un interés de la investigación. Tome en consideración esta pregunta de la investigación:

• La participación en sesiones de asesoramiento de grupo , ¿reduce la probabilidad de violencia


doméstica en mujeres que han emigrado recientemente desde Centroamérica?

Esta pregunta la podría plantear alguien cuyo interés de investigación se refiere a la eficacia del
asesoramiento de grupo, o a la prevención de la violencia doméstica, o a la mejora de la salud en
inmigrantes recientes . La distinción entre preguntas de la investigación e intereses de la investigación
es importante, porque puede ocurrir que la pregunta de la investigación específica no se pueda
transformar en un plan de estudio viable , aunque el investigador puede seguir abordando su interés
de la investigación haciendo una pregunta diferente.
Por supuesto , es imposible formular una pregunta de la investigación si no se está seguro siquie-
ra del interés de la investigación (aparte de saber qué se supone que quiere uno). Si usted se encuen-
tra en esta situación, no está solo: muchos nuevos investigadores todavía no han descubierto un tema
que les interese y que sea susceptible de un plan de estudio que puedan diseñar. Puede empezarse
considerando qué tipos de estudios de investigación han estimulado su interés cuando los ve en una
revista médica. O tal vez se haya sentido preocupado por un paciente específico cuyo tratamiento
parecía inadecuado o incorrecto: ¿qué se podría haber realizado de manera diferente para mejorar el
resultado,? O tal vez uno de los médicos ayudantes le haya comentado que la hipopotasemia siempre
: producía una ·s ed profunda, y otro dijo lo contrario, de una manera igual de dogmática.
~

Conocer a fondo la bibliografía


Es muy importante conocer a fondo la bibliografía publicada en un campo de estudio: la erudición
es un precursor necesario de una buena investigación. Un investigador nuevo debe realizar una ex-
haustiva búsqueda de la bibliografía publicada en las áreas relativas a la pregunta de la investigación
y debe leer con sentido crítico los principales artículos originales. Llevar a cabo una revisión siste-
máti~a constituye un importante paso siguiente para adquirir experiencia en un campo de investiga-
ción, y la revisión de la bibliografía subyacente .puede servir de introducción a las propuestas para
obtener subvenciones y al artículo de investigación. Puede que los avances recientes sean conocidos
por los investigadores ac;:tivos en un campo concreto mucho antes de ser publicados. Así pues, cono-
cer a fondo un tema conlleva participar en reuniones y establecer relaciones con expertos en ese tema.

Estar alerta ante nuevas ideas y técnicas


Además de la bibliografía médica como fuente de ideas para temas de investigación, es útil asistir a
conferencias en las que se presentan trabajos recientes. Al menos tan importantes como las presen-
taciones son las oportunidades de entablar conversaciones ínformales con otros científicos en las
sesiones de pósteres y durante los descansos . Un nuev,o investigador que supere su timidez y se di-
rija a un conferenciante durante el descanso para tomar café puede encontrar que es una experiencia
muy provechosa, y en ocasiones tendrá un nuevo colega con más experiencia. Incluso, aún más, en
caso de conocer de antemano la participación de un conferenciante que va a ser especialmente im-
portante, puede q~e merezca la pena leer sus publicaciones recientes y contactar con él por adelan-
tado para concertar una reunión durante la conferencia.
Una actitud escéptica ante creencias comunes puede s~r un estímulo para formular buenas pre-
guntas de investigación. Por ejemplo , en general se pensaba que las laceraciones que van más allá de
la dermis precisaban suturas que aseguraran una rápida curación y unos resultados estéticos satis-
factorios. Sin embargo , Quinn y cols. describieron su experiencia personal, y en series de casos se
vio que las heridas de tamaño moderado se curan por sí mismas independientemente de si se han
aproximado o no sus bordes (2). Llevaron a cabo un ensayo clínico aleatorizado en el que los pa-
cientes con laceraciones de menos de 2 cm de longitud en las _manos fueron tratados con irrigación
con agua corriente y un apósito con antibióticos durante 48 h . A un grupo se le asignó aleatoriamen-
te a sutura de las heridas, y en el otro grupo no se suturaron. El grupo de las suturas recibió un
16 Sección 1 • Ingredientes básicos

tratamiento más doloroso y más prolongado en el servicio de urgencias, aunque la evaluación con
enmascaramiento mostró que los tiempos de curación y los resultados estéticos eran similares. Esto
se ha convertido actualmente en el abordaje estándar que se utiliza en la práctica clínica.
La aplicación de nuevas tecnologías a menudo genera nuevas ideas y preguntas sobre problemas clí-
nicos habituales, que, a su vez, pueden generar nuevos paradigmas (3). Los avances en el diagnóstico por
la imagen y en técnicas de análisis genéticos y moleculares, por ejemplo, han generado estudios de inves-
tigación aplicada que han llevado a nuevos tratamientos y pruebas que han modificado la medicina clí-
nica. Del mismo modo, la obtención de un nuevo concepto, tecnología o hallazgo en un campo y su
aplicación a un problema de un campo diferente pueden conducir a la formulación de buenas preguntas
de investigación. Por ejemplo, una densidad ósea baja es un factor de riesgo de fracturas. Los investiga-
dores aplicaron esta tecnología a otros problemas y observaron que las mujeres con densidad ósea baja
tienen mayor velocidad de deterioro cognitivo (4), lo cual estimuló la investigación de factores , corno
concentraciones endógenas bajas de estrógenos, que podrían llevar a la pérdida de hueso y de memoria.

Mantener viva la imaginación


La observación meticulosa de los pacientes ha dado lugar a muchos estudios descriptivos y es una
fuente abundante de preguntas para la investigación. La docencia es también una excelente fuente
de inspiración; a menudo surgen ideas para nuevos estudios mientras se preparan presentaciones o
durante debates con estudiantes curiosos. Debido a que no suele disponerse de tiempo suficiente
para desarrollar esas ideas en el acto, es útil conservarlas en un archivo informatizado o en una
agenda para recurrir a ellas en el futuro .
La creatividad c;lesernpeña un importante papel en el proceso de formular nuevas preguntas de in-
vestigación, imaginar nuevos métodos para abordar cuestiones antiguas y jugar con las ideas. Algunas
ideas creativas vienen a la mente durante conversaciones informales con los colegas durante el almuer-
zo; otras surgen en la discusión de la investigación reciente o de las propias ideas en grupos pequeños.
Muchas inspiraciones son acontecimientps solitarios que brotan mientras se prepara una lectura, en la
ducha, escudriñando en Internet, o simplemente sentándose y pensando. El miedo a la crítica o a pa-
recer raro puede anular prematuramente las nuevas ideas. El truco está en colocar a la vista, claramente,
un problema sin resolver y permitir que la mente vuele libremente alrededor de él. También es nece-
saria la tenacidad, volver a un problema molesto una y otra vez hasta que se alcance una solución.

Buscar un mentor y trabajar con él


No hay nada que sustituya a la experiencia a la hora de orientar las muchas opiniones que intervie-
nen en la formulación de una pregunta para la investigación y la elaboración de un plan de estudio.
Por lo tanto , una estrategia esencial para un nuevo investigador es convertirse en aprendiz de un
mentor con experiencia que disponga de tiempo e interés para trabajar con él con regularidad.
Un buen mentor estará disponible para tener reuniones frecuentes y conversaciones informales,
animará las ideas creativas, proporcionará conocimientos procedentes de su experiencia, se asegu-
rará de que tiene tiempo para dedicarlo a la investigación, abrirá puertas a oportunidades de finan-
ciación y contactos, animará al desarrollo de trabajos independientes, y colocará el nombre del
nuevo investigador en primer lugar en las subvenciones y publicaciones siempre que sea proceden-
te. A veces es deseable contar con más de un mentor, y que todos ellos representen disciplinas dife-
rentes. Unas buenas relaciones de este tipo también pueden proporcionar los recursos tangibles que
se necesitan: espacio en consulta, acceso a poblaciones clínicas, conjuntos de datos y bancos de
muestras, laboratorios especializados, recursos económicos y un equipo de investigación.
Por otro lado, un'mal menfocpuede ser una barrera. Un mentor puede perjudicar la carrera de un
- 1
nuevo investigador, por ejemplo, atribuyéndose el mérito de los hallazgos que se originen en el traba-
jo del nuevo investigador o asumiendo el papel principal en su publicación o presentación. Con más
frecuencia, muchos mentores simplemente ~stán demasiado ocupados o distraídos para prestar aten-
ción a las necesidades del nuevo investigador. En cualquier caso, una vez que las discusiones con el
mentor hayan resultado estériles, recomendamos encontrar una forma de pasar a un asesor más ade-
cuado , tal vez implicando en las negociaciones a un compañero con más experiencia que sea neutral.
El cambio de mentor puede ser difícil, lo cual pone de manifiesto la importancia de elegir un buen
mentor desde el principio; tal vez sea la decisión única más importante que toma un nuevo investigador.
Capítulo 2 • Elaboración de la pregunta de la investigación y desarro llo del plan del estudio 17

Su mentor le puede ofrecer una base de datos y pedirle que venga con una pregunta de la inves-
tigación. En esa situación es importante identificar: 1) la superposición entre lo que hay en la base
de datos y sus propios intereses de investigación, y 2) la calidad de la base de datos. Si no hay sufi-
ciente superposición o_si los datos contienen errores irrevocables, debe encontrarse una forma de
pasar a otro proyecto.

■ CARACTERÍSTICAS DE UNA BUENA PREGUNTA DE LA INVESTIGACIÓN


Las características de una pregunta de investigación que lleve a un buen plan de estudio es que sea
factible, interesante, novedosa, ética y relevante (palabras que forman el acrónimo FINER; tabla 2-1).

Factible
Es mejor conocer los límites y problemas prácticos del estudio de una pregunta en fases tempranas
de la investigación, antes de invertir mucho tiempo y esfuerzo en líneas impracticables.

• Número de participantes. Muchos estudios no logran los objetivos propuestos por no poder contar
con suficientes participantes. Puede ser muy útil hacer pronto un cálculo preliminar de los requi-
sitos del tamaño de la muestra del estudio (cap. 6), junto con un cálculo del número de partici-
pantes de los que probablemente se dispondrá para el estudio, el número de los que serían exclui-
dos o rechazarían participar, y el número de los que se perderían durante el seguimiento. Incluso
una planificación meticulosa produce muchas veces cálculos que son excesiv¡i.mente optimistas, y
el investigador debe asegurarse de que haya suficientes participantes idóneos y dispuestos. A veces
: es nec;esario realizar un estudio piloto o una revisión de las historias clínicas para estar seguro. Si
par~'ce que el número de participantes es insuficiente, el investigador puede considerar varias es-
trategias: ampliación de los criterios de inclusión, eliminación de criterios de exclusión innecesa-
rios, alargamiento del plazo de tiempo para incluir participantes, adquisición de otras fuentes de
' participantes, desarrollo de métodos de medición más precisos, invitación a compañeros para
que participen en un estudio multicéntrico y utilización de un diseño del estudio diferente.
• Experiencia técnica. Los investigadores deben tener la capacidad, el equipo y la experiencia ne-
cesarios para diseñar el estudio, incluir a los participantes, medir las variables, y gestionar y
analizar los datos. Los consultores pueden ayudar a apuntalar aspectos técnicos con los que no
estén familiarizados los investigadores, pero, para áreas importantes del estudio, es mejor contar

TABLA 2-1. CRITERIOS FINER PARA UNA BUENA PREGUNTA DE INVESTIGACIÓN


V UN BUEN PLAN DEL ESTUDIO
Factible
Número adecuado de participantes
Experiencia técnica adecuada
Asequible en cuanto a tiempo y recursos económicos
Manejable en cuanto al ámbito
Financiable
Interesante
La consecución de la respuesta intriga al investigador y a sus c~legas
Novedosa
Proporciona nuevos hallazgos
Confirma, refuta o amplía hallazgos previos
Puede llevar a innovaciones en conceptos de salud y enfermedad, práctica médica o metodologías
de investigación ·
Ética
\
Un estudio que aprobará el comité de ética de la investigación médica
Relevante
Con probabilidad de tener consecuencias significativas sobre el conocimiento científico, la práctica clínica
o las políticas sanitarias
Puede influir en las perspectivas de la investigación futura
18 Sección 1• Ingredientes básicos

con un compañero con experiencia que participe intensamente como coinvestigador; por ejemplo,
es sensato contar con un estadístico como miembro del equipo de investigación desde el principio
del proceso de planificación. Es mejor utilizar métodos familiares y ya establecidos, porque el
proceso de elaborar nuevos métodos y aptitudes lleva tiempo y no es seguro. Cuando se precisa
un nuevo 'método, como la medición de un nuevo biomarcador, debe buscarse la experiencia en
la forma de llevar a cabo la innovación.
• Coste de tiempo y económico. Es importante calcular los costes de cada uno de los componentes
del proyecto, teniendo en cuenta que el tiempo y el dinero necesarios superarán generalmente las
cantidades previstas al principio. Si los costes proyectados superan los fondos de los que se dispone,
las únicas opciones serán considerar un estudio más barato o buscar nuevas fuentes de financiación.
Reconocer pronto que un estudio es demasiado caro o que va a requerir demasiado tiempo puede
hacer que se modifique o se abandone el plan antes de que se haya realizado un gran esfuerzo.
• Ámbito. A menudo surgen problemas cuando un investigador intenta conseguir demasiado, rea-
lizando muchas determinaciones en contactos repetidos con un gran grupo de participantes en
un intento de responder a demasiadas preguntas. La solución estará en acortar el campo de estu-
dio y centrarse solo en los objetivos más importantes. Muchos científicos piensan que es difícil
abandonar la oportunidad de responder a preguntas accesorias interesantes, pero la recompensa
puede ser lograr una mejor respuesta a la pregunta principal.
• Posibi lidad de financiación . Pocos investigadores disponen de recursos personales o institucio-
nales para financiar sus propios proyectos de investigación, particularmente si se debe incluir y
seguir a pacientes, o si se deben realizar mediciones costosas. La propuesta de investigación con
el diseño más elegante no será viable si no hay quien la pague. En el capítulo 19 se analiza la
búsqueda de fuentes de financiación.

Interesante
Un investigador puede tener muchos motivos para perseguir una pregunta de la investigación concre-
ta: porque le proporcionará dinero, porque es un siguiente paso , lógico o importante, en su carrera
profesional, o porque resulta interesante buscar la verdad del tema. Nos gusta esta última razón; crece
a medida que se ejercita, y proporciona la intensidad de esfuerzo necesaria para superar los numerosos
obstáculos y frustraciones del proceso de investigación. Sin embargo , es prudente confirmar que no es
usted el único que encuentra que una pregunta es interesante. Hable con mentores, expertos externos
y representantes de posibles agencias de financiación, como los encargados de proyectos del NIH,
antes de emplear demasiada energía en desarrollar un plan de investigación o una propuesta de finan-
ciación que los compañeros y entidades financieras pueden considerar carente de interés.

Novedosa
Una buena investigación clínica aportará información novedosa. Un estudio que simplemente reitere
lo que ya está establecido no merece el esfuerzo ni el coste, y es improbable que reciba financiación. La
novedad de un estudio propuesto puede determinarse mediante una revisión exhaustiva de la biblio-
grafía, la consulta con expertos familiarizados en la investigación en curso no publicada y la búsqueda
de resúmenes de proyectos en el campo de interés que han sido financiados consultando la página web
NIH Research Portfolio Online Reporting Tools (RePORT) (http://report.nih.gov/categorical_spending.
aspx.). Las revisiones de estudios enviados al NIH dan un peso considerable a si un estudio propuesto
es innovador (5), de modo que un resultado positivo podría cambiar paradigmas de investigación o la
práctica clínica mediante el uso de nuevos conceptos, métodos o intervenciones (cap. 19). Aunque
la novedad es un criterio importante, no es necesario que una pregunta de investigación sea totalmente
original: puede merecer la pena preguntarse si puede repetirse una observación anterior, si los hallazgos
en una población se aplican también a otras, o si un nuevo método de medición puede aclarar la relación
entre factores de riesgo conocidos y una enfermedad. Un estudio de confirmación será particularmente
útil si evita los puntos débiles de estudios anteriores o si el resultado a confirmar era inesperado.

Ética
Una buena pregunta de investigación debe ser ética. Si el estudio presenta riesgos físicos inaceptables
o invasión de la ·privacidad (cap. 14), el investigador debe buscar otras vías para responder a la pre-
Capítulo 2 • Elaboración de la pregunta de la investigación y desarrollo del plan del estudio 19

gunta . Si existen dudas sobre si el estudio es ético , será útil comentarlo al principio con un repre-
sentante del comité de ética de la investigación (CEI).

Relevante
Un buen método para decidir sobre la importancia es imaginar los diversos resultados que pueden
suceder y considerar cómo cada posibilidad podría hacer avanzar el conocimiento científico, influir
en directrices prácticas y políticas sanitarias, u orientar a investigaciones posteriores. Los revisores
del NIH insisten en la relevancia de un estudio propuesto: la importancia del problema, en qué
medida el proyecto mejorará el conocimiento científico, y de qué manera el resultado modificará
conceptos, métodos o servicios clínicos.

■ DESARROLLO DE LA PREGUNTA DE LA INVESTIGACIÓN Y DEL PLAN


DE ESTUDIO
Resulta muy útil escribir la pregunta de investigación y un resumen breve (de una página) del plan
del estudio en una etapa inicial (apéndice 1). Para ello se necesita algo de autodisciplina, pero obli-
ga al investigador a aclarar sus ideas sobre el plan y a descubrir problemas específicos que requieren
atención. El resumen proporciona también una base para las sugerencias específicas de los compa-
ñeros.

Problemas y abordajes
Dos abordajes complementarios a los problemas que supone la formulación de una pregunta de
: investigación merecen especial atención.
La primera es la importancia de obtener un buen asesoramiento . Recomendamos un equipo de
investigación que incluya representantes de cada una de las principales disciplinas del estudio, y que
incluya al menos un científico con experiencia. Además, es una buena idea consultar con especialis-
ta·s que puedan orientar el descubrimiento de investigaciones anteriores sobre el tema, así como la
elección y el diseño de las técnicas de medición. A veces lo hará un experto local, pero a menudo
resulta útil contactar con personas de otros centros que hayan publicado algún trabajo acerca del
tema ..Un nuevo investigador puede verse intimidado por la idea de escribir o llamar a alguien a quien
solo conoce como autor en la revistajournal of the American Medica! Association, pero la mayoría de
los científicos responden favorablemente a las peticiones de estos consejos.
El segundo abordaje ~s permitir que el plan de estudio surja gradualmente de un proceso iterati-
vo de realización de cambios incrementales en el diseño del estudio , estimación del tamaño de la
muestra, revisión con los compañeros, estudio previo de las características principales y revisión.
Una vez que se ha especificado el resumen del estudio en una página, la revisión formal por los
compafieros habitualmente llevará a mejoras importantes. A medida que el protocolo va tomando
forma, estudios piloto de la disponibilidad y la voluntad de números suficientes de participantes
pueden llevar a cambios del plan de inclusión. La prueba de imagen preferida puede llegar a ser
prohibitivamente cara, por lo que hay que buscar una alternativa más barata.

Preguntas principales y secundarias


Muchos estudios tienen más de una pregunta de investigación. Los experimentos a veces abordan el
efecto de la intervención hacia algo más de un resultado; por ejemplo, se diseñó la Women'.s Health
Initiative para determinar si la reducción del consumo de grasa en la dieta reduciría el riesgo de cáncer
de mama, pero una hipótesis secundaria importante fue examinar el efecto sobre los episodios coro-
narios (5) . Casi todos los estudios de cohortes y de casos y testigos analizan varios factores de riesgo
para cada resultado . La ventaja de diseñar un estudio con varias preguntas de investigación es la efi-
cacia que puede lograrse, porque pueden surgir varias respuestas a partir de un solo estudio. Los in-
convenientes son la mayor complejidad del diseño y de la ejecución del estudio, y la obtención de
inferencias estadísticas cuando existen múltiples hipótesis (cap. 5). Una estrategia sensata es estable-
cer una única pregunta de investigación principal alrededor de la cual se centra el plan de estudio y
el cálculo del tamaño de la muestra, añadiéndose preguntas de la investigación secundarias sobre
otras variables predictivas o de respuesta que pueden generar también conclusiones valiosas.
20 Sección 1 • Ing red ientes básicos

■ INVESTIGACIÓN APLICADA
La investigación aplicada se refiere a los estudios que buscan la manera de llevar los hallazgos des-
de la «torre de marfil» al «mundo real», de garantizar que la creatividad científica tenga consecuen-
cias favorables sobre la salud pública. La investigación aplicada (6) se presenta en dos modalidades
principales (fig. 2-2):

• Aplicación de hallazgos científicos básicos de investigación de laboratorio a estudios clínicos de


pacientes (a veces abreviado como investigación T1 ), y
• Aplicación de los hallazgos de estos estudios clínicos pai:a alterar prácticas sanitarias en la comu-
nidad (a veces abreviado como investigación T2) .

Ambas formas de investigación aplicada requieren la identificación de una oportunidad de «aplica-


ción». Tal como un traductor literario necesita, en primer lugar, encontrar una novela o un poema que
merezca ser traducido, un investigador aplicado debe encontrar primero un hallazgo científico o una
nueva tecnología que pueda tener consecuencias importantes sobre la investigación clínica, la práctica
clínica o la salud pública. Entre las estrategias para hacer esta difícil elección, puede ser útil prestar aten-
ción a los compañeros cuando hablan sobre sus hallazgos más recientes, a las presentaciones en congre-
sos nacionales sobre nuevos métodos, y a la especulación sobre mecanismos en artículos publicados.

Aplicación desde el laboratorio a la práctica clínica (T1)


Han surgido múltiples herramientas para las investigaciones clínicas, entre ellas secuenciado del
ADN, matrices de expresión génica, técnicas de imagen molecular y proteómica. Desde el punto de
vista de un investigador clínico, estas nuevas mediciones, tecnologías o resultados de pruebas no
tienen ningún aspecto que sea diferente desde el punto de vista epidemiológico. Los capítulos sobre
mediciones serán útiles para planificar estudios en los que intervengan estos tipos de determinacio-
nes (cap. 4), así como también lo será el consejo sobre el diseño del estudio (caps. 7-12), las mues-
tras de población (cap. 3) y el tamaño de la muestra (cap. 6). El problema de la comprobación de
múltiples hipótesis (cap. 5) será especialmente importante para la genómica y otras «-ómicas».
En comparación con la investigación clínica ordinaria, para ser un investigador aplicado Tl con
éxito a menudo se debe contar con una serie de capacidades adicionales o identificar a un colaborador
que las tenga. La investigación del laboratorio a la práctica clínica precisa un conocimiento exhaus-
tivo de los conceptos básicos subyacentes. Aunque muchos investigadores clínicos piensan que pue-
den dominar este conocimiento (como muchos investigadores de laboratorio creen que la investiga-
ción clínica no precisa ninguna formación especial), en realidad las capacidades apenas se superponen.

Investigación Investigación Investigación


de laboratorio clínica en la población

/
V
.Y
,Y

■ FIGURA 2-2 . La investigación aplicada es el componente de la investigación clínica que interactúa con la investigación
científica básica (área sombreada T1) o con la investigación en la población (área sombreada T2).
Capítu lo 2 • Elaboración de la pregunta de la investigación y desarrollo del plan del estudio 21

Por ejemplo, suponga que un científico básico ha identificado un gen que afecta al ritmo circadiano
en los ratones. Un investigador clínico con experiencia en el estudio del sueño tiene acceso a un es-
tudio de cohortes con datos sobre los ciclos del sueño y un banco de ADN almacenado , y desea
estudiar si existe una asociación entre las variantes del homólogo humano de ese gen y el sueño. Con
el fin de proponer un estudio Tl que contemple esa asociación, necesita colaboradores que estén fa-
miliarizados con ese gen y con las ventajas y limitaciones de los diversos métodos de genotipificación.
Del mismo modo, imagine que un investigador de laboratorio ha descubierto un patrón de ex-
presión génica característico en muestras de biopsias tisulares de pacientes con cáncer de mama. No
debe proponer un estudio de su uso como prueba para predecir el riesgo de recurrencia del cáncer
de mama sin colaborar con alguien que conozca la importancia de los aspectos de la investigación
clínica, como la fiabilidad de las pruebas, el muestreo y el enmascaramiento, así como los efectos de
la probabilidad previa de enfermedad sobre la posibilidad de aplicación de su descubrimiento. Una
buena investigación aplicada necesita experiencia en más de un campo. Así pues , un equipo de in-
vestigación que esté interesado en estudiar un nuevo fármaco necesita científicos familiarizados con
la biología molecular, la farmacocinética, la farmacodinámica , los ensayos clínicos de fase I y II, y la
práctica actual en el correspondiente campo de la medicina.

Investigación desde la práctica clínica a las poblaciones (T2}


Los estudios que pretenden aplicar hallazgos de estudios cínicos a poblaciones más diversas y de
mayor tamaño precisan con frecuencia experiencia en la identificación de grupos de alto riesgo o a
los que se ha prestado poca atención, en la comprensión de la diferencia entre detección selectiva y
diagnósticw , y én el conocimiento de cómo llevar a cabo cambios en los sistemas de prestación de
; asistencia sanitaria. A un nivel práctico, este tipo de investigación suele necesitar el acceso a grandes
grupos~de pacientes (o médicos), como los que inte;vienen en planes sanitarios o consultas grandes.
El apoyo y el consejo del jefe del departamento, del jefe del equipo médico de un hospital afiliado ,
del director de una organización de asistencia gestionada o de un representante de una organización
c6munitaria pueden ser útiles al planificar estos estudios.
Algunos investigadores toman un atajo al realizar este tipo de investigación aplicada , amplian-
do un estudio de su propia consulta estudiando pacientes de las consultas de sus compañeros (es decir,
una cÜnica en un centro médico académico) en lugar de contar con profesionales de la comunidad.
Esto es un poco como traducir a Aristófanes al griego moderno: seguirá sin ser muy útil para lecto-
res que hablan castellano. El capítulo 18 hace hincapié en la importancia de implicarse lo más posi-
ble con la comunidad.
La verificación de los hallazgos de la investigación en poblaciones mayores muchas veces precisa
la adaptación de los métodos a las organizaciones. Por ejemplo, en un estudio sobre si una nueva
dieta aJ?_licada en la consulta y un programa de ejercicio serán eficaces en la comunidad, tal vez no
sea posible asignar a los pacientes concretos de forma aleatoria. Una solución sería asignar aleato-
riamente las consultas de los médicos . Para ello se necesitará la colaboración de un experto en
muestreo por conglomerados y análisis por conglomerados. Muchos proyectos de investigación T2
dirigidos a mejorar la asistencia médica utilizan variables de «proceso» indirectas como resultados.
Por ejemplo, si los ensayos clínicos han establecido que un nuevo tratamiento reduce la mortalidad
por sepsis, un estudio de investigación aplicada que compare dos programas para la aplicación y la
promoción del uso del nuevo tratamiento no tendría por qué tener la mortalidad como criterio de
valoración. Antes bien, simplemente se podría comparar el porcentaje de pacientes con sepsis que
han recibido el nuevo tratamiento. El desplazamiento de la investigación desde contextos diseñados
para la investigación a organizaciones diseñadas para la asistencia médica u otros fines precisa flexi-
bilidad y creatividad en la aplicación de los principios que garantizan el rigor y la validez máximos
posibles de los resultados del estudio.

■ RESUMEN
l. Todos los estudios deben empezar con una pregunta de la investigación que aborde lo que el
investigador desearía conocer. El objetivo es encontrar una que pueda desarrollarse en un buen
plan de estudio.
22 Sección 1 • Ingred ientes básicos

2. La erudición es esencial para formular preguntas de investigación que merezcan la pena estu-
diarse. Una revisión sistemática de la investigación relativa a un campo de investigación de
interés es un buen lugar para comenzar. La asistencia a conferencias, y estar alerta a los nuevos
resultados, amplía la experiencia del investigador más allá de lo que ya se ha publicado.
3. La decisión única más importante que toma un nuevo investigador es la elección de uno o dos
científicos con experiencia para que sean sus mentores: investigadores experimentados que
dedicarán tiempo a reunirse, ofrecerán recursos y contactos, estimularán la creatividad, y fo-
mentarán la independencia y la visibilidad de los científicos jóvenes a su cargo.
4. Las buenas preguntas de investigación surgen de encontrar buenos colaboradores en conferen-
cias, del pensamiento crítico sobre la práctica clínica y sus problemas, de la aplicación de nuevos
métodos a viejos problemas, y de considerar ideas que surgen de la docencia, de las ensoñacio-
nes diurnas y de la búsqueda tenaz de soluciones a problemas graves.
5. Antes de dedicar mucho tiempo y esfuerzo a escribir -una propuesta o a llevar a cabo un estudio,
el investigador debe tener en cuenta si la pregunta y el plan del estudio son: factibles , intere-
santes, novedosos, éticos y relevantes . Quienes financian investigaciones dan prioridad a las
propuestas que puedan tener consecuencias innovadoras y significativas en la ciencia y la salud.
6. Al principio, la pregunta de investigación debe desarrollarse en un resumen del estudio escrito
en una página, que describa específicamente cuántos participantes serán necesarios, y cómo se
elegirán estos participantes y se realizarán las mediciones . _,,--,----
7. El desarrollo de la pregunta de la investigación y el plan del estudio es un proceso iterativo que
incluye consultas con asesores y amigos, una creciente familiaridad con la bibliografía, y estu-
dios piloto de los abordajes del reclutamiento y de las mediciones.
8. La mayor parte de los estudios tienen más de una pregunta, aunque es útil centrarse en una
única pregunta principal al diseñar y realizar el estudio.
9. La investigación aplicada es un tipo de investigación clínica que estudia la aplicación de los
hallazgos básicos a los estudios clínicos de pacientes {Tl ), así como el modo de aplicar estos ha-
llazgos para mejorar las prácticas sanitarias en la comunidad (T2); necesita la colaboración
entre investigadores de laboratorio e investigadores basados en la población, usando los mé-
todos de investigación clínica que se presentan en este libro.

BIBLIOGRAFÍA
l. The ATAC Trialists Group. Anastrazole alone or in combination with tamoxifen versus tamoxifen alone for adju-
vant treatment of postmenopausal women with early brease cancer: first results of the ATAC randomized trials.
Lancet 2002;359:2131-2139.
2. Quinn J, Cummings S, Callaham M, et al. Suturing versus conservative management of lacerations of the hand:
randomized controlled tria!. BMJ 2002;325:299-301.
3. Kuhn TS. The structure of scientific revolutions . Chicago, IL: University of Chicago Press, 1962.
4. Yaffe K, Browner W, Cauley J, et ál. _Association between bone mineral density and cognitive decline in older
women.J Am Geriatr Soc 1999;47:1176-1182.
5. Prentice RL, Caan B, Chlebowski RT, et al. Low-fat dietary pattern and risk of invasive breast cancer. JAMA
2006;295:629- 642.
6. Zerhouni EA. US biomedical research: basic, translational and clinical sciences. JAMA 2005;294:1352-1358.
CAPITULO IJ
Elección de los participantes
del estudio: especificación,
muestreo e inclusión
Stephen B. Hulley, Thomas B. Newman y Steven R. C:ummings

U na buena elección de los participantes del estudio cumple el objetivo esencial de asegurar que
sus hallazgos representen de forma exacta lo que sucede en la población de interés. El protocolo
debe especificar una muestra de participantes que pueda estudiarse con un coste de tiempo y eco-
nómico aceptable (es decir, de tamaño moderado y de acceso sencillo), pero que sea lo suficiente-
mente grande para controlar el error aleatorio y lo suficientemente representativa para permitir la
generalización de los hallazgos del estudio a las poblaciones de interés. Un importante precepto aquí
es que la posibilidad de generalizar rara vez es un sencillo asunto de sí o no ; es una opinión cuali-
tativa compleja que depende de la elección de la población y del diseño del muestreo por parte del
.: investig<idor.
Regfesaremos al tema de la elección del número adecuado de participantes del estudio en el capí-
tulo 6. En este capítulo se orienta el proceso de especificación y muestreo de los tipos de participan-
tes que serán representativos y viables (fig. 3-1). También se comentan las estrategias para la selec-
CÍón de estas personas que van a participar en el estudio._

■ TÉRMINOS Y CONCEPTOS BÁSICO_


S
Poblaciones y muestras
Una población es un grupo completo de personas con unas características especificadas, y una
muestra es un subgrupQ de la población. En el uso no profesional, las características que definen
una población tienden a ser geográficas: por ejemplo, la población de Canadá. En investigación, las
características que la definen son también clínicas, demográficas y temporales:

Inferencia Inferencia
REALIDAD -----t f--- REALIDAD -----t f--- HALLAZGOS
EN EL UNIVERSO

Pregunta
..6 ....~~~~~-~~~~1~ -- - 6 ..
~ Plan del estudio ~
DEL ESTUDIO

Estudio
de la investigac!ón real

,---~-------~
: Población
Diseño
---~~m~ -- -- ----------
Muestra
Realización

Participantes
: objetivo prevista reales ,
'--- - - - - - ~ -~ -------------- - - - - - - - -·- ------------- -·---- -------' ; J
Fenómenos
de interés
VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 3- 1. Este capítulo aborda la elección de una muestra de participantes en el estudio que represente a la po-
blación de interés para la pregunta de la investigación.

23
24 Sección 1 • Ingredientes básicos

• Las características clínicas y demográficas definen la población objetivo , el gran grupo de perso-
nas de todo el mundo a las que se pueden generalizar los resultados: los adolescentes con asma ,
por ejemplo.
• La población accesible es un subgrupo de la población objetivo definido geográfica y temporal-
mente , y del que puede disponerse para su estudio: adolescentes con asma que viven este año en
la ciudad del investigador.
• La muestra del estudio prevista es el subgrupo de población accesible que el investigador inten-
ta incluir en el estudio.
• La muestra real del estudio es el grupo real de personas que participan en el estudio .

Generalización de los hallazgos del estudio


El clásico estudio de Framingham fue uno de los primeros abordajes del diseño científico de un
estudio para poder aplicar a una población las inferencias obtenidas a partir de los hallazgos obser-
vados en una muestra (fig. 3-2).
El diseño del muestreo exigía la identificación de todas las familias de Framingham con al menos
una persona de 30-59 años, la elaboración de una lista de las familias por orden de dirección, y des-
pués la petición de participación a todas las personas en edad de participar de las dos primeras de
cada conjunto de tres familias. Este diseño «sistemático» del muestreo no es tan a prueba de mani-
pulaciones como elegir a cada uno de los participantes mediante un proceso aleatorio (como se
discute más adelante en este capítulo), pero dos problemas más graves fueron que un tercio de los
residentes en Framingham a los que se había seleccionado para el estudio rechazó participar, y que
en su lugar los investigadores aceptaron- a residentes en edad de participar que no estaban en la
muestra y que se presentaron voluntarios (1).
Debido a que los que dan una respuesta favorable suelen estar más sanos que los que no lo hacen,
especialmente si son voluntarios , las características de la muestra real indudablemente diferían de
las de la muestra prevista. Todas las muestras tienen algunos errores , sin embargo , y el asunto es

REALIDAD HALLAZGOS
EN EL UNIVERSO DEL ESTUDIO

Población Población Muestra Participantes


objetivo accesible prevista reales
(G ENERALIZAC IÓN Existe la misma Asociación entre
Existe la misma
MODERADAMENTE asociación en la hipertensión y CI
asociación en
muestra observada en la
SEGURA) VALIDEZ todos los adultos VALIDEZ VALIDEZ
designada de muestra real de
Existe la misma EXTERNA de Framingham EXTERNA INTERNA
adultos de adultos de
asociación en todos los DELA DE LA Framingham DELA Framingham
adultos de Estados INFERENCIA INFERENCIA IN FERENCIA
Unidos que viven en N.º2 N. 0 1
barrios residenciales

(G ENERALIZACIÓN
MENOS SEGURA)
. Existe la misma
asociación en:
a) Otros adultos de
Estados Unidos
(p. ej., de raza
negra del centro
de la ciudad)
b) Personas que
viven en otros
países
c) Personas que
vivirán en 2030
d) Etc.

■ FIGURA 3-2. Las inferencias en la generalización desde los participantes del estudio a las poblaciones objetivo avan-
zan de derecha a izqu ierda .
Capítu lo 3 • Elección de los participantes del estudio: especificación, muestreo e inclusión 25

REALIDAD REALIDAD
EN EL UNIVERSO EN EL ESTUDIO

PASO N.º 1: PASO N. 0 2: PASO N. 0 3:


Poblaciones Población Muestra
objetivo accesible prevista

Especificar Especificar Diseñar un método


características clínicas características para seleccionar la
y demográficas . temporales muestra

CRITERIOS
--- y geográficas
CRITERIOS
--- CRITERIOS
Adecuados Representativos de Representativos
a la pregunta de poblaciones objetivo de una población
investigación y disponibles accesible y de fácil
estudio

Especificación Muestreo

_: ■ FIGURA 3-3. Pasos del diseño del protocolo para elegir los participantes del estudio.
,
hasta qué punto se ha producido un daño . Los errores de muestreo del estudio de Framingham no
parecen ser lo suficientemente importantes como para invalidar la conclusión de que sus hallazgos
(p. ej ., que la hipertensión es un factor de riesgo de sufrir cardiopatía isquémica [CI]) pueden gene-
ralizarse a todos los residentes de Framingham. -
El segundo problema es la validez que tiene la generalización del hallazgo de que la hipertensión
es u~ factor de riesgo de CI obtenido en la población accesible de los residentes de Framingham a
poblaciones objetivo de cualquier otro lugar. Esta inferencia es más subjetiva. Se escogió la ciudad
de Framingham no con un diseño científico del muestreo, sino porque parecía bastante típica de las
comunidades residencia.les de clase media de Estados Unidos y a los investigadores les venía bien.
La validez de la generalización de las relaciones de riesgo de Framingham a poblaciones de otros Í El-
puntos del país conlleva la norma de que, en general, los ensayos clínicos y estudios analíticos que .:S
abordan relaciones biológicas producen resultados más ampliamente generalizables en las diversas
poblaciones que los estudios descriptivos que abordan distribuciones de características. Así, la im-
portancia de la hipertensión como factor de riesgo de CI es similar en los residentes caucásicos de
Framingham y en los afroamericanos de ciudades del interior, pero la frecuencia de la hipertensión
es mucho mayor en esta última población.

Pasos del diseño del protocolo para seleccionar participantes para el estudio
Las inferencias de la figura 3-2 se presentan de derecha a ,i zquierda , la secuencia que se usa para
interpretar los haliazgos de un estudio completo. Un investigador que está planificando un estudio
invierte esta secuencia, empezando por la izquierda (fig. 3-3). Comienza especificando las caracte-
rísticas clínicas y demográficas de la población objetivo que sirven para la pregunta de la investiga-
ción. A continuación utiliza criterios geográficos y temporales para especificar una muestra del
estudio que sea representativa y práctica.

■ CRITERIOS DE SELECCIÓN
Un investigador que desea comparar la eficacia de los suplementos de testosterona en dosis baja con
un placebo para aumentar la libido en mujeres posmenopáusicas empieza creando criterios de selec-
ción que definan la población que se va a estudiar.
26 Sección 1 • Ingredientes básicos

Establecimiento de criterios de selección


Los criterios de inclusión definen las principales características de la población objetivo que corres-
ponden a la pregunta de la investigación (tabla 3-1). La edad es , a menudo , un factor crucial, y en
este estudio el investigador podría decidir centrarse en mujeres de 50 a 60 años de edad, especulan-
do que en este grupo la relación entre el beneficio y el perjuicio del fármaco podría ser óptima; otro
estudio podría tomar una decisión diferente y estudiar a mujeres de más edad, El investigador tam-
bién podría incorporar al estudio a mujeres afroamericanas, hispanas y asiáticas, en un intento de
ampliar la posibilidad de generalización. Generalmente esto es una buena idea, pero es necesario
comprender que el aumento de la posibilidad de generalización es ilusorio si hay otros datos que
indiquen que los efectos difieren de unas razas a otras. En este caso, el investigador debería tener \ l
suficientes mujeres de cada raza para comprobar estadísticamente la presencia de modificación del
efecto (un efecto en una raza es diferente del que se ve en otras razas, lo que también se conoce como \
«interacción»; cap. 9); el número necesario generalmente es grande, y la mayor parte de los estudios _,1
no tienen potencia para detectar modificaciones del efecto.
Los criterios de inclusión relativos a las características geográficas y temporales de la población
accesible muchas veces suponen concesiones entre objetivos científicos y objetivos prácticos. El
investigador puede encontrar que los pacientes de su propio hospital son una fuente disponible y
económica de pacientes, aunque debe preguntarse si las peculiaridades de los patrones de derivación
locales podrían interferir con la generalización de los resultados a otras poblaciones. Sobre estas y
otras decisiones en relación con los criterios de inclusión no hay ninguna acción única que sea cla-
ramente correcta o incorrecta; lo importante es tomar decisiones que sean sensatas, que se puedan
utilizar de manera constante durante todo el estudio y que se puedan describir claramente a otras
personas que decidan a quién se aplican las conclusiones publicadas.
Especificar características clínicas para seleccionar a los participantes a menudo implica opiniones
difíciles, no solo sobre qué factores son importantes para la pregunta de la investigación, sino sobre
cómo definirlos. ¿Cómo, por ejemplo, pondría un investigador en práctica el criterio de que los parti-
cipantes tengan un «buen estado general de salud»? Podría decidir no incluir a pacientes con enferme-

TABLA 3-1. DISEÑO DE CRITERIOS DE SELEC(:IÓN PARA UN ENSAYO CLÍNICO


DE TESTOSTERONA EN DOSIS BAJA O PLACEBO PARA AUMENTAR LA LIBIDO
EN LA MENOPAUSIA
CARACTERÍSTICA DEL DISEÑO EJEMPLO

Criterios de inclusión Especificar poblaciones pertinentes


(sea específico) a la pregunta de la investigación y
eficientes para el estudio:
Características demográficas Mujeres de 50 a 60 años de edad
Características clínicas Buena salud general
Con pareja sexual
Preocupado por el descenso de la libido
Características geográficas Pacientes que acuden a la consulta en
(administrativas) el hospital del investigador
Características temporales Entre el 1 de enero y el 31 de diciembre
del año especificado
Criterios de exclusión Especificar personas de la población
(sea moderado) que no se estud iarán debido a:
Una gran probabilidad de que se A lcohólica
pierdan durante el seguimiento Tiene previsto mudarse a otra ciudad
Imposibilidad de obtener buenos Desorientada
datos Tiene.una barrera idiomática*
Presentar un riesgo elevado de Antecedente de infarto de miocardio
posibles efectos adversos o accidente cerebrovascular
·Las alternativas a la exclusión de participantes con barreras idiomáticas (cuando estos subgrupos tienen un gran ta-
maño y son importantes para la pregunta de la investigación) serían recopilar datos no verbales o utilizar personal y
cuestionarios bilingües.
Capítulo 3 • Elección de los participantes del estudio: especificación, muestreo e inclusión 27

dades referidas por ellos mismos, aunque probablemente esto excluyera a un gran número de pacientes
que son perfectamente adecuados para la pregunta de la investigación que se quiere abordar.
Sería más razonable que pudiera excluir solo a los que tengan enfermedades que pudieran inter-
ferir con el seguimiento, como cáncer metastásico. Esto sería un ejemplo de «criterios de exclusión »,
que se refieren a las personas que cumplen los criterios de inclusión y que serían adecuadas para el
estudio de no ser por características que podrían interferir con el éxito de los intentos de seguimien-
to, la calidad de los datos o la aceptabilidad del tratamiento aleatorizado (v. tabla 3-1). La dificultad
con el idioma español, los problemas psicológicos, el alcoholismo y las enfermedades graves son
ejemplos de criterios de exclusión. Los ensayos clínicos difieren de los estudios de observación en
que es más probable que haya exclusiones exigidas por la preocupación de la seguridad de una in-
tervención en determinados pacientes; por ejemplo, el uso de fármacos en embarazadas (cap. 10) .
Una buena regla general que hace que las cosas sigan siendo sencillas y conserva el número de po-
sibles participantes en el estudio es tener el menor número de criterios de exclusión posible.

Poblaciones clínicas y de la comunidad


Si la pregunta de la investigación afecta a pacientes con una enfermedad, es más fácil encontrar pa-
cientes hospitalizados o en consultas, pero los factores de selección que determinan quién acude al
hospital o a la consulta pueden tener un efecto importante. Por ejemplo, una consulta especializada '~
en un centro médico de atención terciaria atrae a pacientes con formas graves de enfermedad, lo que
da una impresión distorsionada de las características y el pronóstico que se ven en la práctica habi-
tual. El muestreo en consultas de atención primaria sería una opción mejor.
Otra opción frecuente al elegir la muestra es seleccionar participantes de la comunidad que repre-
; senten una población sana. Estas muestras se reúnen a veces utilizando el correo, el correo electró-
nico o fi.nuncios en Internet, emisoras de radio o medios impresos; no son totalmente representativas
de una población general, porque algunos tipos de personas tienen más probabilidad que otras de
participar voluntariamente o de ser usuarios activos de Internet o de correo electrónico. Las verda-
d'eras muestras «basadas en la población» son difíciles y_caras de reunir, pero son útiles para guiar
las políticas de salud pública y el ejercicio médico en la comunidad. Uno de los mayores y mejores
ejemplos es el estudio National Health and Nutrition Survey (NHANES), una muestra representativa
de todos los residentes de Estados Unidos.
Puede aumentarse el tamaño y la diversidad de la muestra colaborando con compañeros de otras ciu-
dades, o usando series de datos ya existentes, como los datos del estudio NHANES y de Medicare. Las
series de datos de accesq electrónico de agencias de salud pública, organizaciones de prestación de asis-
tencia sanitaria y compañías de seguro médico se usan cada vez más en investigación clínica, y pueden ser
más representativas de poblaciones nacionales y requerir menos tiempo que otras posibilidades (cap. 13).

■ MUESTREO
A menudo, el número de personas que cumplen los criterios de selección es demasiado grande, y es
necesario seleccionar una muestra (subgrupo) de la población para su estudio.

Muestras no probabilísticas
En investigación c~ínica, la muestra del estudio está formada a menudo por personas que cumplen
los criterios de admisión y a las que el investigador tiene fácil acceso. Es lo que se denomina una
muestra de conveniencia, y tiene ventajas evidentes en cuanto a coste y logística, lo que hace que
sea una buena elección para algunas preguntas de investigación.
Una muestra consecutiva puede reducir al mínimo el sesgo de participación voluntaria y otros
sesgos de selección, al elegir de forma consecutiva a los pacientes que cumplan los criterios de admi-
sión. Este abordaje es especialmente deseable, por ejemplo, cuartdo significa incluir a toda la población
accesible a lo largo de un período lo suficientemente largo como para que puedan producirse variacio-
nes estacionales u otros cambios temporales que son importantes para la pregunta de la investigación.
La validez de extraer inferencias de cualquier muestra es la premisa de que, con el fin de respon-
der la pregunta de la investigación, representa suficientemente la población. Con muestras de con-
veniencia, esto requiere una opinión subjetiva.
28 Sección 1 • Ingredientes básicos

Muestras probabilísticas
A veces, particularmente con preguntas de investigación descriptivas, es necesaria una base científica
para generalizar los hallazgos de la muestra en estudio a la población. El muestreo probabilístico, el
método de referencia para asegurar la posibilidad de generalizar los resultados, utiliza un proceso alea-
torio para garantizar que cada unidad de la población tenga una posibilidad específica de verse incluida
en la muestra. Se trata de un método científico que proporciona una base rigurosa para calcular la fide-
lidad con que los fenómenos observados en la muestra representan los de la población, y para calcular
la significación estadística y los intervalos de confianza. Existen varias versiones de este método:

• Una muestra aleatoria simple se extrae enumerando (contando) todas las personas de la población
de la que se extraerá la muestra, y seleccionando aleatoriamente un subgrupo. El uso más frecuente de
este método en investigación clínica es cuando el investigador desea seleccionar un subgrupo repre-
sentativo de una población que es mayor de lo que necesita. Para tomar una muestra aleatoria de los
pacientes operados de cataratas en su hospital, por ejemplo, el investigador podría obtener una lista
de todos estos pacientes de los partes de quirófano d~rante el período del estudio, y usar después una
tabla de números aleatorios para seleccionar pacientes para su estudio (apéndice 3).
• Una muestra sistemática es similar a una muestra aleatoria simple en el primer paso, la enumera-
ción de la población, pero difiere en que la muestra se elige mediante un proceso periódico prede-
terminado (p. ej., el método Framingham de obtener las primeras dos de cada tres familias de una
lista de familias residentes-en la ciudad ordenadas por dirección). El muestreo sistemático puede pre-
sentar errores causados por periodicidades naturales en la población, y permite al investigador
predecir, y quizás manipular, quiénes estarán en la muestra. No ofrece ventajas logísticas sobre el
muestreo aleatorio simple, y rara vez es una opción mejor en la investigación clínica.
• Una muestra aleatoria estratificada comienza dividiendo la población en subgrupos según carac-
terísticas como el sexo o la raza, y se toma una muestra aleatoria de cada uno de esos «estratos».
Pueden asignarse pesos a las submuestras de una muestra estratificada para extraer una propor-
ción anormalmente elevada de subgrupos que son menos frecuentes en la población, pero que
tienen un interés especial para el investigador. Al estudiar la incidencia de la toxemia en el em-
barazo, por ejemplo, el investigador podría estratificar la población según la raza y, a continuación,
obtener muestras de igual tamaño de cada estrato. Entonces, las razas menos frecuentes estarían
sobrerrepresentadas, lo que permitiría obtener estimaciones de la incidencia con una precisión
comparable en todos los grupos raciales.
• Una muestra de conglomerados es una muestra aleatoria de agrupaciones (conglomerados) na-
turales de individuos de la población. Este muestreo es muy útil _cuando la población está muy
~ispersa y no se puede realizar una lista y hacer un muestreo de todos sus elementos. Considere,
por ejemplo, el problema de entrevistar a pacientes con cáncer de pulmón seleccionados aleato-
riamente de una base de datos de diagnósticos al alta hospitalaria de ámbito estatal; se podría
estudiar a los pacientes con un coste menor escogiendo una muestra aleatoria de los hospitales y
obteniendo los casos de estos. Los estudios en la comunidad a menudo usan una muestra de
conglomerados en dos etapas: una muestra aleatoria de manzanas de la ciudad se obtiene de las
manzanas de la ciudad enumeradas en un mapa, y un equipo de campo visita las manzanas de la
muestra, hace una lista de todas las direcciones de cada una y selecciona una submuestra para su
estudio mediante un segundo proceso aleatorio. Un inconveniente del muestreo de conglomera-
dos es que 19s grupos que aparecen de forma natural son, a menudo, más homogéneos en relación
con las variables de interés que la población; cada manzana de la ciudad, por ejemplo, tiende ·a
albergar personas de un nivel socioeconómico similar. Esto significa que el tamaño eficaz de la
muestra (después de ajustar la uniformidad dentro de los conglomerados) será algo menor que el
número de participantes, y que el análisis estadístico debe tener en cuenta el agrupamiento.

Resumen de las opciones de diseño del muestreo


El uso de estadísticos descriptivos y pruebas de significación estadística para extraer inferencias
sobre la población a partir de observaciones en la muestra del estudio se basa en la suposición de
que se ha utilizado una muestra probabilística. En investigación clínica, sin embargo, casi nunca es
posible tener una muestra aleatoria de toda la población objetivo. El muestreo de conveniencia,
Capítu lo 3 • Elección de los participantes de l estud io: especificación, muestreo e inclusión 29

preferiblemente con un diseño consecutivo, es un enfoque práctico que a menudo resulta adecuado.
La decisión sobre si el diseño de muestreo propuesto es satisfactorio necesita que el investigador
emita un juicio: para la pregunta de la investigación que se plantea, ¿las conclusiones que se extraigan
de las observaciones del estudio serán similares a las conclusiones que se obtendrían del estudio de
una muestra probabilística verdadera de la población accesible? Y, aparte de eso, ¿las conclusiones
serán adecuadas para la población objetivo?

■ SELECCIÓN
Objetivos de la selección
Un factor importante que hay que tener en cuenta en el momento de elegir la población accesible y
el método de muestreo es la posibilidad de reunir participantes para el estudio. Dos son los objeüvos
principales: 1) reunir una muestra que represente adecuadamente a la población objetivo, minimi-
zando la posibilidad de obtener una respuesta incorrecta a la pregunta de la investigación debido al
error sistemático (sesgo), y 2) reunir un tamaño de la muestra suficiente para minimizar la proba-
bilidad de obtener una respuesta incorrecta debido al error aleatorio (por el azar).

Obtención de una muestra representativa


El abordaje para conseguir una muestra representativa empieza en la fase de diseño con decisiones
sensatas sobre la elección de poblaciones objetivo accesibles y los .métodos de muestreo. Termina con la
ejecución, protegiéndose frente a los errores en la aplicación de los criteri0s de selección de los partici-
pantes prospectivos del estudio, y reforzando las estrategias eficaces a medida que avance el estudio. Un
; problema importante, especialmente en los estudios de observación, es el problema de la falta de res-
puestar. La proporción de pacientes seleccionados pára el estudio que dan su consentimiento a ser in-
cluidos (la tasa de respuesta) influye en la validez de la inferencia de que la muestra incluida representa
a la población. Las personas a las que es difícil llegar, y las que rechazan participar una vez que se ha
establecido contacto con ellas, tienden a ser diferentes de h1s personas que sí se incorporan. El nivel de
falta de respuesta que pondrá en peligro la posibilidad de generalización del estudio depende de la na-
turaleza de la pregunta de la investigación y de los motivos para no responder. Una tasa de falta de res-
puesta del 2 %, que sería un buen logro en muchas situaciones, puede distorsionar gravemente la pre-
valencia estimada de una enfermedad cuando la propia enfermedad es una causa de falta de respuesta.
El grado en que el sesgo por falta de respuesta puede influir en las conclusiones de un estudio
descriptivo a veces se puede estimar durante el estudio, obteniendo información adicional de una
muestra de personas que no responden. Sin embargo, la mejor forma de abordar el sesgo de falta de
respuesta es reducir al mínimo el número de personas que no responden. El problema de la imposi-
bilidaq~de contactar con personas a las que se ha escogido para la muestra puede reducirse diseñan-
do una serie sistemática de intentos de contacto repetidos usando varios métodos (correo postal,
correo electrónico, teléfono, visita domiciliaria). Puede reducirse al mínimo el rechazo a participar
en personas con las que se contacta mejorando la eficacia y el atractivo del estudio, escogiendo un
diseño que evite pruebas cruentas y desagradables, usando folletos y conversaciones individuales
para aliviar la ansiedad y el malestar, proporcionando incentivos como el reembolso del coste del
transporte y la entrega de los resultados de las pruebas, y evitando las barreras idiomáticas con per-
sonal bilingüe y c~estionarios traducidos.

Selección de cantidades suficientes de participantes


Quedarse corto en la tasa de selección es uno de los problemas más habituales en investigación clíni-
ca. Al planificar un estudio, es mejor suponer que la cantidad de personas que cumplirán los criterios
de inclusión y que estarán de acuerdo en participar en el estudio será menor(a menudo, varias veces
menor) que el número proyectado al principio. Los abordajes p'ara resolver este problema son: calcu-
1
La preocupación por lá\!us_fnCi-ª.de respuesta en el proceso de selección de los pacientes para un estudio (el tema de este
capítulo) es principalmente una preocupación en estudios descriptivos que tienen como objetivo principal estimar la
distribución de variables en poblaciones particulares. La ausencia de respuesta en el proceso de seguimiento es muchas
veces un problema importante en cualquier estudio en el que se siga a una cohorte a lo largo del tiempo, y particular-
mente en un ensayo clínico de una intervención que puede alterar la tasa de respuesta (cap. 10).
30 Sección 1 • Ingredientes básicos

lar la magnitud del problema de selección empíricamente mediante una prueba previa, planificar el
estudio con una población accesible que sea mayor de lo que se cree que será necesario, y elaborar
planes de contingencia por si surge la necesidad de obtener participantes adicionales. Mientras se
realiza la selección, es importante controlar estrechamente el progreso en cuanto al cumplimiento de
los objetivos de la selección y tabular las razones por las que no se llega a los objetivos. Conocer por
qué se pierde a los posibles participantes en el estudio en diferentes fases puede llevar a estrategias
para reducir estas pérdidas. A veces, la inclusión supone seleccionar pacientes que los miembros del
equipo de investigación ya conocen (p. ej ., en un estudio de un nuevo tratamiento en pacientes que
acuden a la consulta del investigador). Aquí, el principal problema es presentar de manera justa la
oportunidad de participar en el estudio, dejando claros las ventajas y los inconvenientes. Al comentar
la participación, el investigador debe reconocer los dilemas éticos que surgen cuando su consejo , como
médico del paciente, podría entrar en conflicto con sus intereses como investigador ~cap. 14).
A menudo, la selección conlleva entrar en contacto con poblaciones desconocidas para los miem-
bros del equipo investigador. Será útil que al menos un miembro del equipo tenga alguna experien-
cia con los métodos para contactar con los posibles participantes. Entre ellos se encuentran: de-
tección selectiva en entornos laborales o lugares públicos, como centros comerciales; envío de gran
cantidad de publicidad por correo a listados de, por ejemplo, personas con carné de conducir; pu-
blicidad en Internet; invitación a remisiones por parte de otros médicos; revisión retrospectiva de
historias clínicas; y examen de listas de pacientes atendidos en consultas y hospitales. Algunos
de estos métodos, en concreto los dos últimos, acarrean temas como la intromisión en la vida privada,
que debe tener en cuenta el comité de ética de la investigación médica .
Puede resultar útil prepararse para la selección obteniendo el apoyo de organizaciones importan-
tes. Por ejemplo, el investigador puede reunirse con administradores del hospital para hablar sobre
una muestra de pacientes de la consulta, y con los dirigentes comunitarios, la sociedad médica y el
departamento de salud de la región para planificar una operación de detección en la comunidad o
el envío de cartas a los médicos. Pueden incluirse apoyos por escrito , como un apéndice en las soli-
citudes de financiación. En estudios de gran tamaño puede ser útil la creación de un clima favorable
en la comunidad mediante conferencias públicas, o con publicidad en la radio, la televisión, la pren-
sa, folletos, páginas web y envíos publicitarios masivos por correo.

■ RESUMEN
l. La mayor parte de la investigación clínica se basa, desde el punto de vista filosófico y práctico,
en el uso de una muestra que represente a una población.
2. La ventaja del muestreo es la eficiencia ; permite al investigador extraer inferencias sobre una
población de gran tamaño examinando un subgrupo con un coste relativamente pequeño en
cuanto a tiempo y esfuerzo. El inconveniente está en las fuentes de error que introduce. Si la
muestra no es suficientemente representativa para la pregunta de la investigación, los hallazgos
pueden no generalizarse bien a la población objetivo, y, si no es suficientemente grande, los
hallazgos pueden no minimizar la importancia del azar .
3. Cuando diseña una muestra, el investigador comienza conceptualizando la población objetivo
con un grupo específico de participantes que se adapten bien a la pregunta de la investigación.
4. Después, selecciona una población accesible y adecuada, que sea asequible desde los puntos de
vista geográfico y temporal, y define un conjunto económico de criterios de exclusión que eli-
minen a las personas cuyo estudio no sería ético o adecuado.
5. El siguiente paso será diseñar un método de muestreo en la población. Puede ser adecuada una
muestra de conveniencia, especialmente para el estudio inicial de algunas preguntas, y muchas
veces es una buena opción una muestra consecutiva. Puede realizarse un muestreo aleatorio sim-
ple para reducir el tamaño de una muestra de conveniencia, si es necesario; en determinadas situa-
ciones son útiles otras estrategias de muestreo probabilístico (estratificado y por conglomerados).
6. Finalmente, el investigador debe diseñar y llevar a cabo estrategias para la selección de una
muestra de participantes que sea suficientemente representativa de la población objetivo para _
controlar las fuentes sistemáticas de error, y suficientemente grande para controlar las fuentes
aleatorias de error.
Capítu lo 3 • Elección de los participantes del estudio: especificación, muestreo e inclusión 31

APÉNDICE 3
Esta tabla presenta una sencilla forma en papel para seleccionar una muestra aleatoria del 10 % gra-
cias a una tabla de números aleatorios. Comience enumerando (realizando una lista y asignando un
número) a todas las personas de la población de la que se va a obten er la muestra. Después, decida
una regla para obtener una serie adecuada de números; por ejemplo, si su lista tiene 741 elementos
(a los que se han asignado números del 1 a 741 ), la regla podría ser recorrer verticalmen te hacia
abaj o cada una de las columnas de esta tabla, utilizando los primeros tres dígitos de cada número
(comenzando en la esquina superior izquierda, los números son 104, 223 , etc.) , y seleccionar los
primeros 74 números diferentes que se encuentren en el intervalo de 1 a 741. Finalmente, seleccio-
n e un punto de p~rtida mediante un proceso arbitrario (cerrar los ojos y pon er el lápiz en algún
número de la tabla es una forma de hacerlo) y comience a aplicar la regla. El a,bordaj e moderno, con
una serie computarizada de números aleatorios, funciona básicamen te de la misma manera.

TABLA 3-2. SELECCIÓN DE UNA MUESTRA ALEATORIA DE UNA TABLA DE NÚMEROS


ALEATORIOS
10480 15011 01536 81647 91646 02011
22368 46573 25595 85393 30995 89198
24130 48390 22527 97265 78393 64809
4216,7 1
/ 93093 06243 61680 07856 16376
, 1
37570 I 33997 81837 16656 06121 91782
77921 06907 11008 42751 27756 53498
99562 72905 56420 69994 98872 31016
96301 91977 05463 07972 18876 20922
89572 14342 63661 10281 17453 18103
85475 36857 53342 53998 53060 59533
,28918 79578 88231 33276 70997 79936
63553 40961 48235 03427 49626 69445
09429 93969 52636 92737 88974 33488
10365 61129 87529 85689 48237 52267
07119 97336 71048 08178 77233 13916
51085 12765 51821 51259 77452 16308
02368 21382 52404 60268 89368 19885
0To11 54092 33362 94904 312,73 04146
52162 53916 46369 58569 23216 14513
07056 97628 33787 09998 42698 º06691
48663 91245 85828 14346 09172 30163
54164 58492 22421 74103 47070 25306
32639 32363 05597 24200 38005 13363
29334 27001 87637 87308 1 58731 00256
02488 33062 28834 07351 19731 92420
81525 72295 04839 96423 1 24878 82651
29676 20591 68086 26432 46901 20949
00742 57392 39064 66432 84673 40027
05366 04213 25669 26422 44407 44048
91921 26418 64117 94305 26766 25940

BIBLIOGRAFÍA
l. www.framinghamheartstudy.org/abou t/background.h tml, último acceso, 7/23/12.
CAPÍTULO D ■
Planificación de las mediciones:
precisión, exactitud y validez
Stephen B. Hulley, Thomas B. Newman y Steven R. Cummings

L as mediciones describen fenómenos en términos que pueden analizarse estadí~ticamente, y la


validez de un estudio depende de hasta qué punto las variables diseñadas para el estudio representan
los fenómenos de interés (fig. 4-1) . Por ejemplo, ¿cómo mide de bien la glucosa sanguínea un glu-
cómetro portátil, o cómo detecta la cantidad y la calidad del sueño un cuestionario de insomnio?
Este capítulo empieza considerando cómo la elección de una escala de medida influye en el con-
tenido de la información de la medición. Vuelve después al objetivo central de reducir al mínimo el
error de medición: cómo diseñar medidas que sean relativamente precisas (sin error aleatorio) y
exactas (sin error sistemático), con lo que mejora la adecuación de la extracción de inferencias
desde estas mediciones hasta los fenómenos de interés. Abordamos el concepto de validez, un fami-
liar cualitativo de la exactitud, antes de concluir con algunas consideraciones para la investigación
clínica y aplicada, señalando especialmente las ventajas de guardar muestras para determinaciones
posteriores.

■ ESCALAS DE MEDIDA
En la tabla 4-1 , se presenta una clasificación simplificada de escalas de medida y la información que
se obtiene. La clasificación es importante, porque algunos tipos de variables son más informativos
que otros, añadiendo potencia o reduciendo los requisitos de tamaño de la muestra, y revelando
patrones de distribución más detallados.

Variables numéricas: variables continuas y discretas


Las variables numéricas se pueden cuantificar con un número que expresa cuánto o cuántos. Las
variables continuas cuantifican cuánto en una escala infinita; el número de valores posibles del peso

Inferencia Inferencia
------t ¡-..-;- ------t !---
REALIDAD REALIDAD HALLAZGOS
EN EL UNIVERSO EN EL ESTUDIO DEL ESTUDIO

Error Error
Pregunta Plan Estudio
del estudió del estudio real

Población Muestra Participantes


objetivo prevista reales
Realización

1
: Fenómenos Variables Mediciones
: de interés previstas reales
·--- - --~- - - -- -- --- - -- - - - - - - - - - - - ·- - - - -- --- --- - --- - - - - - - - - - - - - - -- - --- - - - ------ - - 1

VALIDEZ VALIDEZ
EXTERNA INTERNA
■ FIGURA 4-1. Diseño de mediciones que representen los fenómenos de interés.
Capítulo 4 • Planificación de las mediciones: precisión, exactitud y va li dez 33

TABLA 4-1. ESCALAS DE MEDICIÓN


TIPO DE CARACTERiSTICAS EJEMPLO ESTADÍSTICO POTENCIA
MEDICIÓN DE LA VARIABLE DESCRIPTIVO ESTADÍSTICA

Categórica

Dicotómica Dos categorías Estado vital Recuentos, Baja


(vivo o muerto) propo rciones
Nominal Categorías no ordenadas Raza, tipo Igua l que antes Baja
sanguíneo
Ordina l Categorías ordenadas con Grado de do lor, Además de lo anterior: Int ermedia
intervalos que no se p ueden clase social med ianas
cuantificar
Numérica

Continua Espectro ordenad.o con Peso, número de Además de lo ant erior: Elevada
o discreta t interva los cuant ificables cigarrillos/día med ias, desviaciones
típicas
t Las variab les continuas t ienen un número infin ito de va lores (p. ej., peso), mientras que las variables numéricas dis-
cretas son más limitadas (p. ej., número de ciga rrillos/día). Las va ri abl es discretas que t ienen un gran número devalo-
res posibles parecen variables continuas con fines prácticos de med ida y aná lisis.

corporal, por ejemplo, está limitado solo por la sensibilidad del aparato que se utilice para medirlo.
Las variables continuas poseen mucha información. Las variables discretas cuantifican cuántos en
; una escala con unidades fijas , habitualmente enteros, como el número de veces que ha estado em-
barazada una mujer. Las variables discretas que tienen un elevado número de valores posibles pueden
parecer variables continuas en los análisis estadísticos y ser equivalentes para el objetivo de diseñar
mediciones .

Variables categóricas: dicotómicas, nominales y ordinales


Los fenómenos que no son adecuados para su cuantificación se miden clasificándolos en categorías.
Las variables categóricas con dos posibles valores (p. ej., muerto o vivo) se denominan dicotómi-
cas. Las variables categóricas con más de dos categorías (policotómicas) pueden, además, caracteri-
zarse según el tipo de información que contienen. De estas, las variables nominales tienen categorías
que no están ordenadas; _el grupo sanguíneo O, por ejemplo, no es ni más ni menos que el grupo B;
las variables nominales tienden a tener un carácter cualitativo absoluto para que sean sencillas de
medir. Las categorías de las variables ordinales tienen un orden, como dolor intenso , moderado y
leve. La información adicional es una ventaja sobre las variables nominales, pero, debido a que las
variables ordinales no especifican una diferencia numérica o uniforme entre una categoría y la siguien-
te, el contenido de la información es menor que el de las variables numéricas discretas o continuas.

Elección de una escala de medida


Una buena norma general es preferir las variables continuas a las categóricas cuando se pueda
elegir, porque la información adicional que contienen mejora la eficiencia estadística. En un estudio
en el que se comparan los efectos antihipertensivos de varios tratamientos, por ejemplo, la determi-
nación de la presión arterial en milímetros de mercurio permite al investigador observar la magnitud
del cambio en cada participante, mientras que la medición como hipertensos o normotensos limita
la evaluación. La variable continua contiene más informacióil, y el resultado es un estudio con más
potencia o con menor tamaño de la muestra (cap. 6).
Las variables continuas también ofrecen más flexibilidad que las variables categóricas para ajus-
tar los datos a la naturaleza de la variable o a la forma de la asociación, especialmente cuando la
relación podría tener un patrón complejo. Por ejemplo, en un estudio de la relación de la vitamina D
con diversos cánceres se debería medir la vitamina D como variable continua para poder detectar
un posible patrón con forma de U, según el cual se observa mayor mortalidad en_personas con
concentraciones bajas o elevadas de vitamina D que en las que tienen concentraciones interme-
dias (1). En un estudio de factores predictivos de bajo peso al nacimiento se debería registrar el
34 Sección 1 • Ingredientes bás icos

peso real al nacimiento, en lugar de indicar si es mayor o menor que el umbral convencional de
2 500 g; esto deja abiertas las opciones analíticas, como modificar el valor de corte que define el bajo
peso o el desarrollo de una escala ordinal con varias categorías de peso al nacimiento (p . ej.,> 2 500 g,
2000-2499 g, 1500-1999 g y< 1500 g).
Igualmente, cuando existe la opción de diseñar el número de categorías de respuesta en una esca-
la ordinal (como en una pregunta sobre preferencias alimentarias), a menudo resulta útil proporcionar
media docena de categorías que oscilen desde no gustar nada a gustar enormemente. Los resultados
pueden quedar más adelante colapsados en una dicotomía (no gustar y gustar), pero no lo contrario.
Muchas características, sobre todo síntomas como el dolor o aspectos de los hábitos de vida, son
difíciles de describir con categorías o números. Pero estos fenómenos, con frecuencia, son importantes
en el diagnóstico y las decisiones terapéuticas, y el intento de medirlos es una parte esencial del mé-
todo científico de descripción y análisis. Esto se ilustra mediante el cuestionario Short Form (SF)-36,
un cuestionario normalizado para evaluar la calidad de vida que permite obtener puntuaciones nu-
méricas discretas (2). El proceso de clasificación y medición, si se realiza bien, puede aumentar la
objetividad de nuestro conocimiento, reducir los sesgos y proporcionar un medio de comunicación.

■ PRECISIÓN
La precisión de una variable es el grado en que· es reproducible, con casi el mismo valor cada vez
que se mida. Una balanza puede medir el peso corporal con gran precisión, mientras que es más
probable que una entrevista para medir la calidad de vida produzca valores que varíen de un obser-
vador o una ocasión a otro. La precisión tiene una gran influencia en la potencia de un estudio.
Cuanto más precisa sea la medida, mayor será la potencia estadística con un tamaño de la muestra
concreto para calcular valores medios y comprobar hipótesis (cap. 6).
La precisión (denominada también reproducibilidad, fiabilidad y consistencia) es una función
del error aleatorio (variabilidad por el azar); cuanto mayor sea el error, menos precisa será la medi-
da. Existen tres fuentes principales de error aleatorio al realizar medidas:

• Variabilidad del observador: se debe al observador, e incluye factores como escoger palabras en
una entrevista o tener habilidad para usar un instrumento mecánico.
• Variabilidad del instrumento: se debe al instrumento, e incluye factores ambientales cambiantes
(p. ej., temperatura), el desgaste de los componentes mecánicos, lotes diferentes de reactivos, etc.
• Variabilidad del participante: se debe a la variabilidad biológica intrínseca de los participantes en
el estudio, que no se relaciona con las variables en estudio, como la variabilidad debida a la hora
del día de las mediciones o el tiempo desde la última medicación.

Evaluación de la precisión
La precisión se valora como la reproducibilidad de mediciones repetidas, ya sea comparando medi-
ciones realizadas por la misma persona (reproducibilidad intraobservador) o por personas diferentes
(reproducibilidad entre observadores). Igualmente, puede evaluarse para un instrumento o entre
diversos instrumentos. La reproducibilidad de las variables continuas se expresa, a menudo, como
la desviación típica intraobservador o el coeficiente de variación (desviación típica intraobservador
dividida por la ·media) 1 . Para las variables categóricas se utiliza a menudo la concordancia porcentual,
el coeficiente de correlación intraclase y el estadístico kappa (3-5).

Estrategias para mejorar la precisión


Existen cinco métodos para reducir al mínimo el error aleatorio y aumentar la precisión de las de-
terminaciones (tabla 4-2):

1
Cuando hay dos mediciones de una variable continua por participante, puede ser tentador expresar su concordancia
utilizando un coeficiente de correl(lción. Sin embargo, como el coeficiente de correlación es muy sensible a los valores
extremos (3,4), un abordaje mejor es el «g!áfico de Bland y Alt!!!_an», en el que se representa la diferencia entre las
dos mediciones en función de su media. Si el valor absoluto de la diferencia entre las mediciones tiende a aumentar
linealmente con la media, el coeficiente de correlación es una forma mejor de medir la variabilidad que la desviación
típica intrapaciente.
Capítulo 4 • Planificación de las mediciones: precisión, exactit ud y va lidez 35

l. Normalización de los métodos de medida. Todos los protocolos de estudio deberían incluir ins-
trucciones específicas para hacer las mediciones (definiciones operativas). Entre ellas se encueri-
tran direcciones escritas sobre cómo preparar el entorno y el participante, cómo realizar y registrar
la entrevista, cómo calibrar el instrumento, etc. (apéndice 4). Esta serie de materiales, parte del
manual operativo , es esencial en los estudios grandes y complejos, y recomendable en los más
pequeños. Aun cuando solo exista un único observador, las directrices específicas por escrito para
realizar cada una de las mediciones ayudarán a que su ejecución sea uniforme a lo largo del estu-
dio y servirán de base para describir los métodos cuando se publiquen los resultados.
2. Formación y certificación de los observadores. La formación mejorará la homogeneidad de las
técnicas de medición, especialmente cuando intervienen varios observadores. A menudo es desea-
ble diseñar una prueba formal del dominio de las técnicas especificadas en el manual de instruc-
ciones y certificar que los observadores han logrado el nivel recomendado de rendimiento (cap. 17).
3. Perfeccionamiento de los instrumentos. Los instrumentos mecánicos y electrónicos pueden di-
señarse para reducir la variabilidad. Igualmente, los cuestionarios y las entrevistas pueden escri-
birse para aumentar la claridad y evitar posibles ambigüedades (cap. 15) .
4. Automatización de los instrumentos. Pueden eliminarse las variaciones en la forma en que los
observadores humanos realizan las mediciones mediante dispositivos mecánicos automáticos y
cuestionarios de autorrespuesta.
5. Repetición. La influencia del error aleatorio de cualquier tipo se reduce repitiendo la medición, y
usando la media de las dos o de más determinaciones . Con esta estrategia aumentará notablemen-
te la precisión, siendo la principal limitación el coste añadido y las dificultades prácticas para
repe~ir •las determinaciones.

Parl cada una de las mediciones del estudio, el investigador debe decidir cuánto hincapié debe
hacer en cada una de estas estrategias. Esta decisión puede basarse en la importancia de la variable,

tABLA 4-2. ESTRATEGIAS PARA REDUCIR EL ERROR ALEATORIO CON EL FIN


DE AUMENTAR LA PRECISIÓN, CON ILUSTRACIONES DE UN ESTUDIO DE
TRATAMIENTO ANTIHIPERTENSIVO
ESTRATEGIA PARA ORIGEN EJEMPLO DE ERROR EJEMPLO DE ESTRATEGIA
RED UCIR EL ERROR DEL ERROR ALEATORIO PARA EVITAR EL ERROR
ALEATORIO ALEATORIO
1. Normalización de los Observador Variación de la medición de la Especificar que el manguito
métodos de medición presión arterial (PA) por una debe desinflarse a 2 mm Hg/s
en un manual de velocidad variab le de
instrucciones desinflado del manguito
(a veces demasiado deprisa)
Participante Variación en la PA debida a Especificar que el
variaciones en la duración de participante esté sentado en
estar sentado tranquilo antes una sala tranquila durante
de la medición 5 min antes de tomar la PA
2. Formación y Observador Variación en la PA por técnica Formar al observador en
aprobación del variable del observador técnicas normalizadas
observador
3. Perfeccionamiento Instrumento Variación en la PA por Comprar un nuevo
del instrumento y observador funcionamiento inadecuado manómetro de alta calidad
del manómetro
4. Automatización Observador Variación en la PA por Usar aparatos automáticos
del instrumento variable técnica del para medir la PA
observador
Participante Variación en la PA por 1 Usar aparatos automáticos
reacción emocional del para medir la PA
pa rti ci pa nte
5. Repetición de la Observador, Todas las determinaciones y Usar la media de dos o más
determinación participante todas las fuentes de variación determinaciones de la PA
e instrumento
36 Sección 1 • Ingredientes básicos

en la magnitud del posible problema con la precisión, y en la viabilidad y el coste de la estrategia.


En general, las dos primeras estrategias (normalización y formación) deben usarse siempre, y la
quinta (repetición) es una opción que se garantiza que mejora la precisión, siempre que sea viable y
asequible.

TABLA 4-3 . PRECISIÓN Y EXACTITUD DE LAS MEDICIONES


PRECISIÓN EXACTITUD
Definición Grado en que una variable tiene casi el Grado en que una variable se
mismo valor cuando se mide varias veces aproxima al valor verdadero
Mejor modo de evaluación Comparación entre repetidas medidas Comparación con un patrón
de referencia
Utilidad para el estudio Aumenta la potencia para detectar Aumenta la va lidez
efectos de las conclusiones
Amenazado por Error aleatorio (azar) al que contribuyen Error sistemático (sesgo)
Observador al que contribuyen
Participante Observador
Instrumento Participante
Instrumento

■ EXACTITUD
La exactitud de una variable es el grado en que representa el valor verdadero .
La exactitud es diferente de la precisión en los aspectos que se muestran en la tabla 4-3, y las dos
no están necesariamente unidas. Si se midiera repetidamente el colesterol sérico usando patrones
que se han diluido inadvertidamente dos veces, por ejemplo, el resultado sería inexacto , pero podría
seguir siendo preciso (consistentemente por un factor de 2). Este concepto se ilustra también en la
figura 4-2. Sin embargo, exactitud y precisión a menudo van de la mano, en el sentido de que muchas
de las estrategias para aumentar la precisión también mejorarán la exactitud.
La exactitud depende del error sistemático (sesgo); cuanto mayor sea el error, menos exacta será
la variable. Cada una de las tres clases principales de error de medición observadas en la sección
anterior sobre la precisión tiene su equivalente aquí:

• Sesgo del observador. Es una deformación, consciente o inconsciente, de la percepción o la no-


tificación de la medida por el observador. Puede representar errores sistemáticos en el modo en
que se utiliza un instrumento , como la tendencia a redondear a la baja las determinaciones de la
presión arterial, o utilizar preguntas dirigidas en la entrevista a un participante.
• Sesgo del instrumento. Puede deberse al funcionamiento defectuoso de un instrumento mecáni-
co. Una balanza que no ha sido calibrada recientemente puede haberse desviado a la baja, produ-
ciendo continuamente lecturas de pesos corporales bajas.
• Sesgo del participante. Es la deformación de la medición por parte del participante en el estudio ,
por ejemplo, al notificar un suceso (sesgo de respuesta o de recuerdo). Las pacientes con cáncer

0
Buena precisión Mala precisión Buena precisión ' Mala precisión
Mala exactitud Buena exactitud Buena exactitud Mala exactitud
■ FIGURA 4-2. Diferencia entre precisi ón y exactitud.
Capítulo 4 • Planificación de las mediciones: precisión, exactitud y validez 37

de mama que creen que el alcohol es una causa de su cáncer, por ejemplo, pueden exagerar el
consumo que refieren.

La exactitud de una medición se evalúa mejor comparándola, cuando es posible, con un << criterio
de referencia »: una medición de referencia realizada por un técnico que se piensa que es la que
mejor representa el verdadero valor de la característica. La decisión sobre qué abordaje de la medición
se debe considerar como criterio de referencia puede ser un juicio difícil que tiene que hacer el in-
vestigador, basándose en el trabajo previo en ese campo.
Para las mediciones en una escala continua, el grado de exactitud se puede expresar como la di-
ferencia media entre la medición en investigación y el criterio de referencia en los distintos partici-
pantes en el estudio. Para las mediciones en una escala dicotómica, la exactitud en comparación con
el criterio de referencia se puede describir con la sensibilidad y la especificidad (cap. 12) . Para las
mediciones en escalas categóricas con más de dos opciones de respuesta, se puede calcular el por-
centaje de valores correctos con cada método.

Estrategias para mejorar la exactitud


Los principales abordajes para incrementar la exactitud incluyen las primeras cuatro estrategias que
se han señalado más arriba para la precisión, y otras tres adicionales (tabla 4-4):

l. Normalización de los métodos de medición.


2.Formación y certificación de los observadores.
3.Perfeccfonamiento de los instrumentos .
.: 4.Automatización de los instrumentos.
5.Realización de med idas que no se perciban. En ocasiones es posible diseñar mediciones de las
que no sea consciente el participante, lo que permite eliminar la posibilidad de que conscien-
temente introduzca sesgo en la variable. Por ejemplo, en una evaluación del efecto de la colo-
' cación de un producto para limpiar las manos y un _póster sobre la higiene de las manos en
la cafetería de un hospital, se utilizaron observadores que se entremezclaban con los clientes
de la cafetería (6).
6. Calibración del instrumento. La exactitud de muchos instrumentos, especialmente los que son me-
cánicos o eléctricos, puede aumentar mediante la calibración periódica con un patrón de referencia.
7. Enmascaramiento. Esta estrategia clásica no garantiza la exactitud total de las mediciones, aunque
puede eliminar el sesgo diferencial que afecta a un grupo del estudio más que a otro. En un es-
tudio clínico con doble enmascaramiento, los pacientes y los observadores desconocen si se ha
asignado el fármaco activo o el placebo, y todas las inexactitudes en la medición del criterio de
valor_ación serán las mismas en los dos grupos.

La decisión del interés que se debe poner en aplicar cada una de estas siete estrategias para cada
una de las mediciones se basa , como ya se ha señalado en el caso de la precisión, en el juicio·del in-
vestigador. Las consideraciones son las posibles consecuencias que tendrá el grado previsto de
inexactitud sobre las conclusiones del estudio, y la viabilidad y el coste de la estrategia. Las dos
primeras estrategias (normalización y formación) se deben utilizar siempre, la calibración es nece-
saria en cualquier ~nstrumento que pueda cambiar a lo largo del tiempo, y el enmascaramiento es
esencial siempre que sea posible. ·

■ VALIDEZ

La validez es similar a la exactitud, aunque nos gusta pensar que añade una dimensión cualitativa
a la consideración del grado en que una medición representa el fenómeno de interés. Por ejemplo,
\ las mediciones de la creatinina y la cistatina C en la sangre, dos productos químicos excretados por
l ~ los riñones, podrían tener la misma exactitud (p. ej ., a menos del 1% de la concentración verdadera) ,
pero la cistatina C puede ser más vdlida como medición del funcionamiento renal, porque la con-
centración de creatinina también depende de la cantidad de músculo (7). En la figura 4-2 podemos
pensar que la validez describe si el centro de la diana está en la diana correcta.
38 Sección 1 • Ingredientes básicos

TABLA 4-4. ESTRATEGIAS PARA REDUCIR EL ERROR SISTEMÁTICO CON EL FIN DE


AUMENTAR LA EXACTITUD, CON ILUSTRACIONES DE UN ESTUDIO DE TRATAMIENTO
ANTIHIPERTENSIVO
ESTRATEGIA PARA ORIGEN DEL ERROR EJEMPLO DE ERROR EJEMPLO DE ESTRATEGIA
REDUCIR EL ERROR SISTEMÁTICO SISTEMÁTICO PARA EVITAR EL ERROR
SISTEMÁTICO

1. Normalización de los Observador Presión arterial (PA) Especificar la definici?m


métodos de medición diastólica elevada de operativa de la PA diastólica
en un manual de manera constante por el como el punto en que los
instrucciones uso del punto en que los ruidos dejan de oírse
ruidos se apagan·
Participante Lecturas elevadas de Especificar que el paciente
manera constante por se siente en una habitación
medir la PA tras subir las tranquila durante 5 min
escaleras hasta la consulta antes de la medición
2. Formación y Observador PA elevada de manera El formador comprueba la
aprobación del constante por no seguir exactitud de la lectura del
observador procedimientos observador con un
especificados en el manual estetoscopio
de tnstrucciones
3. Precisión del l_nstrumento Lecturas de PA elevadas Usar manguitos de PA de
instrumento de manera constante con mayor tamaño en pacientes
manguitos habituales en obesos
pacientes con brazos muy
grandes
4. Automatización Observador Tendencia consciente Usar dispositivos de
del instrumento o inconsciente del medición de PA automáticos
observador a lecturas de
PA menores en el grupo
aleatorizado al
tratamiento activo
Participante Aumento de la PA por la Usar dispositivos de
proximidad de un técnico medición de PA automáticos
atractivo ·
5. Realización de Participante Tendencia del participante Medir la concentración
mediciones discretas a sobrevalorar el urinaria del fármaco del
cumplimiento con el estudio
fármaco del estudio
6. Calibración del Instrumento Lecturas de PA Calibrar cada mes
instrumento consistentemente elevadas
por no tener bien calibrado
el manómetro
7. Enmascaramiento Observador Tendencia consciente Usar placebo con doble
o inconsciente del enmascaramiento para
observador a leer valores ocultar la asignación del
de PA inferiores en el grupo de estudio
grupo de tratamiento
activo
Participante Tendencia del participante Usar placebo con doble
que sabía que recibía el enmascaramiento para
fármaco activo a comunicar ocultar la asignación del
en exceso los efectos grupo de tratamiento
adversos

La validez a menudo no se puede evaluar con un patrón de referencia , particularmente en el caso


de mediciones dirigidas a fenómenos subjetivos y abstractos como el dolor y la calidad de vida. Los
científicos sociales han creado constructos cualitativos y cuantitativos para abordar la validez de
estos abordajes de medición.
Capítu lo 4 • Planificación de las mediciones: precis ión, exactitud y validez 39

• Validez del contenido. Examina hasta qué punto la evaluación representa todos los aspectos de
los fenómenos en estudio ; por ejemplo, incluyendo preguntas sobre la capacidad funcional social,
física , emocional e intelectual para evaluar la calidad de vida.
• Validez aparente. Parece inherentemente razonable, como la medición del dolor en una escala de
10 puntos o la clase social por los ingresos del hogar.
• Validez de constructo. Es el grado en el que un dispositivo de medición específico concuerda con
un constructo teórico; por ejemplo, una prueba de cociente intelectual debe distinguir entre per-
sonas que, según la teoría u otras medidas, tienen diferentes niveles de inteligencia.
• Validez predictiva. Es la capacidad que tiene la medición de predecir un resultado ; por ejemplo,
en qué medida un cuestionario diseñado para evaluar la depresión predice la pérdida de trabajo
o el suicidio.
• Validez relacionada con el criterio. Es el grado en que una nueva medida se relaciona con medidas
existentes y aceptadas.

El método general para medir fenómenos subjetivos y abstractos es comenzar haciendo una bús-
queda en la bibliografía y consultando con expertos en un intento de encontrar un instrumento
adecuado (generalmente un cuestionario) que ya haya sido validado. El uso de un instrumento como
ese tiene la ventaja de hacer los resultados de un nuevo estudio comparables a trabajos anteriores
dentro del mismo campo , y puede simplificar y reforzar el proceso de aplicación para financia-
ción y publicación de los resultados. Sus inconvenientes, no obstante, son que el proceso de validación
puede haber sido subóptimo , y que un instrumento retirado de la estantería puede estar anticuado
y no ser adecuado para la pregunta de la investigación.
· Si los instrumentos de que se dispone no son adecuados para las necesidades del estudio, el in-
vestigaáor puede decidir desarrollar un nuevo méto'do de medición y validarlo por sí mismo. Puede
ser un reto interesante e incluso llevar a una contribución notable a la bibliografía, aunque general-
mente hace falta mucho tiempo y esfuerzo (cap. 15). Es justo decir que el proceso es, a menudo , me-
nos concluyente de lo que la palabra «validación» implica.

■ OTRAS CARACTERÍSTICAS DE LOS MÉTODOS DE MEDICIÓN


Las mediciones deben ser lo suficientement( sensibles 1como para detectar diferencias en una carac-
terística que sea importante para el investigador. El grádo de sensibilidad que se precisa depende de
la pregunta del estudio . .Por ejemplo, un estudio sobre si un nuevo fármaco ayuda a las personas a
dejar de fumar podría usar una medición del resultado que no sea muy sensible al número de ciga-
rrillos fumados diariamente . Por otro lado, si la pregunta fuera el efecto que la reducción del conte-
nido d~ nicotina de los cigarrillos tiene sobre el número de cigarrillos fumados, el método sería
sensible a diferencias en los hábitos diarios de tan solo algunos cigarrillos.
Una medición ideal es específica , de manera que representa solo las características de interés. La
concentración de monóxido de carbono en el aire espirado e s urÍa medida del hábito tabáquiéo que
es tan solo moderadamente específica , porque también puede verse afectada por otras exposiciones,
como los gases de los automóviles. La especificidad global de la evaluación del hábito tabáquico
puede aumentarse añadiendo otras mediciones (como la descripción del propio paciente y la con-
centración de nico_tina sérica) que no están afectadas por la contaminación del aire.
Las mediciones deben ser adecuadas para los objetivos del estudio. Un estud10 sobre el estrés
como antecedente del infarto de miocardio, por ejemplo , debería tener en cuenta qué tipo de es-
trés (psicológico o físico, agudo o crónico) tiene interés ant~s de establecer las definiciones operati-
vas para medirlo.
· Las mediciones deben proporcionar una adecuadaf~~ribución_c!_eJasJespuestas,e n la muestra
en estudio. Una medida del estado funcional es más útil si produce valores que oscilan desde eleva-
do, en algunos participantes, hasta bajo, en otros. Un motivo importante para la realización de
comprobaciones previas es asegurarse de que las respuestas reales no se agrupan todas alrededor
de uno de los extremos de un posible intervalo de respuesta (cap. 17) .
Siempre que sea posible, las mediciones se deben diseñar de tal manera que se minimicen los
juicios subjetivos. La objetividad se consigue reduciendo la intervención del observador y utilizan-
40 Sección 1 • Ingredientes básicos

do instrumentos automáticos. Un peligro de estas estrategias, sin embargo , es la consiguiente visión


en túnel, que limita el ámbito de las observaciones y la capacidad de descubrir fenómenos no anti-
cipados. Esto se puede corregir incluyendo algunas preguntas abiertas y dando 1'1_ oportuni@d :2ara
)l®lÜr__g:_~ subjetivos y ~ alitativos, además de las principales medidas objetivas y cuantitativas.
Cuando se diseña un estudio, existe la tendencia a seguir añadiendo elementos que no son fun-
damentales para la pregunta de la investigación, pero que podrían tener interés. Es cierto que las
mediciones adicionales incrementan la probabilidad de obtener hallazgos interesantes, incluyendo
algunos que no se habían previsto el comienzo. Sin embargo, es importante tener en merite el valor
de la ~e!l_ci_a_y la parsimonia. Se debe diseñar el conjunto completo de mediciones para obtener
datos útiles con un coste asequible en cuanto a tiempo y dinero. La obtención de demasiada infor-
mación es un error frecuente que puede agotar a los participantes, superar al equipo que realiza las
mediciones, y dificultar la gestión y el análisis de los datos. La co;;_secuencia puede ser un estudio
más costoso , que, paradójicamente, tiene menos éxito a la hora de responder las principales pregun-
tas de la investigación.

■ MEDICIONES SOBRE MATERIALES ALMACENADOS


La investigación clínica conlleva realizar mediciones sobre personas en muchos dominios. Algunas
de estas mediciones solo pueden realizarse durante un contacto con el participante del estudio , pero
muchas pueden llevarse a cabo más tarde sobre muestras biológicas almacenadas para análisis quí-
mico y genético , o sobre imágenes de procedimientos radiográficos u otros archivados electrónicamen-
te (tabla 4-5).
Una ventaja de este almacenamiento es la oportunidad de reducir el coste del estudio realizando
mediciones solo en personas que, durante el seguimiento de control, tengan un criterio de valoración
de interés. Un método magnífico para hacer esto es el diseño de casos y testigos anidado (cap . 8),
especialmente si se pueden obtener mediciones pareadas con enmascaramiento en un único lote
analítico , lo que elimina el componente de error aleatorio inducido por las diferencias entre lotes .
Este abordaje también tiene la ventaja de que los avances científicos varios años después del comien-
zo del estudio pueden llevar a nuevas ideas y técnicas de medición que se puedan emplear posterior-
mente, financiadas por subvenciones recién solicitadas.
El creciente interés en la investigación aplicada (cap . 2) aprovecha nuevas medidas que han
extendido ampliamente la investigación clínica, por ejemplo, en las áreas de genética y epidemio-
logía molecular (8, 9) y los estudios de imagen. Las mediciones en muestras que contienen ADN
(p . ej ., saliva y sangre) pueden proporcionar información sobre genotipos que contribuyen a la
aparición de enfermedades o modifican la respuesta de los pacientes al tratamiento . Las determina-
ciones séricas pueden usarse para estudiar causas moleculares o consecuencias de la enfermedad;

TABLA 4-5. TIPOS HABITUALES DE MEDICIONES QUE PUEDEN REALIZARSE


EN MATERIALES ALMACENADOS
TIPO DE MEDICIÓN EJEMPLOS MATERIAL PARA MED ICIÓN POSTERIOR

Historia clínica Diagnósticos, tratamientos, Historias clínicas en papel


operaciones, síntomas, hallazgos o electrónicas
físicos
Factores psicosociales Depresión, antecedentes familiares Grabaciones de voz, cintas de vídeo
Antropométricas Altura, peso, composición corporal Fotografías
Medidas bioquímicas Colesterol sérico, fibrinógeno Suero, plasma, orina, muestras
plasmático de anatomía patológica
Pruebas genéticas/ Polimorfismos mononucleotídicos ADN
moleculares

Imagen Densidad ósea, calcio en coronarias Rayos X, TC, RM


Electromecánicas Arritmia, cardiopatía congénita Electrocardiograma, ecocardiograma
Capítu lo 4 • Planificación de las mediciones: precisión, exactitud y validez 41

por ejemplo, los marcadores inflamatorios ofrecen información útil sobre la fisiopatología de mu-
chas enfermedades. Es importante consultar con expertos sobre los tubos de recogida de muestras
y las condiciones de almacenamiento adecuados, con el fin de mantener la calidad de las mues-
tras y hacer que estén disponibles para una amplia variedad de usos posteriores. También es impor-
tante obtener el consentimiento informado de los participantes, que incluya la extensión de los
posibles usos de las muestras .

■ RESUMEN
l. Las variables pueden ser numéricas y categóricas. Las variables numéricas pueden ser continuas
(se cuantifican en una escala infinita) o discretas (se cuantifican en una escala finita, como los
números enteros); las variables categóricas pueden ser nominales (desordenadas) u ordinales
(ordenadas), y las que tienen tan solo dos categorías se denominan dicotómicas .
2. Las variables que contienen más información confieren más potencia o permiten menores ta-
maños de la muestra, de acuerdo con la siguiente jerarquía: variables continuas > variables
discretas numéricas >variables ordinales > variables nominales y dicotómicas.
3. La precisión de una determinación (es decir, la reproducibilidad de medidas repetidas) es· otro
importante determinante de la potencia y el tamaño de la muestra. Se ve disminuida por el error
aleatorio (azar) debido a tres fuentes de variabilidad: del observador, del participante y del
instrumento.
4. Las estrategias para aumentar la precisión que deben formar parte de cada estudio son definir
de forma operativa y normalizar los métodos en un manual operativo . Otras estrategias que
con frecuencia son útiles son la formación y la certificación de los observadores , el perfeccio-
namiento y la automatización de los instrumentos , y la repetición (utilizar la media de medi-
ciones repetidas).
5. La exactitud de una medición es el grado en el que se aproxima a un patrón de referencia. La
exactitud disminuye por el error sistemático (sesgo) a partir de las tres mismas fuentes: obser-
vador, participante e instrumento .
6. Las estrategias para aumentar la exactitud incluyen todas las enumeradas con respecto a la
precisión, con la excepción de la repetición. Además, la exactitud se fomenta por medidas no
molestas, calibración y (en comparaciones entre grupos) enmascaramiento .
7. La validez es el grado en el que una medida representa los fenómenos de pretende medir; se
utiliza habitualmente para variables más abstractas y subjetivas, y se evalúan mediante la validez
de contenido , la validez aparente , la validez de constructo , la validez predictiva y la validez re-
lacionada con el criterio .
8. LaJ mediciones individuales deben ser sensibles, específicas, apropiadas y objetivas , y deben
dar lugar a un intervalo de valores . En conjunto, deben ser amplias pero parcas , atendiendo a
la pregunta de la investigación con un coste moderado en cuanto a tiempo y dinero.
9. Los investigadores deben considerar almacenar imágenes y otros materiales para posteriores
determinaciones que puedan aprovecharse de nuevas tecnologías a medida que se desarrollen,
y de la eficacia de diseños de casos y testigos anidados .
42 Sección 1 • Ingredientes básicos

APÉNDICE 4

■ DEFINICIÓN OPERATIVA DE UNA MEDICIÓN DE LA FUERZA DE PRENSIÓN


El manual operativo describe el método para medir y registrar los resultados de todas las determi-
naciones que se realizan en el estudio. Este ejemplo, el del manual operativo del Study of Osteoporo-
tic Fractures (Estudio de fracturas osteoporóticas), describe el uso de un dinamómetro para medir
fuerza de prensión. Para normalizar las instrucciones de examinador a examinador y de participan-
te a participante, el protocolo incluye un documento (guion) de instrucciones para que el partici-
pante lea palabra por palabra.

■ PROTOCOLO PARA MEDIR FUERZA DE PRENSIÓN CON EL DINAMÓMETRO


La fuerza de prensión debe medirse en las dos manos. El mango debe ajustarse de modo que el par-
ticipante sostenga el dinamómetro confortablemente. Coloque el dinamómetro en la mano derecha
con el dial dirigido hacia la palma. El brazo del participante debe estar flexionado 90º en el codo , con
el antebrazo paralelo al suelo.

l. Demostrar la prueba al' participante. Mientras se demuestra, use la siguiente descripción: «Este
aparato mide la fuerza del brazo y la parte superior del cuerpo. Mediremos la fuerza de prensión
en ambos brazos. Le demostraré cómo se realiza. Doble el codo formando un ángulo de 90º, con
el antebrazo paralelo al suelo. No deje que el brazo toque el costado. Baje el aparato y apriete lo
más fuerte que pueda mientras cuento hasta tres. Una vez que el brazo esté totalmente extendi-
do, puede aflojar su prensión».
2. Permita un ensayo con cada brazo, empezando con el derecho si el participante es diestro. En el
segundo ensayo, registre los kilogramos de fuerza del dial hasta el punto de 0,5 kg más próximo.
3. Vuelva a colocar en cero el dial. Repita el procedimiento con el otro brazo.

El brazo no debe entrar en contacto con el cuerpo. La acción de prensión debe ser un apretón
lento y sostenido, en lugar de un apretón explosivo.

BIBLIOGRAFÍA
l. Michaelsson K, Baron JA, Snellman G, et al. Plasma vitamin D and mortality in older men: a community-based
prospective cohort study. Am] Clin Nutr 2010;92:841- 848.
2. Ware JE, Gandek B Jr. Overview of the SF-36 health survey and the International Quality of Life Assessment Pro-
ject. J Clin Epidemiol 1998;51:903-912.
3. Bland JM, Altman DG. Measurement error and correlation coefficients. BMJ 1996;313:41-42; also, Measurement
error proportional to the mean. BMJ 1996;313:106.
4. Newman TB, Kohn M. Evidence-based diagnosis . New York: Cambridge University Press, 2009.
5. Cohenj. A coefficient of agreement for nominal scales. Educ Psychol Meas 1960;20:37- 46.
6. Filion K, Kukanich KS, Chapman B, et al. Observation-based evaluation of hand hygiene practices and the effects
of an intervention ata public hospital cafetería. Am] Infect Contrnl 2011;39:464-470.
7. Peralta CA, Shlipak MG, Judd S, et al. Detection of chronic kidney disease with creatinine, cystatin C, and urine
albumin-to-creatinine ratio and association with progression to end-stage renal disease and mortality JAMA
2011;305: 1545- 1552.
8. Guttmacher AE, Collins FS. Genomic medicine: a primer: NEJM 2002;347:1512- 1520.
9. Healy DG. Case-control studies in the genomic era: a clinician's guide. The Lancet Neurology 2006;5:701-707.
CAPITULO D
Preparación para el cálculo
del tamaño de la muestra: hipótesis
y principios subyacentes
Warren S. Browner, Thomas B. Newman y Stephen B. Hulley

D espués de que el investigador ha decidido a quién y qué va a estudiar, y el diseño que va a usar,
deberá decidir cuántos participantes integrarán la muestra. Incluso el estudio de ejecución más ri-
gurosa puede fracasar en la respuesta a su pregunta de investigación si el tamaño de la muestra es
demasiado pequeño. Por otro lado, un estudio con una muestra demasiado grande resultará más
difícil y costoso de lo necesario. El objetivo de la planificación del tamaño de la muestra consiste en
calcular un número adecuado de participantes para un diseño de estudio concreto.
Aunque constituyen una guía útil, los cálculos del tamaño de la muestra dan una impresión en-
gañosa de•. objetividad estadística. Son solo igual de exactos que los datos y cálculos en los que se
; basan, que, a menudo, son simplemente supuestos informados. Debe considerarse que la planifica-
ción del tamaño de la muestra es una forma mate~ática de realizar un cálculo aproximado. A me-
nudo demuestra que el diseño de investigación no es posible o que se necesitan diferentes variables
predictivas o de respuesta. Por lo tanto , el tamaño de la muestra debe calcularse al principio de la
fase de diseño de un estudio, cuando todavía es posible realizar cambios importantes.
Antes de establecer los métodos específicos para calcular el tamaño de la muestra para varios di-
seños de investigación habituales, en el capítulo 6, dedicaremos algún tiempo a considerar los prin-
cipios subyacentes . Los lectores que encuentren algunos de estos principios confusos disfrutarán
descubriendo que la planificación del tamaño de la muestra no requiere un dominio total. Sin em-
bargo, igual que una receta tiene más sentido si el cocinero está algo familiarizado con los ingredien-
tes , los cálculos del tamaño de la muestra son más senillos si el investigador conoce los conceptos
básicos. Incluso si tiene previsto pedir a un amigo bioestadístico que calcule el tamaño de la muestra
de su estudio, tener algunos conocimientos de cómo funciona el proceso le permitirá participar más
activa~~nte en la consideración de los supuestos y estimaciones implicados en el cálculo.

■ HIPÓTESIS
El proceso comienza reformulando la pregunta de la investigación como hipótesis de investigación,
que resume los principales elementos del estudio: la muestra y las variables predictivas y de respues-
ta. Por ejemplo, suponga que su pregunta de la investigación es que las personas que realizan cruci-
gramas tienen menos probabilidad de presentar demencia. Su hipótesis de investigación tendría que
especificar la muesÚa (p. ej., personas que viven en una comunidad de jubilados que tienen una
función cognitiva normal), la variable predictiva (realizar crucigramas al menos una vez·a la semana
en promedio) y la variable de respuesta (una puntuación anómala en una prueba estandarizada de
función cognitiva después de 2 años de seguimiento).
Las hipótesis en sí mismas no son necesarias en los estudios descriptivos, que describen cómo se
distribuyen las características en una población, como la prevalencia de una función cognitiva anó-
mala en la comunidad de jubilados. (Esto no significa, sin embargo, que no vaya a necesitar calcular
el tamaño de una muestra para un estudio descriptivo , sino que los métodos para hacerlo, descritos
en el capítulo 6, son diferentes.) Se necesitan las hipótesis en estudios que usarán pruebas de signi-.
ficación estadística para comparar hallazgos entre grupos, como si los ancianos que realizan cruci-
gramas con frecuencia tienen menos probabilidad de llegar a tener demencia. Debido a que la mayor
43
44 Sección 1 • Ingredientes bás icos

parte de los estudios de observación y todos los estudios experimentales plantean preguntas de in-
vestigación que conllevan la realización de comparaciones, la mayor parte de los estudios necesita
especificar, al menos , una hipótesis. Si alguno de los siguientes términos aparece en la pregunta de
la investigación, el estudio no será simplemente descriptivo , y deberá formularse una hipótesis de la
investigación: mayor que, menor que, más probable que, asociado a, comparado con, relacionado
con, similar, correlacionado con, causa y produce.

Características de una buena hipótesis


Una buena hipótesis debe basarse en una buena pregunta de investigación. También debe ser senci-
lla y específica, y se debe describir por adelantado.

Sencilla frente a compleja


Una hipótesis sencilla contiene una variable predictiva y una de respuesta (o dependiente) :

En pacientes con diabetes de tipo II, un estilo de vida sedentario se asocia a mayor riesgo de pre-
sentar proteinuria.

Una hipótesis compleja contiene más de una variable predictiva:

En pacientes con diabetes de tipo II , un estilo de vida sedentario y el consumo de alcohol se aso-
cian -a mayor riesgo de presentar proteinuria.

O más de una variable de respuesta:

En pacientes con diabetes de tipo II , el consumo de alcohol se asocia a mayor riesgo de presentar
proteinuria y neuropatía.

Las hipótesis complejas como estas no se comprueban fácilmente con una sola prueba estadística,
y se abordan más fácilmente como dos o más hipótesis sencillas. A veces, no obstante, puede utili-
zarse una variable predictiva o de respuesta combinada:

En pacientes con diabetes de tipo II , el consumo de alcohol se asocia a mayor riesgo de presentar
una complicación microvascular (como proteinuria, nefropatía o retinopatía).

En este ejemplo, el investigador ha decidido qué ocurre si un participante tiene una complicación,
no qué tipo de complicación se produce.

Específica frente a imprecisa


Una hipótesis específica no deja ambigüedad sobre los participantes y las variables, ni sobre cómo
se aplicará la prueba de significación estadística. Usa definiciones operativas concisas, que resumen
la naturaleza y el origen de los participantes y el modo en que se medirán las variables:

El uso previo de antidepresivos tricíclicos durante al menos 6 semanas es más frecuente en pa-
cientes ingresados por infarto de miocardio en el hospital Longview que en los testigos ingresados
por neumonía.

La frase es larga, pero comunica la naturaleza del estudio de una forma clara, que reduce al mínimo
cualquier oportunidad de probar algo que sea un poco diferente una vez que se han examinado los
hallazgos del estudio. Sería incorrecto sustituir, durante la fase de análisis del estudio, una medida di-
ferente de la variable predictiva, como la depresión comunicada por el propio paciente, sin considerar
el tema del estudio de múltiples hipótesis (un punto que se comentará al final del capítulo) . General-
mente, para mantener concisa la hipótesis de la investigación, algunos de estos detalles se dejan claros
en el plan de estudio, en lugar de establecerse en la hipótesis de investigación. Pero deben estar siempre
claros en la concepción del estudio por parte del investigador, y deben explicarse en el protocolo.
Capítu lo 5 • Preparación para el cá lculo de l tamaño de la muestra : hipótesis y princ ipios 45

Con frecuencia, es evidente, a partir de la hipótesis de investigación, si la variable predictiva y la


variable de respuesta son dicotómicas, continuas o categóricas. Si no está claro, ·puede especificarse
el tipo de variables:

En hombres no obesos de 35 a 59 años de edad, la participación al menos una vez a la semana en


una liga de bolos se asocia a mayor riesgo ele presentar obesidad (índice de masa corporal
> 30 kg/m 2 ) durante 10 años de seguimiento.

Una vez más, si la hipótesis de investigación llega a ser difícil de manejar, pueden omitirse las
definiciones siempre que se aclaren en algún otro lugar.

Anticipadamente frente a con posterioridad


La hipótesis debe plantearse por escrito al principio del estudio. Esto mantendrá el esfuerzo ele la
investigación centrado en el objetivo primario. Una sola hipótesis preestablecida también crea una
base más fuerte para interpretar los resultados del estudio que varias hipótesis que surgen como
resultado de inspeccionar los datos. Las hipótesis que se formulan tras el examen ele los datos son
una forma de probar múltiples hipótesis, lo que puede llevar a asignar una importancia excesiva a
los hallazgos.

Hipótesis nula y alternativa


Advertencia: si no ha recibido nunca educación formal en estadística, o si ha olvidado lo que apren-
dió, los pr:óximos párrafos pueden no tener sentido las primeras veces que los lea. Intente superar la
' terminología, aunque parezca difícil o estúpida.
El p~oceso comienza reformulando la hipótesis de la investigación para tener una hipótesis que
proponga que no hay diferencias entre los grupos que se comparan. Esta reformulación, denomina-
da hipótesis nula , será la base formal del estudio de la significación estadística cuando analice los
datos al final del estudio. Al aceptar que realmente no hay asociación en la población, las pruebas
estadísticas ayudarán a estimar la probabilidad de que una asociación observada en un estudio se
pueda deber al azar.
Por ejemplo, suponga que su pregunta de la investigación es si beber agua del grifo no purificada
se asocia a mayor riesgo de presentar enfermedad ulcerosa péptica (tal vez debido a una mayor pro-
babilidad ele contaminación por H. pylori). La hipótesis nula, que no hay asociación entre las varia-
bles predictiva y de respuesta en la población, sería:

Las p ersonas de Phnom Penh que beben agua del grifo tienen el mismo riesgo de presentar enfer-
meq~d ulcerosa péptica que las que beben agua embotellada.

La proposición de que hay una asociación ( «Las personas ele Phnom Penh que beben agua del
grifo tienen mayor riesgo de presentar enfermedad ulcerosa péptica que las que beben agua embo-
tellada») se denomina hipótesis alternativa. La hipótesis alternativa no se puede estudiar directa-
mente; se acepta por defecto si la prueba de significación estadística rechaza la hipótesis nula (v. más
adelante).
Hacen falta otros términos confusos. La hipótesis alternativa puede ser unilateral o bilateral. Una
hipótesis alternati~a unilateral especifica la dirección de la asociación entre las variables predictiva
y de respuesta. La hipótesis de que beber agua del grifo aumenta el riesgo de enfermedad ulcerosa
péptica (en comparación con el agua embotellada) es una hipótesis unilateral. Una hipótesis alter-
nativa bilateral afirma únicamente que hay una asociación; no especifica la dirección. Por ejemplo,
«beber agua del grifo se asocia a un riesgo diferente de enfermedad ulcerosa péptica (mayor o menor)
que beber agua embotellada».
Las hipótesis unilaterales pueden ser apropiadas en determinadas circunstancias, como cuando
solo es clínicamente importante o biológicamente significativa una dirección para una asociación.
Un ejemplo lo constituye la hipótesis unilateral de que un nuevo fármaco para la hipertensión tiene
más probabilidad de causar exantema que un placebo; no suele merecer la pena comprobar la posi-
bilidad de que el fármaco cause menos exantema que el placebo (sin embargo, lo merecería si el
46 Sección 1 • Ingredientes básicos

fármaco tuviera propiedades antiinflamatorias). Una hipótesis unilateral también puede ser apropia-
da cuando existen pruebas importantes, a partir de estudios previos, de que es improbable que se
produzca una asociación en una de las dos direcciones, como en un estudio en el que se comprobó
si fumar cigarrillos afecta al riesgo de cáncer cerebral. Debido a que el tabaquismo se ha asociado a
mayor riesgo de muchos tipos diferentes de cáncer, podría bastar una hipótesis alternativa unilateral
(p . ej., que fumar aumenta el riesgo de cáncer cerebral) . Sin embargo, los investigadores deben co-
nocer que muchas hipótesis bien fundamentadas (p. ej. , que el tratamiento con 13 caroteno disminui-
rá el riesgo de cáncer de pulmón , o que el tratamiento con fármacos que reducen el número de ex-
trasístoles ventriculares disminuirá la muerte súbita entre los pacientes con arritmias ventriculares)
se tornarán erróneas cuando se estudien en ensayos aleatorizados. Efectivamente, en estos dos ejem-
plos, los resultados de ensayos bien realizados revelaron un efecto estadísticamente significativo de
dirección opuesta a la que los investigadores esperaban encontrar (1-3). En general, creemos que la
mayoría de las hipótesis alternativas deben ser bilaterales.
Es importante tener en cuenta la diferencia entre la hipótesis de investigación, que habitualmente
es unilateral, y la hipótesis alternativa, que se usa cuando se planifica el tamaü.o de la muestra y que
casi siempre es bilateral. Por ejemplo, suponga que la hipótesis de investigación es que el uso recurren-
te de antibióticos durante la infancia se asocia a mayor riesgo de enfermedad inflamatoria intestinal.
Esa hipótesis especifica la dirección del efecto anticipado, por lo que es unilateral. ¿Por qué usar una
hipótesis alternativa bilateral al planificar el ta1i1aü.o de la muestra? La respuesta está en que la mayor
parte de las veces ambos lados de la hipótesis alternativa (es decir, iñayor riesgo o menor riesgo) son
interesantes, y los investigadores podrían desear publicar los resultados independientemente de cuál
fuera la dirección observada. El rigor estadístico precisa que el investigador escoja entre hipótesis uni-
laterales y bilaterales antes de analizar los datos; el cambio de una hipótesis bilateral a otra unilateral
para reducir el valor de p (v. más adelante) no es correcto. Además (y esta es probablemente la razón
por la que las hipótesis alternativas bilaterales son mucho más frecuentes), la mayor parte de los revi-
sores de financiaciones y manuscritos esperan hipótesis-bilaterales y critican los enfoques unilaterales.

■ PRINCIPIOS ESTADÍSTICOS SUBYACENTES


Una hipótesis de investigación, como la que afirma que 15 min o más de ejercicio al día se asocian a
menor glucemia media en ayunas en mujeres de mediana edad con diabetes, es verdadera o falsa en
el mundo real. Como un investigador no puede estudiar a todas las mujeres de mediana edad con
diabetes, deberá comprobar la hipótesis en una muestra de esa población objetivo. Como se seü.ala en
la figura 1-5, siempre se necesitará extraer inferencias sobre los fenómenos en la población a partir de
sucesos observados en la muestra. Lamentablemente, tan solo por azar, en ocasiones, lo que ocurre
en una muestra no refleja lo que habría ocurrido si se hubiera estudiado la población completa.
De algún modo, el problema del investigador es similar al problema al que se enfrenta un jurado
que juzga a un acusado (tabla 5-1). La verdad absoluta sobre si el acusado cometió el delito no suele
poder determinarse. Antes bien, el jurado empieza presuponiendo la inocencia: el acusado no come-
tió el delito. El jurado debe decidir si existen pruebas suficientes para rechazar la presunta inocencia
del acusado; lo habitual se conoce como más allá de una duda razonable. Un jurado puede, no obs-
tante, equivocarse, condenando a un acusado inocente o no condenando a uno que sea culpable.
De modo similar, el investigador empieza suponiendo la hipótesis nula de ausencia de asociación
entre las variables predictiva y de respuesta en la población. Según los datos recopilados en su mues-
tra, usa pruebas estadísticas para determinar si existen pruebas suficientes para rechazar la hipótesis
nula a favor de la hipótesis alternativa de que existe una asociación en la población. Lo habitual (la
referencia) para estas pruebas se denomina nivel de significación estadística.

Errores de tipo I y de tipo 11


Como un jurado, un investigador puede llegar a una conclusión errónea. A veces, por casualidad,
tan solo una muestra no es representativa de la población, y los resultados de la muestra no reflejan
la realidad en la población, dando lugar a una inferencia errónea. Se produce un error de tipo I
(positivo falso) si un investigador rechaza una hipótesis nula que es realmente cierta en la población;
se produce un error de tipo II (negativo falso) si el investigador no rechaza una hipótesis nula que
Ca pítulo 5 • Preparación para el cál culo del tam añ o de la muestra: hipótesis y principios 47

TABLA 5-1. ANALOGÍA ENTRE LAS DECISIONES DE UN JURADO Y L~S PRUEBAS


ESTADÍSTICAS .
DECISIÓN DE UN JURADO PRUEBA ESTADÍSTICA

Inocencia: el acusado no falsificó dinero Hipótesis nula: no existe asociación entre el caroteno
de la dieta y la incidencia de cáncer de colon en la
población
Culpabilidad: el acusado falsificó dinero Hipótesis alternativa: existe una asociación entre el
caroteno de la dieta y la incidencia de cáncer de colon
Referencia para rechazar la inocencia: Referencia para rechazar la hipótesis nula: nivel de
más allá de una duda razonable significación estadística (a)
Juicio correcto: condenar a un falsificador Inferencia correcta: concluir que existe una asociación
entre el caroteno de la dieta y el cancer de colon cuando
existe en la población
Juicio correcto: absolver a una persona Inferencia correcta: concluir que no ' existe asociación
inocente entre el caroteno y el cáncer de colon cuando no existe
Juicio incorrecto: condenar a una persona Inferencia incorrecta (error de tipo 1): concluir que existe
inocente una asociación entre el caroteno de la dieta y el cáncer
de colon cuando en realidad no hay ninguna
Juicio incorrecto: absolver a un falsificador Inferencia incorrecta (error de tipo 11): concluir que no
existe asociación entre el caroteno de la dieta y el cáncer
de colon cuando en rea lidad existe

' realmente es falsa en la población. Aunque estos errores nunca pueden evitarse totalmente, el inves-
tigadof puede reducir su probabilidad aumentando el tamaño de la muestra (cuanto mayor sea la
muestra , menos probable será que difiera notablemente de la población) , o manipulando el diseño
o las determinaciones de otros modos que se comentarán.
' En este capítulo y en el siguiente solo se abordarán modos de reducir los errores de tipo I y de
tipo II debidos a la variación por el azar, también conocidos como error aleatorio. También pueden
producirse resultados positivos falsos y negativos falsos debido a sesgo , pero estos errores por sesgo
no suelen denominarse errores de tipo I y de tipo II. Son errores molestos porque pueden ser difíci-
les de detectar, y generalmente no pueden cuantificarse usando métodos estadísticos ni evitarse
aumentando el tamaño de la muestra. (En los caps. 1, 3, 4 y 7-12, se exponen modos de reducir los
errores debidos al sesgo .)

Magnitud del efecto


La prol?abilidad de que un estudio vaya a ser capaz de detectar una asociación entre una variable
predictiva y una variable de respuesta en una muestra depende de la magnitud real de esa asociación
en la población. Si es grande (p. ej ., una diferencia de 20 mg/dl de la glucemia basal), será fácil de-
tectarlo en la muestra. Por el contrario, si el tamaño de la asociación es pequeño (una diferencia de
2 mg/dl), será difícil detectarlo en la muestra.
Desgraciadamente, el investigador casi nunca conoce la magnitud exacta de la asociación; ¡uno
de los objetivos del estudio es calcularla! Más bien, el investigador debe escoger la magnitud de la
asociación en la p~blación que desea detectar en la muestra. Esa cantidad es lo que se conoce como
magnitud del efecto . Seleccionar una adecuada magnitud del efecto es el aspecto más difícil de la
planificación del tamaño de la muestra (4) . El investigador debe intentar encontrar datos de estudios
anteriores en áreas relacionadas para crear un supuesto informado sobre una razonable magnitud
del efecto. Por otro lado, puede escoger el tamaño de efecto más pequeño que, en su opinión, sería
clínicamente significativo (p. ej., una reducción de 10 mg/dl en la glucemia en ayunas).
Por supuesto , desde el punto de vista de la salud pública, ihcluso una reducción de la glucemia
en ayunas de 2 _o 3 mg/dl sería importante, especialmente si fuese fácil de conseguir. La elección de
la magnitud del efecto es siempre arbitraria, y las consideraciones de viabilidad son siempre de ca-
pital importancia. Efectivamente, cuando el número de participantes disponibles o asequibles es bajo,
el investigador puede tener que trabajar de forma retrospectiva (cap. 6) para determinar la magnitud
del efecto que podrá detectar, dado el número de pacientes que puede estudiar.
48 Sección 1 • Ingredientes básicos

Muchos estudios tienen varias magnitudes del efecto, porque miden varias variables predictivas
y de respuesta diferentes. Cuando se diseña un estudio, se debe determinar el tamaño de la muestra
utilizando la magnitud del efecto deseada para la hipótesis más importante; podrán calcularse en-
tonces las magnitudes del efecto detectables para otras hipótesis. Si existen varias hipótesis de
importancia similar, el tamaño de la muestra para el estudio deberá basarse en cualquiera de las hi-
pótesis que necesite la muestra mayor.

a, /3 y potencia
Tras completar un estudio, el investigador usa pruebas estadísticas para intentar rechazar la hipóte-
sis nula en favor de su alternativa, casi del mismo modo que un fiscal intenta convencer al jurado
para que rechace la inocencia a favor de la culpabilidad. Dependiendo de si la hipótesis nula es
verdadera o falsa en la población en estudio, y suponiendo que el estudio carezca de sesgo, se pueden
producir cuatro situaciones (tabla 5-2). En dos de ellas, los hallazgos en la muestra y en la realidad
en la población coinciden, y la inferencia del investigador será correcta. En las otras dos situaciones,
se ha producido un error de tipo I o de tipo II, y la inferencia será incorrecta.
El investigador establece, antes de hacer el estudio, la máxima probabilidad que tolerará de rea-
lizar errores de tipo I y II. La máxima probabilidad de cometer un error de tipo I (rechazar la hipó-
tesis nula cuando en realidad es cierta) se denomina a (alfa). Otro nombre para a es nivel de signi-
ficación estadística .
Si, por ejemplo, a un estudio de los efectos del ejercicio sobre la glucemia en ayunas se le asigna
un valor a de 0,05, el investigador ha establecido el 5% como la probabilidad máxima de rechazo
incorrecto de la hipótesis nula si esta es cierta (con lo que se infiere que el ejercicio y la glucemia en
ayunas están asociados en la población cuando, de hecho, no lo están) . Este es el nivel de dudara-
zonable que el investigador estará dispuesto a aceptar cuando use pruebas estadísticas para analizar
los datos una vez completado el estudio.
La probabilidad de cometer un error de tipo •Il (no rechazar la hipótesis nula cuando en realidad
es falsa) se denomina {3 (beta). La cantidad O -/3) se denomina potencia, y es la probabilidad de re-
chazar correctamente la hipótesis nula en la muestra si el efecto real en la población es igual (o mayor)
que la magnitud del efecto.
Si se establece el valor de /3 en 0,10 , el investigador ha decidido que está dispuesto a aceptar un
riesgo del 1 % de perder una asociación de una magnitud del efecto concreta si existe. Esto represen-
ta una potencia de 0,90, es decir, una posibilidad del 9 % de encontrar una asociación de ese tamaño
o mayor. Por ejemplo, suponga que el ejercicio realmente conduce a una reducción promedio de
20 mg/dl de la glucemia en ayunas en mujeres diabéticas de la población. Si el investigador repitiera
el estudio con la misma potencia del 9 % en numerosas ocasiones, esperaríamos que en 9 de cada
10 estudios rechazara correctamente la ·hipótesis nula con el nivel de alfa especificado (0,05), y
concluiría que el ejercicio se asocia a la glucemia basal. Esto no significa que el investigador no
pudiera detectar una magnitud del efecto menor en la población, por ejemplo, una reducción de
15 mg/dl; sencillamente significa que tendrá una probabilidad menor del 9 % de hacerlo.
De forma ideal, a y {3 deberían ser próximos a O, lo que minimizaría la posibilidad de obtener
resultados positivos falsos y negativos falsos. Sin embargo, reducirlos requiere que se aumente el
tamaño de la muestra, o una de las otras estrategias que se discuten en el capítulo 6. La planificación
del tamaño de la muestra pretende escoger una cantidad suficiente de participantes para mantener
ay {3 en un nivel aceptablemente bajo sin que el estudio sea innecesariamente caro y difícil.

TABLA 5-2. REALIDAD EN LA POBLACIÓN FRENTE A LOS RESULTADOS


EN LA MUESTRA DEL ESTUDIO: LAS CUATRO POSIBILIDADES
REALIDAD EN LA POBLACIÓN

RESULTADOS EN LA MUESTRA ASOCIACIÓN ENTRE PREDICTIVA SIN ASOCIACIÓN ENTRE


DEL ESTUDIO Y DE RESPUESTA PREDICTIVA Y DE RESPUESTA

Rechazar la hipót esis nul a Correct o Error de tipo 1


No rec hazar la hipót esis nula Error de tipo 11 Correcto
Capítu lo 5 • Preparación para el cálcu lo del tamaño de la muestra: hipótesis y princ ipios 49

Muchos estudios establecen a en 0,05 y f3 en 0,20 (una potencia de 0,80). Son valores arbitrarios,
y a veces se utilizan otros: los límites convencionales para a están entre 0,01 y 0;10, y los de f3 entre
0,05 y 0,20. En general, el investigador debe usar un valor de a bajo cuando la pregunta de la inves-
tigación hace que sea particularmente importante evitar un error de tipo I (positivo falso): por
ejemplo, al probar la eficacia de un fármaco que puede ser peligroso. Debe usar un valor de f3 bajo
(y una magnitud del efecto pequeña) cuando es especialmente importante evitar un error de tipo II
(negativo falso): por ejemplo, al tranquilizar a las personas de que vivir cerca de un vertedero de
residuos tóxicos no es peligroso.

Valor de probabilidad {valor de p)


Ahora es el momento de volver a la hipótesis nula , cuya finalidad subyacente finalmente quedará
clara. La hipótesis nula tiene una única función: actuar como «hombre de paja». Se supone que es
verdadera para poder rechazarla como falsa con una prueba estadística. Cuando se analizan los datos,
se utiliza una prueba estadística para determinar el valor de p, que es la probabilidad de observar
(únicamente por el azar) un efecto tan grande, o mayor, como el que se vería en el estudio si la hi-
pótesis nula realmente fuera cierta. Lo fundamental es reconocer que si la hipótesis nula es verdade-
ra, y si realmente no hay diferencias en la población, entonces la única forma en la que el estudio
habría encontrado una diferencia en la muestra sería por azar.
Si esa probabilidad es pequeña, entonces se puede rechazar la hipótesis nula de ausencia de dife-
rencia a favor de la hipótesis alternativa, que sí hay diferencia. Con «pequeño » nos referimos a un
valor de p menor que a, el nivel de significación estadística predeterminado.
Sin embargo, un resultado «no significativo» (uno con un valor de p mayor que a no indica que
; no existe asociación en la población; solo significa que el resultado observado en la muestra es pe-
queño lomparado con el que podría haberse producido solo por azar. Por ejemplo, un investigador
podría haber encontrado que las mujeres que practicaban deportes colegiales tenían el doble de
probabilidad de precisar una sustitución total de cadera en fases posteriores de la vida que aquellas
que no lo hacían, aunque, como el número de sustituciQnes de cadera en el estudio fue bajo , este
efecto aparente tenía un valor de p de tan solo 0,08. Esto significa que incluso si la actividad física y
la lesión de cadera no estaban asociadas en la población, habría una probabilidad del 8% de encontrar
una asociación al menos tan grande como la que observó el investigador únicamente por azar. Si el
investigador había establecido el nivel de significación como un valor de a bilateral de 0,05 , debería
haber concluido que la asociación en la muestra imo era estadísticamente significativa».
Podría ser tentador que el investigador cambiara su idea y pasara a un valor de p unilateral, y des-
cribiera que «p = 0,04». Una posibilidad mejor sería describir los resultados con el intervalo de con-
fianza al 9%, y comentar que «los resultados, aunque sugestivos de una asociación, no alcanzaron la
signific!lción estadística (p = 0,08)». Esta solución mantiene la integridad del diseño de hipótesis bi-
lateral original, y también reconoce que la significación estadística no es una situación de todo. o nada.

Lados de la hipótesis alternativa


Recuerde que una hipótesis alternativa tiene realmente dos lados, pudiéndose comprobar cada uno
o ambos en la muestra usando pruebas estadísticas unilaterales o bilaterales 1 . Cuando se utiliza
una prueba estadística bilateral, el valor de p incluye la probabilidad de cometer un error de tipo I
en cada una de las qos direcciones, lo que supone aproximadamente duplicar la probabilidad en una
u otra dirección solamente. Es fácil pasar de un valor de p unilateral a un valor de p bilateral, y
viceversa. Un valor de p unilateral de 0,05, por ejemplo, suele ser lo mismo que un valor p bilateral
de 0,10. (Algunas pruebas estadísticas son simétricas, y es por lo que decimos «suele».)
En esas raras situaciones en las que un investigador solo está interesado en uno de los lados de la
hipótesis alternativa (p. ej., un estudio de ausencia de inferioridad diseñado para determinar si un
nuevo antibiótico no es menos eficaz que otro que se utiliza actualmente; v. cap. 11), el tamaño de
la muestra debe calcularse según ello. Sin embargo, nunca debe usarse una hipótesis unilateral tan
solo para reducir el tamaño de la muestra.

1
En ocasiones se denominan pruebas de una y de dos colas, por las colas (áreas de los extremos) de las distribuciones
estadísticas.
50 Sección 1 • Ingredientes básicos

Tipo de prueba estadística


Las fórmulas usadas para calcular el tamaño de la muestra se basan en supuestos matemáticos, lo
que difiere para cada prueba estadística. Antes de que pueda calcularse el tamaño de la muestra, el
investigador debe decidir el enfoque estadístico para analizar los datos. Esa elección depende fun-
damentahnente del tipo de variables predictivas y de respuesta del estudio. En la tabla 6-1 se enu-
meran algunos estadísticos frecuentes usados en el análisis de datos , y en el. capítulo 6 se ofrecen
enfoques simplificados para calcular el tamaño de la muestra para estudios que utilizan estos esta-
dísticos .

■ OTROS PUNTOS
Variabilidad
_No es simplemente la magnitud de un efecto lo que es importante; su variabilidad también lo es. Las
pruebas estadísticas dependen de si son capaces de mostrar una diferencia entre los grupos que se
comparan. Cuanto mayor es la variabilidad (o dispersión) de la variable de respuesta entre los par-
ticipantes , más probable será que se superpongan los valores de los grupos, y más difícil será demos-
trar una diferencia-general entre ellos. Debido a que_el error de medida contribuye a la variabilidad
general, las medidas menos precisas requieren tamaños de muestra mayores (5).
Considere un estudio sobre los efectos de dos dietas (pocas grasas y pocos hidratos de carbono)
en la consecución de una pérdida de peso en 20 pacientes obesos. Si todos los que siguen la dieta
baja en grasas pierden unos 3 kg y todos los que siguen la dieta con pocos hidratos de carbono pier-
den poco peso o no pierden peso (una magnitud del efecto de 3 kg), ,es probable que la primera
dieta sea realmente mejor (fig. 5-lA). Por otro lado, si la pérdida promedio de peso es de 3 kg en el
grupo con la dieta baja en grasas y de O kg en el grupo de la dieta con hidratos de carbono , pero hay
mucha superposición entre los dos grupos (la situación de la figura 5-lB), la mayor variabilidad
haría que fuera más difícil detectar una diferencia entre las dietas, y haría falta un mayor tamaño de
la muestra.
Cuando una de las variables usadas en el cálculo del tamaño de la muestra es continua (p. ej. ,
peso corporal en la fig . 5-1), el investigador deberá calcular su variabilidad. (Para más detalles, v. la
sección sobre la prueba de la t de Student en el cap. 6.) En la demás situaciones, la variabilidad ya
está incluida en los otros parámetros introducidos en las fórmulas y tablas del tamaño de la muestra,
y no es necesario que se especifique.

Hipótesis múltiples e hipótesis posteriores


Cuando se comprueba más de una hipótesis en un estudio, especialmente si algunas de esas hipóte-
sis se formularon después de haber analizado los datos (hipótesis posteriores), aumenta la probabi-
lidad de que al menos una alcance la significación estadística solo por el efecto del azar. Por ejemplo,
si se verifican 20 hipótesis independientes con un valor a de 0,05 , hay una probabilidad elevada
[64% (1 - 0,9 52º)] de que al menos una hipótesis sea estadísticamente significativa solo por el azar.
Algunos estadísticos proponen ajustar el nivel de significación estadística cuando se verifica más de
una hipótesis en un estudio. Esto mantiene la probabilidad general de aceptar cualquiera de las hi-
pótesis alternativas, cuando todos los hallazgos se deben al azar, en el nivel especificado. Por ejemplo,
los estudios genómicos que buscan una asociación entre miles de genotipos y una enfermedad ne-
cesitan usar un nivel a mucho menor de 0,05 , o corren el riesgo de identificar muchas asociaciones
positivas falsas.
Un método, que recibe su nombre del matemático Bonferroni, consiste en dividir el nivel de
significación (es decir, 0,05) por el número de hipótesis comprobadas. Si hubiera cuatro hipóte-
sis , por ejemplo, cada una se probaría con un nivel a de 0,0125 (0 ,05/4). Esto hace que sea ne-
cesario aumentar notablemente el tamaño de la muestra por encima de lo necesario para verificar
cada una de las hipótesis con un nivel a de 0,05. Así, para cualquier hipótesis particular, el
abordaje de Bonferroni reduce la probabilidad de un error de tipo I a costa de aumentar la pro-
babilidad del error de tipo II o de la necesidad de un mayor tamaño de la muestra. Si los resulta-
dos del estudio siguen siendo estadísticamente significativos después del ajuste de Bonferroni, la
pérdida de potencia no es problemática. Sin embargo, es más problemático un resultado en el que
Capítu lo 5 • Preparación para el cálcu lo del tamaño de la muestra: hipótesis y pr incipios 51

6
Media de la d ieta Medi a de la dieta
con pocas con pocos l:=:J Dieta con pdcas
grasas = 3 kg C HO = 0 kg grasas
1 1

4 - ,.!.. - 1 - Dieta con pocos


CHO
N

~
2 -
1,r

o 1 1 1 1 1 1 1 1 1 1 1 1 1

-9 -8 -7 -6 - 5 - 4 - 3 - 2 - 1 O 2 3 4 5 6 7 8 9
Variación de peso (kg)
A
6
l:=:J Dieta con pocas
grasas
Media de la dieta Media de la dieta - Dieta con pocos
4 con pocas co n pocos
C HO
N grasas= 3 kg C HO = O kg

'° o
-9 - 8 - 7 -6 -5 -4 -3 -2 -1 o 2 3 4 5 6 7 8 9
Variación de peso (kg)
B
■ FIGURA 5-1 . A: Pérdida de peso lograda con dos dietas. Todos los que siguieron la dieta con pocas grasas perdieron de
2 a 4 kg, mientras que la va riación de peso en los que siguieron la dieta baja en hidratos de carbono (CHO) variaba desde -1
a + 1 kg. Como no hay superposición entre los dos grupos, es razonab le inferir que la dieta baja en grasas es mejor para
perder peso que la que contiene pocos hidratos de carbono (como se confirmaría mediante una prueba de la t, que per-
mitió obtener un va lor de p <0,0001). B: Pérdida de peso lograda con dos dietas. Existe una notable superposición en
variación de peso en los dos grupos. Aunque la magnitud del efecto es la misma (3 kg) que en A, hay pocas pruebas de
que una dieta sea mejor que la otra (como se confirmaría mediante una prueba de la t, que se asocia a un va lor de p
de 0,19).

se pierde la significación estadística después del ajuste de Bonferroni, lo que podría representar
la imposibilidad de respaldar una asociación que estaba realmente presente en la población (error
de tipo II).
Especialmente en estos casos, decidir qué nivel de significación se va a usar depende más de la
probabilidad previa de cada hipótesis que del número de hipótesis probadas , y por este motivo
nuestro punto de vista general es que el uso sistemático del abordaje de Bonferroni para el estudio
de múltiples hipótesis muchas veces es demasiado estricto. Existe una analogía con el uso de pruebas
diagnósticas que p~ede ser útil (6,7). Cuando interpreta los resultados de una prueba diagnóstica,
un médico considera la probabilidad de que el paciente que está estudiando tenga la enfermedad en
cuestión. Por ejemplo, el resultado ligeramente anómalo de una prueba en una persona sana (una
concentración sérica de fosfatasa alcalina que es un 15 % mayor del límite superior de la normalidad)
es probablemente una prueba falsamente positiva, que no es probable que tenga mucha importancia
clínica. Igualmente, un valor de p de 0,05 para una hipótesis improbable es también, posiblemente,
un resultado falso positivo.
Sin embargo, no es probable que una concentración de fosfa'tasa alcalina que sea 10 a 20 veces
mayor que el límite superior normal se haya producido por casualidad (si bien pudiera ser un error
de laboratorio) . Así, también, no es probable que un valor de p muy pequeño (es decir,< 0,001) haya
sucedido por casualidad (aunque pudiera deberse al sesgo) . Es difícil desechar resultados de pruebas
52 Sección 1 • Ingredientes básicos

muy anómalos como positivos falsos o desechar valores de p muy pequeños como debidos al azar,
incluso si la probabilidad previa de la enfermedad o la hipótesis era baja 2 .
Además, el número de pruebas que se habían pedido, o de hipótesis que se estudiaron, no siempre
es relevante. La interpretación de una concentración de ácido úrico sérico elevada en un paciente
con una articulación inflamada y dolorosa no debe depender de si el médico solicitó una sola prue-
ba (la concentración de ácido úrico) o de si obtuvo el resultado como parte de un panel de 20 pruebas.
Igualmente, cuando se interpreta el valor de p para verificar una hipótesis de investigación que
tenga sentido, no debe importar que el investigador verifique también varias hipótesis improbables.
Lo que más importa es la racionalidad de la hipótesis de investigación que se está estudiando: que
tiene una probabilidad previa elevada de ser correcta. (La probabilidad previa, en este método «ba-
yesiano », suele ser una opinión subjetiva basada en datos de otras fuentes.) Las hipótesis que se
formulan durante el diseño de un estudio suelen cumplir este requisito; después de todo , ¿por qué
otro motivo emplearía el investigador tiempo y esfuerzo en planificar y realizar el estudio?
¿Qué ocurre con asociaciones no previstas que aparecen durante la recogida y el análisis de los
resultados de un estudio? Este proceso se denomina, a veces, generación de hipótesis o, con un
enunciado menos favorable, «prospección de datos» o «expedición de pesca». Las numerosas com-
paraciones informales que se realizan durante el análisis de datos son una forma de estudiar múltiples
hipótesis. Surge un problema similar cuando se vuelven a definir variables durante el análisis de los
datos, o cuando se presentan los resultados para·subgrupos de la muestra. Valores de p significativos
para hipótesis generadas por datos que no se llegaron a plantear durante el diseño del estudio se
deben , a menudo, al azar. Deben contemplarse con interés, pero con escepticismo, y debe conside-
rarse que son una fuente de posibles preguntas de investigación para estudios futuros.
A veces, no obstante, un investigador no puede especificar una hipótesis concreta por adelantado,
aunque esa hipótesis parece razonable cuando llega la hora de analizar los datos. Esto podría suceder,
por ejemplo, si otros autores descubren un nuevo factor de riesgo mientras se está realizando el estu-
dio, o si el investigador no pensó en una hipótesis concreta cuando se estaba diseñando el estudio. El
punto importante no es tanto si se formuló la hipótesis antes de iniciar el estudio, como si existe una
probabilidad previa razonable, basada en datos de otras fuentes, de que la hipótesis sea cierta (6, 7).
Hay algunas ventajas específicas para definir más de una hipótesis al planificar un estudio . El uso
de múltiples hipótesis no relacionadas aumenta la eficacia del estudio, haciendo que sea posible
responder a más preguntas con un solo esfuerzo de investigación y descubrir más de las verdaderas
asociaciones que existen en la población. También puede ser una buena idea formular varias hipó-
tesis relacionadas; si los hallazgos son congruentes, las conclusiones del estudio se refuerzan. En
estudios realizados en pacientes con insuficiencia cardíaca, se ha observado que el uso de inhibido-
res de la enzima convertidora de la angiotensina es beneficioso para reducir los ingresos de causa
cardíaca, la mortalidad cardiovascular y la mortalidad total. Si se hubiera estudiado solo una de estas
hipótesis, las inferencias de estos estudios habrían sido menos definitivas. Suponga que cuando se
analizan estas hipótesis relacionadas y preestablecidas, solo una resulta estadísticamente significati-
va. Entonces, el investigador debe decidir (e intentar convencer a editores y lectores) si los resultados
significativos, los no significativos o ambos grupos de resultados son correctos.

Hipótesis principales y secundarias


Algunos estudios, especialmente los grandes ensayos aleatorizados, especifican algunas hipótesis como
«secundarias ». Esto suele ocurrir cuando existe una hipótesis principal alrededor de la cual se ha dise-
ñado el estudio, pero los investigadores también están interesados en otras preguntas que son menos
importantes. Por ejemplo, el resultado principal de un ensayo de complementación con aportes de cinc
podrían ser las hospitalizaciones o las visitas al servicio de urgencias por infecciones de las vías respira-
torias superiores; un resultado secundario podrían ser los días de absentismo laboral o escolar comuni-
cados por el propio paciente. Si se está realizando el estudio para obtener la aprobación de un fármaco,
el resultado principal es lo que será más importante para el organismo regulador. Formular una hipótesis
secundaria por adelantado aumenta la credibilidad de los resultados cuando se estudia la hipótesis.

2
Una vez más , la excepción son algunos estudios genéticos en los que se pueden explorar millones o incluso miles de
millones de asociaciones.
Capítulo 5 • Preparación para el cálculo del tamaño de la muestra : hipótesis y principios 53

Una buena norma , particularmente para ensayos clínicos, es establecer por adelantado tantas
hipótesis como tengan sentido, pero especificar solo una como la hipótesis principal, que puede
verificarse estadísticamente sin necesidad de plantear si se debe hacer un ajuste para estudiar múl-
tiples hipótesis. Más importante aún, tener una hipótesis principal ayuda a centrar el estudio en su
objetivo principal y proporciona una base clara para el cálculo del tamaño de la muestra principal.
Muchos estadísticos y epidemiólogos están pasando del estudio de hipótesis, con su énfasis en los
valores de p, a utilizar intervalos de confianza para describir la precisión de los resultados del estudio
(8-10). De hecho, algunos autores piensan que todo el proceso de basar la planificación del tamaño
de la muestra en las hipótesis es erróneo, en parte porque depende de cantidades que son descono-
cidas (magnitud del efecto) o arbitrarias (a y {3) (ll). Sin embargo, el abordaje que hemos asumido
es práctico y sigue siendo la norma en la planificación de la investigación clínica.

■ RESUMEN
l. La planificación del tamaño de la muestra es una parte importante del diseño de los estudios
analíticos y descriptivos. El tamaño de la muestra debe calcularse en fases tempranas del proce-
so de desarrollar el diseño de la investigación, de modo que puedan hacerse modificaciones
adecuadas.
2. Los estudios analíticos y experimentales necesitan una hipótesis que especifique, para las pos-
teriores pruebas estadísticas, la asociación prevista entre l~s principales variables predictivas y
de respuesta. Los estudios puramente descriptivos, que carecen de estrategia comparativa, no
necesitan una hipótesis.
; 3. Las buenas hipótesis son específicas sobre el modo en que se muestreará a la población y se
midirán las variables, sencillas (solo existe una variable predictiva y una variable de respuesta)
y formuladas por adelantado .
4. La hipótesis nula, que propone que la variable predictiva no está asociada con las variables de
respuesta, constituye la base de las pruebas de signifi~ación estadística. La hipótesis alternativa
propone que sí están asociadas . Las pruebas estadísticas intentan rechazar la hipótesis nula de
ausencia 'de asociación a favor de la hipótesis alternativa de que sí existe una asociación.
5. Una hipótesis alternativa es unilateral (solo se estudiará una dirección de asociación) o bilateral (se
analizarán ambas direcciones). Las hipótesis unilaterales solo deben usarse en circunstancias no
habituales, cuando solo una dirección de la asociación es clínicamente o biológicamente significativa.
6. En experimentos y estudios analíticos, el tamaño de la muestra es un cálculo del número de
participantes necesarios para detectar una asociación de una magnitud del efecto y variabilidad
determinadas con una probabilidad especificada de cometer errores de tipo I (positivos falsos)
y 4t tipo 11 (negativos falsos). La probabilidad máxima de cometer un error de tipo I se deno-
mina a la de cometer un error de tipo II se denomina {3. La cantidad (1 - /3) es la potencia, la
posibilidad de observar una asociación con una magnitud del efecto determinada o mayor en
una muestra si está realmente presente en la población.
7. A menudo es deseable establecer más de una hipótesis por adelantado, aunque el investigador
debe especificar una sola hipótesis principal como objetivo y para el cálculo del tamaño de la
muestra. La interpretación de los hallazgos tras estudiar múltiples hipótesis en la muestra, in-
cluyendo halla_zgos no previstos que surgen a partir de los datos, se basa en una opinión sobre
la probabilidad previa que representan fenómenos reales en la población.

BIBLIOGRAFÍA
l. The Alpha-Tocopherol, Beta Carotene Cancer Prevention Study Group. The effect of vitamin E and beta carotene
on the incidence of lung cancer and other cancers in male smokers. N, Engl] Med 1994;330:l 029-1035.
2. Echt DS, Liebson PR, Mitchell LB, et al. Mortality and morbidity in patients receiving encainide, flecainide, or
placebo. The Cardiac Arrhythmia Suppression Trial. N Eng!] Med 1991;324:781- 788.
3. The Cardiac Arrhythmia Suppression Tria! 11 Investigators. Effect of the antiarrhythmic ageht moricizine on sur-
vival after myocardial infarction. N Eng!J Med 1992;327:227-233.
4. Van Walraven C, MahonJL, Moher D, et al. Surveying physicians to determine the minimal important difference:
implications for sample-size calculation. J Clin Epidemia! 1999;52:717-723.
54 Sección 1 • Ingredientes básicos

5. McKeown-Eyssen GE, Tibshirani R. Implications of measurement error in exposure for the sample sizes of case-
control studies. Am] Epidemiol 1994;139:415-421.
6. Browner WS, Newman TB. Are all significant P values created equal? The analogy between diagnostic tests. and
clinical research. JAMA 1987 ;25 7: 2 459-2 463.
7. Newman TB, Kohn, MA. Evidence-based diagnosis. New York: Cambridge University Press, 2009. Chapter 11.
8. Daly LE. Confidence limits made easy: interval estimation using a substitution method. Am] Epidemial 1998;
147:783-790.
9. Goodman SN. Toward evidence-based medica! statistics. 1: The P value fallacy. Ann Intem Med 1999;130:995-1004.
10. Goodman SN. Toward evidence-based medica! statistics. 2: The Bayes factor. Ann Intern Med 1999;130: 1005-1 O13.
11. Bacchetti P. Current sample size conventions: flaws, harms, and alternatives. BMC Med. 2010;8:l 7.
CAPÍTULO m
Cálculo de la potencia y el tamaño
de la muestra: aplicaciones
y ejemplos
Warren S. Browner, Tho mas B. Newman y St ep hen B. Hull ey

En el capítulo 5 se presentaron los principios básicos para los cálculos del tamaño de la muestra.
Este capítulo presenta varias técnicas «de manual» para usar esos principios en el cálculo del tama-
ño de la muestra necesario para un proyecto de investigación. La primera sección aborda los cálcu-
los del tamaño de la muestra para un estudio experimental o analítico , incluyendo algunos puntos
especiales que se aplican a estos estudios, como el análisis multivariado. La segunda sección consi-
dera estudios que son fundamentalmente descriptivos . Las siguientes secciones abordan estudios
que tienen un tamaño de la muestra fijo , estrategias para aumentar al máximo la potencia de un
estudio y el modo de calcular el tamaño de la muestra cuando parece existir información insuficien-
; te con la que trabajar. El capítulo finaliza con los errores habituales que hay que evitar.
Al final del capítulo se ofrecen tablas y fórmuias , en los apéndices, para varios métodos bá-
sicos de calcular el tamaño de la muestra. Además, existe una calculadora en nuestra página web
(www.epibiostat.ucsf.edu/dcr/) , y hay muchas páginas en Internet que pueden realizar cálculos
interactivos e instantáneos del tamaño de la muestra; i:r:itente buscar por «calculadora de tama-
ño muestral» (sample size calculator, en inglés). La mayor parte de los programas estadísticos
también pueden calcular el tamaño de la muestra a partir de diseños de estudios habituales.

■ TÉCNICAS PARA EL CÁLCULO DEL TAMAÑO DE LA MUESTRA


EN ESTUDIOS EXPERIMENTALES Y ANALÍTICOS
Existen diversos métodos para calcular el tamaño de la muestra en un estudio experimental o ana-
lítico, si bien todos presentan determinados pasos en común:
~-
1. Establecer la hipótesis nula y una hipótesis alternativa unilateral o bilateral.
2. Seleccionar una prueba estadística adecuada de la tabla 6-1 basada en el tipo de variable pre-
dictiva y variable de respuesta que se plantea en esas hipótesis.
3. Escoger una magnitud del efecto razonable (y una variabilidad adecuada, si es necesario).
4 . Establecer a y /3 . Especificar un valor de a bilateral, salvo que la hipótesis alternativa sea clara-
mente unilateral.
5. Usar la tabla o fórmula adecuada del apéndice, una calculadora en línea o un paquete estadísti-
co para calcul;r el tamaño de la muestra.

Incluso si hay dudas sobre el valor exacto de uno o más de los ingredientes, es importante calcu-
lar el tamaño de la muestra al principio de la fase de diseño. Esperar hasta el último minuto para
prepararlo puede llevar a un brusco despertar: puede que sea necesario empezar de nuevo con nue-
vos ingredientes, lo que puede significar volver a diseñar el estudio completo. Esta es la razón por
la que este tema se aborda al principio de este libro.
No todos los estudios analíticos se encuadran claramente en una de las tres categorías principales
de cálculo del tamaño de la muestra descritos en las secciones siguientes: utilización de la prueba de
la x2 si las variables predictiva y de respuesta son dicotómicas, utilización de la prueba de la t si una
es dicotómica y la otra continua, y utilización del coeficiente de correlación si las dos son continuas.
55
56 Sección 1 • Ingred ientes bás icos

TABLA 6-1. PRUEBAS ESTADÍSTICAS SENCILLAS PARA CALCULAR EL TAMAÑO


DE LA MUESTRA*
VARIABLE DE RESPUESTA

VARIABLE PRED ICTIVA DICOTÓMICA CONTINUA

Dicotómica Prueba de la xt2


Prueba de la t
Continua Prueba de la t Coeficiente de correlación
*Véase en la sección «Otras consideraciones y proelemas especiales» lo que se debe realizar con las variables-ordinales,
o si se piensa analizar los datos coh otro tipo de prueba estadística.
'La prueba de la x2 es siempre bilateral; el estadístico Z es el equivalente unilateral.

Algunas de las excepciones más habituales se analizan en la sección denominada «Otras considera-
ciones y problemas especiales» (pág. 60).

Prueba de la t
La prueba de la t (a veces, denominada «prueba de la t de Student», por el seudónimo de su creador)
suele utilizarse para determinar si el valor medio de una variable continua en un grupo difiere significati-
vamente del valor en el otro grupo. Por ejemplo,·sería adecuado usar la prueba de la t al comparar las
puntuaciones medias de depresión en pacientes tratados con dos antidepresivos diferentes, o el índice de
masa corporal medio en personas que tienen y no tienen diabetes. La prueba de la t supone que la distri-
bución de la variable en cada uno de los dos grupos se aproxima a una curva normal (con fonna de cam-
pana). Sin embargo, la prueba de la tes notablemente sólida, por lo que puede usarse en casi cualquier
distribución, salvo que el número de participantes sea pequeño (menor de 30 a 40) o haya valores extremos.
Aunque la prueba de la t habitualmente se utiliza para comparar resultados continuos, también
se puede utilizar para estimar el tamaño de la muestra para un resultado dicotómico (como en los
estudios de casos y testigos) si el estudio tiene una variable predictiva continua. En esta situación, .
la prueba de la t compara el valor medio de la variable predictiva en los casos con el de los testigos.
Para calcular el tamaño de la muestra para un estudio en el que los valores medios de una variable
de respuesta continua se compararán mediante una prueba de la t (v. ejemplo 6-1), el investigador debe:

l. Establecer la hipótesis nula y si la hipótesis alternativa es unilateral o bilateral.


2. Calcular la magnitud del efecto (E) como la diferencia del valor medio de la variable continua
de los grupos de estudio.
3. Estimar la variabilidad como la desviación típica (D) de esa variable.
4. Calcular la magnitud del efecto normalizada (E/D) , definida como la magnitud del efecto divi-
dida por la desviación típica de la variable de respuesta.
5. Establecer ay {3.

La magnitud del efecto y la variabilidad pueden calcularse, a menudo, a partir de estudios previos
de la bibliografía y de la consulta con expertos. En ocasiones, será necesario un pequeño estudio pi-
loto para calcular la desviación típica de la variable (v. también la sección «Cómo calcular el tamaño
de la muestra cuando no existe información suficiente» en la pág. 70). Cuando la variable de respues-
ta es el cambio de una medición continua (p. ej., cambio de peso durante un estudio), el investigador
debe usar la desviación típica del cambio de esa variable (no la desviación típica de la propia variable)
en los cálculos del tamaño de la muestra. La desviación típica del cambio de una variable suele ser
menor que la desviación típica de la variable; por tanto, el tamaño de la muestra también será menor.
En ocasiones, un investigador no puede obtener ninguna información significativa sobre la des-
viación típica de una variable. En esta situación, merece la pena utilizar una cantidad denominada
magnitud del efecto normalizada , que es una cantidad adimensional que posibilita la estimación del
tamaño de la muestra; también simplifica las comparaciones entre las magnitudes del efecto de di-
ferentes variables. Por ejemplo, una diferencia de 10 mg!dl de la concentración sérica de colesterol,
que tiene una desviación típica poblacional de aproximadamente 40 mg/dl, sería igual a una magni-
tud del efecto normalizada de 0,25. Cuanto mayor sea la magnitud del efecto normalizada, menor
Capítu lo 6 • Cálcu lo de la potencia y el tamaño de la muestra: aplicaciones y ejemplos 57

EJEMPLO 6-1. Tamaño de la muestra cuando se usa la prueba de la t


Problema: la pregunta de la investigación es si existe una diferencia de la eficacia del salbutamol
y el bromuro de ipratropio para el tratamiento del asma. El investigador planifica un estudio
aleatorizado del efecto de estos fármacos sobre el FEV 1 (volumen espiratorio máximo en el
primer segundo) tras 2 semanas de tratamiento. En un estudio anterior se vio que el FEV1 me-
dio en personas con asma tratado era de 2,0 1, con una desviación típica de 1,0 l. El investigador
desearía poder detectar una diferencia del 10% o más del FEV 1 medio entre los dos grupos de
tratamiento. ¿ Cuántos pacientes se necesitan en cada grupo (salbutamol e ipratropio) con un
valor de a (bilateral) = 0,05 y una potencia= 0,80?
Solución: los ingredientes para el cálculo del tamaüo de la muestra son los siguientes:
1. Hipótesis nula: el FEV 1 después de 2 semanas de tratamiento es el mismo en los pacientes
asmáticos tratados con salbutamol y en los tratados con ipratropio.
Hipótesis alternativa (bilateral): El FEV 1 medio después de 2 semanas de tratamiento es
diferente en los pacientes asmáticos tratados con salbutamol del de los pacientes tratados con
ipratropio.
2. Magnitud del efecto= 0,2 1 (10% X 2,0 1).
3. Desviación típica del FEV1 = 1,0 l.
4. Magnitud del efecto normalizada= magnitud del efecto/desviación típica= 0,21/1,01 = 0,2.
5. a (bilateral)= 0,05; f3 = 1-0,80 = 0,20. (Recuerde que /3 = 1 - potencia.)
Reco,rriendo en horizontal desde una magnitud del efecto normalizada de 0,20 en la columna
situada más a la izquierda de la tabla 6A y en vertical desde a (bilateral) = 0,05 y f3 = 0,20, se ne-
cesitán 394 pacientes por grupo. Este es el número de pacientes de cada grupo que deben com-
pletar el estudio, aunque se necesitarán más para tener en cuenta los abandonos. Puede que no
sea posible este tamaño de la muestra, y el investigador debería considerar de nuevo el diseño del
estudio o quizás acordar poder detectar solo una magnitud del efecto mayor. Se puede ver una
posible solución en la sección sobre la prueba de la t para muestras emparejadas (ejemplo 6-8).

será el tamaño de muestra necesario. En la mayor parte de los estudios, la magnitud del efecto nor-
malizada será > 0,1. Magnitudes más pequeñas son difíciles de detectar (se necesitan tamaños de
muestra muy grandes) y no suelen ser muy importantes clínicamente.
En el apéndice 6A se muestran los requisitos de tamaüo de la muestra para diversas combinacio-
nes de a y f3 para varias magnitudes normalizadas. Para usar la tabla 6A, busque en la columna si-
tuada más a la izquierda la magnitud del efecto normalizada. A continuación, recorra la tabla hasta
los val;res de a y f3 elegidos para encontrar el tamaño de la muestra necesario por grupo. (Los nú-
meros de la tabla 6A suponen que los dos grupos que se comparan tienen el mismo tamaño de
muestra; use la fórmula que está bajo la tabla, un paquete estadístico o un programa interactivo en
la Web si esa suposición no es cierta.)
Existe un atajo cómodo para obtener una aproximación del tamaño de la muestra usando la
prueba de la t cuando se van a estudiar más de unos 30 participantes y se establece la potencia en
0,80 (/3 = 0,2) y a \bilateral) en 0,05 (1) . La fórmula es:

Tamaño de l:;i. muestra (por grupo de igual tamaño)= 16/(magnitud del efecto normalizada) 2
1

En el ejemplo 6-1, el cálculo del tamaüo de la muestra por el atajo sería 16/0,22 = 400 por grupo.

Prueba de la x2 \

La prueba de la ji al cuadrado (x 2 ) puede usarse para comparar la proporción de participantes de cada


uno de los dos grupos que tienen una variable de respuesta dicotómica. Por ejemplo, la proporción de
varones que presentan cardiopatía isquémica mientras son tratados con folato puede compararse con
la proporción de los que presentan cardiopatía isquémica mientras toman un placebo. Esta prueba es
siempre bilateral; una prueba equivalente para hipótesis unilaterales es la prueba de la Z unilateral.
58 Sección 1 • Ingred ientes básicos

En un experimento o estudio de cohortes, la magnitud del efecto se especifica por la diferencia


entre P1 , la proporción de participantes que se espera que tengan la variable de respuesta en un
grupo (es decir, el riesgo del resultado), y P2 , la proporción esperada en el otro grupo . Por ejemplo,
en un estudio de cohortes en el que se compara el riesgo de presentar insuficiencia renal terminal en
hombres y mujeres con hipertensión, P1 sería la proporción de hombres que presentan insuficiencia
renal terminal y P2 sería la proporción de mujeres que lo hacen. La variabilidad depende de P1 y P2 ,
por lo que no es necesario especificarla.
Por el contrario, para el cálculo del tamaño de la muestra en un estudio de casos y testigos, P1 y P2
tienen definiciones diferentes. Se refieren a las proporciones de casos y testigos que se espera que tengan
un valor particular de una variable predictiva dicotómica (p. ej. , la proporción de casos de insuficiencia
renal terminal que eran hombres). Así, en un estudio de casos y testigos, P1 representa la proporción de
casos que se espera que tengan una variable predictiva particular (es decir, la prevalencia de esa variable
predictiva) y P2 representa la proporción de testigos que se espera que tengan la variable predictiva.
Para estimar el tamaño de la muestra para un estudio que se analizará con la prueba de la x2 o la
prueba de la Z para comparar dos proporciones (ejemplo 6.2), el investigador debe:

l. Establecer la hipótesis nula y decidir si la hipótesis alternativa debe ser unilateral o bilateral.
2. Calcular la magnitud del efecto y la variabilidad desde el punto de vista de P1 , la proporción con la
variable de respuesta en un grupo, y de P2 , la proporción con la variable de respuesta en el otro grupo.
3. Establecer a'y {3.

En el apéndice 6B se muestran los requisitos de tamaño de muestra para varias combinaciones de


ay f3 y un intervalo de valores de P1 y P2 . Para calcular el tamaño de la muestra, busque en la co-
lumna situada más a la izquierda de las tablas 6B-l o 6B-2 el valor más pequeño de P1 y P2 (si es
necesario , redondee al 0,05 más cercano). A continuación, recorra la tabla buscando la diferencia
entre P 1 y P2 . Basándose en los valores escogidos para .ay f3 la tabla proporciona el tamaño de la
muestra necesario por grupo.
A menudo , el investigador especifica la magnitud del efecto desde el punto de vista del riesgo
relativo (cociente de riesgo) de la variable de respuesta en dos grupos de participantes. Por ejemplo,

EJEMPLO 6-2. Cálculo del tamaño de la muestra cuando se usa la prueba


de lax2
Problema: la pregunta de la investigación es si las personas que practican Tai Chi tienen menor
riesgo de presentar dolor de espalda que las que corren para hacer ejercicio. Una revisión de la
bibliografía sugiere que el riesgo de dolor de espalda a los 2 años es de aproximadamente 0,30
en corredores. El investigador espera demostrar que el Tai Chi reduce el riesgo en, al menos,
0,10. Con un valor a (bilateral) = 0,05 y una potencia= 0,80, ¿a cuántos participantes se debe-
rá estudiar para determinar si la incidencia a los 2 años de presentar dolor de espalda es de 0,20
(o menos) en los que hacen Tai Chi?
Solución: los ingredientes para el cálculo del tamaño de la muestra son los siguientes:
1. Hipótesis nula: la incidencia de dolor de espalda es la misma en las personas que corren y en
las que practican Tai Chi.
Hipótesis alternativa (bilateral): la incidencia de dolor de espalda es diferente en las personas
que corren y en las que practican Tai Chi.
2. P2 (incidencia en los que corren) = 0,30; P 1 (incidencia en los que practican Tai Chi) = 0,20.
El menor de estos valores es 0,20, y la diferencia entre ellos (P 1 - P 2) es 0,10.
3. a (bilateral) = 0,05; /3 = 1 - 0,80 = 0,20.
Recorriendo transversalmente desde 0,20 en la columna situada más a la izquierda de la ta-
bla 6B-l, y descendiendo desde una diferencia esperada de 0,10, el número medio para a (bila-
teral)= 0,05 y /3 = 0,20 es el tamaño de la muestra necesario de 313 corredores y 313 personas
que realizan Tai Chi que deben participar en el estudio .
Capítu lo 6 • Cálculo de la potencia y el tamaño de la muestra: ap licaciones y ejemp los 59

un investigador podría estudiar si las mujeres que toman anticonceptivos orales tienen al menos el
doble de probabilidad de sufrir un infarto de miocardio que las que no los usan. En un estudio de
cohortes (o experimental) es directo transformar el riesgo relativo en las dos proporciones (P 1 y P2)
y viceversa, ya que el riesgo relativo es P 1 dividido por _P 2 (o viceversa).
Sin embargo, en un estudio de casos y testigos, la situación es algo más compleja, porque el ries-
go relativo debe aproximarse mediante la razón de posibilidades (RP) :
RP= (P 1 x[l-P 2])
(P 2 X [l-P1 ])
El investigador debe especificar la razón de posibilidades (RP) y P2 (la proporción de testigos expues-
tos a la variable predictiva). Por lo tanto, P 1 (ia proporción de casos expuestos a la variable predictiva) es:
RP X P2
P¡= - - - - - - --
(1 - P 2) + (RP X P2)
Por ejemplo, si el investigador espera que el 10% de las testigos estarán expuestas a los anticoncep-
tivos orales (P2 = 0,1) y desea detectar una razón de posibilidades de 3 asociada a la exposición, entonces:
3 X 0,1 0,3
P 1 = - - - - - - - = - - = O 25
(1 - 0,1) + (3 X 0,1) 1,2 '

Coeficiente de correlación
Aunque el coeficiente de correlación (r) no se usa habitualmente en el cálculo del tamaño de la
; muestra , puede ser útil cuando tanto la variable predictiva como la de respuesta son continuas. Este
coeficiente es una medida de la solidez de la asociación lineal entre las dos variables. Varía entre -1 y
+l. Los valores negativos indican que, a medida que una variable aumenta, la otra disminuye (como
la concentración de plomo en sangre y el CI en los niños). Cuanto más próximo está el valor de r a
1, más fuerte es la asociación; cuanto más próximo está a cero, más débil es la asociación. La altura
y el peso en los adultos, por ejemplo, están muy relacionadas en algunas poblaciones, con r"' 0,9.
Estos valores altos, sin embargo, no son frecuentes; muchas asociaciones biológicas tienen coeficien-
tes de correlación mucho más pequeños.
Los coeficientes de correlación son frecuentes en algunos campos de la investigación clínica, como
la medicina conductista, pero su utilización para calcular el tamaño de la muestra presenta un in-
conveniente: los coeficientes de correlación tienen poco significado intuitivo. Cuando se eleva al
cuadrado (r2-), un coeficiente de correlación representa la proporción de la dispersión (varianza) de
una variable de respuesta que se debe a su asociación lineal con una variable predictiva, y viceversa.
Este es el motivo por el que valores pequeños de r, como los que son :S 0,3, pueden ser estadística-
mente ;ignificativos si la muestra es lo suficientemente grande sin ser muy significativa clínicamen-
te o científicamente, ya que «explican» a lo sumo el 9% de la varianza.
Una forma alternativa (a menudo, preferida) de calcular el tamaño de una muestra para un estu-
dio en el que las variables predictiva y de respuesta son ambas continuas es dicotomizar una de las
dos variables (p . ej ., utilizando como referencia la mediana) y usar, en su lugar, los cálculos de la
prueba de la t. Esto tiene la ventaja de expresar la magnitud del efecto como una diferencia entre dos
grupos (la interpretación de coeficientes de correlación, que no comunica la magnitud del efecto, es
más indefinida). P·ara calcular el tamaño de la muestra para un estudio que se analizará con un
coeficiente de correlación (ejemplo 6.3) , el investigador debe:

l. Establecer la hipótesis nula, y decidir si la hipótesis alternativa es unilateral o bilateral.


2. Calcular la magnitud del efecto como el valor absoluto del coeficiente de correlación (r) más
pequeño que al investigador le gustaría poder detectar. (Ila variabilidad es una función de r y
está ya incluida en la tabla y en la fórmula.)
3. Establecer a y {3.

En el apéndice 6C, busque en la columna situada más a la izquierda de la tabla 6C la magnitud


del efecto (r). A continuación, recorra la tabla hasta los valores escogidos de a y f3 que proporcionan
60 Sección 1 • Ingredientes básicos

EJEMPLO 6-3. Cálculo del tamaño de la muestra cuando se usa


el coeficiente de correlación en un estudio transversal
Problema: la pregunta de la investigación es si las concentraciones urinarias de cotinina (una
medida de la intensidad del consumo actual de cigarrillos) se relacionan con la densidad ósea
en los fumadores. En un estudio previo se observó una relación pequeña· (r = -0,3) entre el
consumo comunicado (en cigarrillos/día) y la densidad ósea (en g/cm3 ); el investigador prevé
que las concentraciones urinarias de cotinina tendrán, al menos, relación). ¿Cuántos fumadores
se necesitarán, con o: (bilateral) = 0,05 y /3 = 0,10?
Solución: los ingredientes para el cálculo del tamaño de la muestra son los siguientes:
1. Hipótesis nula: no existe relación entre la concentración urinaria de cotinina y la densidad
ósea en los fumadores.
Hipótesis alternativa: existe relación entre la concentración urinaria de cotinina y la densidad
ósea en los fumadores.
2. Magnitud del efecto (r) = 1-0,31 = 0,3.
3. o: (bilateral) = 0,05; /3 = 0,10.
Usando la tabla 6C, leyendo horizontalmente desde r = 0,30, en la columna situada más a la
izquierda, y descendiendo desde o: (bilateral) = 0,05 y /3 = 0,10, se necesitarán 113 fumadores.

el tamaño total requerido de la muestra. La tabla 6C proporciona el tamaño de muestra adecuado


cuando el investigador desea rechazar la hipótesis nula de que no existe asociación entre las variables
predictiva y de respuesta (es decir, r = O). Si el investigador desea determinar si el coeficiente de
correlación del estudio difiere de un valor distinto a cero (p. ej., r = 0,4) , debe recurrir al texto que
se encuentra bajo la tabla 6C para buscar el método adecuado.

■ OTRAS CONSIDERACIONES Y ASPECTOS ESPECIALES


Abandonos
Cada unidad de muestreo debe estar disponible para el análisis; los participantes que intervienen en
un estudio, pero en los no se puede averiguar su estado de respuesta (como los abandonos) , no
cuentan en el tamaño de la muestra . Si el investigador adelanta que alguno de los participantes
no estará disponible para el seguimiento (como ocurre con mucha frecuencia) , debe estimar la propor-
ción que se perderá e incrementar, en consecuencia, el tamaño de la muestra incluida. Si, por ejem-
plo , el investigador calcula que se perderá el 20 % de su muestra para el seguimiento, se deberá
aumentar el tamaño de la muestra según un factor de (1/[1- 0,20)], o 1,25.

Variables categóricas
Aunque hay motivos matemáticos por los que puede no ser adecuado estimar el tamaño de una
muestra para variables ordinales utilizando una prueba, en la práctica, las variables ordinales mu-
chas veces se pueden tratar como variables continuas, especialmente si el número de categorías es
relativamente grande (seis o más) y el promedio de los valores de la variable tiene sentido.
En otras situaciones, la mejor estrategia es cambiar ligeramente la hipótesis de la investigación, di-
cotomizando la variable categórica. A modo de ejemplo, suponga que un investigador está estu-
diando si hablar inglés como segundo idioma se asocia al número de veces que los pacientes diabé-
ticos consultan con el podólogo en 1 año. El número de visitas está distribuido irregularmente:
muchas personas no acudirán nunca, algunas acudirán una vez y solo unas pocas acudirán dos o
más veces. En esta situación, el investigador podría calcular el tamaño de la muestra como si la va-
riable fuera dicotómica (ninguna visita frente a una o más visitas).

Análisis de supervivencia
Cuando un investigador desea comparar la supervivencia o cualquier otro dato de tiempo hasta un
episodio, como cuál de los tratamientos es más eficaz en la prolongación de la vida en mujeres con
Capítulo 6 • Cálcu lo de la potencia y el tamaño de la muestra : ap licaciones y ejemp los 61

cáncer de mama avanzado, el análisis de supervivencia será una técnica adecuada para analizar los
datos (2,3). Aunque la variable de respuesta, como los meses de supervivencia, parece ser continua,
la prueba de la t no es adecuada, porque lo que se está evaluando en realidad no es el tiempo (una
variable continua), sino la proporción de pacientes (una variable dicotómica) que sigue con vida en
cada momento a lo largo del tiempo. De manera similar, un investigador podría estar comparando
la incidencia de aparición del resultado (por cada 100 personas/año de seguimiento) en dos grupos .
Se puede realizar una aproximación razonable simplemente estimando la proporción de pacientes
que se espera que lleguen a tener ese resultado en los dos grupos y calculando el tamaño de la mues-
tra con la prueba de la x2 . Sin embargo, si se espera que el resultado se produzca en la mayoría de
los pacientes, como la muerte en un estudio de cáncer de mama avanzado, una estrategia mejor
(porque minimiza el tamaño de la muestra total) es estimar el tamaño de la muestra basado en las
proporciones de pacientes de cada grupo que se espera que tengan el resultado en un momento del
seguimiento en el que se haya producido aproximadamente la mitad de los resultados totales. Por
ejemplo, en un estudio en el que se compara la supervivencia sin enfermedad recurrente en pacien-
tes con cáncer de mama tratadas con un tratamiento estándar o con otro experimental, en el que se
espera que hayan muerto aproximadamente el 60% de las pacientes del grupo de tratamiento están-
dar a los 2 años, en comparación con el 40% de las que reciban el tratamiento experimental, el
tamaño de la muestra se puede estimar utilizando la «supervivencia a los 2 años» como resultado
dicotómico.

Muestras de conglomerados
Algunos diseños de investigación conllevan el uso de muestras de conglomerados, en las que los
; participantes se muestrean por grupos (cap. 11). Considere, por ejemplo, un estudio de si una in-
tervención educativa continua para médicos mejor~ la tasa de abandono del tabaquismo entre sus
pacientes. Suponga que se asignan aleatoriamente 20 consultas de médicos al grupo que recibe la
intervención, y 20 consultas se asignan a un grupo de control. Un año después, los investigadores
planean revisar las historias de una muestra aleatoria d(:'. 50 pacientes de cada consulta que eran
fumadores al principio para determinar cuántos han dejado de fumar. ¿Equivale el tamaño de la
mues_tra a 40 (el número de médicos) o a 2000 (el número de pacientes)? La respuesta, que se en-
cuentra en algún punto entre esos dos extremos, depende de lo similares que sean los pacientes de
la consulta de un médico (en cuanto a su probabilidad de dejar de fumar) en comparación con la
similitud entre todos los pacientes. Para calcular esta cantidad, a menudo se necesita conseguir datos
piloto, salvo que otro investigador haya realizado anteriormente un estudio similar. Existen varias
técnicas para calcular el tamaño de la muestra requerido para un estudio que utiliza muestras de
conglomerados (4- 7), pero suelen precisar la ayuda de un estadístico.

Empa'rejamiento
Por diversas razones, un investigador puede escoger usar un diseño emparejado (cap. 9). Sin embar-
go, las técnicas de este capítulo, que ignoran cualquier emparejamiento, ofrecen estimaciones razo-
nables del tamaño de la muestra necesario, salvo que la exposición (en estudios de casos y testigos
emparejados) o el resultado (en estudios de cohortes emparejados) tenga una correlación elevada
con la correspondiente variable. Pueden realizarse cálculos más precisos, lo que precisa que el in-
vestigador especifisi.ue la correlación entre las exposiciones o los resultados en pares emparejados,
usando abordajes normalizados (8), programas estadísticos o programas interactivos de la red.

Ajuste multivariable y otros análisis estadísticos especiales


Al diseñar un estudio de observación, un investigador puede decidir que una o más de las variables
introducirán confusión en la asociación entre la variable predictiva y la de respuesta (cap. 9), y pla-
nificar utilizar técnicas estadísticas para ajustar estos factores de confusión al analizar los resultados.
Cuando se va a incluir este ajuste en la verificación de la hipótesis primaria, el tamaño de muestra
calculado necesita tener esto en cuenta. -
Los métodos analíticos que corrigen variables de confusión a menudo aumentan el tamaño de
muestra requerido (9,10). La magnitud de este aumento depende de varios factores, como la preva-
lencia del factor de confusión, la solidez de la asociación entre la variable predictiva y la de confusión,
62 Sección 1 • Ingred ientes básicos

y la solidez de la asociación entre la variable de confusión y la de respuesta. Estos efectos son com-
plejos, y no existen reglas generales que abarquen todas las situaciones.
Los estadísticos han desarrollados métodos multivariados, como la regresión lineal y la regresión
logística, que permiten al investigador corregir las variables de confusión. Una técnica estadística
muy utilizada , el análisis de riesgos proporcionales de Cox, puede corregir tanto variables de con-
fusión como diferencias en la duración del seguimiento. Si va a utilizarse una de estas técnicas para
analizar los datos, existen métodos correspondientes para calcular el tamaño de muestra necesario
(3,11-14). También se dispone de técnicas para calcular el tamaño de la muestra para otros diseños,
como estudios de posibles factores de riesgo genético o de genes candidatos (15-17), estudios eco-
nómicos (18-20), estudios de dosis y respuesta (21) o estudios en los que intervienen más de dos
grupos (22). De nuevo , Internet es un recurso útil para estos métodos más sofisticados (p. ej., buscar
sample size y logistic regression, tamaño de la muestra y regresión logística).
Suele ser más fácil, al menos para investigadores principiantes, calcular el tamaño de la muestra
suponiendo un método de análisis más sencillo, como la prueba de la x2 o la prueba de la t. Supon-
ga, por ejemplo, que un investigador está pensando en un estudio de casos y testigos sobre si la
concentración de colesterol sérica (una variable continua) está asociada con la aparición de tumores
cerebrales (una variable dicotómica). Incluso si el plan final es analizar los datos con la técnica de
regresión logística, puede calcularse un tamaño de muestra aproximado con la prueba de la t. El re-
sultado es que los métodos simplificados suelen producir cálculos de tamaño de muestra que son si-
milares a los generados por técnicas más sofisticadas. Sin embargo, puede que sea necesario consul-
tar con un bioestadístico experto si se ha enviado una propuesta económica que conlleva costes
importantes para lograr financiación: los revisores de la propuesta económica esperarán que se uti-
lice un método sofisticado, aunque reconozcan que los cálculos del tamaño de la muestra se basan
en supuestos sobre el riesgo de los resultados, la magnitud del efecto, etc. Conseguir que un estadís-
tico sea quien estime el tamaño de la muestra también transmite el mensaje de que usted tiene ac-
ceso a los colaboradores que serán necesarios para manejar y analizar los datos del estudio. De hecho ,
un bioestadístico contribuirá de otras muchas maneras al diseño y la ejecución del estudio, aunque
seguramente agradecerá trabajar con un investigador clínico que haya pensado en los problemas y
haya realizado, al menos, un intento inicial de estimación del tamaño de la muestra.

Estudios de equivalencia y de ausencia de inferioridad


A veces, el objetivo de un estudio es descartar una asociación significativa entre las variables predic-
tiva y de respuesta. En un estudio de equivalencia se verifica si un nuevo fármaco tiene la misma
eficacia que un fármaco ya utilizado. Esta situación plantea un reto cuando se planifica el tamaño de
la muestra , porque la magnitud del efecto deseada es cero o muy pequeña. El estudio de ausencia
de inferioridad es una versión unilateral de este diseño, que analiza si el nuevo fármaco es, al menos,
no mucho peor que el fármaco ya utilizado (cap. 11).
Los cálculos del tamaño de la muestra para estos diseños son complejos (23-26), y será útil el
consejo de un estadístico con experiencia. Un método aceptable sería diseñar el estudio para que
tenga una potencia elevada (es decir, 0,90 o 0,95) para rechazar la hipótesis nula cuando la magnitud
del efecto es lo suficientemente pequeña como para no ser clínicamente importante (p. ej., una di-
ferencia de 5 mg!dl en la glucemia media en ayunas). Si los resultados de este estudio con buena
potencia muestran «ausencia de efecto» (el intervalo de confianza al 95 % excluye la diferencia es-
pecificada previamente de 5 mg!dl), el investigador puede estar razonablemente seguro de que los
dos fármacos tienen efectos similares. Un problema con los estudios de equivalencia y de ausencia
de inferioridad, sin embargo, es que la potencia adicional y la pequeña magnitud del efecto a menu-
do precisan un tamaño de la muestra muy grande; de los dos diseños, los estudios de ausencia de
inferioridad tienen la ventaja de ser unilaterales, lo que permite un tamaño de la muestra menor o
un menor valor de a.
Otro problema supone la pérdida de las salvaguardas habituales inherentes al paradigma de la
hipótesis nula, lo que protege frente a los errores de tipo I (rechazar falsamente la hipótesis nula) a
los estudios convencionales que comparan un fármaco activo con un placebo. El paradigma asegura
que muchos problemas del diseño o la ejecución de un estudio , como usar determinaciones impre-
cisas o una pérdida excesiva de pacientes durante el seguimiento, hacen que sea más difícil rechazar
Capítu lo 6 • Cá lcu lo de la potencia y el tamaño de la muestra: aplicaciones y ejemp los 63

la hipótesis nula. Los investigadores de un estudio convencional, que están intentando rechazar una
hipótesis nula, tienen un importante incentivo para realizar el mejor estudio posible. Sin embargo,
estas salvaguardas no se aplican a los estudios de ausencia de inferioridad, en los que el objetivo es
no encontrar ninguna diferencia.

■ TÉCNICAS PARA CALCULAR EL TAMAÑO DE LA MUESTRA EN ESTUDIOS


DESCRIPTIVOS
El cálculo del tamaño de la muestra en los estudios descriptivos, entre ellos los estudios de pruebas
diagnósticas , se basa también en principios algo diferentes. Estos estudios no tienen variables pre-
dictivas ni de respuesta, ni comparan grupos diferentes estadísticamente, por lo que no se aplican
los conceptos de potencia y de hipótesis nula y alternativa. Por el contrario, el investigador calcula
estadísticos descriptivos , como medias y proporciones. A menudo, sin embargo , también se usan
estudios descriptivos (¿cuál es la frecuencia de depresiones entre pacientes ancianos en una consul-
ta médica?) para realizar preguntas analíticas (¿cuáles son las variables predictivas en estos pacien-
tes?). En esta situación, el tamaño de la muestra debe calcularse también para el estudio analítico ,
para evitar el problema habitual de tener una potencia inadecuada para lo que resulta ser la pregun-
ta de mayor interés.
Los estudios descriptivos habitualmente comunican intervalos de confianza , un intervalo de
valores sobre la proporción o la media de la muestra. Un intervalo de confianza es una medida de la
precisión del cálculo de una muestra. El investigador establece el nivel de confianza, como el 95 %
o el 99 %. Un intervalo con un nivel de confianza mayor (99 %) es más amplio, y, por lo tanto, es más
; probable que incluya el valor real de la población, que un intervalo con un menor nivel de confian-
za (90d!o).
La amplitud de un intervalo de confianza depende del tamaño de la muestra. Por ejemplo, un
investigador podría desear calcular la puntuación media obtenida por un grupo de estudiantes de
medicina en el U.S . Medica! Licensing Examination a los que se enseñó a utilizar un currículo alter-
nativo basado en Internet. De una muestra de 50 estudiantes, podría calcular que la puntuación
media en la población de todos los estudiantes es 215, con un intervalo de confianza al 95% desde
205 a 225. Un estudio más pequeño, con 20 estudiantes, por ejemplo, podría tener aproximadamen-
te la misma puntuación media, pero casi con toda seguridad tendría un intervalo de confianza al
95 % más amplio.
Al calcular el tamaño de la muestra en estudios descriptivos, el investigador especifica el nivel y
la amplitud deseados del intervalo de confianza. El tamaño de la muestra puede, entonces, determi-
narse a partir de tablas y fórmulas que aparecen en el apéndice.

Varia151es continuas
Cuando la variable de interés es continua, con frecuencia se comunica un intervalo de confianza
alrededor del valor medio de esa variable. Para calcular el tamaño de la muestra para ese intervalo
de confianza (ejemplo 6.4), el investigador debe:

l. Calcular la desviación típica de la variable de interés.


2. Especificar la precisión deseada (amplitud total) del intervalo de confianza.
3. Seleccionar el nivel de confianza para el intervalo (p. ej., 95% o 99%).

Para usar el apéndice 6D, normalice la amplitud total del intervalo (divídala por la desviación
típica de la variable) y busque en la columna situada más a la izquierda de la tabla 6D la amplitud
normalizada esperada. A continuación, recorra la tabla hasta el nivel de confianza escogido para el
tamaño de muestra requerido. 1

Variables dicotómicas
En un estudio descriptivo de una variable dicotómica, los resultados pueden expresarse como un
intervalo de confianza alrededor de la proporción calculada de participantes con uno de los valores.
Esto incluye estudios de la sensibilidad y la especificidad de una prueba diagnóstica, que parecen
64 Sección 1 • Ingredientes básicos

EJEMPLO 6-4. Cálculo del tamaño de la muestra para un estudio


descriptivo de una variable continua
Problema: el investigador pretende determinar la concentración media de hemoglobina entre
alumnos de tercer grado en un área urbana con un intervalo de confianza al 95% de::':: 0,3 g/dl.
En un estudio anterior·se observó que la desviación típica de la hemoglobina en una ciudad
similar fue de 1 g!dl.
Solución: los ingredientes para calcular el tamaño de la muestra son los siguientes:
1. Desviación típica de la variable (DT) = 1 g/dl.
2. Amplitud total del intervalo= 0,6 g/dl (0,3 g/dl por encima y 0,3 g!dl por debajo). La ampli-
tud normalizada del intervalo= amplitud total/DT = 0,6/1 = 0,6.
3. Nivel de confianza= 9.5%.
Recorriendo transversalmente desde una amplitud estandarizada de 0,6, en la columna situa-
da más a la izquierda de la tabla 6D, y descendiendo desde el nivel de confianza del 95%, el
tamaño de muestra necesario es de 43 alumnos de tercer grado.

ser, a primera vista, variables continuas, pero que en realidad son dicotómicas: proporciones expre-
sadas como porcentajes (cap . 12). Para calcular el tamaño de la muestra para ese intervalo de con-
fianza, el investigador debe:

l. Calcular la proporción esperada de la variable de interés en la población. (Si se espera que más
de la mitad de la población tenga la característica, planifique el tamaño de la muestra según la
proporción que se espera que no tenga la característica.)
2. Especificar la precisión deseada (amplitud total) del intervalo de confianza.
3. Seleccionar el nivel de confianza para el intervalo (p . ej., 95%) .

En el apéndice 6E, busque en la columna situada más a la izquierda de la tabla 6E la proporción


esperada de la variable de interés. A continuación, recorra la tabla hasta la amplitud y el nivel de
confianza escogidos, que proporcionan el tamaño de muestra requerido.
En el ejemplo 6-5 se muestra un cálculo del tamaño de muestra para estudiar la sensibilidad de
una prueba diagnóstica, que permite obtener el número de participantes con la enfermedad necesa-
rios. Al estudiar la especificidad de la prueba, el investigador debe calcular el número necesario de
participantes que no tienen la enfermedad. También hay técnicas para calcular el tamaño de la mues-
tra en estudios de curvas de eficacia diagnóstica (ROC) (27), razones de verosimilitud (28) y fiabi-
lidad (29) (cap. 12).

EJEMPLO 6-5. Cálculo del tamaño de la muestra para un estudio


descriptivo de una variable dicotómica
Problema: el investigador desea determinar la sensibilidad de una nueva prueba diagnóstica para
el cáncer de páncreas. Basándose en un estudio piloto, espera que el 80 % de los pacientes con
cáncer de páncreas presenten resultados positivos en la prueba. ¿Cuántos pacientes se necesi-
tarán para calcular un intervalo de confianza al 95 % para una sensibilidad de la prueba de 0,80
± 0,05?
Solución: los ingredientes para el cálculo del tamaño de la muestra son los siguientes:
1. Proporción esperada= 0,20. (Como 0,80 es más de la mitad, el tamaño de la muestra se
calcula a partir de la proporción que se espera que tenga un resultado negativo, es decir,
0,20.)
2. Amplitud total= 0,10 (0,05 por debajo y 0,05 por encima) .
3. Nivel de confianza = 95 %.
Capítulo 6 • Cálculo de la potencia y el tamaño de la muestra: aplicaciones y ejemp los 65

Recorriendo transversalmente desde 0,20 , en la columna situada más a la izquierda de la


tabla 6E, y descendiendo desde una amplitud total de 0,10, el número medio (que representa el
nivel de confianza del 95%) proporciona el tamaño de muestra necesario de 246 pacientes con
cáncer de páncreas.

■ QUÉ HACER CUANDO EL TAMAÑO DE LA MUESTRA ES FIJO


Especialmente cuando se realizan análisis de datos secundarios, el tamaño de la muestra puede ha-
berse determinado antes del diseño del estudio. Incluso cuando se diseñó un estudio desde el prin-
cipio, es frecuente encontrar que el número de participantes que están disponibles o que se pueden
conseguir para el estudio es bajo. De hecho, la mayoría de los investigadores, si son sinceros, reco-
nocerán que muchas veces «trabajan hacia atrás» desde un tamaño de la muestra fijo realista para
determinar la -magnitud del efecto que podrán detectar con una potencia razonable. Este es, en
parte, el motivo por el que es estúpido tratar una estimación del tamaño de la muestra como si es-
tuviera grabada en piedra.
Cuando un investigador debe trabajar hacia atrás desde el tamaño de la muestra fijo (ejemplo
6-6), calcula la magnitud del efecto que puede detectarse con una potencia determinada (general-
mente el 80%). Con menos frecuencia, estima la potencia para detectar un efecto concreto. El inves-
tigador puede usar las tablas de tamaños de las muestras que aparecen en los apéndices del capítulo,
interpolando cuando sea necesario , o usar las fórmulas de tamaños de las muestras de los apéndices
; para calcular la magnitud del efecto.
Una 'n orma general es que un estudio debe tener una potencia del 80 % o mayor para detectar una
magnitud del efecto razonable. No hay nada mágico en el 80 %: en ocasiones, un investigador tiene
suerte y encuentra un resultado estadísticamente significativo incluso aunque tenga una potencia
baja para realizarlo (incluso una potencia tan baja como _el 50 % ofrece una probabilidad del 50-50
de observar en la muestra un efecto estadísticamente significativo que realmente está presente en la
población) . Por lo tanto, puede estar justificado realizar estudios que tengan una potencia menor del
80% si el coste de hacerlo es pequeño, como cuando se realiza un análisis de datos que ya se han
recogido. Y hay algunos estudios (p. ej., uno en el que se demostró que un nuevo tratamiento redu-
ce la presión arterial pulmonar en más del 50 % en pacientes con hipertensión pulmonar refractaria
de larga evolución) en los que un tamaño de la muestra de dos o tres participantes sería suficiente
para indicar que está justificado un estudio adicional (sobre seguridad y efectos sobre los resultados
clínicos).
El irFestigador no debe olvidar, sin embargo , que debería enfrentarse a la dificultad de in-
terpretar (y publicar) un estudio en el que no se encontró ninguna asociación a causa de una
potencia insuficiente; los amplios intervalos de confianza revelarán la posibilidad de un nota-
ble efecto en la población de la cual se extrajo la pequeña muestra del estudio . También es
importante comprender que un estudio con «potencia insuficiente» que tuvo «suerte» y ofreció
un resultado estadísticamente significativo puede ser criticado porque los revisores son escép-
ticos en relación con si el investigador realmente quería buscar esa asociación particular o si
estudió docenas d~ hipótesis y seleccionó el único resultado que tenía un valor de p significa-
tivo.

EJEMPLO 6-6. Cálculo de la magnitud del efecto detectable cuando


el tamaño de la muestra es fijo
Un investigador estima que tendrá acceso a 200 nuevas madres de gemelos durante su residen-
cia. De acuerdo con un pequeño estudio piloto, estima que aproximadamente la mitad de esas
mujeres (es decir, 100) podrían estar deseosas de participar en un estudio de si un programa de
(Continúa)
66 Sección 1 • Ingredientes básicos

EJEMPLO 6-6. Cálculo de la magnitud del efecto detectable cuando


el tamaño de la muestra es fijo (cont.)
meditación durante 6 semanas reduce el estrés, en comparación con un grupo testigo , que reci-
birá un folleto en el que se describe la relajación. Si se espera que la desviación típica de la
puntuación de estrés sea de 5 puntos en los grupos testigo y de tratamiento, ¿qué diferencia
podrá detectar el investigador entre los dos grupos, con a (bilateral) = 0 ,05 y /3 = 0,20?
Solución: en la tabla 6A, descendiendo desde a (bilateral) = 0,05 y /3 = 0,20 (la colÚÍnna si-
tuada más a la derecha en la tríada media de números) , se necesitan 45 pacientes por grupo para
detectar una magnitud del efecto normalizada de 0,6, que es igual a 3 puntos (0 ,6 X 5 puntos).
El investigador (que tendrá unas 50 pacientes por grupo) podrá detectar una diferencia de algo
menos de 3 puntos entre los dos grupos.

■ ESTRATEGIAS PARA REDUCIR AL MÍNIMO EL TAMAÑO DE LA MUESTRA


Y AUMENTAR AL MÁXIMO LA POTENCIA
Cuando el tamaño de la muestra calculado es mayor que el número de participantes que realmente
pueden estudiarse, el investigador debe seguir varios pasos. En primer lugar, debe comprobarse el
cálculo , ya que es fácil cometer errores. A continuación deben revisarse los «ingredientes ». ¿Es la
magnitud del efecto irracionalmente pequeña o la variabilidad irracionalmente grande? ¿Son a o f3
extremadamente pequeños, el nivel de confianza demasiado elevado o el intervalo de confianza ex-
cesivamente estrecho?
Estos ajustes técnicos pueden resultar útiles , pero es importante comprender que las pruebas esta-
dísticas dependen, finalmente , de la información contenida en los datos. Muchos cambios en los in-
gredientes, como la reducción de la potencia desde el 90% al 80%, no mejoran la cantidad ni la cali-
dad de los datos que se recopilarán. Hay, no obstante, varias estrategias para reducir el tamaño de la
muestra necesario o para aumentar la potencia para un tamaño de la muestra determinado que real-
mente aumentan la información contenida en los datos recopilados . Muchas de estas estrategias con-
llevan modificaciones de la hipótesis de investigación; el investigador deberá considerar meticulosa-
mente si la nueva hipótesis sigue respondiendo a la pregunta de la investigación que desea estudiar.

Usar variables continuas


Cuando las variables continuas son una opción, suelen permitir usar tamaños de la muestra más
pequeños que las variables dicotómicas. La presión arterial, por ejemplo, puede expresarse en milí-
metros de mercurio (continua) o como la presencia o ausencia de hipertensión (dicotómica) . El

EJEMPLO 6-7. Uso de variables continuas o de variables dicotómicas


Problema: considere un estudio controlado con placebo para determinar el efecto de los com-
plementos nutricionales sobre la fuerza en ancianos que viven en residencias. Estudios anterio-
res han establecido que la fuerza del cuádriceps (como máximo momento de torsión en newton-
. metro) está distribuida de forma aproximadamente normal, con una media de 33 N-m y una
desviación típica de 10 N-m, y que alrededor del 10% de los ancianos tienen músculos muy
débiles (fuerza< 20 N-m). Se piensa que los complementos nutricionales durante 6 meses están
justificados si pueden aumentar la fuerza en N-m en comparación con la dieta habitual. Puede
calcularse esta variación de la fuerza media, basándose en la distribución de la fuerza del cuá-
driceps en el anciano , para qúe corresponda a una reducción de la proporción de los ancianos
que están muy débiles de alrededor del 5 %.
Un diseño podría tratar la fuerza como una variable dicotómica: muy débil frente a no muy
débil. Otro podría usar toda la información contenida en la determinación y tratar la fuerza como
una variable continua. ¿Cuántos participantes necesitaría cada diseño siendo a (bilateral) = 0,05
y /3 = 0,20?
Capítu lo 6 • Cá lcu lo de la potencia y el tamaño de la muestra: ap licaciones y ejemp los 67

Solución: los ingredientes para el cálculo del tamaño de la muestra usando una variable de
respuesta dicotómica (muy débil frente a no muy débil) son los siguientes:
1. Hipótesis nula: la proporción de ancianos en residencias que están muy débiles (máximo
momento de torsión del cuádriceps < 20 N-m) tras recibir complementos nutricionales du-
rante 6 meses es la misma que la proporción de los que están muy débiles con una dieta
normal.
Hipótesis alternativa: la proporción de ancianos de residencias que están muy débiles (máxi-
mo momento de torsión del cuádriceps < 20 N-m) tras recibir complementos nutricionales
durante 6 meses difiere de la proporción de los que siguen una dieta habitual.
2. P1 (proporción de personas muy débiles con una dieta habitual) = 0,10; P2 (en el grupo con
complementos) = 0,05. El menor de estos valores es 0,05, y la diferencia f".ntre ellos (P 1 - P2)
es 0,05.
3. a (bilateral) = 0,05; {3 = 0,20.
Usando la tabla 6B-l, recorriendo transversalmente desde 0,05 en la columna situada más a
la izquierda y descendiendo desde una diferencia esperada de 0,05 , para encontrar el número
central (para a [bilateral] = 0,05 y {3 = 0,20), este diseño necesitaría 4 73 participantes por grupo.
Los ingredientes para el cálculo del tamaño de la muestra usando una variable de respuesta
continua (fuerza del cuádriceps como máximo momento de ,torsión) son los siguientes:
1. Hipótesis nula: la fuerza media del cuádriceps (como máximo momento de torsión en N-m)
en ancianos de residencias tras recibir complementos nutricionales durante 6 meses es la
mis~a que la fuerza media del cuádriceps en los que siguen una dieta habitual.
Hjpótesis alternativa: la fuerza media del cuádriceps (como máximo momento de torsión en
N-m) en ancianos de residencias tras recibir complementos nutricionales durante 6 meses
difiere de la fuerza media del cuádriceps en los que siguen una dieta habitual.
2. Magnitud del efecto= 5 N-m.
3. Desviación estándar de la fuerza del cuádriceps = 10 N-m.
4. Magnitud del efecto normalizada= magnitud del efecto/desviación típica= 5 N-m/10 N-m = 0,5.
S. a (bilateral) = 0,05; {3 = 0,20.
Usando la tabla 6A, recorriendo transversalmente desde una magnitud del efecto normaliza-
da de 0,50, siendo a (bilateral) = 0,05 y {3 = 0,20, este diseño necesitaría unos 64 participantes
en cada grupo. (En este ejemplo, el atajo para el cálculo del tamaño de la muestra de la página
57 de 16/[magnitud del efecto normalizada]2, o 16/[0,5] 2 da el mismo cálculo de 64 participan-
tes por grupo.) La consecuencia es que el uso de una variable de respuesta continua lleva a un
tamaño del efecto mucho menor.

primer caso permite un tamaño de muestra menor para una potencia concreta, o una potencia mayor
para un tamaño de muestra determinado.
En el ejemplo 6-7, la variable de respuesta continua permite analizar el efecto de los complemen-
tos nutritivos sobre la fuerza muscular en los ancianos. La variable de respuesta dicotómica permite
analizar sus efecto_s sobre la proporción de participantes que tienen al menos una mínima cantidad
de fuerza, lo que puede ser una medida indirecta más válida de la posible morbilidad relacionada
con las caídas.

Usar mediciones emparejadas


En algunos experimentos o estudios de cohortes con variables de respuesta continuas pueden reali-
zarse determinaciones emparejadas (una en estado basal, otra 'al finalizar el estudio) en cada uno de
los participantes. La variable de respuesta es el cambio producido entre estas dos determinaciones.
En esta situación puede utilizarse una prueba de la t en las determinaciones emparejadas para com-
parar el valor medio de este cambio en los dos grupos. Esta técnica, a menudo , permite un menor
tamaño de la muestra, porque, al comparar cada participante consigo mismo, elimina la parte intra-
individual basal de la variabilidad de la variable de respuesta. Por ejemplo, el cambio de peso con
68 Sección 1 • Ing redientes básicos

EJEMPLO 6-8. Uso de la prueba de la t con determinaciones emparejadas


Problema: recuerde el ejemplo 6-1, en el qu~ el investigador que estudia el tratamiento del asma
está interesado en determinar si el salbutamol puede mejorar el FEV1 en 200 ml en comparación
con el bromuro de ipratropio. Los cálculos del tamaño de la muestra indicaron que se necesita-
ban 394 participantes por grupo, más de los que probablemente se dispondrá . Afortunadamen-
te, un compañero señala que los pacientes asmáticos presentan ·grandes diferencias de los valo-
res del FEV 1 antes del tratamiento . Estas diferencias entre participantes explican gran parte de
la variabilidad del FEV1 tras el tratamiento, lo que enmascara el efecto del tratamiento . El in-
vestigador sugiere el uso de una prueba de la t para dos muestras emparejadas para comparar
los cambios del FEV 1 en los dos grupos. En un estudio piloto se observa que la desviación típica
del cambio del FEV 1 es solo de 250 ml. ¿ Cuántos participantes se necesitarían por grupo , sien-
do a (bilateral) = 0,05 y /3 = 0,20?
Solución: los ingredientes para el cálculo del tamaño de la muestra son los siguientes:
1. Hipótesis nula: el cambio del FEV 1 medio tras 2 semanas de tratamiento con salbutamol es
el mismo en los pacientes asmáticos tratados con salbutamol que en los pacientes tratados
con bromuro de ipratropio.
Hipótesis alternativa: el cambio en el FEV1 tras 2 semanas de tratamiento es diferente en los
pacientes asmáticos tratados con salbutamol y en los tratados con bromuro de ipratropio.
2. Magnitud del efecto ~ 200 ml.
3. Desviación típica de la variable de respuesta = 250 ml.
4. Magnitud del efecto normalizada= magnitud del efecto/desviación típica= 200 ml/250 ml = 0,8.
5. a (bilateral) = 0,05; f3 = 1 - 0,80 = 0,20.
Usando la tabla 6A, este diseño necesitaría unos 26 participantes por grupo , un tamaño de
muestra mucho más razonable que el de 394 por grupo del ejemplo 6-1. En este ejemplo, el
atajo del cálculo del tamaño de la muestra de 16/(magnitud del efecto normalizada)2, o 16/0,82
proporciona un cálculo similar de 25 participantes por grupo.

una dieta tiene menos variabilidad que el peso final , porque este último está muy relacionado con
el peso inicial. El tamaño de la muestra para este tipo de prueba de la t se calcula del modo ha-
bitual (ejemplo 6-8), con la excepción de que la magnitud del efecto normalizada (E/D en la ta-
bla 6A) es la diferencia prevista del cambio de la variable dividido por la desviación típica de ese
cambio.

Una breve nota técnica


Este capítulo se refiere siempre a pruebas de la t con dos muestras, que se usan para comparar los
valores medios de variables continuas en dos grupos de participantes. Una prueba de la t con
dos muestras puede ser no emparejada , si se está comparando la variable de respuesta entre dos
grupos (ejemplo 6-1), o emparejada, si la variable de respuesta es el cambio en un par de determi-
naciones, por ejemplo, antes y después de una intervención (p . ej., ejemplo 6-8).
Un tercer tipo de prueba de la t, la prueba de la t emparejada con una muestra, compara el cambio
medio en un par de determinaciones en un solo grupo hasta el cambio cero. Este tipo de análisis es
razonablemente habitual en diseños de series temporales (cap. 11), un método de antes y después para
examinar tratamientos que son difíciles de aleatorizar (p. ej ., el efecto de la histerectomía electiva, una
decisión que pocas mujeres están dispuestas a dejar al resultado del lanzamiento de una moneda,
sobre la calidad de vida). Sin embargo , es un diseño más débil, porque la ausencia de un grupo de
comparación hace que sea difícil saber qué habría ocurrido con las participantes sin tratar. Al planear
un estudio que será analizado con una prueba de la t emparejada con una sola muestra , el tamaño de
la muestra total es tan solo la mitad del tamaño de la muestra por grupo enumerado en el apéndice 6A.
Por ejemplo, para a = 0,05 (bilateral) y f3 = 0,2, para detectar una diferencia de la desviación típica de
0,5 (E/D = 0,5) , harían falta 64/2 = 32 participantes. En el apéndice 6F se presenta información adi-
cional sobre el uso correcto y erróneo de pruebas de la t con una y con dos muestras.
Cap ítulo 6 • Cálcu lo de la potencia y el tamaño de la muestra: aplicaciones y ejemplos 69

Usar variables más precisas


Debido a que reducen la variabilidad, las variables más precisas permiten un menor tamaño de la mues-
tra tanto en estudios analíticos como en estudios descriptivos . Incluso un pequeño cambio de precisión
puede tener un notable efecto sobre el tamaño de la muestra. Por ejemplo , al usar la prueba de la t para
calcular el tamaño de la muestra, una disminución del 20 % de la desviación típica de la variable de
respuesta produce una disminución del tamaño de la muestra del 36 %. En el capítulo 4 se presentan
técnicas para aumentar la precisión de una variable, como realizar determinaciones por duplicado.

Usar tamaños de grupos desiguales


Debido a que un mismo número de participantes en cada uno de dos grupos suele proporcionar la
mayor potencia para un número total determinado de estos , las tablas 6A, 6B-l y 6B-2 de los apén-
dices suponen tamaños de muestra iguales en los dos grupos . A veces, sin embargo, la distribución
de participantes no es igual en los dos grupos, o es más fácil o más barato reunir participantes del
estudio de un grupo que de otro. Puede ocurrir, por ejemplo , que un investigador quiera calcular el ta-
maño de la muestra para un estudio comparando el 30 % de los integrantes de una cohorte que fuma
cigarrillos con el 70% que no lo hace. O, en un estudio de casos y testigos, el número de personas
con la enfermedad puede ser pequeño , pero puede que sea posible muestrear un número más gran-
de de testigos . En general, lo que gana la potencia cuando se aumenta el tamaño de un grupo al
doble del tamaño del otro es considerable; triplicar o cuadriplicar uno de los grupos proporciona
ganancias progresivamente más pequeñas. Los tamaños de la muestra en grupos desiguales pueden
calcularse a partir de las fórmulas que se encuentran en el texto de los apéndices 6A y 6B , o con cal-
culadoras,,.del tamaño de la muestra en programas estadísticos o en Internet.
· Existe un método útil (30) para calcular el tamaño de la muestra en estudios de casos y testigos
de factbres de riesgo y variables de respuesta dicotómicos usando e testigos por cada caso (ejem-
plo 6-9). Sin represen_ta el número de casos que se habrían necesitado para un testigo por caso (con
unos valores concretos de a , /3, y magnitud del efecto) , el número de casos aproximado (n') con en'
testigos que se necesitarán es:

n' =([e+ 1]/2c) X n

Por ejemplo , con e= 2 testigos por caso , entonces ([2 + 1]/[2 x 2]) X n = ¾ X n, y solo se nece-
sita el 75 % más de casos. Cuando e se hace mayor, n' se acerca al 50 % de n (cuando e = 10, por
ejemplo, n' = 11/20 x n).

Usar una variable de respuesta más frecuente


Cuand2 se planifica un estudio con una variable de respuesta dicotómica , cuanto mayor sea la
frecuencia con la que se produce el resultado, hasta una frecuencia de aproximadamente 0,5, ma-
yor será la potencia. Por lo tanto , la modificación de la definición de un resultado es una de las
mejores formas de aumentar la potencia. Si una variable de respuesta se produce más a menudo ,
es más probable que se detecten sus variables predictivas. De he.c ho, la potencia depende más del
número de participantes con una variable de respuesta especificada que del número total de par-
ticipantes en el estudio . Los estudios con variables de respuesta raras, como la aparición de cáncer

EJEMPLO 6-9. Uso de múltiples testigos por caso en un estudio de casos


y testigos
Problema: un investigador está estudiando si la exposición.a.insecticidas domésticos es un fac-
tor de riesgo de sufrir anemia aplásica. El cálculo del tamaño de la muestra original indicó que
se necesitarían 25 casos , usando un control por caso. Supon'ga que el investigador tiene acceso
solo a 18 casos. ¿Qué debería hacer el investigador?
Solución: el investigador debe considerar usar múltiples testigos por caso (después de todo,
puede encontrar muchos pacientes sin anemia aplásica). Usando tres testigos por caso , por
ejemplo , el número aproximado de casos que se necesitarán es ([3 + 1]/ [2 x 3]) X 25 = 17.
70 Sección 1 • Ingred ientes bás icos

EJEMPLO 6-10. Uso de variables de respuesta más habituales


Problema: suponga que un investigador ~stá comparando la eficacia de un antiséptico para
hacer gárgaras con un placebo en la prevención de las infecciones de las vías respiratorias supe-
riores. Sus cálculos iniciales indicaban que su muestra prevista de 200 estudiantes voluntarios
era inadecuada, en parte debido a que esperaba que solo alrededor del 20 % de sus participantes
tuvieran una infección de las vías respiratorias superiores durante el período de seguimiento de
3 meses. Sugiera algunos cambios en el plan del estudio . ·
Solución: existen dos posibles soluciones: 1) estudiar una muestra de internos y residentes
de pediatría, que es probable que presenten una incidencia mucho mayor de infecciones de vías
respiratorias superiores que los estudiantes; 2) realizar el estudio en invierno, cuando esas in-
fecciones son más frecuentes , o 3) realizar un seguimiento de la muestra durante un período
más largo, por ejemplo , 6 o 12 meses. Todas estas soluciones conllevan la modificación de la
hipótesis de la investigación, pero ninguna de ellas parece lo suficientemente grande como para
afectar a la pregunta global de la investigación sobre la eficacia del antiséptico para hacer gár-
garas.

de mama en mujeres sanas, precisan tamaños de muestra muy grandes para contar con una poten-
cia adecuada.
Una de las mejores formas para que un resultado se produzca con más frecuencia es incluir par-
ticipantes con mayor riesgo de presentar esa variable (como mujeres con antecedentes familiares de
cáncer de mama).
· Otras serán ampliar el período de seguimiento, de modo que exista más tiempo para acumular
. resultados, o ampliar la definición de lo que constituye una respuesta (p. ej. , incluyendo el carcino-
ma in situ ductal) . Todas estas técnicas (ejemplo 6.10), no obstante, pueden modificar la pregunta
del estudio, por lo que deben usarse con precaución.

■ CÓMO CALCULAR EL TAMAÑO DE LA MUESTRA CUANDO LA INFORMACIÓN


ES INSUFICIENTE
A menudo, el investigador observa que está perdiendo uno o más de los ingredientes para el cálculo
del tamaño de la muestra y se siente frustrado en sus intentos para planificar su estudio. Se trata de
un problema especialmente frecuente cuando el investigador usa un instrumento de su diseño
(como un nuevo cuestionario en el que se compara la calidad de vida de mujeres con incontinencia
urinaria de esfuerzo o con tenesmo) . ¿Cómo debe decidir qué fracción de una desviación típica de
las puntuaciones de su instrumento sería clínicamente significativa?
La primera estrategia será una amplia búsqueda de hallazgos anteriores y relacionados sobre el tema
. y sobre preguntas de investigación similares. Puede bastar con situaciones aproximadamente compa-
rables o hallazgos mediocres o antiguos. Por ejemplo, ¿hay datos de calidad de vida en pacientes con
otros problemas urológicos o con afecciones relacionadas, como una colostomía? Si no se consigue
nada con la revisión bibliográfica, se debe contactar con otros investigadores y pedir su opinión sobre
qué se puede esperar, y preguntar si conocen algún resultado publicado que pueda ser relevante.
Si sigue sin disponerse de información, se puede considerar la realización de un estudio piloto o
la obtención de una serie de datos para un análisis secundario con el fin de obtener los ingredientes
perdidos antes de emprender el estudio principal. En realidad, es muy recomendable un estudio
piloto en casi todos los estudios en los que intervienen nuevos instrumentos , métodos de medida o
estrategias de inclusión de pacientes. Ahorra tiempo al final , facilitando a los investigadores la rea-
lización de un trabajo mucho mejor al planear el estudio principal. Los estudios pilotos son útiles
para calcular la desviación típica de una determinación o la proporción de participantes con una
característica concreta. Sin embargo, una alternativa es reconocer que para las variables continuas
con una distribución general en forma de campana puede calcularse la desviación típica como un cuar-
to de la diferencia entre los extremos mayor y menor de un intervalo de valores que se producen
Cap ítulo 6 • Cálculo de la potencia y el tamaño de la muestra: aplicaciones y ejemplos 71

habitualmente, ignorando los valores extremos. Por ejemplo, si es probable que la mayoría de los
participantes tengan una concentración de sodio sérico entre 135 y 143 mEq/1, la desviación típica
del sodio sérico es de unos 2mEq/l (1/4 X 8 mEq/1).
Otra estrategia cuando hay dudas sobre la media y la desviación típica de una variable continua
o categórica es dicotomizar la variable . Las categorías se pueden agregar en dos grupos, y las va-
riables continuas se pueden separar en la media o la mediana. Por ejemplo, dividir la calidad de
vida en «mejor que la mediana» y «la mediana o menos» evita tener que estimar la desviación
típica de la muestra, aunque todavía se tiene que estimar la proporción de pacientes que estarían
por encima de la media general en cada uno de los dos grupos en estudio. Después, se puede uti-
lizar la prueba de la x2 para hacer una estimación razonable, aunque algo elevada, del tamaño de
la muestra .
Sin embargo, muchas veces el investigador debe elegir la magnitud del efecto detectable de acuer-
do con un valor que considera que tiene significado clínico . En esa situación, el investigador debe
comentar su elección con compañeros que conozcan el tema. Por ejemplo , suponga que un investi-
gador está estudiando un nuevo tratamiento invasivo para la gastroparesia refractaria grave, enfer-
medad de la que, como mucho , el 5 % de los pacientes mejoran espontáneamente. Si se demuestra
que el tratamiento es eficaz, sus colegas digestólogos indicarían que estarían deseosos de tratar has-
ta a cinco pacientes para obtener una mejoría mantenida en tan solo uno de ellos (como el trata-
miento tiene efectos adversos graves y es costoso, no piensan que el número sea mayor de cinco).
Un número que es necesario tratar (NNT) de 5 corresponde a una diferencia de riesgos del 20 %
(NNT = 1/diferencia de riesgos) , por lo que el investigador debe estimar el tamaño de la muestra
basado en' una comparación de P 1 = 5 % con P2 = 25 % (es decir, 59 pacientes por grupo con una
; potencia de 0,8 y un valor de a bilateral de 0,05).
Si toáo esto falla, el investigador deberá hacer un supuesto mejorado sobre los valores probables
de los ingredientes perdidos. El proceso de pensar sobre el problema e imaginar los hallazgos dará
lugar, a menudo, a un cálculo razonable, y de eso se trata en la planificación del tamaño de la mues-
tra. Esta suele ser una mejor opción que solo decidir, en a]lsencia de cualquier justificación, diseñar
el estudio para tener una potencia del 80 % con un valor a bilateral de 0,05 a fin de detectar una
magnitud del efecto normalizada de, por ejemplo, 0,5 entre los dos grupos (n = 64, por grupo). Muy
pocos revisores de subvenciones aceptarán ese tipo de decisión arbitraria.

■ ERRORES HABITUALES QUE HAY QUE EVITAR

Muchos investigadores inexpertos (¡y algunos con experiencia!) comenten errores al planificar el
tamaño de la muestra. He aquí algunos de los más frecuentes:

l. Un error frecuente es calcular tarde el tamaño de la muestra durante el diseño del estudio . Há-
galo al principio del proceso , cuando todavía pueden hacerse cambios fundamentales.
2. Las variables dicotómicas pueden parecer continuas cuando se expresan como un porcentaj e o
una tasa. Por ejemplo, la situación vital (vivo o muerto) podría interpretarse erróneamente como
continua cuando se expresa como porcentaje de vivos . Igualmente, en el análisis de superviven-
cia, en el que no todos los participantes mueren, un resultado dicotómico puede parecer conti-
nuo (p. ej., me.diana de supervivencia en meses). Por todo esto, la propia variable de respuesta
es realmente dicotómica (una proporción), y el método sencillo adecuado al planificar el tama-
ño de la muestra sería la prueba de la x2 .
3. El tamaño de la muestra calcula el número de participantes con datos de respuesta, y no el nú-
mero que se necesita que participe. El investigador debe planificar siempre pensando en los
abandonos y en los participantes con datos ausentes.
4. Las tablas que se ofrecen al final del capítulo suponen que los dos grupos que se están estudian-
do tienen tamaños de muestra iguales. A menudo, esto no es así; por ejemplo, un estudio de
cohortes sobre si el uso de complementos vitamínicos reduce el riesgo de sufrir quemaduras
solares no incluiría, probablemente, el mismo número de personas que toman o no toman vita-
minas. Si los tamaños de las muestras no son iguales, deben usarse las fórmulas que siguen a las
tablas o calculadoras de Internet, o programas estadísticos.
72 Sección 1 • Ingred ientes básicos

5. Cuando se utiliza la prueba de la t para calcular el tamaño de la muestra, la desviación típica de


la variable de respuesta es un factor fundamental. Por lo tanto, si la respuesta es el cambio de una
variable continua, el investigador debe utilizar la desviación típica de ese cambio, en lugar de la
desviación típica de la propia variable. ·
6. Tenga en mente la posibilidad de que haya conglomerados de datos. Si parece haber dos «nive-
les» de tamaño de muestra (p. ej., uno para médicos y otro para pacientes), es probable que haya
agrupamiento, y no se aplicarán las tablas de los apéndices .
7. Si encuentra que tiene dificultad para estimar el tamaño de la muestra para su estudfo, asegúre-
se de que su hipótesis de investigación cumpla los criterios que se han discutido previamente
en este capítulo (sencillo, específico y formulado por anticipado).

■ RESUMEN
l. Al calcular el tamaño de la muestra para un estudio analítico , deben darse los siguientes pasos:
a) establecer las hipótesis nula y alternativa, especificando el número de lados;
b) seleccionar una prueba estadística que pueda usarse para analizar los datos, según los tipos
de variables predictivas y de respuesta (prueba de la x2 si las dos son dicotómicas, prueba
de la t si una es dicotómica y la otra continua, y coeficiente de correlación si las dos son
continuas); ·
c) calcular la magnitud del efecto (y su variabilidad, si es necesario); y
d) especificar valores adecuados de a y f3 según la importancia de evitar los errores de tipo I y
de tipo 11.
2. Otras consideraciones al calcular el tamaño de la muestra para estudios analíticos son el ajuste
para tener en cuenta los posibles abandonos , y estrategias para abordar variables categóricas,
análisis de supervivencia, muestras de conglomerados, ajuste multivariado y abordajes esta-
dísticos especiales para los estudios de equivalencia y ausencia de inferioridad.
3. Los pasos para calcular el tamaño de la muestra para estudios descriptivos , que carecen de
hipótesis, son: a) calcular la proporción de participantes con una respuesta dicotómica o la
desviación típica de una respuesta continua; b) especificar la precisión deseada (amplitud del
intervalo de confianza), y e) especificar el nivel de confianza (p. ej., 95%).
4. Cuando el tamaño de la muestra está predeterminado, el investigador puede trabajar retrospec-
tivamente para calcular la magnitud del efecto detectable o, con menos frecuencia, la potencia
del estudio.
5. Las estrategias para reducir al mínimo el tamaño de muestra comprenden: usar variables conti-
nuas , determinaciones más precisas, determinaciones emparejadas y más respuestas frecuentes ,
además de aumentar el número de testigos por caso en los estudios de casos y testigos.
6. Cuando no parece haber suficiente información para calcular el tamaño de la muestra, el inves-
tigador debe revisar la bibliografía en áreas relacionadas y consultar con compañeros para poder
elegir un tamaño de la muestra que sea clínicamente significativo.
7. Los errores que se deben evitar incluyen estimación del tamaño de la muestra demasiado tarde,
interpretación errónea de las proporciones expresadas como porcentajes, no tener en conside-
ración los sujetos y los datos ausentes, y no abordar adecuadamente los datos agrupados y pa-
reados.
APÉNDICE 6A
Tamaño de muestra necesario
por grupo al usar la prueba de la t
para comparar medias de variables
continuas
TABLA 6A. TAMAÑO DE MUESTRA POR GRUPO PARA COMPARAR DOS MEDIAS
1
UNILATERAL a= 0,005 0,025 0,05

BILATERAL a= 0,01 0,05 0,10

E/D 1
/3= 0,05 0,10 0,20 0,05 0,10 0,20 0,05 o, 10 0,20

0,10 3.565 2.978 2.338 2.600 2.103 1.571 2.166 1.714 1.238
o, 15 1.586 1.325 1.040 1.157 935 699 963 762 551
'
0,20 893 746 586 651 527 394 542 429 310
,
0,25 572 478 376 417 338 253 347 275 199
I

0,30 398 333 262 290 235 176 242 191 139
./

0,40 225 188 148 164 133 100 136 108 78


0,50 145 121 96 105 86 64 88 70 51
0,60 101 85 67 74 jiO 45 61 49 36
0,70 75 63 50 55 44 34 45 36 26
0,80 58 49 39 42 34 26 35 28 21
0,90 46 39 32 ,34 '27 21 28 22 16
1,00 38 32 26 27 23 17 23 18 14
1EID es la magnitud del efecto normalizada, calculada como E (magnitud del efecto esperada) dividida por D (desviación
típica de la variable de respuesta). Para calcular el tamaño de la muestra, recorra transversalmente desde la magnitud del
efecto normalizada y descienda desde los valores especificados de a y /3 para el tamaño de la muestra necesario en cada
grupo . .Eara una prueba de la t de una muestra, el tamaño de la muestra total es la mitad del número señalado en la lista.

■ CÁLCULO DE LA VARIABILIDAD
La variabilidad suele comunicarse como la desviación típica o el error típico de la media (ETM) . Para
calcular el tamaño de la muestra es más útil la desviación típica de la variable. Afortunadamente, es
fácil pasar de una medida a otra: la desviación típica es , sencillamente, el error típico multiplicado
por la raíz cuadrada de N , siendo N el número de participantes que componen la media. Suponga un
estudio que comunicó que la pérdida de peso de 25 personas que siguieron una dieta con poca fibra
fu e de 10 ± 2 kg (media ± ETM) . La desviación típica sería: 2 X -y25 = 10 kg .

.■ FÓRMULA GENERAL PARA OTROS VALORES


A continuación se muestra la fórmula general para otros valores de E, S, a y {3 , o para tamaños de
grupo diferentes. Sea:

Za = desviación normal típica de a (si la hipótesis alternativa es bilateral, Za = 2,58 cuando a= 0,01 ,
Za = 1,96 cuando a= 0,05 , y Za = 1,645 cuando a= 0,10. Si la hipótesis alternativa es unilate-
ral, Za = 1,645 cuando a= 0,05) .
73
74 Sección 1 • Ingredientes básicos

Z~= desviación normal típica de /3 (Zp = 0,84 cuando f3 = 0,20, y Zp = 1,282 cuando f3 = 0,10) .
q1 = proporción de participantes en el grupo 1
q2 = proporción de participantes en el grupo 2
N = número total de participantes necesarios"

Entonces:

Los lectores que deseen evitar el trabajo que supone calcular a mano esta fórmula pueden lograr una
respuesta instantánea con una calculadora o con nuestra página web (www.epibiostat.ucsf.edu/dcr/J.
( Como esta fórmula se basa en una aproximación del estadístico t con el estadístico Z, infravalorará
ligeramente el tamaño de la muestra cuando N sea menor de 30, aproximadamente. La tabla 6A usa
el estadístico t para calcular el tamaño de la muestra.)
APÉNDICE 6B
Tamaño de muestra necesario
por grupo cuando se usa la 2 x
o la prueba de la Z para comprobar
las proporciones de variables
dicotómicas

TABLA 6B-1. TAMAÑO DE LA MUESTRA POR GRUPO PARA COMPARAR DOS


PROPORCIONES
=
NÚMERO SUPERIOR: a= 0,05 {UNILATERAL) O a= 0,10 {BILATERAL); /J 0,20
NÚMERO MEDIO: a= 0,025 {UNILATERAL) O a= 0,05 (BILATERAL); /J 0,20=
=
NÚMERO INFERIOR: a= 0,025 {UNILATERAL) O a= 0,05 {BILATERAL); /J O, 10

DIFERENCIA ENTRE P1 Y P2
MENOR
DE P1 Y P2 * 0,05 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50

0,05 ¡ 381 129 72 47 35 27 22 18 15 13


473 159 88 59 43 33 26 22 18 16
620 207 113 75 54 41 33 27 23 19
0,10 578 175 91 58 41 31 24 20 16 14
724 219 112 72 51 37 29 24 20 17
958 286 146 92 65 48 37 30 25 21
0,15 751 217 108 67 46 34 26 21 17 15
944 270 133 82 57 41 32 26 21 18
1.252 354 174 106 73 53 42 33 26 22
0,20 900 251 121 74 50 36 28 22 18 15
1.133 313 151 91 62 44 34 27 22 18
1.504 412 197 118 80 57 44 34 27 23
0,25 ~ 1.024 278 132 79 53 38 29 23 18 15
1.289 348 165 98 66 47 35 28 22 18
1.714 459 216 127 85 60 46 35 28 23
0,30 1.123 300 141 83 55 39 29 23 18 15
1.415 376 175 103 68 48 36 28 22 18
1.883 496 230 134 88 62 47 36 28 23
0,35 1.197 315 146 85 56 , 39 29 23 18 15
1.509 395 182 106 69 48 36 28 22 18
2.009 522 239 138 90 62 47 35 27 22
0,40 1.246 325 149 86 56 39 29 22 17 14
1.572 407 186 107 69 48 35 27 21 17
2.093 538 244 139 90 6~ 46 34 26 21
(Continúa)

75
76 Sección 1 • Ingred ientes básicos

TABLA 68-1. TAMAÑO DE LA MUESTRA POR GRUPO PARA COMPARAR DOS


PROPORCIONES (cont.)
NÚMERO SUPERIOR: a= 0,05 (UNILATERAL) O a= O, 10 (BILATERAL); /3 = 0,20
=
NÚMERO MEDIO: a 0,025 (UNILATERAL) O a = 0,05 (BILATERAL); /3 0,20 =
NÚMERO INFERIOR: a= 0,025 (UNILATERAL) O a= 0,05 (BILATERAL); /3 = O, 10
DIFERENCIA ENTRE P1 Y P2
MENOR
DE P1 Y P2 * 0,05 0,10 o, 15 0,20 0,25 0,30 0,35 0,40 0,45 0,50
0,45 1.271 328 149 85 55 38 28 21 16 13
1.603 411 186 106 68 47 34 26 20 16
2.135 543 244 138 88 60 44 33 25 19
0,50 1.271 325 146 83 53 36 26 20 15
1.603 407 182 103 66 44 32 24 18
2.135 538 239 134 85 57 42 30 23
0,55 1.246 315 141 79 50 34 24 18
1.572 395 175 98 62 41 29 22
2.093 522 230 127 80 53 37 27
0,60 1.,197 300 132 74 46 31 22
1.509 376 165 91 57 37 26
2.009 496 216 118 73 48 33
0,65 1.123 278 121 67 41 27
1.415 348 151 82 51 33
1.883 459 197 106 65 41
0,70 1.024 251 108 58 35 .
1.289 313 133 72 43
1.714 412 174 92 54
0,75 900 217 91 47
1.133 270 112 59
1.504 354 146 75
0,80 751 175 72
944 219 88
1.252 286 113
0,85 578 129
724 159
958 207
0,90 381
473
620
Para los cálculos unilaterales se usa el estadístico Z.
•p, representa la proporción de participantes que se espera que tengan el resultado en un grupo; P2 en el otro grupo.
(En un estudio de casos y testigos, P, representa la proporción de casos con la variable predictiva; P2 la proporción de
testigos con la variable predictiva.) Para calcular el tamaño de la muestra, recorra transversalmente desde el menor
de P1 y P2, y descienda por la diferencia esperada entre P, y P2 • Los tres números representan el tamaño de la muestra
necesario en cada grupo para los valores especificados de a y /3.
En la tabla GB-2 se ofrecen más detalles para P1 y P2 entre 0,01 y O, 1O.
Capítu lo 6 • Cá lcu lo de la potencia y el tamaño de la muestra : apl icaciones y ejemp los 77

TABLA 6B-2. TAMAÑO DE LA MUESTRA POR GRUPO PARA COMPARAR DOS


PROPORCIONES, ESTANDO LA MÁS PEQUEÑA ENTRE 0,01 Y O, 10
NÚMERO SUPERIOR: a= 0,05 (UNILATERAL) O a= 0,10 (BILATERAL); /3 0,20 =
NÚMERO MEDIO: a =
0,025 (UNILATERAL) O a= 0,05 (BILATERAL); /3 0,20 =
NÚMERO INFERIOR: a= 0,025 (UNILATERAL) O a= 0,05 (BILATERAL); /3 0,10 =
DIFERENCIA ENTRE P1 Y P2
MENOR
DEP1 YP2 * 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10

0,01 2.019 700 396 271 204 162 134 114 98 87


2.512 864 487 332 249 197 163 138 120 106
3.300 1.125 631 428 320 254 209 178 154 135
0,02 3.205 994 526 343 249 193 157 131 113 97
4.018 1.237 651 423 306 238 192 161 137 120
5.320 1.625 852 550 397 307 248 207 177 154
0,03 4.367 1.283 653 414 294 224 179 148 126 109
5.493 ' 1.602 813 512 363 276 220 182 154 133
7.296 2.114 1.067 671 474 359 286 236 199 172
0,04 5.5Ó5 1.564 777 482 337 254', 201 165 139 119
6.935 1.959 969 600 419 314 248 203 170 146
9.230 2.593 1.277 788 548 410 323 264 221 189
I
, 0,05 6.616 1.838 898 549 380 283 222 181 151 129
8.347 2.308 1.123 686 473 351 275 223 186 159
11.123 3.061 1.482 902 620 460 360 291 242 206
0,06 7.703 2.107 1.016 615 422 312 243 197 163 139
9.726 2.650 1.272 769 526 388 301 243 202 171
12.973 3.518 1.684 1.014 691 1 508 395 318 263 223
0,07. 8.765 2.369 1.131 680 463 340 263 212 175 148
11.076 2.983 1.419 850 577 423 327 263 217 183
14.780 3.965 1.880 1.123 760 555 429 343 283 239
0,08 9.803 2.627 1.244 743 502 367 282 227 187 158
12.393 3.308 1.562 930 627 457 352 282 232 195
16.546 4.401 2.072 1.229 827 602 463 369 303 255
0,09 10.816 2.877 1.354 804 541 393 302 241 198 167
13.679 3.626 1.702 1.007 676 491 377 300 246 207
18.270 4.827 2.259 1.333 893 647 495 393 322 270
0,10 11.804 3.121 1.461 863 578 419 320 255 209 175
14.933 3.936 1.838 1.083 724 523 401 318 260 218
19.952 5.242 2.441 1.434 957 690 527 417 341 285
Los cálculos uni laterales usan el estadístico Z.
78 Sección 1 • Ingredientes básicos

■ FÓRMULA GENERAL PARA OTROS VALORES


La fórmula general para calcular el tamaño de la muestra total (N) necesario para un estudio usando
el estadístico Z, donde P 1 y P 2 se definen como se señala anteriormente, es el siguiente (en el apén-
dice 6A se ofrecen la definiciones de Za y 2 13 ). Sea:

q1 = proporción de participantes del grupo 1


q2 = proporción de participantes del grupo 2
N = número total de participantes
P = q1P1 + q2P2

[Za ✓P(l -P) (1 / q + l / q ) + 2 ✓P (l -P ) (1/ q1) + Pil -P 2) (1/ q2)] 2


N = - - - - - - -1- - -2- -13~ 1- - -1 - - - ----------
(P1 -P2)2

Los lectores que deseen evitar el trabajo que supone calcular a mano con esta fórmula pueden
obtener una respuesta instantánea con una calculadora o en nuestra página web (www.epibiostat.
ucsf.edu/dcr/). (Esta fórmula no incluye la corrección de continuidad de Fleiss-Tytun-Ury y, por
tanto, infravalora el tamaño de muestra necesario hasta en un 10%. En las tablas 6B-l y 6B-2 se
incluye esta corrección de continuidad.)
APÉNDICE 6C
Tamaño total de la muestra necesario
cuando se usa el coeficiente
de correlación {r)

TABLA 6C. TAMAÑO DE LA MUESTRA PARA DETERMINAR SI UN COEFICIENTE


DE CORRELACIÓN DIFIERE DE CERO
UNILATERAL a= 0,005 0,025 0,05
'
BI LATERAL a= 0,01 0,05 0,10

(3= 0,05 0,10 0,20 0,05 0,10 0,20 0,05 0,10 0,20
r*
0,05 7.118 5.947 4.663 5.193 4.200 3.134 4.325 3.424 2.469
I
0,10 1.773 1.481 1.162 1.294 1.047 ', 782 1.078 854 616
o, 15 783 655 514 572 463 346 477 378 273
0,20 436 365 287 319 259 194 266 211 153
0,25' 276 231 182 202 164 123 169 134 98
0130 189 158 125 139 113 85 116 92 67
0,35 136 114 90 100 82 62 84 67 49
0,40 102 86 68 75 62 47 63 51 37
0,45 79 66 53 58 48 36 49 39 29
0,50 62 52 42 46 - 38 29 39 31 23
0,60 40 . 34 27 30 25 19 26 21 16
,0,70 27 23 19 20 17 13 17 14 11
0,80 18 15 13 14 12 9 12 10 8
•Para calcula r el tamaño total de la muestra, recorra transversalmente desde r (el coeficie nte de correlación es pe rado)
y descienda desd e los valores especificados de a y /3 .

■ FÓRMULA GENERAL PARA OTROS VALORES


La fórm1,1la general para otros valores de r, a y /3 es la siguiente (v. en el apéndice 6A las d efiniciones
de Z,,y z 13 . Sea:
r = coeficiente de correlación esperado
C = 0 ,5 x ln [(l + r)/( 1- r) ]
N = número total de participantes necesarios
Enton ces:
N = [(Z,, + z 13 )/C]2 + 3.

■ CÁLCULO DEL TAMAÑO DE LA MUESTRA PARA LA DIFERENCIA


ENTRE DOS COEFICIENTES DE CORRELACIÓN
Si se comprueba si un coeficien te de correlación , r 1 , es diferente de r 2 (es decir, la hipótesis nula es
r 1 = r 2 ; la hipótesis alternativa es r 1 et r 2 ), sea:
C 1 = 0 ,5 X ln [( l + r 1)/(1- r 1) ]
C2 = 0,5 X ln [(l + r 2)/( l - r 2) ]
Entonces:

79
APÉNDICE 6D
Tamaño de la muestra
para un estudio descriptivo
de una variable continua

TABLA 6D. TAMAÑO DE LA MUESTRA PARA VARIABLES HABITUALES DE A/0 1


NIVEL DE CONFIANZA

AID 90% 95% 99%


0,10 1.083 1.537 2.665
o, 15 482 683 1.180
0,20 271 385 664
0,25 174 246 425
0,30 121 171 295
0,35 89 126 217
0,40 68 97 166
0,50 44 62 107
0,60 31 43 74
0,70 23 32 55
0,80 17 25 42
0,90 14 19 33
1,00 11 16 27
1
A/D es la amplitud del intervalo de confianza, calculada como A (amplitud total deseada) dividida por O (desviación
típica de la va riable). Para calcular el tamaño total de la muestra, recorra transversalmente desde la amplitud norma-
lizada y descienda desde el intervalo de confianza especificado.

■ FÓRMULA GENERAL PARA OTROS VALORES

Para otros valores de A y D y un nivel de confianza de (1 - a), el número total de participantes ne-
cesarios (N) es:

(V en el apéndice 6A la definición de Z".)

80
APÉNDICE 6E
Tamaño de la muestra
para un estudio descriptivo
de una variable dicotómica
TABLA 6E. TAMAÑO DE LA MUESTRA PARA PROPORCIONES
NÚMERO SUPERIOR: NIVEL DE CONFIANZA DEL 90 %
NÚMERO MEDIO: NIVEL DE CONFIANZA DEL 95 %
NÚMERO INFERIOR: NIVEL DE CONFIANZA DEL 99 %

AMPLITUD TOTAL DEL INTERVALO DE CONFIANZA (A}

PROPORCIÓN
ESPERADA (P)* 0,10 0,15 0,20 0,25 0,30 0,35 0.40

0,10 98 44
138 61
239 106
o, 15 139 62 35 22
196 87 49 31
I
339 151 85 54
0,20 174 77 44 28 19 14
246 109 61 39 27 20
426 189 107 68 47 35
0,25 204 91 51 33 23 17 13
288 128 72 46 32 24 18
499 222 125 80 55 41 31
0,30 229 102 57 37 25 19 14
323 143 81 52 36 26 20
559 249 140 89 62 46 35
0,40 261 116 65 42 29 21 16
369 164 92 59 41 30 23
639 284 160 102 71 52 40
0,50 272 121 68 44 30 22 17
384 171 96 61 43 31 24
666 296 166 107 74 54 42
•Para calcular el tamaño de la muestra, recorra horizontalmente la proporción esperada (P) que tiene la variable de
interés y descienda desde la amplitud total (A) deseada del intervalo de confianza. Los tres números representan el
tamaño de la muestra necesario para niveles de confianza del 90 %, 95 % y 99 %.

■ FÓRMULA GENERAL PARA OTROS VALORES


La fórmula general para otros valores de P y A con un nivel de confianza (1 - a), donde P y A se
definen como se ha señalado anteriormente, es la siguiente. Sea:

Za = la desviación típica normalizada para una a bilateral, donde (1 - a) es el nivel de confianza


(p. ej., ya que a= 0,05 para un nivel de confianza del 95 %, Z" = 1,96; para un nivel de confian-
za del 90%, Za = 1,65, y para un nivel de confianza del 99%', Zª = 2,58).

Entonces , el número total de participantes necesario es:


N = 4Z/P(l - P)/A 2
81
APÉNDICE 6F
Uso correcto y er.r óneo de las pruebas
de la t
Las pruebas de la t para dos muestras , el tema principal de este capítulo , se usan para comparar
valores medios de una variable en dos grupos de participantes. Los dos grupos pueden definirse
mediante una variable predictiva (fármaco activo o placebo en un ensayo clínico aleatorizado, o
presencia o ausencia de un factor de riesgo en un estudio de cohortes), o pueden definirse median-
te una variable de respuesta , como en un estudio de casos y testigos. Una prueba de la t con dos
muestras puede ser no emparejada, si se comparan determinaciones obtenidas en una sola ocasión
en dos grupos, o emparejada, si se compara el cambio en las determinaciones producido en dos
momentos temporales , por ejemplo, antes y después de una intervención, entre dos grupos. Un
tercer tipo de prueba de la t, la prueba de la t pareada con una sola muestra compara el cambio
medio de las determinaciones en dos momentos temporales en un solo grupo con cero o con cual-
quier otro cambio especificado.
La tabla 6F ilustra el uso erróneo de pruebas de la t pareadas con una sola muestra en un estudio
diseñado para comparaciones entre grupos: un ensayo clínico aleatorizado y con enmascaramiento
del efecto de un nuevo hipnótico sobre la calidad de vida. En situaciones como estas, algunos inves-
tigadores han realizado ( ¡y publicado!) hallazgos con dos pruebas de la t de una muestra separadas:
una en el grupo de tratamiento y una en el del placebo.
En la tabla, los valores de p designados con (t) proceden de pruebas de la t emparejadas de una
muestra. El primer valor de p (0,05) muestra un cambio significativo en la calidad de vida en el
grupo de tratamiento durante el estudio; el segundo valor de p (0,16) no muestra cambios significa-
tivos en el grupo testigo. Sin embargo, este análisis no permite realizar inferencias sobre diferencias
entre los grupos, y sería erróneo concluir que había un efecto significativo del tr.atamiento.
Los valores de p designados con (*) representan los resultados adecuados de una prueba de la t
para dos muestras. Los dos primeros valores de p (0,87 y 0,64) corresponden a pruebas de la t para
dos muestras no emparejadas y no muestran diferencias estadísticamente significativas en el grupo
en las determinaciones inicial y final de la calidad de vida. El último valor de p (0,17) corresponde
a una prueba de la t para dos muestras emparejadas; está más próximo a 0,05 que el valor de p para
los valores del fin del estudio (0,64), porque las diferencias de las medias emparejadas tienen meno-
res desviaciones típicas. Sin embargo, la mejora de la calidad de vida en el grupo de tratamiento (1,3)
no era significativamente diferente de la del grupo al que se administró el placebo (0,9), y la conclu-
sión correcta es que el estudio no halló que el tratamiento fu era eficaz.

TABLA 6F. FORMAS CORRECTAS (E INCORRECTAS) PARA ANALIZAR DATOS


EMPAREJADOS
CALIDAD DE VIDA EXPRESADA COMO LA MEDIA ± DT

MOMENTO DE LA
DETERMINACIÓN TRATAMIENTO (N = 100) TESTIGO (N = 100) VALOR DE P

Inicio 7,0 ± 4,5 7,1±4,4 0,87*


Final del estudio 8,3 ± 4,7 8,0 ± 4,6 o;G4*
Valor de p o,ost o, 16t
Diferencia 1,3 ± 2,1 0,9 ±2,0 o, 17*
*Comparación entre el grupo de tratamiento y el grupo testigo.
tcomparación entre los valores inicial y f inal del estudio.

82
Ca pítulo 6 • Cálrnlo de la potencia y el tamaño de la muestra: ap licaciones y ejemplos 83

BIBLIOGRAFÍA
l. Lehr R. Sixteen S-squared over D-squared: a relation for crude sample size estimates. Slat Mecl 1992;11:1099-1102.
2. Barthel FM, Babiker A, Royston P, Parmar MK. Evaluation of sample size and power for multi-arm survival
trials allowing for non-uniform accrual, non-proportional hazards, loss to follow-up and cross-over. Stat Mecl
2006;25(15) :2521-254 2.
3. Ahnn S, Anderson SJ. Sample size determination in complex clinical trials comparing more than two groups for
survival endpoints. Stat Mecl 1998;17(21):2525-2534.
4. Donner A. Sample size requirements for stratified cluster randomization designs [published erratum appears in
Stat Mecl 1997;30(16):2927]. Stat Mecl 1992;11:743-750.
5. Kerry SM, BlandJM. Trialswhich randomize practices 11: sample size. Fam Pract 1998;15:84-87.
6. Hernming K, Girling AJ, Sitch AJ, et al. Sample size calculations for cluster randomised controlled trials with a
fixed number of clusters. BMC Mecl Res Methoclo! 2011 ;11:102.
7. Jahn-Eimermacher A, lngel K, Schneider A. Sarnple size in cluster-randomized trials with time to event as the
primary endpoint. Stat Mecl 2013;32(5):739-751.
8. Edwardes MD. Sample size requirements for case-control study designs. BMC Mecl Res Metlwclo! 2001;1:ll .
9. Drescher K, Timm J, Jócl<el KH. The design of case-control studies: the effect of confounding on sample size
requirements. Stat Mecl 1990;9:765-776.
10. Lui KJ. Sample size determination for case-control studies: the influence of the joint distribution of exposure and
confounder. Stat Mecl 1990;9: 1485-1493.
11. Latouche A, Porcher R, Chevret S. Sample size formula for proportional hazards modelling of competing risks. Stat
Mecl 2004;23(21):3263-3274.
12. Novikov I, Fund N, Freedman LS. A rnodified approach to estimating'sarnple size for simple logistic regression
with one continuous covariate. Stat Mecl 2010;29(1):97-107.
13. Vaeth M, Skovlund E. A simple approach to power and sample size calculations in logistic regression and Cox
regressión models. Stat Mecl 2004;23(1 l): 1781-1792.
~14_ Dupont WD, Plummer WD Jr. Power and sample size calculations for studies involving linear regression. Control
Clin 'frials 1998;19:589-601.
15. Murcray CE, Lewinger JP, Conti DV, et al. Sample size requirements to detect gene-environment interactions in
genome-wide association studies. Genet Epiclemio! 2011;35(3):201-210.
16. Wang S, Zhao H. Sample size needed to detect gene-gene interactions using linkage analysis. A1111 Hum Genet
2007;71(Pt 6) :828-842.
17. Witte JS. Rare genetic variants and treatment response: sample size and analysis issues. Stat Mecl 2012;31(25):
3041-3050.
18. Willan AR. Sample size determination for cost-effectiveness trials. Phannacoeco110111ics 2011;29(11):933-949.
19. Glick HA. Sample size and power for cost-effectivenes_s analysis (Pan 2): che effect ofmaxirnum willingness to pay.
Phannacoeconomics 2011;29(4):287-296.
20. Glick HA. Sample size and power for cost-effectiveness analysis (Part 1) . Phannacoeco110111ics 2011 ;29(3):189-198.
21. Patel Hl. Sample size for a <lose-response study [published erraturn appears inJ Biophann Stat 1994;4:127] .] Biophann
Stat 1992;2:l-8.
22. Day SJ, Graharn DF Sample size estimation for comparing two or more treatment groups in clinical trials. Stat Mecl
1991;10:33-43.
23. Guo jH, Chen HJ, Luh WM. Sample size planning with the cost constraint for testing superiority and equivalence
of two independent groups. Br J Math Stat Psycho! 2011;64(3):439-461.
24. Zhang P. A simple formula for sample size calculation in equivalence studies.J Biophann Stat 2003;13(3):529-538.
25. Stucke K, Kieser M. A general approach for sample size calculation for the three-arm 'gold standard' non-inferiority
design. Stat Mecl 2012;31(28) :3579-3596.
26. Julious SA, Owen RJ. A comparison of methods for sample size estimation for non-inferiority studies with binaiy
outcornes. Stat Methocls Med Res 2011;20(6):595-6 12.
27. Obuchowski NA. Sample size tables for receiver operating characteristic studies. AJR Am] Roentgenol 2000;175(3):
603-608.
28. Simel DL, Samsa GP, Matchar DB. Likelihood ratios with confidence: sample size estirnation for diagnostic test
studies. J Clin Epiclemiol 1991;44:763-770.
29. SimJ, Wtight CC. The kappa statistic in reliability studies: use, interpretation, and sample size requirements. Phys Ther
2005;85(3):257-268.
30. Jewell NP. Statistics far epidemiology. Boca Raton: Chapman and Hall, 2004, p. 68.
. SECCIÓNm

Diseño de los estudios

84
1 .. CAPÍTULO EJ
Diseño de estudios transversales
y de cohortes
Stephen B. Hu lley, Steven R. Cummings y Thomas B. Newman

L os estudios observacionales tienen dos finalidades principales: descriptiva, analizar las distribucio-
nes de las variables predictivas y las variables de respuesta en una población, y analítica , caracterizar las
asociaciones entre estas variables predictivas y de respuesta. En este capítulo se presentan dos diseños
observacionales básicos, que se clasifican por el marco temporal en el que se realizan las mediciones.
En un estudio transversal, el investigador realiza todas las mediciones en una única ocasión o en
un período de tiempo corto. Extrae una muestra de la población y estudia las distribuciones de las
variables en esa muestra, en ocasiones denominándolas variables predictivas y variables de resulta-
dos, de acuerdo con la credibilidad biológica y la información liistórica. Por ejemplo, si está intere-
sado en estudiar la relación entre el peso corporal y la presión arterial, podría medir estas variables
en una única visita en la consulta en todos los pacientes del estudio, y explorar si las personas con
, mayor peso corporal tienen más probabilidad de tener hipertensión.
En un estudio de cohortes , las mediciones se realizan en un período de tiempo en un grupo de
participantes a los que se ha identificado al comienzo del estudio («la cohorte »). Por lo tanto , la
característica que define los estudios de cohortes es que se sigue longitudinalmente a un grupo
reunido al comienzo . Por ejemplo, el investigador podría medir el peso corporal y la presión arterial
en una cohorte de personas en estudio en una visita inicial en la consulta y después seguirlas duran-
te 5 años para determinar la relación entre el peso inicial y la incidencia de hipertensión. En este
capítulo se analizan los diseños de cohortes prospectivos y retrospectivos , y los diseños de cohortes
múltiples . También se abordan los abordajes del análisis •estadístico y la importancia de optimizar
la retención de la cohorte durante el seguimiento.

■ ESTUDIOS TRANSVERSALES
En un estudio transversal, todas las mediciones se realizan aproximadamente al mismo tiempo ; sin
período de seguimiento (fig. 7-1). Los diseños transversales son adecuados para el objetivo de des-
cribir variables y sus patrones de distribución. Por ejemplo, en el Nationa! Hea!th and Nutrition
Examination Survey (NHANES), a principios de la década dé 1970, se entrevistó y exploró a una
muestra diseñada para representar a toda la población estadounidense de 1-74 años. Este estudio
transversal fue una importante fuente de información sobre la salud y los hábitos de la población
estadounidense el año en que se realizó, y ofreció estimaciones de aspectos como la prevalencia del
tabaquismo en diversos grupos demográficos. Posteriormen,te se han realizado de manera periódica
otros estudios NHA.NES transversales , y todos los conjuntos de datos de los estudios NHANES están
disponibles para su uso por el público (www.cdc.gov/nchs/nhanes.htm) .
Los estudios transversales se pueden utilizar para explorar asociaciones, aunque la elección de
qué variables se van a considerar predictivas y cuáles de respuesta depende de las hipótesis de causa
y efecto del investigador, más que del diseño del estudio. Esta elección es fácil para factores consti-
tucionales , como edad, raza y sexo; estos factores no se pueden 1alterar por otras variables , por lo que
siempre son factores predictivos. Sin embargo, para otras variables, la elección puede ir en ambos
sentidos. Por ejemplo, en el estudio NHANES III hubo una asociación transversal entre la obesidad
infantil y las horas que se pasaba viendo la televisión (1) . El que se considere que la obesidad o el
tiempo viendo la televisión sea la variable predictiva y la otra la variable de respuesta depende de la
hipótesis causal del investigador.
85
86 Sección 11 • Diseño de los estud ios

PRESENTE

Población ~ -----------
.,,..... ... ...
,,,..-' .........
; ; ''
;
; ''
; '
I I ' \
I \
, I \
\

,' Muestra \
'
''
\

'
,----~------, \
\
1
: Medir las variables \
: actuales \
1 1
1
, Obtener información :
, histórica cuando ,
\ proceda ,'
''
1 '
■ FIGURA 7.1. En un estudio transversal, los pasos \
\
\ I
son: \ I

,,
\ I
\
• Definir los criterios de selección e incluir una \
\ I
muestra de la población. \ I

• Medir los valores actuales de las variables pre-


',,, ,,~
dictivas y de respuesta, muchas veces comple- ',, .,,.,.,,..,,.'
............... _________ .,.._.,,.
mentados con información histórica.

Al contrario de los estudios de cohortes, que tienen una dimensión temporal longitudinal que se
puede utilizar para estimar la incidencia (la proporción que llega a presentar una enfermedad a lo largo
del tiempo), los estudios transversales ofrecen información sobre la prevalencia , la proporción que
tiene una enfermedad o trastorno en un momento determinado. La prevalencia le importa al médico,
que debe estimar la probabilidad de que el paciente que está en su consulta tenga una enfermedad
concreta; cuanto mayor sea la prevalencia, mayor será la <<probabilidad previa» de la enfermedad (la
probabilidad antes de que se disponga de los resultados de las diversas pruebas diagnósticas; cap. 12).
Es este el motivo por el que más pacientes con dolor de rodilla tienen artrosis que reumatismo palin-
drómico. La prevalencia también es útil para los planificadores sanitarios, que quieren saber cuántas
personas tienen determinadas enfermedades para poder asignar suficientes recursos para atenderlas.
Cuando se analizan estudios transversales, se puede comparar la prevalencia del resultado en los que
tienen y no tienen una exposición, lo que permite obtener la prevalencia relativa del resultado , el
equivalente transversal del riesgo relativo (pueden verse ejemplos en el apéndice 8A).
En ocasiones, los estudios transversales describen la prevalencia de haber realizado algo o de
haber tenido alguna vez una enfermedad o trastorno. En este caso, es importante asegurarse de que
el tiempo de seguimiento sea igual en las personas expuestas y no expuestas. Esto se ilustra en el
ejemplo 7-1, en el que se analizó la prevalencia de haber probado alguna vez el tabaco en un estudio
transversal de niños con diferentes niveles de exposición a películas en las que los actores fuman .
Por supuesto, los niños que habían visto más películas también eran mayores, por lo que habían
tenido más tiempo para probar el tabaco, por lo que era importante ajustar la edad en los análisis
multivariados (cap. 9).

Puntos fuertes y débi les de los estudios transversales


Una importante ventaja de los estudios transversales es que no hay que esperar a que se produzca el
resultado. Esto hace que sean rápidos y económicos, y evita el problema de las pérdidas durante
el seguimiento. Otra ventaja es que un estudio transversal se puede incluir como primer paso en un
estudio de cohortes o un estudio clínico, con un coste añadido escaso o nulo. Los resultados definen
las características demográficas y clínicas del grupo en estudio en situación inicial, y en ocasiones
pueden mostrar asociaciones de interés transversales.
Sin embargo, como ya se ha señalado, muchas veces es difícil establecer relaciones causales a
partir de datos transversales. Los estudios transversales tampoco son prácticos para el estudio de
Capítulo 7 • Diseño de estudios transversales y de cohortes 87

EJEMPLO 7-1. Estudio transversal


Sargent y cols. (2) intentaron determinar si la exposición a películas en las que los actores fuman
se asocia al inicio del tabaquismo. Los pasos en la realización del estudio fueron:
1. Definir los criterios de selección y reunir la muestra de la población. Los investigadores
realizaron un estudio con un sistema de marcación telefónica aleatoria de 6 522 niños esta-
dounidenses de 10 a 14 años de edad.
2 . Medir las variables predictiva y de respuesta. Cuantificaron el tabaquismo en 532 películas
populares, y a cada uno de los participantes le preguntaron cuáles de un subgrupo seleccio-
nado aleatoriamente de 50 películas habían visto. También se preguntó a los participantes
por diversas covariables, como edad, raza, sexo, tabaquismo y nivel educativo de los padres,
búsqueda de sensaciones (p. ej., «Me gusta hacer cosas peligrosas») y autoestima (p. ej.,
«Ojalá fuera otra persona»). La variable de respuesta fue si el niño había intentado alguna
vez fumar un cigarrillo.
La prevalencia de haber intentado alguna vez fumar varió desde el 2 % en el cuartil inferior
de exposición al tabaco en las películas hasta el 22 % en el cuartil superior. Después de ajustar
la edad y otros factores de confusión, estas diferencias eran estadísticamente significativas; los
autores estimaron que el 32 % del inicio del tabaquismo se podía atribuir a la exposición a pe-
lículas en las que los actores fuman .

' enferm\dades poco frecuentes, salvo que la muestra se extraiga de una población de pacientes en-
fermos yno de la población general. Una serie de casos de este tipo es más adecuada para describir
las características de la enfermedad que para analizar diferencias entre estos pacientes y las personas
sanas, aunque las comparaciones informales con la experiencia previa en ocasiones permiten iden-
tificar factores de riesgo muy potentes. Por ejemplo, en una serie de casos de los 1000 primeros
pacientes con sida, 727 eran hombres homosexuales o bisexuales y 236 consumían drogas por vía
intravenosa (3). No hizo falta un grupo testigo formal para concluir que estos grupos tenían aumen-
to del riesgo. Además, en una muestra de personas con una enfermedad puede haber asociaciones
de interés, como el mayor riesgo de sarcoma de Kaposi en pacientes con sida que eran homosexuales
que en los que consumían drogas inyectables.
Como los estudios transversales miden únicamente la prevalencia y no la incidencia, es impor-
tante tener precaución cuando se extraigan inferencias sobre las causas, el pronóstico o la evolución
natural de una enfermedad. Un factor que se asocia a la prevalencia de una enfermedad puede ser
una causa de la enfermedad, aunque también se podría asociar simplemente a la duración de la en-
fermedad. Por ejemplo, la prevalencia de la insuficiencia renal crónica depende no solo de su inci-
dencia, sino también de su supervivencia una vez que se ha producido. A la vista de la observación
de que la obesidad se asocia a mayor supervivencia de pacientes en diálisis (4), en un estudio trans-
versal de los factores predictivos de la insuficiencia renal crónica se podría sobrestimar la asociación
entre obesidad e insuficiencia renal.

Estudios en serie
En ocasiones, los investigadores realizan una serie de estudios transversales en la misma población,
por ejemplo, cada 5 años. Se puede utilizar este diseño para extraer inferencias sobre los patrones
cambiantes a lo largo del tiempo. Por ejemplo, Zito y cols. (5) , utilizando estudios transversales
anuales, describieron que la prevalencia del consumo de fármacos psicótropos de venta con receta
en jóvenes ( < 20 años de edad) había aumentado más de tres veces entre 1987 y 1996 en una pobla-
ción de la región del Atlántico medio atendida por Medicaid. Los estudios transversales en serie
tienen un marco temporal longitudinal, pero no son lo mismo que un estudio de cohortes, porque
cada vez se extrae una nueva muestra. En consecuencia, no se pueden evaluar los cambios que se
producen en las personas, y los hallazgos se pueden ver modificados por las personas que entran o
salen de la población (y, por lo tanto , de las muestras) por nacimientos, muertes y movimientos
migratorios.
88 Sección 11 • Diseño de los estudios

■ ESTUDIOS DE COHORTES
Estudios de cohortes prospectivos
Cohorte era el término romano que design¡¡ba a un grupo de soldados que avanzaban juntos, y en
las investigaciones clínicas una cohorte es un grupo de personas, especificado al comienzo del estu-
dio y al que se sigue a lo largo del tiempo. En un estudio de cohortes prospectivo, el investigador
empieza reuniendo una muestra de participantes (fig. 7-2). Mide en cada participante características
que podrían predecir los resultados subsiguientes, y sigue a estas personas, realizando_determina- ¡
ciones periódicas de las variables de respuesta de interés (ejemplo 7-2). \

Puntos fuertes y puntos débiles de los estudios de cohortes prospectivos


Una importante ventaja del diseño de cohortes es que, al contrario de los diseños transversales,
permite el cálculo de la incidencia, el número de nuevos casos de una enfermedad que se producen
a lo largo del tiempo ( tabla 7-1). La medición de los niveles del factor predictivo antes de que se
produzca el resultado establece la secuencia temporal de las variables, lo que refuerza el proceso de
inferir la base causal de una asociación. El enfoque prospectivo también evita que las variables pre-
dictivas se vean modificadas por el resultado o por el conocimiento de su aparición, y permite que
el investigador mida variables de forma más completa y exacta de lo que es posible si se hace retros-
pectivamente. Esto es importante para variables predictivas como los hábitos dietéticos, que es difí-
cil que los participantes recuerden con exactitud. Cuando se estudian retrospectivamente enferme-
dades mortales, las mediciones de las variables predictivas en el fallecido solo pueden reconstruirse
a partir de fuentes indirectas, como las historias clínicas o datos de amigos y familiares.
Todos los estudios de cohortes comparten el inconveniente general de los estudios de observación
(en comparación con los ensayos clínicos) de que la inferencia causal es un reto y la interpreta-
ción a menudo se enturbia por las influencias de las variables de confusión (cap. 9). Un punto débil
concreto del diseño prospectivo es su coste y su ineficacia para estudiar variables de respuesta poco
frecuentes. Incluso enfermedades en las que pensamos como relativamente frecuentes, como el

PRESENTE FUTURO

Población ~ ---- - ------


,,-- ............ ,,
_,,,., ',,
,, '
, ; ''
I '
I '
I '
I '
,' Muestra '\
~
I \
I \
I \
I
1 ''
1
Medir variables
1
1
Seguir a la cohorte
1
Medir los
1
predictivas 1
a lo largo del tiempo
1
1
1
- resultados
Almacenar muestras 1
1
cuando se
1 (opcional)
1
1
produzcan
1 I

'' I
I

' \
\ I
I
I
Pérdida durante
\ I

'' I
I
el seguimiento
I
'' I
I

' ,, ... , ;
I

.,,.,,,
', ' ,, ....... ________ ,,,._,
--
■ FIGURA 7-2. En un estudio de cohortes prospectivo, los pasos son:
• Definir los criterios de selección e incluir una muestra de la población (« la cohorte»).
• Medir las variab les predictivas y, si procede, el nivel in icial de la variable de respuesta.
• Plantear la opción de almacenar muestras, imágenes, etc., para el análisis posterior de las variables predictivas.
• Seguir a la cohorte a lo largo del tiempo, minimizando las pérdidas durante el seguimiento.
• Medir las variab les de respuesta durante el seguimiento.
Capítulo 7 • Diseño de estudios transversales y de cohortes 89

EJEMPLO 7-2. Estudio de cohortes prospectivo


En el clásico estudio Nurse~ Health Study se examinó la incidencia y los factores de riesgo de
enfermedades habituales en las mujeres . Los pasos básicos para realizar este estudio fueron: ·
1. Definir los criterios de selección y reunir la cohorte. En 1976, los investigadores consiguieron
listas de ·enfermeras colegiadas de 25 a 42 años de edad en los 11 estados más poblados y les
enviaron una invitación para participar en el estudio; las que aceptaron constituyeron la
cohorte.
2. Medir las variables predictivas, incluyendo los posibles factores de confusión . Enviaron un
cuestionario sobre peso, ejercicio y otros posibles factores de riesgo, y recibieron cuestiona-
rios cumplimentados por 121 700 enfermeras. Enviaron cuestionarios periódicamente para
preguntar sobre factores de riesgo adicionales y actualizar el estado de algunos que se habían
determinado con anterioridad.
3. Realizar un seguimiento de la cohorte y medir las respuestas. Los cuestionarios periódicos
incluían también preguntas sobre la incidencia de diversas respuestas de enfermedad, que
fueron validadas por los investigadores.
El enfoque prospectivo permitió que los investigadores realizaran determinaciones al princi-
pio y recopilaran datos sobre variables de respuesta posteriores. El gran tamaño de la cohorte y
el prolongado período de seguimiento han proporcionado una potencia estadística elevada para
estudiar factores de riesgo de sufrir cáncer y otras enfermedades.
Por ejemplo , los investigadores examinaron la hipótesis de que el aumento de peso incre-
menta el riesgo de que una mujer sufra cáncer de mama después de la menopausia (6). Las
mujeres notificaron su peso a los 18 años en un cuestionario inicial y el peso durante el segui-
miento en los cuestionarios posteriores. Los investigadores lograron realizar el seguimiento del
95 % de las mujeres, y se confirmaron 1517 casos de cáncer de mama durante los siguientes
12 años. Las mujeres de mayor peso tuvieron mayor riesgo de sufrir cáncer de mama tras la
menopausia, y las que aumentaron más de 20 kg desde los 18 años de edad presentaban un
riesgo doble de sufrir cáncer de mama (riesgo relativo = 2; intervalo de confianza al 95%, 1,4 a
2,8) . El ajuste realizado por posibles factores de confusión no modificó el resultado.

cáncer de mama, aparecen con una incidencia tan baja en cualquier año determinado que debe se-
guirse a una gran cantidad de personas durante largos períodos de tiempo para observar suficientes
respue~tas a fin de obtener resultados significativos. Los diseños de cohortes son más eficaces para
variables de respuesta dicotómicas, que son más frecuentes e inmediatas, y para variables de respues-
ta continuas.

Estudios de cohortes retrospectivos


El diseño de un estudio de cohortes retrospectivo (fig. 7-3) difiere del de uno prospectivo en que la
reunión de la cohorte, las determinaciones basales y el seguimiento de control ya se han producido
en el pasado. Este ~ipo de estudio solo es posible si se dispone de datos adecuados sobre las variables

TABLA 7-1. ESTADÍSTICOS PARA EXPRESAR LA FRECUENCIA


DE LAS ENFERMEDADES EN ESTUDIOS OBSERVACIONALES
TIPO DE ESTUDIO ESTADÍSTICO DEFINICIÓN

Transversal Prevalencia Número de personas que tienen una enfermedad o trastorno en un


momento determinado
Número de personas en riesgo
Cohortes Tasa de Número de personas que contraen una enfermedad o trastorno
incidencia Número de personas en riesgo X período temporal en riesgo
90 Sección 11 • Diseño de los estud ios

predictivas en una cohorte de personas a las que se ha reunido por otros motivos, como una base de
datos clínica o administrativa electrónica (ejemplo 7-3).

Puntos fuertes y puntos débiles de los estudios de cohortes retrospectivos


Los estudios ·de cohortes retrospectivos tienen muchos de los puntos fuertes de los estudios de
cohortes prospectivos, y tienen la ventaja de ser mucho menos costosos y requerir menos tiempo.
Los participantes ya están reunidos, las mediciones basales ya se han realizado y el período de segui-
miento ya ha tenido lugar. Los principales inconvenientes son el escaso control que el investigador
tiene sobre el método de mués treo y el seguimiento de la población, y sobre la naturaleza y la calidad
de las mediciones iniciales. Los datos existentes pueden ser incompletos o inexactos, o haberse
medido de formas no ideales para responder a la pregunta de la investigación.

Estudios de cohortes múltiples y testigos externos


Los estudios de cohortes múltiples comienzan con dos o más muestras separadas de participantes,
habitualmente un grupo con exposición a un posible factor de riesgo y uno o más grupos sin expo-
sición o con un nivel de exposición menor (fig. 7-4). Después de definir cohortes adecuadas con
diferentes niveles de exposición a la variable predictiva de interés , el investigador mide otras variables
predictivas, sigue a las cohortes y evalúa los resultados, como en cualquier otro tipo de estudio de
cohortes (ejemplo 7-4).
El uso de dos muestras diferentes de participantes en un diseño de cohorte doble no se debe
confundir con el uso de dos muestras en el diseño de casos y testigos (cap. 8). En un estudio de
cohorte doble se eligen los dos grupos de participantes por el nivel de un factor predictivo, mientras
que en un estudio de casos y testigos se eligen los dos grupos basándose en la presencia o la ausen-
cia de un resultado.
En una variación del diseño de cohortes múltiples, se puede comparar la frecuencia de un resul-
tado en una cohorte con las frecuencias del resultado en datos de censos o de registros procedentes
de diferentes poblaciones. Por ejemplo, en un estudio clásico de si los mineros del uranio tenían

PASADO PRESENTE

Población

~ ,,,... ------------- ... .........


,,,' ...... ,
I '
I '
I '
II ' \
I \
,' Muestra '\
~
I \
I \
I \
I 1
I 1
1 1
1 1
Cohorte existente con Medir los
1
1 '
1
1
1
variables predictivas
1
- resultados que
1 que se han medido 1 se han producido
'1 1

' I
1
1

' \
\ I
I
'
\ I
\
\
I Pérdida durante
I
\
\ I
I el seguimiento
' ' ... ,, I
I
I

,. /
..............
--- _____________ .... ,,,,.,.,,.,'
■ FIGURA 7-3. En un estudio de cohortes retrospectivo, la selección de la cohorte y el seguimiento se han realizado en
el pasado, por lo que los pasos son:
• Identificar una cohorte existente que tenga alguna información predictiva que ya se haya registrado.
• Evaluar las pérdidas durante el seguimiento que se han producido.
• Medir las variables de respuesta que ya se han producido.
Capítu lo 7 • Diseño de estudios transversa les y de cohortes 91

EJEMPLO 7:.3. Estudio de cohortes retrospectivo


Pearce y cols. utilizaron datos del UK National Health Service Central Registry para describir el
riesgo de leucemia y tumores cerebrales asociados a la realización de TC craneal durante la in-
fancia (7) . Los pasos en la realización del estudio fueron:
1. Identificar una cohorte existente adecuada. La cohorte estuvo formada por 178 644 niños y
adultos jóvenes de < 2 años de edad a los que se habían realizado TC craneales entre 1985
y 2002.
2. Recoger datos de la variable predictiva. Los investigadores revisaron las historias para reco-
ger el sexo , la edad, el número y el tipo de técnicas radiológicas y la dosis de radiación esti-
mada.
3. Recoger datos de la variable de respuesta. Para evitar la inclusión de TC relacionadas con
un diagnóstico de cáncer, los investigadores registraron la leucemia que se produjo al menos
2 años después de la primera TC, y los tumores cerebrales al menos 5 años después de la
primera TC, hasta 2008.
Las TC durante la infancia aumentaron significativamente el riesgo de leucemia y cáncer
cerebral, y la incidencia se relacionó con la dosis . Dosis acumuladas de 50-60 mGy aumentaron
al triple el riesgo de leucemia y cáncer cerebral. Sin embargo , el aumento absoluto del riesgo fue
bajo, un caso de más de cada una de las respuestas por cada 10 000 estudios craneales. Aunque
los autores señalaron que los beneficios de las TC probablemente superaron a estos riesgos ,
también. insistieron en que se utilicen las menores dosis de radiación por TC en niños, y que se
deben plantear, cuando sea posible, procedimientos alternativos que eviten las radiaciones
ionizantes.

mayor incidencia de cáncer de pulmón, Wagoner y cols. {10) compararon la incidencia de cánceres
respiratorios en 3 415 mineros del uranio con la de personas blancas que vivían en los mismos esta-
dos. La mayor incidencia de cáncer de pulmón que se observó en los mineros ayudó a establecer que
la exposición laboral a las radiaciones ionizantes es una importante causa de cáncer de pulmón.

Puntos f uertes y puntos débi les de los diseños de cohortes mú ltip les
El diseño de cohortes múltiples puede ser el único abordaje viable para estudiar exposiciones infre-
cuentes a posibles riesgos laborales y ambientales. La utilización de datos de un censo o registro

EJEMPLO 7-4. Diseño de cohortes múltiples


Para determinar si la ictericia neonatal y la deshidratacipn significativas tienen efectos adversos
sobre el desarrollo neurológico , los investigadores del hospital UCSF and Kaiser Permanente of
Northern California (8, 9) emprendieron un estudio con cohortes triples. Los pasos en la reali-
zación del estudio fueron:
1. Identificar co~ortes con diferentes exposiciones. Los investigadores usaron bases de datos
electrónicas para identificar recién nacidos a término y casi a término que
1. presentaron una concentración máxima de bilirrubina sérica total 2: 25 mg/dl, o
2. reingresaron por deshidratación con un sodio sérico 2: 150 mEq/1 o pérdida de peso
2: 12 % desde el nacimiento, o
3. fueron seleccionados aleatoriamente de la cohorte del nacimiento.
2. Recoger datos de resultados. Los investigadores usaron bases de datos electrónicas para
buscar diagnósticos de trastornos neurológicos y realizaron exploraciones neurológicas com-
pletas a la edad de 5 años en pacientes que habían dado su consentimiento (con enmascara-
miento sobre a cuál de las tres cohortes pertenecía el participante).
Ni la hiperbilirrubinemia ni la deshidratación se asociaron a respuestas adversas.
92 Sección 11 • Diseño de los estudios

Población con
un valor de
exposición ~ _________ _
,, .,. ... -- ......... '
,,' ...... ,
,,' ',,
, '
,' ',
I '
,' Muestra '\\
I
I
I
~ \
\
\
1 1
1 Medir las variables 1
1 1 Medir los
predictivas 1
1 resultados
Almacenar muestras 1 cuando se
1
1 produzcan
1 (opcional) 1
\
1
1
\ I
I
1
1

,, Investigar las
\ I
\

,,
\
pérdidas durante
' \
,, el seguimiento
''
',, ,-'
',, ,, .,.,;'
...... ________ _
---
Población con
otro valo~_de ------------
expos1c1on ------..._ _________ _
,,,""'
... .......
.............
-
,,," ',,
,' ', '
I
,, ' \
,' Muestra '\\
I
I
I
~ \
\
\
1 1
1 Medir las variables 1
1 1 Medir los
1 predictivas 1
1 - resultados
1 cuando se
Almacenar muestras 1
1 1 produzcan
1 (opcional) 1
1
\
\
\ I
I
1
I

\
\ I
I Investigar las
\
,I pérdidas durante
' \
,, el seguimiento
' ' ... ,, ,,,'
',,
',, ... ________ _
,,--'

■ FIGURA 7-4. En un estudio de cohortes dobles (que se puede realizar prospectiva o retrospectivamente), los pasos
son :
• Seleccionar dos o más cohortes de poblaciones con diferentes niveles de la exposición (variable predictiva principal).
• Medir otras variab les predictivas.
• Medir las variables de respuesta durante el seguimiento.

como grupo testigo externo tiene la ventaja adicional de basarse en la población y ser económico.
Por lo demás , los puntos fuertes de este diseño son similares a los de otros estudios de cohortes.
El problema de la confusión se acentúa en los estudios de cohortes múltiples, porque las cohortes
se reúnen a partir de poblaciones distintas que pueden diferir en aspectos importantes (aparte de la
exposición a la variable predictiva) que pueden influir en los resultados. Aunque algunas de estas
diferencias, como la edad y la raza, se pueden emparejar o utilizar para ajustar estadísticamente
los hallazgos , otras caracterí'sticas pueden no ser medibles y crean problemas en la interpretación
de las asociaciones observadas.
Capítu lo 7 • Diseño de estudios transversa les y de cohortes 93

■ ABORDAJE ESTADÍSTICO DE LOS ESTUDIOS DE COHORTES


Los riesgos , las oportunidades y las tasas de incidencia son estimaciones de la frecuencia de un
resultado dicotómico en personas a las que se ha seguido durante un período de tiempo . Estas tres
mediciones están estrechamente relacionadas , de manera que comparten el mismo numerador, el
número de personas que llegan a presentar el resultado dicotómico . Está implícito en estas tres me-
didas el concepto de estar en riesgo , lo que significa que la persona no tenía todavía el resultado de
interés al comienzo del estudio. En un estudio prospectivo de los factores predictivos de la diabetes ,
una mujer que tuviera diabetes en situación inicial no tendría riesgo , porque ya tendría el resultado
de interés. Por otro lado , hay enfermedades episódicas, como la insuficiencia cardíaca que precisa
ingreso hospitalario , en las que el resultado de interés puede ser la aparición «incidente» de un
nuevo episodio , aunque se produzca en alguien que ya tiene la enfermedad. ,
Considérese un estudio de 1000 personas a las que se siguió durante 2 años para ver quién pre-
sentaba cáncer de pulmón, y en las cuales se produjeron ocho nuevos caso's cada año . En la ta-
bla 7-2 se muestra el riesgo, la oportunidad y la incidencia.
De las tres medidas, el riesgo es el más fácil de comprender, debido a su familiaridad cotidiana: el
riesgo de tener cáncer de pulmón en 2 años era de 16 de cada 1000. La·s oportunidades son más
difíciles de comprender intuitivamente: la oportunidad de contraer cáncer de pulmón era de 16 a
984; afortunadamente, para resultados infrecuentes (como er este caso), las oportunidades son
cuantitativamente similares al riesgo y no tienen ninguna ventaja particular. En estudios en los que
se comparan dos grupos , la razón de posibilidades (odds ratio) también es similar al cociente de
. riesgo cuándo la variable de respuesta es poco frecuente , y este hecho tiene una importancia espe~ífica
' en dos situaciones: forma la base de los cálculos de regresión logística y se utiliza para obtener una
aproxi~ación del riesgo relativo en estudios de casos y testigos (apéndice 8B) . Las tasas de inciden-
cia, que tienen en consideración la acumulación de episodios a lo largo del tiempo , se expresan como
números de episodios divididos por el número de personas-tiempo en riesgo , la cantidad total de
seguimiento para cada uno de los participantes en el estu_dio mientras esa persona esté viva , perma-
nezca en el estudio y no haya tenido todavía el resultado .
En algunos estudios de cohortes puede haber una elevada frecuencia de casos de pérdida duran-
te el seguimiento , seguimiento desigual o muerte, u otros acontecimientos que impiden la determi-
nación de la variable de respuesta. En estos casos es útil comparar las tasas de incidencia entre los
grupos: el número de resultados dividido por el número de personas-tiempo en riesgo. Cada parti-
cipante en el estudio contribuye con un número determinado de meses o años de personas-tiempo
desde su inclusión en la cohorte hasta que presenta el resultado de interés o se le «censura» por
pérdida durante el seguimiento o muerte . La tasa de incidencia en cualquier grupo del estudio es el
número de resultados en ese grupo dividido por la suma de las personas-tiempo en riesgo de ese
grupo. Como ocurre para el cociente de riesgo (también conocido como riesgo relativo) , el cocien-
te de incidencias se puede estimar como el cociente de las incidencias en personas que tienen y que
no tienen un factor de riesgo particular. El modelo de riesgos proporcionales de Cox ofrece un mé-

TABLA 7-2. CÁLCULO DEL RIESGO, LA OPORTUNIDAD Y LA TASA DE INCIDENCIA


PARA UN ESTUDIO DE 1 000 PERSONAS A LAS QUE SE SIGUIÓ DURANTE 2 AÑOS,
CON 8 NUEVOS CASOS DE CÁNCER DE PULMÓN AL AÑO
ESTA DÍSTICO FÓRM ULA EJEMPLO

Riesgo N. que llegan a presentar el resultado 16


= 0,016
Nen riesgo 1000
Oportunidad N que llegan a presentar el resultado 16 1
= 0,0163
N que no presentan el resultado 984
Tasa de N que llegan a presentar el resultado 16 casos·
incidencia 1
= 0,008 casos/persona-año
Personas-tiempo en riesgo 1 992 personas-año
1
EI denominador de la incidencia es el número en riesgo en el primer año (1 000), más el Qúmero en riesgo el segundo
año (992).
94 Secc ión 11 • Diseño de los estudios

todo para el análisis multivariado de los datos de este tipo (en ocasiones denominados datos de
«tiempo hasta un acontecimiento»); permite la estimación de cocientes de riesgos instantáneos ,
que son similares a los cocientes de incide~cia y han llegado a utilizarse de manera generalizada
como medida de la asociación en los análisis de regresión de Cox .

Otros aspectos sobre los estudios de cohortes


La característica fundamental de un estudio de cohortes es la necesidad de definir la cohorte de
personas al principio de un período de seguimiento. Los participantes deben ser adecuados para
la pregunta de la investigación y deben estar disponibles para poder realizar el seguimiento. Deben
parecerse lo suficiente a la población a la que se generalizarán los resultados. El número de participan-
tes debe proporcionar una potencia adecuada.
La calidad del estudio dependerá de la precisión y la exactitud de las determinaciones de las va-
riables predictivas y de respuesta (cap. 4). La capacidad para obtener inferencias sobre causa y efec-
to también dependerá del grado en que el investigador haya medido todos los posibles factores de
confusión (cap. 9), y la capacidad de generalizar a subgrupos de la población dependerá del grado
en el que el investigador haya medido todas las fuentes de modificación del efecto . Las variables
predictivas pueden cambiar durante el estudio; el que deban o no repetirse las determinaciones, y
con qué frecuencia debe hacerse, dependerá del coste, de cuánto es probable que cambie la variable
y de la importancia para la pregunta· de la investigación de la observación de estos cambios. Las
respuestas deben evaluarse mediante criterios normalizados y, cuando su evaluación pueda depender
del conocimiento de factores de riesgo fundamentales, es útil que las personas que realicen las eva-
luaciones desconozcan esa variable predictiva.
Es importante el seguimiento de toda la cohorte , y los estudios prospectivos deben dar una serie
de pasos para lograr ese objetivo (tabla 7-3). Se debe excluir desde el comienzo a los participantes
que tengan previsto desplazarse fuera del ámbito del estudio o a los que vaya a ser difícil seguir por
otros motivos . El investigador debe conseguir pronto información por la cual pueda encontrar a los
participantes que cambien de domicilio o que fallezcan, incluyendo la dirección, el número de telé-
fono y la dirección de correo electrónico del participante, su médico personal y al menos dos amigos
o familiares próximos que no vivan en el mismo domicilio. Los números de teléfono móvil y las
direcciones de correo electrónico personales son particularmente útiles, porque habitualmente no
cambian cuando los participantes, sus amigos o familiares se mudan de domicilio o cambian de
trabajo. Cuando sea posible, obtener el número de seguridad social ayudará a determinar la situación
vital de los participantes a los que se pierda durante el seguimiento, igual que obtener información de
altas hospitalarias de la administración de la seguridad social de los pacientes que reciban atención
a través de Medicare. Un contacto periódico con el participante una o dos veces al año ayuda a seguir
su trayectoria, y puede aumentar la oportunidad y la exactitud para registrar las respuestas de interés.
Para encontrar a los participantes para las evaluaciones de seguimiento a veces se deben realizar
esfuerzos persistentes y repetidos por correo postal, correo electrónico, teléfono o incluso visitas
domiciliarias .

■ RESUMEN
l. En un estudio transversal , todas las variables se miden en un único punto temporal, sin distin-
ción estructural entre variables predictivas y variables de respuesta. Los estudios transversales
ofrecen datos de causalidad más débiles que los estudios de cohortes, porque no se puede de-
mostrar que la variable predictiva preceda a la variable de respuesta .
2. Los estudios transversales son útiles para obtener información descriptiva sobre la prevalencia ,
y tienen la ventaja de evitar el tiempo , el gasto y los problemas de abandono de un diseño de
seguimiento; muchas veces son útiles como primer paso de un estudio de cohortes o un estudio
experimental, y se los puede vincular a estudios en serie con muestras independientes para
mostrar cambios poblacionales a lo largo del tiempo.
3. Los estudios transversales precisan un gran tamaño de la muestra cuando se estudian enferme-
dades y variables poco frecuentes en la población general, aunque pueden ser útiles en una serie
de casos de una enfermedad poco frecuente.
Capítulo 7 • Diseño de estudios transversales y de cohortes 95

TABLA 7-3. ESTRATEGIAS PARA REDUCIR AL MÍNIMO LAS PÉRDIDAS DURANTE


EL PERÍODO DE SEGUIMIENTO
Durante la incl usión
1. Excluir aquellos que es probable que se pierdan:
a. Plan de mudanza
b. Duda sobre la voluntad de regresar
c. Mala salud o enfermedad mortal no relacionada con la pregunta de la investigación
2. Obtener información para seguir la pista en el futuro :
a. Dirección, número de teléfono (los números de teléfono móvil son particularmente útiles) y
dirección de correo electrónico del participante
b. Números de la seguridad social/Medicare
c. Nombre, dirección, número de teléfono y dirección de correo electrónico de amigos o familiares
cercanos que no vivan con el participante
d. Nombre, dirección, número de teléfono y dirección de correo electrónico, del(los) médico(s)
Durante el período de seguimiento*

1. Contactar periódicamente con los participantes para obtener información, enviar resu ltados y prestar
apoyo:
a. Por te léfono: puede ser necesario llamar durante los fines de semana y por la noche
b. Por correo: envíos repetidos por correo electrónico o con tarjetas franqueadas para su devolución
c. Otros: boletín· de noticias, rega los simbólicos
2. Para aquellos con los que no se contacta por teléfono o por correo:
a. Contactar con amigos, familiares o médicos
b. Solicitar direcciones de reenvío al servicio postal
c. Buscar direcciones a través de otras fuentes públicas, como guías telefónicas e Internet
d. Con pacientes que están en Medicare, obtener datos de altas hospitalarias de la administración de
la segu'ridad social ·
e. Determinar la situación vital con datos del Ministerio de Sanidad del estado o del National Death
Registry (registro de mortalidad nacional)
En todo momento
1. Tratar a los participantes del estudio con amab ilidad, afecto y respeto, ayudándoles a entender la
pregunta de la investigación de modo que quieran participar en que el estudio tenga éxito.
•Esto·supone que los participantes en el estudio han dado su consentimiento informado para que se recopile ia infor-
mación y para el contacto de segu imiento.

4. En los estudios de cohortes se sigue a lo largo del tiempo a un grupo de participantes identifi-
cados al comienzo para describir la incidencia o la evolución natural de una enfermedad y
descubrir los factores predictivos (factores de riesgo) de diversos resultados. La posibilidad de
meair la variable predictiva antes de que se produzca la variable de respuesta establece la se-
cuencia de los acontecimientos y controla el sesgo en esa medición.
5. Los estudios de cohortes prospectivos comienzan al principio del seguimiento y pueden preci-
sar grandes números de participantes a los que se seguirá durante períodos de tiempo prolon-
gados. Esta última desventaja , en ocasiones, se puede superar identificando una cohorte retros-
pectiva en la que ya se hayan realizado las m ediciones de las variables predictivas.
6. El diseño de cohortes múltiples , que compara la inci\iencia de las variables de respuesta en
cohortes que difieren en una variable predictiva ( «la exposición »), es útil para estudiar los
efectos de exposiciones infrecuentes y de exposiciones laborales.
7. Los riesgos , las oportunidades y las tasas de incidencia son tres formas de estimar la frecuencia
de una variable de respuesta dicotómica durante el seguimiento; de ellas, las tasas de incidencia,
que tienen en consideración las personas-tiempo de los participantes que siguen vivos y sin
episodios en el estudio , forman la base de los abordajes modernos del cálculo de los cocientes
de riesgo multivariados utilizando el modelo de riesgos proporcionales de Cox.
8. Las inferencias sobre causa y efecto se refuerzan midiendo y ajustando todas las posibles varia-
bles de confusión que se puedan concebir. Se evitará el sesgo en la evaluación de las respuestas
mediante la normalización de las determinaciones y el enmascaramiento de las personas que
relacionan la variable de respuesta con los valores de la variable predictiva.
96 Sección 11 • Diseño de los estud ios

9. Los puntos fuertes de un diseño de cohortes pueden debilitarse por un seguimiento incompleto
de los participantes. Las pérdidas pueden reducirse al mínimo, excluyendo al comienzo a los
p articipantes que puedan no estar disponibles para el seguimiento, recopilando información
inicial que facilite su localización y permaneciendo en contacto periódicamente con todos los
participantes.

BIBLIOGRAFÍA
l. Andersen RE, Crespo CJ, Bartlett SJ, et al. Relationship of physical activity and television watching with body
weight and leve! of fatness among children: results from the Third National Health and Nutrition Examination
Survey. JAMA 1998;279(12):938-942.
2. Sargent JD, Beach ML, Adachi-Mejia AM, et al. Exposure to movie smoking: its relation to smoking initiation
among US adolescents. Pediatrics 2005;116(5):1183-1191.
3. Jaffe HW, Bregman DJ, Selik RM. Acquired immune deficiency syndrome in the United States: the first 1,000 cases.
] Infect Dis 1983;148(2):339-345.
4. Kalantar-Zadeh K, Abbott KC, Salahudeen AK, et al. Survival advantages of obesity in dialysis patients. Am] Clin
Nutr 2005; 81: 543-554.
5. Zito JM, Safer DJ , DosReis S, et al. Psychotropic practice patterns for youth: a 10-year perspective. Arch Pediatr
Adolesc Med 2003;157(1):17-25.
6. Huang Z, Hankinson SE; Colditz GA, et al. Dual effect of weight and weight gain on breast cancer risk. JAMA
1997;278:1407-1411.
7. Pearce MS, Salotti JA, Little MP, et aL Radiation exposure from CT scans in childhood and subsequent risk of
leukemia and brain tumors: a retrospective cohort study. Lancet 2012;380:499-505.
8. Newman TB, Liljestrand P, Jeremy RJ, et al. Outcomes of newborns with total serum bilirubin levels of 25 mgldL
or more. N Engl] Med 2006;354:1889-1900.
9. Escobar GJ, Liljestrand P, Hudes ES, et al. Five-year neurodevelopmental outcome of neonatal dehydration.
J Pediatr 2007;151(2):127-133, 133 el.
10. Wagoner JK, Archer VE, Lundin FE, et al. Radiation as the cause of lung cancer among uranium miners. N Engl
] Med 1965;273:181-187.
CAPÍTULO m
Diseño de estudios de casos
y testigos
Thomas B. Newman, Warren S. Browner, Steven R. Cummings
y Stephen B. Hulley

En el capítulo 7 se han presentado los estudios de cohortes , en los que la secuencia de las deter-
minaciones es la misma que la cronología de causa y efecto: se miden primero las variables predic-
tivas y después se observan las variables de respuesta durante el seguimiento . Por el contrario, en
un estudio de casos y testigos , el investigador trabaja hacia atrás. Comienza eligiendo una muestra
de personas con la respuesta (los casos) y otra muestra de personas sin esa respuesta (los testigos);
posteriormente se comparan los niveles de las variables predictivas en las dos muestras para ver
cuáles de ellas se asocian a la respuesta. Por ejemplo , en un e's tudio de casos y testigos se podría
recoger un grupo de casos de melanoma ocular y una muestra de testigos sanos , a lo que seguiría la
obtención de datos de ambos grupos sobre la exposición previa a la soldadura con arco para estimar
; en qué medida esta exposición afecta al riesgo de melanoma ocular. El diseño de casos y testigos es
relativamente económico y tiene una eficiencia elevada para estudiar enfermedades infrecuentes.
En este capítulo también se presentan diversas variaciones del diseño de casos y testigos sencillo
que se ha señalado más arriba. En un diseño de casos y testigos anidado se comparan los casos in-
cidentes anidados en un estudio de cohortes con testigos extraídos aleatoriamente del resto de la
cohorte; este diseño controla el sesgo de muestreo y de medida , y ahorra dinero si las variables
predictivas son mediciones costosas que se pueden realizar en muestras almacenadas o imágenes
recogidas al comienzo del estudio de cohortes. Un diseño de casos y testigos de densidad de inci-
dencia permite que los investigadores analicen las relaciones de riesgo , teniendo en ·consideración
los cambios a lo largo del tiempo de los niveles de los factores de riesgo y las pérdidas durante el
seguimiento. Yun diseño de casos y cohortes anidado permite que una muestra aleatoria de toda la
cohorte actúe como testigo para diferentes conjuntos de casos. El capítulo finaliza con consejos
sobre la elección de los diseños de estudios de observación que se analizan en los capítulos 7 y 8.

■ ESTUDIOS DE CASOS Y TESTIGOS


Como la mayoría de las enfermedades son relativamente poco frecuentes , los estudios de cohortes y
los estudios transversales de muestras de la población general son diseños costosos, en los que hacen
falta miles de participantes para identificar factores de riesgo de una enfermedad poco habitual, como
el cáncer gástrico. Como se ha señalado en el capítulo 7, una serie de casos de pacientes con la en-
fermedad puede identificar un factor de riesgo evidente (como el consumo de drogas por vía intrave-
nosa en el sida), usando la información previa de la prevalencia del factor de riesgo en la población
general. Sin embargo , para la mayoría de los factores de riesgo es necesario reunir un grupo de refe-
rencia, de modo que la prevalencia del factor de riesgo en las personas con la enfermedad (casos)
pueda compararse con la prevalencia del factor de riesgo en las personas sin la enfermedad (testigos).
Los estudios de casos y testigos son retrospectivos (fig. 8-1). El estudio identifica un grupo de personas
con la enfermedad y otro sin ella; a continuación, mira hacia atrás para encontrar diferencias en las variables
predictivas que pudieran explicar por qué los casos tienen la enfermedad y los testigos no (ejemplo 8-1).
Los estudios de casos y testigos se iniciaron como estudios epidemiológicos para identificar facto-
res de riesgo de enfermedades. Por este motivo , y como hace que sea más fácil seguir la discusión,
generalmente nos referimos a los «casos » como las personas que tienen la enfermedad. Sin embargo ,
el diseño de casos y testigos puede usarse también para observar otras respuestas, como la incapacidad
97
98 Sección 11 • Diseño de los estud ios

PRESENTE
Población
de casos

~,,,,,' --------------- ...............


,,"' ',,
/ ''
, ,, ''
,' Muestra ~ \
I \
II , - - - - - - - - ' , , _ __ _ _ _ _ ~
\\

I \
I \
: Confirmar la respuesta \
: como un caso
1

Medición actual y 1
1 1
1 valores históricos de las 1
1 I
\ variables predictivas I
\ I
\ I
\ I
\ I
\ I

,,
I
''
'' ,,,,,,'
' ',, ...
-- --- ......... _
--- ---
.,,,,.,,,,"

Población
de testigos

~ ,,,.'
-------------------,, ',,
/ ''
I
,, '\
I \
,' Muestra ~ \
I \
I \
I -----~-----~ \
I \
I \

' Confirmar la respuesta \


como testigo
1
1 Medición actual y 1
1 I
1 valores históricos de las I
■ FIGÜRA 8-1. En un estudio de casos y testigos,
1 I
\ variables predictivas I
\ I
\ I los pasos son:
\
\ ., I
• Definir los criterios de selección e incluir una
\
\ ,I muestra de una población de casos y una se-
,,
I
'' gunda muestra de una población de testigos.
'' ,.,,,,'
',, • Medir los va lores actuales de las correspondien -
............
............ _________ ... , --- tes variables, compleme ntado co n frecuencia
con información histórica.

en tre los que ya tienen una enfermedad. Además, cuando las respuestas no deseadas son la norma en
lugar de la excepción, los casos de un estudio de casos y testigos pueden ser los pacientes, poco fre-
cuentes, con una buena respuesta, como la recuperación de una enfermedad habitualmente mortal.
Los estudios de casos y testigos son el «tinto de la casa» en la lista de vinos del diseño de inves-
tigación: más modestos y con algo más de riesgo que las otras selecciones, pero mucho más baratos
y, a veces, sorprendentemente buenos. El diseño de un estudio de casos y testigos es difícil debido a
la mayor oportunidad para que se produzca sesgo, pero hay mu chos ej emplos de estudios de este
tipo bien diseñados que han proporcionado resultados importantes. Entre ellos se encuentran los
que establecieron los vínculos entre el consumo materno de dietilestilbestrol y el cáncer vaginal en
las hij as (¡un estudio clásico que proporcionó una conclusión definitiva basándose solo en siete
casos!) (1), y entre la posición de decúbito prono al dormir y el síndrome de la muerte súbita del
lactante (2), un sencillo resultado que ha salvado miles de vidas (3).
Capítu lo 8 • Diseño de estud ios de casos y test igos 99

EJEMPLO 8-1. Estudio de casos y testigos


Debido a que la vitamina K intramuscular se administra sistemáticamente a los recién nacidos
en Estados Unidos , un par de estudios que comunicaban una duplicación del riesgo de cáncer
en la infancia entre los que habían recibido vitamina K i.m . causaron bastante impresión (4, 5).
Para investigar esta asociación, investigadores alemanes (6):
1. Seleccionaron la muestra de casos. Se seleccionaron 107 niños con leucemia del German
Childhood Cancer Registry.
2. Seleccionaron la muestra de los testigos. Se seleccionaron 107 niños emparejados por sexo
y fecha de nacimiento, y seleccionados de entre niños que vivían en la misma ciudad que el
caso en el momento del diagnóstico (a partir de los registros oficiales de residencia).
3. Midieron la variable predictiva. Revisaron historias clínicas para determinar qué casos y
testigos habían recibido vitamina K i.m. en él período neonatal.
Los autores encontraron que 69 de 107 casos (64%) y 63 de 107 testigos (59%) habían sido
tratados con vitamina K i.m., para una razón de posibilidades de 1,3 (intervalo de confianza del
95 % [IC], O, 7 a 2,3). (En el apéndice 8A se expone el cálculo.) Por lo tanto, en este estudio no
se confirmó la existencia de una asociación entre recibir vitamina K en el período neonatal y la
posterior leucemia infantil. La estimación puntual y el límite superior del IC del 95 % dejan
abierta la posibilidad de un aumento clínicamente importante de la leucemia en la población de
la que se obtuvieron las muestras, pero en otros estudios y en un análisis del estudio citado
usando µn grupo testigo adicional no se pudo confirmar la asociación (7, 8).

Los estudios de casos y testigos no pueden ofrecer estimaciones de la incidencia o la prevalencia


de una enfermedad, porque la proporción de participantes del estudio que tiene la enfermedad se de-
termina por la cantidad de casos y la cantidad de testigos que el investigador escoge para la mues-
tra, en lugar de por sus proporciones en la población. Los estudios de casos y testigos proporcionan
información descriptiva sobre las características de los casos y, lo que es más importante, una esti-
mación de la solidez de la asociación entre cada una de las variables predictivas y la variable de
respuesta . Estas estimaciones se presentan en forma de razón de posibilidades, que se aproxima al .
riesgo relativo si el riesgo de la enfermedad en los participantes expuestos y no expuestos es relati-
vamente bajo (aproximadamente el 10% o menos; apéndice 8B).

Puntos fuertes de los estudios de casos y testigos

Eficieneia para variables de respuesta poco habituales


Uno de los principales valores de los estudios de casos y testigos es su rápida y elevada producción
de información a partir de un número relativamente bajo de participantes. Considere un estudio del
efecto de la circuncisión sobre la posterior aparición de carcinoma de pene. Este cáncer es muy raro
en varones circuncisos, pero también lo es en los que no lo están, cuya incidencia acumulada a lo
largo de toda la vida es de alrededor del 0,16% (9). Para realizar un estudio de cohortes con una
probabilidad razonable (80%) de detectar incluso un factor de riesgo muy importante (p. ej. , un
riesgo relativo de 50) se debería seguir a más de 6 000 varones durante muchos años, suponiendo
que hubiera proporciones aproximadamente iguales de circuncisos y no circuncisos. Un ensayo
clínico aleatorizado de la circuncisión al nacer precisaría el mismo tamaño de la muestra, pero los ca-
sos aparecerían una mediana de 67 años tras la entrada en el estudio: ¡se necesitarían tres generacio-
nes de investigadores para realizar el seguimiento de los participantes!
Considere ahora un estudio de casos y testigos para la misma pregunta. Para la misma posibi-
lidad de detectar el mismo riesgo relativo, solo se necesitarían 16 casos y 16 testigos (y no dema-
siado tiempo y esfuerzo para los investigadores). En enfermedades que son poco frecuentes o que
tienen largos p eríodos de latencia entre la exposición y la enfermedad, los estudios de casos y
testigos no solo son mu cho más eficientes que otros diseños, sino que, a menudo, son la única
opción posible.
100 Sección 11 • Diseño de los estudios

Utilidad para generar hipótesis


El abordaje retrospectivo de los estudios de casos y testigos, y su capacidad de examinar un gran
número de variables predictivas, hace que sean útiles para generar hipótesis sobre las causas de un
nuevo brote de una enfermedad. Por ejemplo, en un estudio de casos y testigos de una epidemia de
muertes por insuficiencia renal aguda en niños haitianos se observó una razón de posibilidades de 53
para la ingestión de jarabe de paracetamol de fabricación local. La investigación posterior demostró
que la insuficiencia renal se debió a intoxicación con dietilenglicol, que se observó que contaminaba
el jarabe de paracetamol (10), un problema que lamentablemente se ha vuelto a producir (11).

Puntos débiles de los estudios de casos y testigos


Los estudios de casos y testigos poseen grandes valores, pero también cuentan con importantes desven-
tajas. Primero, solo se puede estudiar una variable de respuesta (la presencia o ausencia de la enfermedad,
que fue el criterio para extraer las dos muestras), mientras que en los estudios de cohortes y los estudios
transversales (y los estudios clínicos) se pueden estudiar diversas variables de respuesta. Segundo, como
ya se ha mencionado, la información disponible en los estudios de casos y testigos es escasa: no hay
ninguna forma directa de estimar la incidencia ni la prevalencia de la enfermedad, ni el riesgo atribuible
ni el exceso de riesgo, salvo que el investigador también conozca la población exacta y el período tem-
poral de los cuales se extrajeron los casos. Sin embargo, el principal punto débil de los estudios de casos
y testigos es su susceptibilidad al sesgo. Este sesgo procede fundamentalmente de dos orígenes: el
muestreo separado de los casos y los testigos, y la medición retrospectiva de las variables predictivas.
Estos dos problemas y las estrategias para abordarlos constituyen el tema de las dos secciones siguientes.

Sesgo de muestreo y modo de controlarlo


El muestreo en un estudio de casos y testigos empieza con los casos. Idealmente, la muestra de casos
debería incluir a todas las personas que hubieran presentado la enfermedad en estudio, o una selección
aleatoria de dichos casos. Sin embargo, surge un problema inmediato. ¿ Cómo sabemos quién ha de-
sarrollado la enfermedad y quién no? En los estudios transversales y de cohortes, la enfermedad se
busca sistemáticamente en todos los participantes del estudio , pero en los estudios de casos y testigos,
la muestra de los casos debe obtenerse de pacientes en los que ya se ha diagnosticado la enfermedad y
que están disponibles para el estudio. Esta muestra puede no ser representativa de todos los pacien-
tes que desarrollan la enfermedad, porque los que no están diagnosticados, tienen un diagnóstico erró-
neo, no están disponibles para el estudio o fallecen tienen menos probabilidad de ser incluidos (fig. 8-2).
En general, el sesgo del muestreo es importante cuando la muestra de casos no es representativa en
relación con el factor de riesgo que se está estudiando. Las enfermedades que casi siempre precisan

Nuevos casos de las enfermedades

- ¡¡j¡i i .'- ---- No solicitan asistencia médica

- - - - - - Atendidos en otro lugar

------► Atendidos, pero mal diagnosticados

.,...._ _ _ _ _ Fallecimiento o remisión antes del diagnóstico

Casos disponibles para el estudio de casos y testigos


■ FIGURA 8-2. Algunos motivos por los que los casos de un estudio de casos y testigos pued en no ser represent ativos
de todos los casos de la enfermedad.
Capítulo 8 • Diseño de estudios de casos y testigos 101

hospitalización y que son sencillas de diagnosticar, como la fractura de cadera y las amputaciones trau-
máticas, pueden muestrearse con seguridad a partir de casos diagnosticados y accesibles, al menos en los
países desarrollados. Por otro lado, las afecciones que pueden no llegar a ser atendidas por médicos son
más difíciles de analizar en estudios de casos y testigos, debido a la selección que precede al diagnóstico.
Por ejemplo, las mujeres atendidas en una consulta ginecológica con abortos espontáneos en el primer
trimestre probablemente difieran de toda la población de mujeres que sufren abortos espontáneos, mu-
chas de las cuales no solicitan asistencia médica. Por lo tanto, las mujeres con antecedentes de esterilidad
estarían sobrerrepresentadas en una muestra clínica, mientras que las que tuvieran un acceso escaso a
los cuidados prenatales estarían infrarrepresentadas. Si una variable predictiva de interés se asocia a la
asistencia ginecológica en la población (como el uso anterior de un dispositivo intrauterino [DIU]), el
muestreo de casos de la consulta podría ser una importante fuente de sesgo. Si, por otro lado, una varia-
ble predictiva no está relacionada con la asistencia ginecológica (como el grupo sanguíneo) , existiría
menos probabilidad de que una muestra procedente de la consulta no fuera representativa.
Aunque es importante pensar en estos aspectos, la selección de los casos a menudo está limitada
a las fuentes accesibles de pacientes. La muestra de casos puede no ser totalmente representativa,
pero ser lo único con lo que el investigador puede trabajar. Las decisiones difíciles a las que se en-
frenta un investigador al diseñar un estudio de casos y testigos se relacionan con la tarea más abier-
ta de seleccionar los testigos adecuados. El objetivo general es muestrear testigos de una población
que habrían llegado a convertirse en casos del estudio si hubieran presentado la enfermedad. A con-
tinuación se presentan cuatro estrategias para el muestreo de los testigos:

• Testigos a partir de hospitales o consultas. Una estrategia para compensar el posible sesgo de
selección, causado por obtener casos de una consulta o un hospital , es elegir testigos de los mis-
mos 'centros. Por ejemplo, en un estudio del uso anterior de un DIU como factor de riesgo de
aborto espontáneo , la muestra de testigos puede seleccionarse a partir de una población de mu-
jeres que acuden por otros problemas (p. ej., vaginitis) a la misma consulta ginecológica. En
comparación con una muestra aleatoria de mujeres de la_misma zona, estas testigos representarían,
presumiblemente, mejor a la población de mujeres que, de haber tenido un aborto espontáneo,
habrían acudido a la consulta y constituirían un caso.
Sin embargo, la selección de una muestra no representativa de testigos para compensar una mues-
tra no representativa de casos puede ser algo problemático. Si el factor de riesgo de interés causa un
problema médico para el que los testigos solicitan asistencia, la prevalencia del factor de riesgo en el
grupo testigo estará falsamente elevada, lo que reduciría o invertiría la asociación entre el factor de
riesgo y la respuesta. Si, por ejemplo, muchas mujeres del grupo testigo solicitaran asistencia en la
consulta por una enfermedad médica asociada al uso previo de un DIU (p. ej. , esterilidad por los mo-
delos~antiguos de DIU), habría un exceso de usuarias previas de DIU entre las testigos, lo que reduci-
ría la magnitud de la asociación entre el uso previo de DIU y el aborto espontáneo en el estudio.
Como los testigos seleccionados del hospital o la consulta muchas veces tienen enfermedades
asociadas a los factores de riesgo que se estudian, los hallazgos que ofrecen estos tipos de testigos
pueden llevar a error. Por lo tanto, es esencial tener en consideración si la comodidad de utilizar
testigos procedentes del hospital o la consulta justifica la posible amenaza a la validez del estudio.
• Uso de una muestra de casos basada en la población. Debido a un rápido aumento del uso de los
registros de enfermedades en poblaciones geográficas y en planes sanitarios, actualmente se pue-
den realizar estudios de casos y testigos de base poblacional para muchas enfermedades. Los casos
obtenidos de estos registros suelen ser representativos de la población general de pacientes con
la enfermedad en el área de origen, lo que simplifica la elección de un grupo testigo: debe ser una
muestra representativa de «no casos» procedentes de la población que abarca el registro. En el
ejemplo 8-1, el gobierno local incluyó en un registro a todos los residentes de la ciudad, lo que
1
hizo que la selección de una muestra fuera sencilla.
Cuando se dispone de registros, los estudios de casos y testigos basados en la población son
claramente los diseños más deseables. Cuando el registro de la enfermedad se acerca a la totalidad
y la población que abarca se acerca a la estabilidad (no hay inmigración ni emigración) , un estu-
dio de casos y testigos basado en la población se aproxima a un estudio de casos y testigos que
está anidado en un estudio de cohortes o un ensayo clínico (pág. 104), asumiendo que se puede
102 Sección 11 • Diseño de los estudios

identificar e incluir a los testigos. Estas últimas tareas son relativamente sencillas cuando la po-
blación se ha enumerado y sus historias están disponibles para los investigadores, como en el
estudio de vitamina K y leucemia que se describe en el ejemplo 8-1. Cuando no se dispone de
dichas historias de registro, un abordaje· que se utiliza con frecuencia es la marcación aleatoria
de números de teléfono (fijos) con prefijos de la región que abarca el registro. ( Cuando se selec-
cionan los testigos de esta forma , se deben excluir los casos que no tengan teléfono fijo.) Debido
al aumento del número de hogares que solo tienen teléfono móvil, este abordaje ha llegado a ser
problemático (12). Se puede realizar la marcación aleatoria, incluyendo los números -de teléfono
móvil, aunque se debe realizar cuidadosamente, finalizando inmediatamente si el receptor está
conduciendo y evitando llamadas que pudieran suponer un coste para el receptor (13).
Sin embargo, debe reconocerse que se puede introducir sesgo siempre que se deba establecer con-
tacto con los participantes para obtener información, porque algunos participantes (p. ej., los que no
hablen inglés o los que tengan problemas de audición) pueden tener menos probabilidad de ser in-
cluidos. Puede producirse un problema similar siempre que haga falta un consentimiento informado.
• Usar dos o más grupos testigos. Debido a que la selección de un grupo testigo puede ser dema-
siado difícil, particularmente cuando los casos puedan no constituir una muestra representativa de
los que tienen la enfermedad, a veces es aconsejable usar dos o más grupos testigos elegidos
de modos diferentes. En el estudio del Public Health Service sobre el síndrome de Reye y los fár-
macos (14), por ejemplo, se usaron cuatro tipos de testigos: testigos del servicio de urgencias
(atendidos en el mismo servicio de urgencias que los casos) , testigos ingresados (ingresados en
el mismo hospital que los casos), testigos escolares (que acudían a la misma escuela o centro de
día que los casos) y testigos de la comunidad (identificados por llamadas de teléfono al azar). La
razón de posibilidades del uso de salicilatos en los casos en comparación con cada uno de estos
grupos testigos fue, en todos los casos, de al menos 30, y fue estadísticamente muy significativa.
El hallazgo constante de una intensa asociación usando grupos testigos que tendrían diferentes
sesgos de muestreo refuerza la inferencia de que hay una asociación real en la población.
Lamentablemente, pocas asociaciones tienen valores de la razón de posibilidades en modo
alguno tan elevados , y los sesgos asociados a diferentes estrategias para seleccionar los testigos
pueden hacer que los resultados utilizando diferentes grupos de testigos entren en conflicto mu-
tuamente, lo que revelaría la inherente fragilidad del diseño de casos y testigos para la pregunta
de la investigación que se maneja. Cuando esto sucede, el investigador debe buscar información
adicional (p. ej., el motivo de consulta de los testigos procedentes de la consulta) para intentar
determinar la magnitud de los posibles sesgos de cada uno de los grupos testigos (cap. 9). En
cualquier caso , es mejor tener resultados incongruentes y concluir que se desconoce la respuesta,
a tener tan solo un grupo testigo y extraer la conclusión errónea.
• Emparejamiento. Es un método sencillo para asegurar que los casos y los testigos sean comparables
con respecto a factores importantes que están relacionados con la enfermedad, pero carecen de inte-
rés para el investigador. Hay tantos factores de riesgo y enfermedades relacionadas con la edad y el
sexo, por ejemplo, que los resultados del estudio pueden no ser convincentes, salvo que los casos y
los testigos sean comparables respecto a esas dos variables. Un método para evitar este problema es
elegir testigos que se emparejen con los casos en estas variables predictivas constitucionales. Sin
embargo , el emparejamiento tiene desventajas importantes, en concreto cuando se emparejan varia-
bles predictivas modificables, como los ingresos o la concentración de colesterol sérico. Los motivos
de esto y las alternativas que generalmente se prefieren al emparejamiento se analizan en el capítulo 9.

Sesgo de medición diferencial y cómo controlarlo


El segundo punto débil importante de los estudios de casos y testigos es el riesgo de sesgo debido a
un error en la medición. Esto está generado por el método retrospectivo de medición de las variables
predictivas: se puede pedir a los casos y los testigos que recuerden exposiciones que se produjeron
varios años antes. Lamentablemente, la memoria de las personas en relación con exposiciones previas
es imperfecta. Si son imperfectas de manera similar en los casos y en los testigos, el problema se
denomina error de clasificación no diferencial de la exposición y dificulta la detección de asocia-
ciones. (En términos epidemiológicos, la razón de posibilidades está sesgada hacia el 1.) Sin embar-
go, es más preocupante que ser diagnosticado de una enfermedad pueda llevar a los casos a recordar
Capítulo 8 • Diseño de estudios de casos y testigos 103

o referir sus exposiciones de una manera diferente a los testigos; este error de clasificación diferen-
cial de la exposición, denominado sesgo de recuerdo , tiene efectos impredecibles sobre las asocia-
ciones medidas en un estudio.
Por ejemplo, la publicidad generalizada sobre la relación entre la exposición al sol y el melanoma
maligno podría llevar a los casos diagnosticados de ese cáncer a recordar su antecedente de exposi-
ción al sol de una manera diferente a los testigos. Cockburn y cols. (15) encontraron datos de este
fenómeno en un inteligente estudio de gemelos discordantes en relación con el melanoma: la razón
de posibilidades emparejada para tomar baños de sol en la infancia era de 2,2 (IC del 95 %: 1,0 a 4,7)
cuando se preguntaba al gemelo con melanoma qué gemelo había tomado más baños de sol en la
infancia, aunque era de tan solo 0,8 (0 ,4 a 1,8) cuando se hacía la misma pregunta al gemelo que no
tenía melanoma . Sin embargo, para otras preguntas, como qué gemelo se bronceaba o se quemaba
con más facilidad, no hubo datos de sesgo de recuerdo.
No puede producirse sesgo de recuerdo en un estudio de cohortes, porque se pregunta a los pa-
cientes por las exposiciones antes del diagnóstico de la enfermedad. En un estudio de casos y testi-
gos de melanoma maligno anidado dentro de una cohorte en la que se habían recogido varios años
antes los datos de exposición al sol, se realizó un estudio directo del sesgo de recuerdo: los investi-
gadores compararon la exposición al sol referida por los propios participantes en los casos y en los
testigos tanto antes como después de que el caso fuera diagnosticado ele melanoma (16). Los inves-
tigadores encontraron ciertas inexactitudes en los recuerdos ele h, exposición tanto en los casos como
en los testigos, aunque con pocos datos ele sesgo de recuerdo (16) . Por lo tanto, aunque es impor-
tante tener en consideración la posibilidad de sesgo de recuerdo, no es inevitable (17).
Además de las estrategias establecidas en el capítulo 4 para controlar el sesgo en las mediciones
' (normalizar las definiciones operativas de las variables , escoger métodos objetivos, complementar
variablés clave con datos de varias fuentes, etc.), hay dos estrategias específicas para evitar el sesgo
en la medición de las exposiciones en los estudios de casos y testigos:

• Usar datos registrados antes de que se produzca la respuesta. Puede que sea posible, por ejem-
plo , examinar las historias clínicas perinatales en un estudio de casos y testigos de uso de vitami-
na K intramuscular como factor de riesgo de cáncer. Esta excelente estrategia está limitada en la
medida en que la información registrada sobre el factor de riesgo de interés esté disponible y sea
fiable. Por ejemplo, la información sobre la administración de vitamina K no estaba a menudo en
las historias clínicas, y el modo en que se trató esa información perdida afectaba a los resultados
de algunos estudios de vitamina K y posterior riesgo de cáncer (8).
• Usar enmascaramiento. El método general de enmascaramiento se comentó en el capítulo 4, pero
hay algunos puntos que son específicos del diseño de entrevistas en los estudios de casos y testi-
gos. En teoría , tanto los observadores como los participantes en el estudio podrían desconocer el
estado de casos y testigos de cada uno de los pacientes y el factor de riesgo que se estudia; por lo
tanto , son posibles cuatro tipos de enmascaramiento (tabla 8-1).

TABLA 8-1. ABORDAJES DEL ENMASCARAMIENTO EN UN ESTUDIO DE CASOS


Y TESTIGOS
PERSONA A LA ESTADO DEL ENMASCARAMIENTO MEDICIÓN CON
QUE SE APLICA EL DE CASOS Y TESTIGOS ENMASCARAMIENTO
'ENMASCARAMIENTO DEL FACTOR DE RIESGO

Participante Posible si tanto casos como testigos tienen Incluir factores de riesgo
enfermedades que podrían posiblemente «simulados» y sospechar si difieren
relacionarse con el factor de riesgo entre los casos y los testigos
1
Puede no funcionar si ya se ha
dado publicidad al factor de riesgo
de la enfermedad
Observador Posible si los casos no se distinguen Posible si el entrevistador no es el
externamente de los testigos, pero sutiles signos investigador, pero puede ser difícil
y afirmaciones que realizan voluntariamente los de mantener
participantes lo hacen difícil
104 Sección 11 • Diseño de los estudios

Idealmente, ni los participantes ni los observadores deben saber qué participantes son casos y qué par-
ticipantes son testigos. En la práctica, esto muchas veces es difícil. Los participantes saben si están enfermos
o no, por lo que solo se les puede ocultar su C!>tado de caso o testigo si los testigos también presentan en-
fermedades que creen que podrían estar relacionadas con los factores de riesgo que se están estudiando.
Los esfuerzos para que los entrevistadores desconozcan la información se ven dificultados por la naturale-
za obvia de algunas enfermedades (un entrevistador puede fácilmente notar si el participante tiene ictericia
o ha sufrido una laringectomía) y por los indicios que pueden obtener de las respuestas de los participantes.
El enmascaramiento de los factores de riesgo específicos que se están estudiando suele ser más fácil
que el enmascaramiento del estado de casos o testigos. Un estudio de casos y testigos es, con frecuen-
cia, el primer paso en la investigación de una enfermedad, por lo que puede que no haya tan solo un
factor de riesgo de particular interés. Por ello, se pueden ocultar a los participantes del estudio y los
entrevistadores las hipótesis del estudio, incluyendo preguntas «simuladas » sobre posibles factores de
riesgo no asociados a la enfermedad. Por ejemplo, en un estudio de consumo de miel como factor
de riesgo de botulismo del lactante se pueden incluir en la entrevista preguntas con el mismo nivel de
detalle sobre el yogur y los plátanos. Este tipo de enmascaramiento no evita el sesgo diferencial, pero
permite calcular si constituye un problema: si los casos comunican más exposición a la miel, pero nin-
gún aumento de los demás alimentos, el sesgo diferencial en la medición será menos probable. Esta
estrategia no funcionaría si la asociación entre tomar miel y el botulismo del lactante hubiera sido
ampliamente divulgada anteriormente, o si alguno de los factores de riesgo simulados llegara a ser real.
El hecho de que el observador desconozca el estado de los participantes del estudio como casos o
testigos es una estrategia particularmente buena para detenninaciones de laboratorio, como los análisis
de sangre y las radiografías. Es fácil el enmascaramiento en estas circunstancias, y debe realizarse siem-
pre, simplemente pidiendo que una persona distinta a aquella que va a realizar la medición aplique una
etiqueta con una identificación codificada a cada una de las muestras (o pacientes). La importancia del
enmascaramiento se ilustró en 15 estudios de casos y testigos en los que se compararon determinaciones
de la masa ósea de pacientes con fractura de cadera y testigos; se observaron diferencias mayores en los
estudios que usaban determinaciones sin enmascaramiento que en los estudios con él (18).

■ ESTUDIOS DE CASOS Y TESTIGOS ANIDADOS, ESTUDIOS DE CASOS


Y TESTIGOS ANIDADOS CON DENSIDAD DE INCIDENCIA Y ESTUDIOS
DE CASOS Y COHORTES
En un diseño de casos y testigos anidado hay un estudio de casos y testigos «anidado» dentro de una
cohorte definida (fig. 8-3) . El investigador puede haber definido ya la cohorte como parte de un es-
tudio de cohortes formal, muchas veces incluyendo la conservación de muestras, imágenes y otro tipo
de datos, para su análisis en el futuro después de que se produzcan las respuestas. De manera alter-
nativa, el investigador puede diseñar un estudio de casos y testigos anidado nuevo, en una cohorte
que no se haya definido previamente, y en la cual el primer paso será la definición de la cohorte.
El investigador comienza identificando una cohorte de participantes, con riesgo de que la respues-
ta sea suficientemente grande para que haya suficientes números de casos a fin de responder a la pre-
gunta de la investigación, y eso ofrece la posibilidad de medir la variable de exposición, ya sea porque
se han almacenado muestras o porque se dispone de historias clínicas (o pacientes) con información
sobre la exposición. Como se describió en el capítulo 7, en la definición de la cohorte se debe atender
a los criterios de inclusión y exclusión específicos que definan a una población en riesgo. Además, deqe
estar clara para cada uno de los participantes la fecha de inclusión en la cohorte. Podría tratarse de
una fecha fija (p. ej., todas las personas que cumplan todos los criterios de inclusión y que estuvieran
aseguradas en un plan sanitario el 1 de enero de 2008), o podría ser una fecha variable en la que co-
mienza un período de riesgo (p. ej., la fecha de inclusión en un estudio de cohortes o la fecha del
primer infarto de miocardio en un estudio de factores de riesgo de infarto de miocardio recurrente) .
A continuación, el investigador describe los criterios que definen la aparición de la respuesta de
interés, lo que en todos los casos se producirá después de la fecha de inclusión en la cohorte y antes
del final del período de seguimiento definido. Si la respuesta es poco frecuente, el seguimiento está
próximo a su fin y es suficiente una medición única de la exposición en situación inicial, entonces
es sencillo. El investigador identifica a todos los participantes de la cohorte que hayan presentado la
Capítulo 8 • Diseño de estudios de casos y testigos 105

PASADO PRESENTE

Población

~
,... ...... --- .... ... ...,
, ''
,, '' Medición Todos
,, ' de la respuesta los casos
,' Muestra '
f
f ' \
\
I
Variables predictivas
\
Medición Muestra
I
I
---------- 1
1
Segu imiento
de la respuesta
1 disponibles para su 1
1 de la cohorte de testigos
1
1
1
medición en
1
1
1
muestras, imágenes, 1
1
1
1
etc., almacenadas f
I Resto
\ f dela
\
\ , f

cohorte
' ,
',,, ,,,' Perdido durante
',.... ,,' el seguimiento
... ........ _____ ...... ,

■ FIGURA 8-3. Un estudio de casos y testigos anidad o puede ser prospectivo o retrospectivo. Para la versión retrospec-
tiva, los pasos son:
• Identificar una cohorte de la pob lación con muestras, imágenes y otros datos almacenados previamente.
• Medir la va riable de resp uesta que distingue los casos de los testigos.
• Medir las variables pred ictivas en muestras, imágenes y otros datos almacenados desd e que se formó la cohorte,
además de otras va riab les, en todos los casos y en una muestra de los no casos (testigos).

respues'ta al final del seguimiento (los casos), y después selecciona una muestra aleatoria de partici-
pantes que también formaban parte de la cohorte pero que no hayan presentado la respuesta (los
testigos). Después, el investigador mide las variables predictivas en los casos y en los testigos , y
compara los niveles del factor de riesgo en los casos con los niveles en la muestra de testigos. Esto
es un estudio de casos y testigos anidado simple (ejemplo 8-2).

EJEMPLO 8-2. Diseño de casos y testigos anidado simple


Para determinar si las concentraciones elevadas de hormonas sexuales aumentaban el riesgo de
cáncer de mama, Cauley (19) y cols. realizaron un estudio de casos y testigos anidado. Los
pasos básicos en la realización de este estudio fueron:
1. Identificar una cohorte. Los investigadores utilizaron la cohorte del Study of Osteoporotic
Fractures (SOF). Fue una buena elección, porque los mismos investigadores habían extraído
las muestras de suero de las participantes en esta cohorte durante la evaluación inicial y las
habían almacenado congeladas a -190 º C con la esperanza de que se diseñara un estudio
como este.
2. Identificar los casos al final del seguimiento. De acuerdo con las respuestas a los cuestiona-
rios de seguimiento y una revisión de los certificados de defunción, los investigadores identi-
ficaron a 97 pacientes que habían presentado un primer episodio de cáncer de mama durante
3,2 años de seguimiento.
3. Seleccionar los testigos. Los investigadores seleccionaron una muestra aleatoria de 244 mu-
jeres de la cohorte que no presentaron cáncer de mama durante ese período de seguimiento.
4 . Medir las variables predictivas. Se midieron las concentraciones de hormonas sexuales, entre
ellas el estradiol y la testosterona, en las muestras de suero congelado de la evaluación inicial
de los casos y los testigos. El laboratorio desconocía si la~ muestras procedían de los casos
o de los testigos.
Las mujeres que tenían concentraciones elevadas de estradiol o de testosterona tuvieron un
aumento de tres veces del riesgo de un diagnóstico posterior de cáncer de mama en comparación
con las mujeres que tenían concentraciones muy bajas de estas hormonas .
106 Sección 11 • Diseño de los estudios

Población

,,
- ------- ... ... ', '
.,,.....
' Persona-tiempo
, ,-' Cohorte ',, sin exposición
, , "-... '' ~

Persona-tiempo
,,
~

, ' con exposición


, I
I
\ -- ♦ ♦ Caso incidente
,, Participantes
elegibles con riesgo 1
• • Perdido durante
el seguimiento
de la respuesta
1

''
1
1
1 -- . + No es caso al final
del seguimiento
1
1
\
,
,,
\
\

,,
\

''
',
' ',
__
,. ,
,,
,
/ 7 \
----- ---
' ', , ,,"'
Conjunto I Conjunto 11 Conjunto 1
de riesgo 1 de riesgo 2 de riesgo 3
■ FIGURA 8-4. Un estudio de casos y testigos anidado ton densidad de incidencia puede ser prospectivo o retrospectivo.
Para la versión prospectiva, los pasos son: ·
• Definir los criterios de selección e incluir una cohorte de la población.
• Definir la fecha de inclusión de cada uno de los miembros de la cohorte para al inear los tiempos de seguimiento.
• Almacenar muestras, imágenes, etc., para su análisis posterior.
• Seguir la cohorte para identificar los casos y la fech a en que fueron diagnosticados.
• Obtener una muestra de uno o más testigos para cada caso a partir de los «conjuntos de riesgo», que se definen como
miembros de la cohorte a los que se ha seguido durante el mismo tiempo que al caso y que no se han tra nsformado
en casos, no han muerto ni se han perdido durante el seguimiento en el momento en el que se diagnosticó al caso.
• Medir las variables predictivas en las muestras, imágenes, etc., almacenadas desde el comienzo, además de otras
variab les actuales, en los casos y los testigos emparejados.

Si el seguimiento es variable o incompleto , o si la exposición de interés varía a lo largo del tiem-


po , una única medición de la exposición en la inclusión en la cohorte en los casos y una muestra
aleatoria de testigos no será suficiente. En este caso es mejor diseñar un estudio de casos y testigos
anidado con densidad de incidencia y obtener una muestra de los testigos de conjuntos de riesgo ,
definidos para cada caso como los miembros de la cohorte a los que se ha seguido durante el mismo
tiempo que al caso , pero que todavía no se han convertido en casos (fig. 8-4). Como ocurre con
cualquier otra forma de emparejamiento entre testigos y casos , este emparejamiento por el tiempo
de seguimiento se debe tener en consideración en el análisis.
Por ejemplo, si la inclusión en la cohorte fue una fecha fija (p . ej ., el 1 de enero de 2008), la
muestra de testigos para un caso diagnosticado el 1 de julio de 2009 se extraería de los participantes
que todavía no hubieran presentado la respuesta el 1 de julio de 2009. Si la fecha 'de inclusión en la
cohorte fuera variable, la muestra de testigos de un caso diagnosticado 18 meses después de la in-
clusión se extraería de los participantes que todavía no se hubieran transformado en casos después
de 18 meses de seguimiento . Dependiendo de la hipótesis de la investigación que planteara el inves-
tigador, se podrían comparar los valores de la exposición en la inclusión o en cualquier otro momen-
to después de la inclusión entré los casos y los testigos.
Este muestreo basado en conjuntos de riesgo introduce la complejidad de que se puede seleccio-
nar al mismo participante como testigo para un caso que se produce en fases tempranas del segui-
miento y luego se puede transformar él mismo en un caso , tal vez después de que haya cambiado la
intensidad de la variable de exposición. En efecto, lo que hace este diseño (con ayuda de los análisis
estadísticos adecuados) es considerar de manera secuencial porciones de persona-tiempo en riesgo,
utilizando para cada porción valores de las variables predictivas para predecir la aparición de casos
en esa porción de persona-tiempo, con los límites de cada porción definidos por la aparición de los
casos. Esto se denomina diseño de densidad de incidencia (ejemplo 8-3).
Un diseño de casos y cohortes anidado es similar al diseño de casos y testigos anidado simple,
excepto que, en lugar de seleccionar testigos que no presentaron la respuesta de interés, el investi-
Cap ítu lo 8 • Diseño de estudios de casos y testigos 107

gador selecciona una muestra aleatoria de todos los miembros de la cohorte, independientemente de
la respuesta. Algunos participantes que formen parte de la muestra aleatoria pueden haber presen-
tado la respuesta (el número es muy bajo cuando la respuesta es infrecuente). Una ventaja del dise-
ño de casos y cohortes es que una única muestra aleatoria de la cohorte puede aportar los testigos

EJEMPLO 8-3. Diseño de casos y testigos anidado con «densidad


de incidencia»
Para investigar la posible asociación entre el antidiabético oral pioglitazona y el cáncer vesical,
investigadores de Montreal (20) realizaron un estudio de casos y testigos anidado con la base
de datos United Kingdom General Practice Research Database, que contiene las historias clínicas de
atención primaria completas de más de 10 millones de personas incluidas en más de 600 con-
sultas generales del Reino Unido. Los pasos fueron:
1. Identificar la cohorte y el período temporal en riesgo. Los investigadores incluyeron adultos
con una primera prescripción de un antidiabético oral entre el 1 de enero de 1988 y el 31 de
diciembre de 2009 , a los que se había seguido en la base de datos durante al menos 1 año
antes de esa prescripción y que tenían al menos 40 años de edad en el momento de esa pres-
cripción. La fecha de esta primera prescripción de un antidiabético fue la fecha de inclusión
en la cohorte. Se siguió a los participantes hasta el diagnó,stico de cáncer de vejiga, la muer-
te por cualquier causa, el final del registro en la consulta de medicina general o el final del
período de estudio el 31 de diciembre de 2009, lo que se produjera primero. Se excluyó a los
pacientes con antecedentes de cáncer de vejiga.
2. Identificar los casos, incluyendo las fechas de aparición. Los investigadores identificaron los
casos incidentes de cáncer de vejiga utilizando «read codes» (códigos de lectura) (un sistema para
codificar diagnósticos validados en la base de datos de investigación de medicina general [21]).
Para tener en consideración la expectativa de que no cabría esperar que el efecto de la pioglitazo-
na sobre el riesgo de cáncer fuera inmediato, excluyeron los casos que se produjeron el primer
año después de la inclusión en la cohorte. Identificaron otros 376 casos de cáncer vesical.
3 . .Obtener una muestra de testigos de «conjuntos de riesgo» emparejados para cada uno de
los casos. Los investigadores obtuvieron una muestra de hasta 20 testigos por cada caso,
emparejados por el año de nacimiento, el año de inclusión en la cohorte, el sexo y la duración
del seguimiento, que no habían sido diagnosticados de cáncer vesical hasta la fecha del diag-
nóstico del caso. El número total de testigos emparejados era de 6 699 (número medio de
testigos por caso= 17,8) 1 .
4. Definir y medir las variables predictivas. La variable predictiva de interés fue recibir una
pi:escripción de pioglitazona o rosiglitazona , otro antidiabético de la misma clase que la
pioglitazona. La prescripción se debía haber realizado al menos 1 año antes de la fecha del
diagnóstico del caso en el conjunto ~e riesgo. Se definieron cuatro niveles de exposición:
prescripción solo de pioglitazona, solo de rosiglitazona, de ambas o de ninguna.
Los autores utilizaron (adecuadamente) regresión logística condicional para analizar los da-
tos; con este método se tiene en consideración la naturaleza emparejada de los datos y, debido
al muestreo del conjunto de riesgo , permite la estimación de cocientes de tasas de incidencia
ajustadas (22) . Encontraron cocientes de tasas de incidencia ajustadas de 1,83 (IC del 95 % 1,10
a 3,05) para el uso exclusivo de pioglitazona, 1,14 (IC del 95% 0,78 a 1,68) para el uso exclu-
sivo de rosiglitazona y O, 78 (IC del 95 % 0,18 a 3,29) para el uso de ambas . (El amplio interva-
lo de confianza del último grupo refleja un tamaño de la muestra mucho menor [N = 2 casos y
56 testigos].) También encontraron datos de una relación dosis-respuesta entre el uso de pio-
glitazona y el cáncer vesical: el cociente de tasas de incidencia
1
ajustadas para una dosis acumu-
lada de 28 g o más era 2,54 (1,05-6,14), p para la tendencia de dosis-respuesta= 0,03.

1
En el capítulo 9 se señalará que el aumento de la potencia por el muestreo de más de cuatro testigos por caso es peque-
ño , aunque, en este caso, el coste adicional fu e bajo, porque ya se disponía de los datos electrónicos. Incluso con 20 tes-
tigos por caso el abordaje de casos y testigos anidado tiene una eficiencia computacional mucho mayor que un estudio
de cohortes retrospectivo.
108 Sección 11 • Diseño de los estud ios

para varios estudios de casos y testigos de diferentes respuestas. Además, la muestra aleatoria de la
cohorte ofrece información sobre la prevalencia general de los factores de riesgo en la cohorte.

Puntos fuertes
Los estudios de casos y testigos anidados y de casos y cohortes son especialmente útiles para mediciones
costosas en el suero y otras muestras, o para imágenes que se han archivado al comie=o del estudio y se
han conservado para su análisis posterior. La realización de mediciones costosas en todos los casos y en
una muestra de los testigos es mucho menos costosa que hacer las mediciones en toda la cohorte.
Este diseño conserva todas las ventajas de los estudios de cohortes, que se deben a la recogida de
las variables predictivas antes de que se hayan producido las respuestas. Además, evita los posibles
sesgos de los estudios de casos y testigos convencionales de que no se pueden realizar mediciones en
los casos que fallecen y no se pueden extraer los casos y los testigos de poblaciones diferentes.

Puntos débiles
Estos diseños comparten ciertas desventajas con otros diseños de observación: las posibilidades de que las
asociaciones observadas se deban al efecto de variables de confusión no medidas o medidas de manera
imprecisa, y de que las mediciones iniciales se puedan ver afectadas por la enfermedad preclínica silente.

Otras consideraciones
Los diseños de casos y testigos anidados y de casos y cohortes se han utilizado con menos frecuencia
de lo que deberían. Un investigador que planifique estudios prospectivos extensos debe plantearse
conservar muestras biológicas (p. ej., bancos de suero congelado) o almacenar imágenes o historias
que sean costosas de analizar para análisis de casos y testigos anidados posteriores. Debe asegurarse
de que las condiciones de almacenamiento permitan conservar durante muchos años las sustan-
cias de interés. También puede ser útil obtener nuevas muestras o información durante el período de
seguimiento, que también se podrán utilizar en las comparaciones entre casos y testigos.

■ ESTUDIOS CRUZADOS
El diseño de cruzamiento de casos es una variante del diseño de casos y testigos que es útil para
estudiar los efectos a corto plazo de exposiciones intermitentes. Como los estudios de casos y testi-
gos habituales, estos estudios retrospectivos se inician con un grupo de casos: las personas que han
presentado la respuesta de interés. Sin embargo , a diferencia de los estudios de casos y testigos tra-
dicionales, en los que se comparan las exposiciones de los casos con las exposiciones de un grupo de
testigos, en los estudios cruzados cada caso actúa como su propio testigo. Las exposiciones de los
casos en el momento (o justo antes) de producirse la respuesta se comparan con las exposiciones de
esos mismos casos en uno o más momentos en el tiempo.
Por ejemplo, McEvoy y cols. (23) estudiaron casos que resultaron heridos en accidentes de tráfico y
comunicaron tener o usar un teléfono móvil. Con los registros de la compañía telefónica, compararon el
uso del móvil en los 10 min anteriores al accidente con el uso cuando los participantes iban conduciendo
en el mismo momento del día anterior, 72 h antes y 7 días antes del accidente. Observaron que el uso del
móvil era más probable en los 10 min previos a un accidente que en los períodos de tiempo de comparación,
con una razón de posibilidades de alrededor de 4. El análisis de un estudio cruzado es como el de un es-
tudio de casos y testigos emparejado, excepto que las exposiciones de los testigos son exposiciones del caso
en diferentes períodos de tiempo en lugar de exposiciones del testigo emparejado. Esto se ilustra en el
apéndice 8A, situación número 4. Los diseños de cruzamiento de casos se han utilizado en poblaciones
extensas para estudiar exposiciones que varían a lo largo del tiempo, como los niveles de contaminación
ambiental; se han encontrado asociaciones con el infarto de miocardio (24, 25), las visitas al servicio de
urgencias por enfermedades respiratorias (26) e incluso la mortalidad en menores de 1 año (27).

■ ELECCIÓN ENTRE DISEÑOS DE OBSERVACIÓN


En la tabla 8-2 se resumen los pros y los contras de los principales diseños de observación presenta-
dos en los dos últimos capítulos. Ya se han descrito esos temas con detalle y solo resta añadir aquí
Capítulo 8 • Diseño de estudios de casos y testigos 109

TABLA 8-2 . VENTAJAS E INCONVENIENTES DE LOS PRINCIPALES DISEÑOS


DE OBSERVACIÓN
DISEÑO VENTAJAS INCONVENIENTES*

Transversal
Duración relativamente corta No establece la secuencia
Un buen primer paso para un estudio de los acontecimientos
de cohortes o un estudio clínico No es posible para variables
Ofrece la prevalencia de múltiples predictivas infrecuentes o variables
variables predictivas y de respuesta de respuesta infrecuentes
No permite calcular la incidencia
Diseños de cohortes
Todos Establece la secuencia de los acontecimientos A menudo precisa grandes tamaños
Múltiples variables predictivas y de respuesta de muestra
El número de sucesos de respuesta aumenta Menos factible para variables de
con el tiempo respuesta poco frecuentes
Permite calcular incidencia, riesgo relativo,
exceso de riesgo
Estudio de Más control sobre la selección de El período de seguimiento puede
cohortes los participantes y las mediciones ser prolongado
prospectivo ' Evita el sesgo al medir variables predictivas A menudo caro
Estudio de El seguimiento es en el pasado Menos control sobre la selección
cohortes Relativamente barato de participantes y mediciones
retrospectivo
Cohortes múltiples Útil cuando distintas cohortes tienen Sesgo y confusión por muestreo
exposiciones diferentes o poco frecuentes en varias poblaciones
Casos y testigos
Útil para respuestas poco habituales Sesgo y confusión por muestreo
Corta duración, muestra pequeña en dos poblaciones
Relativamente barato Sesgo de medición diferencial
Limitado a una variable de respuesta
La secuencia de los acontecimientos
puede no estar clara
No permite calcular prevalencia,
incidencia ni exceso de riesgo, salvo
que esté anidado dentro de una
cohorte
Diseños híbridos
Casos y testigos Ventajas de un diseño de cohortes Las mediciones de los factores de
anidaclo retrospectivo, menos costoso si la medición riesgo están sometidas a sesgos si no
de las variables predictivas es cara se habían medido previamente o si
se basan en muestras o imágenes
almacenadas previamente;
habitualmente se necesita una
cohorte definida preexistente
Casos y testigos Permite que los investigadores analicen las Precisa la medición de los niveles de
anidado con relaciones de riesgo teniendo en los factores de riesgo y la incidencia
densidad de consideración los cambios a lo largo del de los casos a lo largo del tiempo
incidencia tiempo de los niveles de los factores de riesgo durante el seguimiento;
y las pérdidas durante el seguimiento habitualmente precisa una cohorte
definida preexistente
Casos y cohortes Igual que los estudios de casos y testigos Igual que los estudios de casos y
anidado anidados, y puede utilizar un grupo testigo testigos anidados
único para múltiples estudios de casos y
testigos con diferentes variables de respuesta
Cruzamiento Los casos sirven como sus propios testigos, ~equiere que la exposición tenga
reduciendo el error aleatorio y la confusión únicamente efectos inmediatos, a
corto plazo
*Todos estos diseños de observación tienen el inconveniente (en comparación con los estudios aleatorizados) de poder
sufrir la influencia de variables de confusión (cap. 9).
110 Sección 11 • Diseño de los estudios

una puntualización final. Entre todos es