0% encontró este documento útil (0 votos)
718 vistas105 páginas

Manual Grade: Version en Espanol 2017

Este documento presenta una introducción al Manual GRADE, el cual describe el proceso de calificación de la calidad de la evidencia disponible y la elaboración de recomendaciones de atención en salud utilizando la metodología propuesta por el Grupo de Trabajo GRADE. El manual está dirigido a autores de revisiones sistemáticas, evaluaciones de tecnologías en salud y desarrolladores de guías, y contiene capítulos sobre cada paso del proceso GRADE así como ejemplos y definiciones de conceptos. El manual es actualizado

Cargado por

PaulMoreano
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
718 vistas105 páginas

Manual Grade: Version en Espanol 2017

Este documento presenta una introducción al Manual GRADE, el cual describe el proceso de calificación de la calidad de la evidencia disponible y la elaboración de recomendaciones de atención en salud utilizando la metodología propuesta por el Grupo de Trabajo GRADE. El manual está dirigido a autores de revisiones sistemáticas, evaluaciones de tecnologías en salud y desarrolladores de guías, y contiene capítulos sobre cada paso del proceso GRADE así como ejemplos y definiciones de conceptos. El manual es actualizado

Cargado por

PaulMoreano
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

MANUAL GRADE

Grading of Recommendations, Assessment, Development and Evaluation


Versió n en Españ ol 2017
EXTRACTO
El Manual GRADE describe el proceso de calificació n de la calidad de la mejor evidencia disponible y la
elaboració n de recomendaciones de atenció n en salud, a partir de la metodología propuesta por el Grupo de
Trabajo GRADE, de su sigla en inglés -Grading of Recommendations, Assessment, Development and Evaluation-
(www.gradeworkinggroup.org).
Primera edició n en españ ol: marzo de 2017
Autores:
Holger Schü nemann, McMaster University, Hamilton, Canada
Jan Brożek, McMaster University, Hamilton, Canada
Gordon Guyatt, McMaster University, Hamilton, Canada
Andrew Oxman, Norwegian Knowledge Centre for the Health Services, Oslo, Norway
Traducción al español
Paola Andrea Orrego. MD.
María Ximena Rojas Reyes. RN. MSc. PhD.

PONTIFICIA UNIVERSIDAD JAVERIANA


FACULTAD DE MEDICINA
DEPARTAMENTO DE EPIDEMIOLOGIA Y BIOESTADISTICA
Bogotá D.C., Colombia
-Javeriana GRADE Center-

 
Editores de la version en español
María Ximena Rojas, Departamento de Epidemiología Clinica, Pontficia Universidad Javeriana, Bogotá Colombia
María Teresa Ochoa, Departamento de Epidemiología Clinica, Pontficia Universidad Javeriana, Bogotá Colombia
Fecha de traduccion: octubre de 2016
Traducció n de la edició n original en Ingles del manual en línea “Handbook for grading the quality of evidence and the strength
of recommendations using the GRADE approach” actualizado en octubre 2013, disponible en:
http://gdt.guidelinedevelopment.org/app/handbook/handbook.html
Revisión de la versión española:
Laura Charry. MD.MSc.
Pablo Alonso Coello MD. PhD.
Ignacio Neumann MD. PhD.
Agradecimientos
Los autores agradecen las contribuciones de Roman Jaeschke, Robin Harbour y Elie Akl a las versiones iniciales del manual.
La versió n en españ ol ha sido posible gracias al aporte de:
Pontificia Universidad Javeriana, Bogotá . Facultad de Medicina. Departamento de Epidemiología Clínica y Bioestadística. Javeriana
GRADE center.
COLCIENCIAS. Gobierno de Colombia. Convocatoria RC 706-2014Contrato del proyecto 120365740898
¿Cómo citar este manual?
Schü nemann H, Brożek J, Guyatt G, Oxman A. (2013). Manual GRADE para calificar la calidad de la evidencia y la fuerza de la
recomendació n (1ª Ed. en españ ol). P.A Orrego & M.X. Rojas (Trans.) Mar 2017. Publicació n
Original: http://gdt.guidelinedevelopment.org/app/handbook/handbook.html
Cuando se hace referencia a un capítulo en específico o secció n se debe hacer menció n del título o el nú mero de secció n y no por el
nú mero de la pá gina. Por ejemplo: Autores del capítulo; nombre del Capítulo; en Schü nemann H, Brożek J, Guyatt G, Oxman A. Manual
GRADE para calificar la calidad de la evidencia y la fuerza de la recomendació n. (1ª Ed. Españ ol). P. A Orrego & M.X. Rojas (Trans.)Mar
2017.
¿Cómo citar el software?
GRADEpro GDT: GRADEpro Guideline Development Tool [Software]. McMaster University, 2015 (developed by Evidence Prime, Inc.).
Available from gradepro.org.

Introducción al Manual GRADE


El Manual GRADE describe el proceso de calificació n de la calidad de la evidencia disponible y la elaboració n de
recomendaciones de atenció n en salud, a partir de la metodología propuesta por el Grupo de Trabajo GRADE (de su sigla
en inglés Grading of Recommendations, Assessment, Development and Evaluation) (www.gradeworkinggroup.org).
El propó sito de éste manual es brindar una guía para quienes son responsables de utilizar la aproximació n GRADE para la
elaboració n de resú menes de evidencia y recomendaciones calificadas.
Los usuarios de este manual son los autores de revisiones sistemá ticas y de evaluaciones de tecnologías en salud (ETS),
panelistas y metodó logos que contribuyen a la elaboració n de las guías. Aú nque muchos de los ejemplos que se presentan
para ilustrar conceptos son ejemplos clínicos, también se intentó incluir un rango má s amplio de ejemplos que incluyen
salud pú blica y políticas pú blicas. Por ú ltimo, hay secciones específicas que hacen referencia a có mo deben ser
interpretadas las recomendaciones por parte de los usuarios de las mismas.
Cómo utilizar el Manual GRADE
El manual está dividido en capítulos que corresponden a los pasos para aplicar la aproximació n GRADE. El
capítulo Descripción general de la aproximación GRADE ofrece una breve descripció n de los procesos de desarrollo de una
guía y en qué lugar tiene cabida la aproximació n GRADE. Los capítulos Planteamiento de la pregunta del cuidado de salud y
Selección y calificación de la importancia de los desenlaces proporcionan una guía acerca de có mo formular las preguntas
para las revisiones sistemá ticas y las guías, y có mo calificar la importancia de los desenlaces en las preguntas incluidas en
las guías. El capítulo Evidencia explica có mo realizar los resú menes de la evidencia a partir del software GRADEpro-GDT.
GRADE reconoce que los términos o las expresiones alternativas a los que GRADE define como calidad de la evidencia por
lo general son apropiados. Por lo tanto, nosotros interpretamos y utilizamos de forma intercambiable las frases calidad de
la evidencia, fuerza de la evidencia, certeza en la evidencia y confianza en el estimativo. Cuando GRADE se refiere a la
confianza en el estimado se refiere a qué tanta confianza se puede tener en que el estimativo del efecto es adecuado para
soportar una recomendació n (en el contexto de la elaboració n de una guía), o que el efecto estimado es cercano al efecto
verdadero (en el contexto del resumen de la evidencia); es así que cuando GRADE utiliza la frase “confianza en el
estimativo” no hace referencia a los intervalos de confianza estadísticos, aú n cuando la amplitud de dichos intervalos
hacen parte de las consideraciones para juzgar el criterio GRADE de imprecisió n.
El capítulo Evidencia provee instrucciones para calificar la evidencia y expone los cinco factores descritos por la
aproximació n GRADE que pueden disminuir la calidad de la evidencia y los tres factores que pueden incrementar la
calidad de la misma. El capítulo De la evidencia a las recomendaciones se encarga de la transició n desde la evidencia hasta
la recomendació n en las guías, y a su vez de clasificar las recomendaciones en fuertes o débiles de acuerdo a los criterios
trazados por GRADE. El capítulo Diagnóstico explica có mo usar GRADE específicamente para preguntas acerca de pruebas
y estrategias diagnó sticas. Y finalmente el capítulo Criterios para determinar si la aproximación GRADE se utilizó
proporciona los criterios sugeridos que debe cumplir el texto que acompañ a una recomendació n, para certificar que se
usó la aproximació n GRADE.
A lo largo del manual ciertos términos y conceptos tienen hipervínculos para acceder a las definiciones y a las secciones
específicas de dichos conceptos. El glosario de términos y conceptos se encuentra bajo el título conceptos. Cuando resulta
aplicable, el manual resalta la informació n que es específica para los desarrolladores de guías o autores de revisiones
sistemá ticas, así como notas importantes de temas específicos. Los encargados de las ETS, pueden decidir cuá l enfoque les
resulta má s apropiado en el desarrollo de sus objetivos. Adicionalmente, se exponen ejemplos que demuestran la
aplicabilidad de los conceptos de cada tema. Dichos ejemplos se citan en caso de que los lectores deseen aprender má s
acerca de ellos y de sus fuentes.
Actualización del manual
El Manual se actualiza perió dicamente para reflejar los avances en la aproximació n GRADE y con base en la
retroalimentació n de los usuarios. Incluye informació n de los documentos publicados acerca de la aproximació n GRADE y
los vínculos para los recursos se encuentran bajo el título Recursos.
Invitamos a los usuarios del Manual a proveer retroalimentació n y correcciones al mismo dirigidas a los editores del
manual por correo electró nico.
Software de la aproximación GRADE: GRADEpro-GDT (GuidelineDevelopmentTool)
Este manual está destinado a acompañ ar el software de la estrategia: GRADE profiler (GRADEpro) para facilitar el
desarrollo de los resú menes de la evidencia y las recomendaciones en salud usando la aproximació n GRADE, a su vez
integrados en la herramienta GDT (por su sigla en inglés Guideline Development Tool) versió n en españ ol. Remítase
a www.guidelinedevelopment.org para má s informació n.
Reproducción y traducción
El permiso para reproducir y traducir el Manual GRADE para la calificació n de la calidad de la evidencia y la fuerza de las
recomendaciones debe obtenerse de los editores. La traducció n de este manual al españ ol fue aprobada por los autores.
Agradecimientos
Queremos agradecer particularmente las contribuciones de Romá n Jaeschke, Robin Harbour y Elie Akl a las versiones
iniciales del manual.

CAPÍTULO 1. Descripción general de la aproximación GRADE


La aproximació n GRADE es un sistema para calificar la calidad del cuerpo de la evidencia en revisiones sistemá ticas y
otras síntesis de evidencia, como evaluaciones de tecnologías en salud y en guías, y formular recomendaciones en salud.
La aproximació n GRADE ofrece un proceso transparente y estructurado para desarrollar y presentar los resú menes de la
evidencia, y para llevar a cabo los pasos que implica la formulació n de las recomendaciones. Se puede utilizar para
desarrollar guías de prá ctica clínica (GPC) y otras recomendaciones del á rea de la salud (p.ej. Salud pú blica, sistemas y
políticas pú blicas y decisiones de cobertura en salud).
La figura 1.1 muestra los pasos y la participació n en un proceso de desarrollo de una guía. (Schü nemann 2013).  
Figura 1.1. Pasos en el proceso de desarrollo de una guía
Fuente: (Schünemann 2013).
Los pasos y los procesos se interrelacionan y no necesariamente son secuenciales. El panel de la guía y los grupos de
apoyo (p.ej. Metodó logos, economistas de la salud, equipo de revisiones sistemá ticas, grupo de soporte administrativo)
trabajan de forma colaborativa, nutridos e informados a partir de la participació n de los pacientes y los grupos de interés.
Ellos usualmente informan a un comité de supervisió n o una junta que supervisa los procesos. Por ejemplo, mientras se
decide có mo involucrar a las partes interesadas tempranamente para seleccionar y establecer los temas prioritarios, el
grupo desarrollador de la guía debe a su vez considerar có mo desarrollar relaciones formales con las partes interesadas
para permitir la difusió n efectiva de la guía y su implementació n. Adicionalmente, el proceso completo de desarrollo de las
guías abarca consideraciones para la organizació n, planeació n y entrenamiento. Otros pasos como el de documentar la
metodología empleada y las decisiones tomadas, y considerar el conflicto de interés de los participantes en cada
recomendació n, ocurren a lo largo de todo el proceso.
El sistema está diseñ ado para revisiones sistemá ticas y guías de prá ctica clínica que evalú an estrategias o intervenciones
de manejo alternativas, que pueden incluir la no intervenció n o los mejores está ndares de manejo disponibles y a su vez
mú ltiples comparaciones. GRADE ha considerado un amplio rango de preguntas clínicas, incluyendo diagnó stico,
tamizació n, prevenció n y tratamiento. La guía específica para aplicar la aproximació n GRADE a las preguntas de
diagnó sticas, se ofrece en el capítulo La aproximació n GRADE para las pruebas y estrategias diagnó sticas.
GRADE provee un marco específico para preguntas del á rea de la salud, que van desde la selecció n de desenlaces de
interés y la calificació n de su importancia, pasando por la evaluació n de la evidencia disponible, y el aná lisis de dicha
evidencia a la luz de consideraciones de valores y preferencias de los pacientes y de la sociedad, para llegar a elaborar una
recomendació n. A su vez GRADE proporciona una guía a los clínicos y a los pacientes para usar las recomendaciones en la
prá ctica clínica y también una guía para su uso por parte de quienes elaboran las políticas pú blicas.
La aplicació n de la aproximació n GRADE inicia con la definició n de la pregunta en salud, en términos de població n de
interés, alternativas de manejo (intervenció n y comparador) y todos los desenlaces importantes para los pacientes. Como
un paso específico para los desarrolladores de guías, los desenlaces se califican de acuerdo a su importancia, ya sea en
críticos o importantes o no críticos. Seguidamente se realiza una bú squeda sistemá tica para identificar todos los estudios
relevantes y los datos de cada estudio individual incluido, se utilizan para calcular un estimativo agrupado del efecto para
cada uno de los desenlaces importantes para los pacientes, así como la medida de la incertidumbre asociada a ese
estimativo (usualmente el intervalo de confianza). La calidad de la evidencia para cada desenlace a lo largo de los estudios
(p.ej. El cuerpo de la evidencia para un desenlace particular) se califica de acuerdo a los factores expuestos por la
estrategia, incluyendo cinco factores que pueden disminuir la calidad de la evidencia y tres que pueden aumentar la
calidad de la evidencia. Generalmente los autores de las revisiones sistemá ticas completan el proceso hasta este punto,
mientras que los desarrolladores de las guías continú an los pasos subsecuentes. Las pruebas y estrategias relacionadas
con la atenció n en salud se consideran intervenciones (o comparadores) puesto que utilizarlas tiene consecuencias que
pueden considerarse desenlaces. (Ver el capítulo 7)
Paso seguido, los desarrolladores de guías revisan toda la informació n resultante de la bú squeda sistemá tica y, si es
necesario, reevalú an y toman decisiones finales acerca de cuáles desenlaces son críticos y cuá les son importantes teniendo
en cuenta las recomendaciones que buscan formular. La calidad global de la evidencia a través de todos los desenlaces se
asigna basá ndose en laevaluació n. Los desarrolladores de las guías después formulan la(s) recomendació n(es),
considerando la direcció n (a favor o en contra) y la fuerza (fuerte o débil) basados en los criterios de la aproximació n
GRADE. La figura 1.2 proporciona una visió n esquemá tica de la aproximació n.
Figura 1.2. Visión esquemática de la aproximación GRADE para sintetizar la evidencia y formular las recomendaciones.
La mitad superior describe los pasos comunes para las revisiones sistemá ticas y la formulació n de recomendaciones en
salud, y la mitad inferior describe los pasos que son específicos para la formulació n de las recomendaciones. (Basado en la
reunió n GRADE, en Edimburgo 2009).
Para los autores de las revisiones sistemáticas
Las revisiones sistemá ticas deben proporcionar un resumen exhaustivo de la evidencia, pero por lo general no deben
incluir recomendaciones. Por tanto, el uso de la aproximació n GRADE por parte de los autores de revisiones sistemá ticas
finaliza después de la calificació n de la evidencia de los desenlaces y de presentar los resultados de forma clara en una
tabla de evidencia, por ejemplo, en un Perfil de Evidencia GRADE o en una Tabla de Resumen de hallazgos (SoFt por su
sigla en inglés, Summary of Findings table). Aquellos que se encuentren desarrollando recomendaciones de cuidado de
salud, por ejemplo, panelistas de las guías, deben completar los pasos subsecuentes.
Los siguientes capítulos brindará n informació n detallada acerca de los factores que influyen la calidad de la evidencia y la
fuerza de las recomendaciones, así como instrucciones y ejemplos para cada paso en la aplicació n de la aproximació n. Una
descripció n detallada de la aproximació n para los autores de las revisiones sistemá ticas y aquellos que formulan
recomendaciones en salud se encuentra también disponible en una serie de artículos publicados en la revista Journal of
Clinical Epidemiology. Una descripció n general de la aproximació n incluyendo la calidad de la evidencia y la fuerza de las
recomendaciones está disponible en una serie de seis partes publicada en la revista British Medical Journal. Versiones
resumidas han sido publicadas en otras revistas, principalmente con ejemplos para ciertas especialidades. La versió n de
este manual, en formato electró nico, incluye las innovaciones de GRADE y se mantendrá actualizado a medida que se
renuevan las publicaciones (disponible en:
http://gdt.guidelinedevelopment.org/app/handbook/handbook.html)

1. Objetivos y ventajas de la aproximació n GRADE


Las guías de prá ctica clínica ofrecen recomendaciones para el manejo de pacientes típicos. Estas decisiones de manejo
involucran el balance de consecuencias deseables e indeseables de una acció n determinada. Con el fin de ayudar a los
clínicos a tomar decisiones basadas en la evidencia, los desarrolladores de las guías usualmente califican la fuerza de las
recomendaciones y la calidad de la evidencia al momento de informar dichas recomendaciones.
Los sistemas previos de calificació n tenían muchas desventajas incluyendo la falta de separació n entre la calidad de la
evidencia y la fuerza de la recomendació n, la falta de transparencia acerca de los juicios, y la ausencia de reconocimiento
explícito de los valores y preferencias en que se basaban las recomendaciones. Adicionalmente la existencia de muchos
sistemas de calificació n, generalmente desactualizados, ha creado confusió n en los desarrolladores de guías y los usuarios
finales.
La aproximació n GRADE se desarrolló con el fin de subsanar las limitaciones de los sistemas previos. Las ventajas de
GRADE sobre otros sistemas de calificació n son:

 Desarrollada por un grupo extenso y representativo de los desarrolladores internacionales de guías.


 Clara separació n entre el juicio sobre la confianza en la estimació n del efecto y la fuerza de las recomendaciones.
 Evaluació n explícita de la importancia de los desenlaces de las diferentes alternativas de manejo
 Criterios explícitos y exhaustivos para disminuir o incrementar el puntaje de la calidad de la evidencia
 Proceso transparente en la transició n entre la evidencia y las recomendaciones
 Reconocimiento explícito de los valores y preferencias
 Interpretació n pragmá tica y clara de las recomendaciones fuertes versus las débiles para clínicos, pacientes y
generadores de políticas pú blicas
 Ú til para revisiones sistemá ticas y evaluaciones de tecnologías en salud, así como guías.

A pesar de que la aproximació n GRADE lleva a realizar juicios acerca de la calidad de la evidencia a través de la confianza
en el estimativo del efecto, y de la fuerza de las recomendaciones de una forma sistemá tica y transparente, no elimina la
necesidad de juicios. Por tanto, la aproximació n GRADE no minimiza la importancia de los juicios ni sugiere que la calidad
siempre puede ser determinada de forma objetiva.
Aunque la evidencia sugiera que estos juicios, después de un entrenamiento metodoló gico apropiado, permiten una
determinació n acertada de la calidad de la evidencia (Mustafa 2013), existirá n casos en los que quienes realizan esos
juicios tendrá n desacuerdos legítimos acerca de la interpretació n de la evidencia. GRADE proporciona una guía a través de
componentes críticos para la evaluació n en una forma estructurada. Al permitir realizar juicios explícitos en lugar de
implícitos, se garantiza la transparencia y las bases claras para la discusió n.

2. Separació n de la confianza en el estimativo del efecto y la fuerza de las recomendaciones

Al momento de pasar de la evidencia a las recomendaciones, se deben usar un cierto nú mero de criterios (consulte el
Capítulo De la evidencia a la recomendació n). Durante ese proceso, se necesitan juicios para cada uno de los criterios. En
particular, separar los juicios acerca de la confianza en el estimativo del efecto o la calidad de la evidencia de la fuerza de
las recomendaciones es importante, considerando que por ejemplo una alta confianza en el estimativo del efecto, no
necesariamente implica una recomendació n fuerte, y que una recomendació n fuerte puede resultar de una confianza en el
efecto estimado baja o muy baja (ver tabla 6.3). Los sistemas de calificació n que fallan en separar estos juicios crean
confusió n, mientras que ésta es la característica que define a la aproximació n GRADE.
La aproximació n GRADE hace hincapié en la necesidad de considerar el balance entre las consecuencias deseables e
indeseable y reconocer otros factores como, por ejemplo, los valores y preferencias subyacentes a las recomendaciones.
Debido a que los pacientes tomará n distintas decisiones en cuanto a los desenlaces y las intervenciones, partiendo de
valores y preferencias diferentes los panelistas de las guías, se verá n enfrentados a una variabilidad importante en los
valores y preferencias, que los obligará a formular recomendaciones débiles a pesar de la alta calidad de la evidencia.
Considerar la importancia de los resultados y las intervenciones, los valores, las preferencias y las utilidades, incluye
integrar en el proceso de desarrollo de una recomendació n, có mo las personas afectadas por estas recomendaciones
evalú an las posibles consecuencias. Estos incluyen el conocimiento de los pacientes y los cuidadores, las actitudes,
expectativas, valores morales y éticos y, creencias; las metas de salud y de vida de los pacientes; experiencias previas con
las intervenciones y la enfermedad; los síntomas experimentados (p.ej. dificultad respiratoria, disnea, dolor, pérdida de
peso); preferencias a favor de desenlaces en salud deseables o no deseables; impacto percibido de la condició n o de las
intervenciones en la calidad de vida, bienestar o satisfacció n y las interacciones entre el trabajo de implementar la
intervenció n, la intervenció n en sí misma y otros contextos que los pacientes pueden estar experimentando; preferencias
por cursos de acció n alternativos; y preferencias relacionadas al contenido y los estilos de la comunicació n, informació n y
la inclusió n en la toma de decisiones. Esto se puede relacionar con lo que en la literatura econó mica se conoce como
utilidades. Una intervenció n por si misma se puede considerar consecuencia de una recomendació n (p.ej. La carga de
tomar un medicamento o someterse a una cirugía) y un nivel de importancia o de valor se asocian con esto. Tanto la
direcció n como la fuerza de la recomendació n se pueden modificar después de tener en cuenta las implicaciones de la
utilizació n de los recursos, equidad, aceptabilidad y factibilidad de las alternativas de manejo.
Es por esto que, a diferencia de otros sistemas de calificació n, la aproximació n GRADE hace énfasis en que las
recomendaciones débiles también conocidas como condicionales, con confianza alta en el efecto estimado de cualquier
intervenció n son comunes, por estos otros factores que influyen en la fuerza de la recomendació n distintos de la calidad
de la evidencia. Por la misma razó n, la aproximació n permite recomendaciones fuertes con base en una confianza baja o
muy baja en el efecto estimado.
Ejemplo 1. 1 Recomendación débil basada en calidad de la evidencia alta
Varios Ensayos Clínicos Aleatorizados (ECAs) comparan el uso de la combinació n de quimioterapia y
radioterapia versus radioterapia ú nicamente en cá ncer pulmonar de célula no pequeñ a localmente
avanzado irresecable (estadio IIIA). La calidad global para el cuerpo de la evidencia se calificó como
alta. Comparado con radioterapia como ú nica alternativa, la combinació n de quimioterapia y
radioterapia reduce el riesgo de muerte, correspondiente a una ganancia promedio en expectativa de
vida de pocos meses, pero incrementando los riesgos y la carga relacionada a la quimioterapia.
Entonces considerando los valores y preferencias, los pacientes pondrían el beneficio de la pequeñ a
sobrevida a la luz de los riesgos y la carga, y los panelistas de la guía pueden ofrecer una
recomendació n débil a pesar de la alta calidad de la evidencia disponible (Schü nemann 2006)
Ejemplo 1.2. Recomendación débil basada en calidad de la evidencia alta
Los pacientes que experimentan un primer episodio de trombosis venosa profunda sin ningú n factor
claro desencadenante deben después de los primeros meses de anticoagulació n decidir si continú an
tomando la warfarina como anticoagulante a largo plazo. ECAs de alta calidad han demostrado que
continuar la warfarina disminuiría el riesgo de trombosis recurrente, pero a costa de un mayor riesgo
de sangrado y sus inconveniencias. Considerando que los pacientes con diferentes valores y
preferencias, tomará n decisiones diferentes, los panelistas de la guía, que evalú an si los pacientes
deben continuar o suspender la warfarina, a pesar de la alta calidad de la evidencia ofrecen una
recomendació n débil.
Ejemplo 1.3 Recomendación fuerte basada en calidad de la evidencia baja o muy baja
El principio de administració n de antibió ticos apropiados de forma temprana en el evento de una
infecció n severa o sepsis no se ha evaluado frente a la no administració n temprana en ningú n ECA. Sin
embargo, los panelistas de la guía muy probablemente formulará n una recomendació n a favor del uso
temprano de los antibió ticos en este contexto, basados en estudios observacionales disponibles
calificados como baja calidad de la evidencia, porque los beneficios de la terapia antibió tica
claramente superan las desventajas en la mayoría de los pacientes, independientemente de la
evaluació n de la calidad (Schü nemann 2006).

3. Desafíos especiales en la aplicació n de la aproximació n GRADE

Aquellos que apliquen la aproximació n para preguntas de pruebas diagnó sticas, salud pú blica y sistemas de salud se verá n
enfrentados a algunos desafíos especiales. Este manual abordará estos desafíos y se someterá a revisió n cuando nuevos
desarrollos impulsen al Grupo de Trabajo a aceptar cambios al enfoque. Ademá s, se contará con avances metodoló gicos y
refinamientos en el futuro no ú nicamente para las innovaciones sino para los conceptos establecidos.

4. Modificaciones a la aproximació n GRADE

GRADE recomienda no hacer modificaciones al enfoque teniendo en cuenta que los elementos del proceso se encuentran
interrelacionados, y las modificaciones podrían generar confusió n en los usuarios de los resú menes de evidencia y las
guías, porque los cambios pueden comprometer el objetivo de un ú nico sistema con el que los clínicos, los generadores de
políticas pú blicas y los pacientes se han familiarizado. Sin embargo, la literatura de los diferentes enfoques de la aplicació n
de la aproximació n GRADE continú a incrementá ndose y es ú til para determinar cuá ndo el pragmatismo resulta apropiado.

CAPÍTULO 2. Planteamiento de la pregunta del cuidado de la salud


El panel de una guía debe definir el alcance de la guía y las recomendaciones previstas. Cada recomendació n debe
responder una pregunta concreta y sensible del cuidado de la salud y que conlleve a una acció n. De forma similar, los
autores de las revisiones sistemá ticas deben formular preguntas concretas que la revisió n responda. Una revisió n
sistemá tica puede responder una o má s preguntas dependiendo del alcance de dicha revisió n.
La estrategia PICO presenta una metodología aceptada para el planteamiento de las preguntas. É sta establece cuatro
componentes específicos:

 Població n: los pacientes o la població n a quien las recomendaciones está n destinadas a ser aplicadas
 Intervenció n: la terapia, diagnó stico u otra intervenció n en investigació n (p.ej. Intervenció n experimental o el
factor de exposició n en un estudio observacional)
 Comparador: la intervenció n alterna o la intervenció n en el grupo control
 Desenlace de interés (O de la sigla por la palabra en inglés Outcome)

Existen muchos derivados de este formato como, por ejemplo, agregar la T de tiempo o la E dependiendo del diseñ o del
estudio. Estas modificaciones no son ni ú tiles ni necesarias. En cuanto al tiempo (p.ej. Duració n del tratamiento, momento
en el que se debe medir el desenlace etc.), éste se encuentra cubierto al momento que se especifican la intervenció n (es) y
el desenlace (s) de forma apropiada (p.ej. Mortalidad a un añ o). Adicionalmente los estudios, y por lo tanto su diseñ o, que
han de responder la pregunta se desconocen al momento de formular la pregunta. Es decir, los estudios observacionales
pueden dar respuesta a una pregunta formulada cuando no se encuentran disponibles estudios aleatorizados o, cuando no
se asocian a una alta confianza en el estimativo del efecto. Por tanto, no resulta adecuado definir el diseñ o del estudio de
antemano. Las preguntas de las guías por lo general involucran otra especificació n: el escenario en el que la guía se va a
implementar. Por ejemplo, las guías destinadas a escenarios con disponibilidad de recursos no van a resultar aplicables a
los ambientes con recursos limitados. Sin embargo, incluso el escenario se puede definir como parte de la població n (p.ej.
Mujeres en países de bajos ingresos u hombres con infarto de miocardio en un centro de atenció n primaria o rural).
Algunos de los errores que se cometen frecuentemente en la formulació n de la pregunta incluyen el no incluir todos los
desenlaces importantes para los pacientes (p.ej. Toxicidad o efectos adversos), así como no considerar todas las
alternativas relevantes (esto resulta particularmente problemá tico cuando las guías tienen como objetivo impactar
audiencias globales)

1. Definició n de la població n y la intervenció n

La decisió n má s difícil al momento de formular la pregunta es qué tan amplia debe definirse la població n y la intervenció n
(ver Ejemplo 2.1). Para los pacientes y las intervenciones definidas, la naturaleza subyacente debe sugerir que a lo largo
del rango seleccionado de pacientes e intervenciones es posible que la magnitud del efecto en los desenlaces claves sea
má s o menos la misma. Si ese no es el caso, la revisió n y la guía generará n estimativos erró neos para al menos algunos
subgrupos de pacientes y de intervenciones. Basados en la informació n presentada en el Ejemplo 2.1, si los antiagregantes
plaquetarios difieren en efectividad entre aquellos con enfermedad vascular periférica versus aquellos con infarto de
miocardio, un ú nico estimativo a lo largo del rango de pacientes e intervenciones seleccionadas no resultará ú til al
momento de tomar las decisiones por parte de los pacientes y de los clínicos. Por tanto, estas subpoblaciones se deben
definir de forma separada.
A menudo las revisiones sistemá ticas se ocupan de la pregunta de qué tan amplia debe ser la selecció n de la població n y de
las intervenciones empezando con preguntas que abarquen un rango amplio, pero incluyendo una especificació n a priori
de los efectos en los subgrupos que puedan explicar cualquier heterogeneidad que encuentren. Las hipó tesis a priori
pueden estar relacionadas con diferencias en los pacientes, intervenciones, el comparador, los desenlaces o factores
relacionados con el sesgo (p.ej. Estudios con alto riesgo de sesgo producen diferentes efectos en comparació n con los
estudios con bajo riesgo de sesgo).
Ejemplo 2.1. ¿Qué tan ampliamente definir los pacientes y la intervención?
Al abordar los efectos de los antiagregantes plaquetarios en la enfermedad vascular, uno puede incluir
ú nicamente pacientes con ataques isquémicos transitorios, aquellos con ataques isquémicos o
trombó ticos, o aquellos con cualquier enfermedad vascular (cerebro-, cardio-, enfermedad vascular
periférica). La intervenció n podría ser un rango relativamente estrecho de dosis de aspirina, todas las
dosis de aspirina, o todos los antiagregantes plaquetarios.
Como el riesgo relativo asociado a una intervenció n versus un comparador específico generalmente es similar a lo largo de
una amplia variedad de riesgos basales, resulta apropiado que las revisiones sistemá ticas generen un ú nico estimativo
agrupado (p.ej. Meta-aná lisis) de efectos relativos a lo largo de un amplio rango de subgrupos de pacientes. Las
recomendaciones, sin embargo, pueden diferir a lo largo de los subgrupos de pacientes con riesgos basales diferentes
para un desenlace, a pesar de haber un único riesgo relativo que aplique a todos ellos. Por ejemplo, en el caso de la
terapia con warfarina, el riesgo incrementado de sangrado es mucho mayor en los pacientes con fibrilació n auricular con
riesgo mínimo de trombosis cerebral versus los pacientes con fibrilació n auricular con riesgo sustancial de trombosis
cerebral. Por lo tanto, el panel de la guía debe definir preguntas separadas (y producir resú menes de evidencia separados)
para los pacientes con riesgo bajo y con riesgo alto, y para los pacientes en quienes la calidad de la evidencia difiera.
2. Manejo de mú ltiples comparadores

Otro reto importante aparece cuando hay varios comparadores para una intervenció n. La claridad al momento de definir
los comparadores hace que una guía sea interpretable, mientras que la falta de claridad puede causar confusió n. Algunas
veces el comparador resulta obvio, pero en los casos en que no, el panel de la guía debe especificar de forma explícita el
comparador. En particular, cuando mú ltiples agentes está n involucrados deben especificar si las recomendaciones
sugieren que todos los agentes son igualmente recomendados o que algunos se recomiendan por encima de los otros (ver
ejemplo 2.2).
Ejemplo 2.2. Claridad con múltiples comparadores
Al momento de formular recomendaciones para el uso de antiagregantes plaquetarios en pacientes
con síndrome coronario agudo sin elevació n del segmento ST que recibe manejo conservador (no
invasivo), se deben considerar como posibles agentes como fondaparinux, heparina y enoxaparina. Es
má s, el estimativo del efecto para cada uno de los agentes puede provenir de niveles de evidencia
variable (por ejemplo, alta calidad de evidencia para heparina y baja calidad de evidencia para
fondaparinux). Ademá s, se debe dejar claro si las recomendaciones formuladas por el panel será n a
favor del uso de estos agentes versus no usar ningú n anticoagulante, o si van a recomendar a favor de
uno de ellos por sobre otros o un gradiente de preferencia.

3. Otras consideraciones

GRADE ha empezado a abordar la pregunta de có mo determinar la confianza en el estimativo para pronó stico. Esto
usualmente resulta importante para el desarrollo de guías. Por ejemplo, al tratar con intervenciones que influyen en el
desenlace de la influenza o la esclerosis mú ltiple, se requiere establecer la historia natural de las enfermedades. Esto
implicaría especificar la població n (influenza o esclerosis mú ltiple de Novo) y el desenlace (mortalidad o tasa de recaída o
progresió n). Tales preguntas de pronó stico se pueden refinar para incluir mú ltiples predictores como la edad, el género o
la severidad. La respuesta a estas preguntas será una importante base para formular las recomendaciones e interpretar la
evidencia sobre los efectos de los tratamientos. En particular, los desarrolladores de las guías deben decidir si el
pronó stico de los pacientes en la comunidad es similar al pronó stico de los pacientes incluidos en los ensayos, y si existen
subgrupos con pronó sticos diferentes que se deban considerar al momento de formular las recomendaciones. Los juicios
acerca de si la evidencia refleja de forma directa el riesgo basal afecta la calificació n de la evidencia (ver Evidencia
Indirecta).

4. Formato de preguntas de cuidado de salud con la aproximació n GRADE

Definir una pregunta de salud incluye especificar todos los desenlaces de interés. Aquellos que formulan recomendaciones
acerca del uso o no de cierta intervenció n (terapéutica o diagnó stica) tienen que considerar todos los desenlaces
relevantes de forma simultá nea. La Herramienta para Desarrollo de Guías, conocida como “GDT” por su sigla en inglés
(GuidelineDevelopmentTool), permite seleccionar dos formatos para las preguntas de manejo:

 ¿Se debe usar [intervenció n] versus [comparació n] para [problema de salud]?


 ¿Se debe usar [intervenció n] versus [comparació n] en [població n]?

Como también un formato para preguntas de diagnó stico:

 ¿Se debe usar [intervenció n] versus [comparació n] para diagnosticar [condició n blanco o de interés] en [problema
de salud y/o població n]?

Ejemplo2.3. Preguntas de intervención


¿Se debe usar cepillo de dientes manual versus cepillo de dientes eléctrico para salud dental?
¿Se debe usar esteroides nasales tó picos en niñ os con rinitis alérgica persistente?
¿Se debe usar Oseltamivir versus ningú n antiviral para tratar la influenza?
¿Se debe usar la Troponina I seguida de estrategias adecuadas de manejo versus TroponinaT seguida
de estrategias apropiadas en el manejo de infarto agudo de miocardio?

CAPÍTULO 3. Selección y calificación de la importancia de los desenlaces


Considerando que las recomendaciones no se pueden formular con base en la informació n acerca de un ú nico desenlace, y
que el proceso de decisió n involucra siempre un balance entre riesgos y beneficios, los autores de las revisiones
sistemá ticas hará n má s ú tiles sus revisiones al buscar o evaluar un rango amplio de desenlaces que permitan la toma de
decisiones en salud. Muchas, o incluso la mayoría de las revisiones sistemá ticas fallan en abordar desenlaces claves,
especialmente los riesgos asociados a una intervenció n.[1]
Por el contrario, para formular recomendaciones sensibles los panelistas de una guía deben considerar todos los
desenlaces que son importantes o críticos para los pacientes al momento de la toma de decisiones. Adicionalmente deben
poner en consideració n desenlaces que resulten importantes para otros, incluyendo los recursos pagados por terceros, las
consideraciones de equidad, el impacto sobre los cuidadores y el impacto en salud pú bica (p.ej. Diseminació n de
infecciones o la resistencia antibió tica).
La decisió n acerca de los desenlaces debe ser tomada por los desarrolladores de las guías, basá ndose en cuá l desenlace es
importante y no en cuá les desenlaces son medidos, y para cuales se encuentra disponible la evidencia. Si no hay evidencia
disponible para un desenlace importante, esto se debe reconocer y no ignorar dicho desenlace. Como la mayoría de
revisiones sistemá ticas no resumen la evidencia para todos los desenlaces importantes, los paneles de las guías deben
utilizar mú ltiples revisiones sistemá ticas de diferentes fuentes o, deben llevar a cabo sus propias revisiones, o por el
contrario actualizar las existentes.

1. Pasos para considerar la importancia relativa de los desenlaces

Los desarrolladores de las guías deben, y se alienta a los autores de revisiones a, especificar todos los desenlaces
potencialmente importantes para los pacientes como el primer paso en sus esfuerzos. Los desarrolladores de las guías
también hará n una clasificación preliminar de la importancia de estos desenlaces. GRADE establece tres categorías para
los desenlaces de acuerdo a su importancia para la toma de decisiones:

 Críticos
 Importantes, pero no críticos
 De importancia limitada.

Los desenlaces críticos e importantes será n los que soporten las recomendaciones en las guías, por el contrario, los
terceros en la mayoría de situaciones no lo será n. Clasificar los desenlaces de acuerdo a su importancia relativa contribuye
a concentrar la atenció n en aquellos desenlaces que se consideran má s importantes, y a resolver o clarificar las
divergencias que existan. La tabla 3.1 brinda un resumen de los pasos para considerar la importancia relativa de los
desenlaces.
Tabla 3.1. Pasos para considerar la importancia relativa de los desenlaces
Paso Qué Por qué Cómo Evidencia
Estos juicios idealmente
se sustentan mediante
Realizando una revisió n
una revisió n sistemá tica
sistemá tica de la
Con el fin de de la literatura,
literatura relevante.
Clasificació n concentrar la concentrá ndose en lo que
Preguntando a los
preliminar de los atenció n en aquellos la població n blanco
miembros del panel y
desenlaces como desenlaces que son considera desenlaces
los posibles pacientes o
críticos, considerados como críticos o importantes
miembros del pú blico
PASO 1 importantes, pero los má s importantes para la toma de
para identificar los
no críticos o de al momento de decisiones.
desenlaces importantes,
baja importancia, buscar y resumir la La literatura acerca de los
juzgando la importancia
antes de revisar la evidencia y para valores, preferencias o
relativa de los
evidencia. resolver y aclarar las utilidades se utiliza
desenlaces y
discrepancias. usualmente en estas
discutiendo las
revisiones, que por
diferencias.
naturaleza deben ser
sistemá ticas. *
Para asegurar que
los desenlaces
importantes
identificados Solicitando a miembros del
durante la revisió n panel (y si resulta
Reevaluació n de la
de la evidencia, que relevante a los pacientes y
importancia Experiencia de los
inicialmente no se miembros del pú blico) que
relativa de los miembros del panel y otros
consideraron, sean consideren la importancia
PASO 2 desenlaces informantes y revisiones
incluidos. Y para relativa de los desenlaces
después de sistemá ticas acerca del
reconsiderar la incluidos en el primer paso
revisar la efecto de la intervenció n.
importancia y todos los desenlaces
evidencia.
relativa de los adicionales derivados de la
desenlaces revisió n de la evidencia
importantes a la luz
de la evidencia
disponible.
Invitando a los
miembros del panel a Experiencia de los miembros
realizar el balance entre del panel y otros informantes,
los desenlaces deseables revisiones sistemá ticas de los
Juzgando el e indeseables, utilizando efectos de una intervenció n,
Para contribuir a la
balance entre un marco de transició n evidencia del valor atribuido
formulació n de las
desenlaces de entre evidencia y por la població n blanco a los
PASO 3 recomendaciones y
salud deseables y recomendació n, que desenlaces clave (de ser
determinar la fuerza
no deseables de incluye tablas de relevante y estar disponible)
de la recomendació n
una intervenció n resumen de hallazgos o y aná lisis de decisió n y
perfiles de evidencia, y evaluaciones econó micas (de
si es relevante, basados ser relevantes y estar
en un aná lisis de disponibles)
decisió n.
*Alternativamente la experiencia colectiva de los miembros del panel, los pacientes y el público puede ser usada empleando métodos transparentes para
documentarla y tenerla en consideración. (Santesso 2012).
Los desarrolladores de las guías deben primero considerar si los beneficios particulares en salud y los riesgos de la
terapia son importantes para tomar decisiones acerca de la estrategia ó ptima de manejo, o si son de importancia
limitada. Si el panel cree que un desenlace en particular es importante, entonces se debe considerar si el desenlace es
crítico o solamente importante, mas no crítico. Para facilitar la calificació n de los desenlaces de acuerdo a su importancia,
los desarrolladores de las guías deben asignar un puntaje numérico en escala del 1 al 9 (7 a 9: crítico; 4 a 6: importante; 1
a 3 de importancia limitada) para distinguir entre las categorías de importancia.
En la prá ctica, para generar una lista de desenlaces relevantes, se pueden utilizar los siguientes tipos de escalas.
1 2 3 4 5 6 7 8 9
Menos Más importante
important
e
Importante, mas no crítico
De importancia limitada para la
para la toma de decisiones Críticos para la toma de decisiones
toma de decisiones
(incluidos en el perfil de (incluidos en el perfil de evidencia)
(no incluidos en el perfil de evidencia)
evidencia)
El primer paso para la calificació n de la importancia de los desenlaces debe ocurrir durante el protocolo de la revisió n
sistemá tica o, cuando el panel de la guía apruebe las preguntas que deben ser evaluadas en la guía. Por tanto, se debe
realizar antes que se complete el protocolo. Cuando la evidencia se encuentre disponible, se debe reevaluar la
importancia, para asegurar que desenlaces importantes, identificados durante la revisió n de la evidencia que no fueron
incluidos previamente, sean incluidos, y que a la luz de la evidencia se reconsidere la importancia relativa de los
desenlaces establecidos previamente. Es posible que no exista asociació n entre el desenlace y la intervenció n de interés, lo
cual soporta no considerar má s ese desenlace.
El panel de la guía debe considerar la posibilidad que en algunas circunstancias la importancia de un desenlace (p.ej. Un
efecto adverso serio) podrá hacerse evidente ú nicamente después de que se escriba el protocolo, o que se revise la
evidencia, o que se lleve a cabo el aná lisis y por tanto se deben tomar acciones apropiadas para incluirlo en las tablas de
evidencia.
Ejemplo 3.1. Jerarquía de los desenlaces de acuerdo a la importancia al momento de evaluar el
efecto del oseltamivir en pacientes con influenza H5N1.
La mortalidad en los pacientes afectados por H5N1 puede ser tan alta como del 50%. Los pacientes
generalmente se encuentran con compromiso respiratorio severo y requieren soporte ventilatorio. Se
sospecha que las complicaciones de un medicamento potencialmente ú til, el oseltamivir, son de
naturaleza neuroló gica temporal y otros efectos adversos como las ná useas ocurren durante el
tratamiento.

MORTALIDAD                                             9
ADMISION HOSPITALARIA                    8
NEUMONÍA                                                    7
COMPLICACIONES NEUROLÓ GICAS    6
                                      5
4

                                      3
NAUSEA                                                           2
                                      1

Ejemplo 3.2. Jerarquía de los desenlaces de acuerdo a su importancia al evaluar el efecto de los
medicamentos que disminuyen los fosfatos en pacientes con falla renal e hiperfosfatemia

   MORTALIDAD   9

Ca2+/P-product Calcificació n coronaria INFARTO               8

Ca2+/P-product Densidad ó sea   FRACTURAS          7

Ca2+/P-product Calcificació n tisular DOLOR                   6

  5
                                                                             4

                                       3

                                                           FLATULENCIA      2

                                                                               1

Ejemplo 3.3. Reevaluación de la importancia relativa de los desenlaces


Consideremos, por ejemplo, una intervenció n de tamizaje (cribado), como es el tamizaje de aneurisma
de aorta abdominal. Inicialmente, es probable que el panel de la guía considere como desenlace crítico
el impacto de la intervenció n en la mortalidad por cualquier causa. Digamos, sin embargo, que el
resumen de la evidencia establece una reducció n importante de la mortalidad por causas específicas
de aneurisma de aorta abdominal, pero no logra establecer de forma definitiva una reducció n en la
mortalidad por cualquier causa.  La reducció n de la mortalidad por causas específicas se puede juzgar
lo suficientemente convincente que aú n en ausencia de reducció n del riesgo de mortalidad por
cualquier causa, (que puede ser indetectable por el error aleatorio derivado de otras causas de
muerte), el tamizaje claramente vale la pena. La mortalidad por cualquier causa, entonces, se convierte
en menos relevante y deja de ser un desenlace crítico.
La importancia relativa de los desenlaces debe considerarse cuando se determina la calidad global de la evidencia, que
puede depender de cuales desenlaces se calificaron como críticos o importantes (ver Calidad), y juzgando el balance entre
los beneficios y los riesgos de una intervenció n al momento de formular las recomendaciones (ver el Capítulo De la
evidencia a las recomendaciones).
Solo los desenlaces considerados críticos (calificados de 7 a 9) son los principales factores que influyen en la
recomendació n, y se utilizaran para determinar la calidad global de la evidencia que soporta la recomendació n.

2. Influencia de la perspectiva

Es probable que la importancia de los desenlaces varíe dentro o a través de las culturas o cuando es visto desde
la perspectiva de la població n blanco (p.ej. Pacientes o el pú blico), clínicos o generadores de políticas pú blicas. La
diversidad cultural por lo general influye en la importancia relativa de los desenlaces, particularmente cuando se
desarrollan recomendaciones para una audiencia internacional.
Los paneles de las guías deben decidir cuá l perspectiva van a tener en cuenta. A pesar que los diferentes paneles pueden
elegir tomar diferentes perspectivas (p.ej. Aquella perspectiva de pacientes individuales o de un sistema de salud), la
importancia relativa otorgada a los desenlaces en salud debe reflejar la perspectiva de los afectados. Cuando la audiencia
blanco de una guía son los clínicos y los pacientes que ellos tratan, la perspectiva por lo general sería la del paciente. (Ver
Capítulo De la evidencia a las recomendaciones que aborda el aspecto de la perspectiva desde el punto de vista del uso de
los recursos)

3. Uso de la evidencia en la calificació n de la importancia de los desenlaces

Los desarrolladores de las guías idealmente deben revisar la evidencia o conducir una revisió n sistemá tica de la evidencia,
en relació n con los valores y preferencias de los pacientes acerca de la intervenció n bajo evaluació n en la pregunta, con el
fin de informar la calificació n de la importancia de los desenlaces. Revisar la evidencia proporciona al panel una noció n
acerca de la variabilidad de los valores de los pacientes, la experiencia de los mismos con respecto a los efectos adversos y
el peso atribuible a los desenlaces deseables versus indeseables.
En ausencia de dicha evidencia los miembros del panel deben usar su experiencia previa con la població n blanco
asumiendo los valores y preferencias relevantes.

4. Desenlaces alternativos (sustitutos)


No es infrecuente que los desenlaces má s importantes para los pacientes pasen desapercibidos o no sean evaluados.
Cuando los desenlaces importantes son relativamente infrecuentes, u ocurren en periodos de tiempo prolongados, los
investigadores por lo general eligen medir desenlaces alternativos, sustitutos o subrogados de esos desenlaces.
Los desarrolladores de las guías deben considerar los desenlaces subrogados únicamente cuando la evidencia de los
desenlaces importantes para la población no existe. Cuando este es el caso, deben especificar los desenlaces
importantes y, si es necesario los subrogados utilizados para sustituir dichos desenlaces importantes. Los desarrolladores
de las guías no deben enumerar los desenlaces alternativos (subrogados) por sí mismos como medidas de los desenlaces.
La necesidad de sustituir un subrogado generaría en ú ltimas la disminució n de la calidad de la evidencia debido a
evidencia indirecta (ver el capítulo Calidad de la evidencia).
Los desenlaces seleccionados por el panel deben ser incluidos en un perfil de evidencia, a pesar de que exista o no
evidencia disponible acerca de ellos (ver el capítulo Resumen de la evidencia), es decir, una línea vacía en un perfil de
evidencia puede ser informativa ya que identifica vacíos de investigació n.

CAPÍTULO 4. Resumen de la evidencia


El panel de una guía debe basar sus recomendaciones en el mejor cuerpo de evidencia disponible relacionado con la
pregunta de investigació n. El panel de la guía puede usar revisiones sistemá ticas existentes de buena calidad o conducir
sus propias revisiones sistemá ticas, dependiendo de circunstancias específicas como la disponibilidad de revisiones
sistemá ticas de buena calidad y los recursos, pero GRADE recomienda que las revisiones sistemá ticas deben ser la base
para realizar recomendaciones en salud. Se debe buscar evidencia relacionada para todos los desenlaces importantes
para los pacientes y para los valores otorgados por los pacientes a dichos desenlaces, al igual que las opciones de
manejo.
El punto final de las revisiones sistemá ticas y de las evaluaciones de tecnología (ETS) limitadas a reportes de evidencia, es
el resumen de la evidencia, la calificació n de la calidad para cada desenlace y el efecto estimado. Para los desarrolladores
de las guías y ETS que proporcionan informació n a los generadores de políticas, un resumen de evidencia representa el
pilar en la vía hacia una recomendació n. La evidencia recolectada de una revisió n sistemá tica es utilizada para
producir Perfiles de evidencia GRADE y Tablas de resumen de hallazgos.

1. Tablas de evidencia

Una tabla de evidencia es una herramienta clave en la presentació n de la evidencia y los resultados correspondientes.
Las tablas de evidencia son un método de presentar la calidad de la evidencia disponible, los juicios que sustentan la
calificació n de la calidad y los efectos de las alternativas de manejo en los desenlaces de interés.
Los clínicos, pacientes, el pú blico, los desarrolladores de guías y los generadores de políticas, requieren resú menes de
evidencia concisos y transparentes para apoyar la toma de decisiones. Si bien una pregunta de investigació n que no sea
ambigua es clave para los resú menes de evidencia, los requisitos para los usuarios específicos pueden diferir en cuanto a
contenido y detalle. Por tanto, el formato de cada tabla puede ser diferente dependiendo de las necesidades de los
usuarios.
Existen dos formatos (con repetició n) disponibles, que sirven para distintos propó sitos y dirigidos a diferentes audiencias:

 Perfil de evidencia GRADE


 Tabla de resumen de hallazgos (SoFt)

La herramienta desarrolladora de guías (GDT) facilita la elaboració n de los perfiles de evidencia y las tablas de resumen
de hallazgos. Después de completar el diligenciamiento de las tablas, dicha informació n se guarda y puede ser actualizada.
Existen distintos formatos disponibles para cada aproximació n, elegidos de acuerdo a la preferencia de la audiencia
Los desenlaces considerados importantes (4-6) o críticos (7-9) para la toma de decisiones deben ser incluidos en el
perfil de evidencia y la tabla SoFt.

2. Perfil de evidencia GRADE

Los perfiles de evidencia GRADE contienen informació n detallada acerca de la evaluació n de la calidad de la evidencia y el
resumen de hallazgos para cada desenlace individual incluido. Está n destinados a autores de revisiones, a aquellos que
preparan tablas SoFt y cualquier persona que solicite una evaluació n de la calidad. Le ayuda a quienes elaboran tablas
SoFt asegurar que los juicios que hagan son sistemá ticos y transparentes y permite a los demá s inspeccionar estos juicios.
El panel de la guía debe usar los perfiles de evidencia para asegurar que está n de acuerdo con los juicios que se basa la
evaluació n de la calidad.
Un perfil de evidencia GRADE permite presentar informació n clave acerca de todos los desenlaces relevantes para una
pregunta de investigació n. Este perfil presenta información acerca del cuerpo de la evidencia (p.ej. Nú mero de
estudios), los juicios acerca de la calidad de la evidencia, los resultados estadísticos claves y la calificación de la
evidencia para cada desenlace.
Un perfil de evidencia GRADE es particularmente ú til para presentar la evidencia que soporta una recomendació n en las
guías de prá ctica clínica, pero también como un resumen de la evidencia para otros propó sitos como cuando los usuarios
necesitan o quieren entender los juicios acerca de la calidad de la evidencia con mayor detalle. [2]
El formato está ndar para el perfil de la evidencia incluye:

 Una lista de los desenlaces


 El número y el diseño(s) de los estudios
 Juicio acerca de cada uno de los factores de la calidad de la evidencia evaluados; riesgo de sesgo, inconsistencia,
evidencia indirecta, imprecisió n, otras consideraciones (incluyendo el sesgo de publicació n y factores que
incrementan la calidad de la evidencia)
 El riesgo asumido; medició n de la carga típica de los desenlaces, p.ej. Riesgo ilustrativo o también llamado riesgo
basal, calificació n basal o riesgo del grupo control
 El riesgo correspondiente; medició n de la carga de los desenlaces después de aplicada la intervenció n, p.ej. El
riesgo de un desenlace en las personas tratadas/expuestas con base en la magnitud relativa de un efecto y el riesgo
asumido (basal)
 El efecto relativo; para desenlaces dicó tomos la tabla proveerá usualmente el riesgo relativo(RR), la razó n de
probabilidades/momios (OR por su sigla en inglés Odds ratio) o razó n de riesgos (HR por su sigla en inglés Hazard
ratio)
 El efecto absoluto; para desenlaces dicó tomos el nú mero de menos o má s eventos en el grupo tratado/expuesto
comparado con el grupo control
 Calificació n de la calidad global de la evidencia para cada desenlace (puede variar entre desenlaces)

 Clasificació n de la importancia de cada desenlace


 Notas de pie de pá gina, de ser necesarias, para proveer explicaciones sobre informació n en las tablas como la
elaboració n de los juicios acerca de la calidad de la evidencia.

Ejemplo 4.1. Perfil de evidencia GRADE (versión original)


Ejemplo 4.2. Perfil de evidencia GRADE (nueva versión)
3. Tareas para crear un perfil de evidencia GRADE en GRADEpro-GDT

Para crear un perfil GRADE usted puede ver los tutoriales en:cebgrade.mcmaster.ca
Cree un proyecto en Gradepro (corresponde a una revisió n sistemá tica ú nica o guía)
Agregue una nueva pregunta/comparación (corresponde a las preguntas/comparaciones en la revisió n o la guía) bien
sea manual o importando un archivo de Revman

Agregue o edite información acerca de la pregunta/comparación


Cree un desenlace

Agregue o edite la información acerca del desenlace


Proporcione la duración de seguimiento en los estudios que reportaron cada desenlace. Esto es importante, ya que la
interpretació n de los efectos observados depende del tiempo en el cual los eventos ocurrieron. Usted tendrá que hacer
juicios a lo largo de los estudios, porque es probable que la duració n del seguimiento sea la misma en todos los estudios.
Usted debe proporcionar la informació n del seguimiento para cada uno de los desenlaces separados, ya que estos se han
medido en diferentes periodos.
Nota: la duración de la intervención (se debe describir como parte de la intervención, p.ej. “glucosamina por 8
semanas”) puede diferir de la duración del seguimiento (p.ej. seguimiento de la calidad de vida relacionada con salud o
función después de 1 año).
Ciertos desenlaces pueden haber sido evaluados/medidos con diferentes instrumentos o usando diferentes definiciones
(p.ej. uno puede utilizar ecocardiografía tras-esofá gica, tomografía computarizada, resonancia magnética, o angiografía
intervencionista para evaluar el tamañ o de un aneurisma de aorta torá cica). Puede proporcionar esta informació n si cree
que es importante para el lector que conozca el método en el cual se evaluó .
Hay dos tipos de desenlaces: dicó tomos o continuos, que requieren diferentes presentaciones de los hallazgos, porque la
estadística difiere. Cuando no hay resultados numéricos o los resultados no se pueden combinar a lo largo de los estudios
y requieren de descripció n narrativa se puede elegir un tipo narrativo de desenlace.
Nota: el término “continuo” en estadística convencional se refiere a los datos que puede tomar cualquier valor en un
rango específico. Para presentar en un perfil de evidencia los desenlaces continuos pueden ser:

 Verdaderamente continuos (p.ej. concentración de glucosa en sangre o peso)


 Ordinales (p.ej. puntaje en la escala de depresión de Hamilton o cuestionario respiratorio crónico)

La estadística de resumen y la presentació n de los resultados para ambos tipos de desenlaces continuos son generalmente
los mismos.
El tipo de desenlace determinará cuales datos se deberá n ingresar en GRADEpro. Cuando los datos se importan desde
RevMan, el tipo de desenlace se determinará de forma automá tica.
Estado del análisis para un desenlace determina que tanto una medida de efecto se presenta en el perfil de evidencia:

 Agrupados - el desenlace fue reportado en al menos 2 estudios y se llevó a cabo un metaná lisis y hay un efecto
estimado combinado
 No agrupados – el desenlace se reportó en al menos 2 estudios pero no se llevó a cabo un metaná lisis y no hay
un estimativo del efecto combinado (p.ej. debido a heterogeneidad); en este caso puede dar un rango de los
resultados en los estudios, si es posible; o por el contrario proporcionar una explicació n en una nota al pie
describiendo porque los estudios no se agruparon
 Rango de efectos – el desenlace se reportó en al menos 2 estudios pero no se llevó a cabo un metaná lisis; sin
embargo, los datos numéricos acerca de los efectos se encuentran disponibles y se puede presentar un rango
de resultados a lo largo de los estudios
 No medido – el desenlace no se midió en estudios individuales
 No reportado – los estudios individuales pueden indicar, que el desenlace fue medido, pero no reportaron los
resultados
 Estudio único – solo hay un estudio disponible (GRADEpro asume este estatus de forma similar a los
“agrupados”, sin embargo esta categoría se separó por razones ló gicas (uno no puede agrupar los resultados
de un ú nico estudio)

Pase a realizar la evaluación completa de la calidad de la evidencia

4. Evaluació n de la evidencia, resumen de hallazgos y calificació n de la importancia del desenlace (para cada
desenlace).

La evaluació n completa de la calidad confirmando primero el nú mero y el tipo de estudios, después evaluar la calidad de la
evidencia para el desenlace. Baje o suba la calidad de acuerdo a los criterios GRADE y agregue las explicaciones/notas al
pie cuando sean necesarias. (Ver Capítulo 5)

1. Diseñ o del estudio.

El diseñ o del estudio determina la calidad de la evidencia (ver el capítulo 5) y en algunos casos también determina la
presentació n de los datos en el perfil de evidencia. Elegir el diseñ o bá sico del estudio es un prerrequisito para calificar la
calidad de la evidencia para cualquier desenlace.
Los perfiles de evidencia GRADE requieren una presentació n específica de los resultados cuando los desenlaces se derivan
de estudios de casos y controles o de estudios observacionales con otro diseñ o.
Ejemplo 4.3. Estudios de casos y controles
Ejemplo 4.4. Estudios combinados de casos, controles y cohortes

2. Calidad de la evidencia.

Se debe considerar cuidadosamente y calificar todos los factores que pueden influenciar la calidad de la evidencia.
Mientras lo hace, tenga en cuenta que subir o bajar por un factor de calidad específico se debe hacer en el contexto de
todos los factores que influencia la calidad de la evidencia: tener que bajar por un criterio de calidad puede influir en el
siguiente criterio de calidad. Por tanto, eso puede influir en el umbral para bajar por otro criterio. Aunque es aceptable
evitar los juicios que pueden ser muy severos, las decisiones se deben hacer de forma transparente. Por ejemplo,
situaciones limítrofes en las cuales podría ser razonable bajar por limitaciones en el estudio, o no hacerlo, pueden existir.
Esto ilustra que el mérito de GRADE no es necesariamente asegurar la consistencia en las conclusiones (aunque esto se ha
comprobado), sino que requiere de juicios explícitos y transparentes. En cualquier caso, debe explicar su decisió n en una
nota al pie. (Ver el capítulo 5 para má s detalles).
3. Resumen de hallazgos

El resumen completo de los hallazgos, agregando los datos acerca del efecto de las intervenciones en este desenlace
(dicó tomo, continuo o narrativo).
Presentación de un desenlace dicotómico
La medida absoluta de un efecto en un perfil de evidencia GRADE se estima basado en la suposició n de un efecto relativo
consistente. Este concepto se explica má s ampliamente en el   capítulo 9.4.4.4 ¿Qué medidas para desenlaces dicó tomos?
Del Manual de la Colaboració n Cochrane para Revisiones sistemá ticas (Higgins 2011). Es entonces importante considerar
las implicaciones de este efecto para poblaciones con diferentes riesgos basales (p.ej. riesgo asumido) un riesgo ilustrativo
de un desenlace con una intervenció n control.
Opciones para expresar las medidas relativas de un efecto
Las medidas relativas de efecto incluyen el RR (riesgo relativo o razó n del riesgo), razó n de probabilidades (OR), densidad
de incidencia, y cociente de riesgo. OR tiene propiedades estadísticas ventajosas pero los RR son má s entendible
intuitivamente y má s fáciles de usar para estimar medidas de efecto absolutas en pacientes individuales. Por tanto, el RR
es preferible al OR para la presentació n del efecto relativo. GRADE sugiere convertir OR a RR utilizando el riesgo basal
asumido.

Nota: GRADEpro puede convertir un OR o HR (que previamente se ingresó o importó a GRADEpro en RR. Después de
entrar los valores de OR o HR, cambiando la etiqueta de estadística de resumen en el menú a RR, producirá una ventaja
emergente que pregunta si usted quiere convertir OR/HR a RR o simplemente cambiar el nombre de la etiqueta. Esta
conversión se basa en el riesgo asumido proporcionado del grupo control.

4. Riesgo asumido (Riesgo basal)


El riesgo asumido es el puntaje de los participantes que recibieron la intervenció n control (en el contexto de revisiones
sistemá ticas o un ú nico estudio) o para quienes las recomendaciones estén dirigidas (en el contexto de guías).
El riesgo asumido puede ser tanto el valor final o un puntaje de cambio en el grupo control. La elecció n del puntaje de
control para presentar en un perfil de evidencia dependerá de si el cambio o el valor final se utilizaron en el metaná lisis y
seleccionado para la presentació n.
Uno puede estimar el riesgo asumido evaluando los puntajes típicos en diferentes grupos de pacientes o en diferentes
tiempos de seguimiento. Idealmente, estos grupos reflejarían pacientes que los clínicos pueden identificar fá cilmente con
base en sus características de presentació n. Uno puede derivar los puntajes en los controles bien sea directamente de una
revisió n sistemá tica de la cual el estimativo del efecto de la intervenció n se obtiene o que uno puede extraerse de estudios
observacionales de pacientes similares a aquellos para los cuales se dirige la intervenció n.
Uno debe siempre proporcionar una nota al pie aclarando la fuente del puntaje asumido que se utilizó cuando se importa
desde RevMan, los puntajes asumidos no se importará n de forma automá tica a GRADEpro GDT.
Se puede proporcionar hasta tres valores típicos de riesgos basales

En el ejemplo anterior se proporcionaron tres riesgos asumidos del grupo control: cada uno correspondiente a un grupo
de riesgo bien definido basados en la escala CHADS. Los efectos absolutos correspondientes se calculará n para cada riesgo
asumido del grupo control basado en el efecto relativo, que se presume que sea constante a lo largo de un rango de riesgos
basales.
1. Riesgo asumido cuando un efecto se analizó y expresó como una diferencia de medias (DM)

Uno puede proporcionar una media, mediana o un rango de los valores finales o cambios de puntuació n en los grupos
control.
Media – el riesgo de nivel medio se puede basar en un promedio ponderado de los puntajes en los grupos control a lo
largo de los estudios en una revisió n sistemá tica o en los datos de estudios observacionales representativos.
Mediana – el riesgo de nivel medio se puede basar en la mediana de los puntajes en los grupos control a lo largo de los
estudios en una revisió n sistemá tica o en los datos de estudios observacionales representativos.
Rango – puede ser el puntaje estimado má s alto y el má s bajo en el grupo control, sin embargo, si hay “valores atípicos”,
entonces otro abordaje para obtener los valores estimados má s altos y má s bajos puede ser utilizar el segundo puntaje del
grupo control má s bajo y el segundo má s alto de los estudios.
Nota: uno debe siempre proporcionar las unidades de la escala en la cual se midieron los valores (p.ej. kg, puntos, días,
etc.).

2. Riesgo asumido (puntaje) cuando un efecto se analizó y expresó como una diferencia estandarizada de medias
(DEM)

Existen 3 métodos alternativos para presentar una DEM (ver arriba: re-expresió n de la DEM) y por tanto 3 presentaciones
diferentes de los valores finales o cambios de puntaje en los grupos control.

 Cuando se está utilizando las reglas de oro para los tamaños del efecto – uno no debe proporcionar los valores
para un puntaje asumido porque este no tendría sentido
 Cuando se está transformando a razón de probabilidades – si uno elige “dicotimizar” un desenlace continú o
transformando una DEM a un OR (o RR), entonces uno puede proporcionar también hasta 3 riesgos asumidos
estimativos para diferentes grupos de riesgo (ver riesgo asumido para desenlaces dicó tomos arriba)
 Cuando se convierte a un instrumento conocido – para la “transformació n” de una DEM a un instrumento
conocido uno puede presentar una media, mediana o un rango de valores finales o un cambio de puntajes similar a
la presentació n para DM (ver arriba). La media, mediana o el rango, sin embargo, vendrá n de estudios que usaron
el mismo instrumento conocido.

Nota: todos estos métodos alternativos para re-expresar una DEM tienen limitaciones ya que requieren supuestos
estadísticos que no se aplican a todas las circunstancias. Sin embargo, estas aproximaciones facilitan la interpretación de
los resultados presentados.

3. Riesgo asumido cuando un efecto se analizó y expresó como una razó n de medias

En este caso no se debe proporcionar valores para un riesgo asumido.


Elección del riesgo asumido para presentar en un perfil de evidencia GRADE
El riesgo asumido de un desenlace entre aquellos que recibirían una intervenció n control se puede derivar de estudios en
poblaciones con diferentes riesgos basales de un desenlace, y con diferentes periodos de seguimiento. Idealmente, los
riesgos reflejarían los grupos que los clínicos pueden identificar fácilmente con base en sus formas de presentació n. Esto
permite la facilidad en la aplicació n de la informació n presentada en un perfil de evidencia en la toma de decisiones. Usted
puede presentar hasta 3 riesgos basales asumidos por desenlace.
GRADE proporciona las siguientes sugerencias para la elecció n del riesgo basal:

 Riesgo en una població n de interés bien definida derivada de estudios observacionales representativos
 La mediana del riesgo del grupo control de estudios incluidos en el metaná lisis (si hay una mínima variació n en los
riesgos basales a lo largo de los estudios incluidos)
 Riesgo promedio basal en los grupos control de los estudios incluidos en el metaná lisis calculados como la
sumatoria de los pacientes con el evento en el grupo control dividido por el nú mero total de pacientes en los
grupos control – esto es calculado automá ticamente por GRADEpro y se presenta como un numero porcentual en
la columna del riesgo basal (también es una opció n natural cuando solo hay un estudio disponible).

Cualquiera que sea el riesgo asumido que elija presentar, es importante proporcional la explicació n de porqué un
estimativo particular se eligió e indicar cuá l es la fuente.
5. Efecto absoluto

1. Elecció n del denominador para presentar los efectos absolutos

Usted puede presentar el efecto absoluto de una intervenció n como un nú mero de sujetos por 100, por 1000, 100.000 o
por 1´000.000. Se sugiere que, por defecto, el riesgo se presente por 1000 personas. Denominadores má s grandes (p.ej.
100.000) pueden resultar ú tiles si los eventos son raros, y un denominador má s pequeñ o (p.ej. por 100) – si los eventos
son má s frecuentes.

2. Cá lculo del efecto absoluto en el perfil de evidencia GRADE

Diferencia del riesgo (DR o reducció n absoluta del riesgo – ARR) por 1000 personas se presenta en el perfil de evidencia
GRADE como una medida anticipada de efecto absoluto de una intervenció n comparada con el control.
DR = riesgo con control – riesgo con la intervención
GRADEpro calcula automá ticamente la DR basado en el riesgo basal asumido y el estimativo del efecto relativo:
DR a partir de riesgo relativo
RD (por 1000 personas) = (riesgo asumido con control x (1-RR)) x 1000
Ejemplo 4.5.
RR de un metaná lisis es 0,83 (IC 95% 0,78 a 0,89)
Riesgo asumido con el control es 40% (400 por 1000 o 0,4)
Por tanto: RD = 1000 x (0,4 x (1-0,83)) = 68 menos por 1000
DR a partir de OR
GRADE sugiere convertir el OR a RR para presentarlo en las tablas de evidencia porque es má s comprensible. Sin embargo,
si usted decide presentar el OR en un perfil de evidencia, entonces se estimará la DR convirtiendo OR a RR y luego
calculando RD a partir de RR como se describió previamente.
En GRADEpro, la fó rmula para convertir el OR a RR utiliza la tasa de eventos control como se presenta en la
columna Número de pacientes en intervención control en el perfil de evidencia GRADE.
RR = OR/ (1- riesgo asumido con el control x (1 – OR))
Ejemplo 4.6.
OR de un metaná lisis es 0,64 (IC 95%: 0,47 a 0,89)
Riesgo asumido con control = 25,6% o 0,256
Por tanto
RR = 0,64 / (1-0,256 x (1-0,64)) = 0,70
RD = 1000 x 0,256 x (1 – 0,70) = 77 menos por 1000
DR a partir de HR
 En GRADEpro un HR se convierte primero a RR y después se calcula la RD como enunciado anteriormente a partir del RR.
RR = 1 – eHR x ln (1 – riesgo asumido con el control) / riesgo asumido con el control

1. Presentació n de un desenlace continuo

Cambio en los puntajes y valores finales


A diferencia de los desenlaces dicó tomos que se miden solo una vez al final del estudio, las variables continuas se pueden
medir al inicio (basal – antes de que inicie la observació n o que se administren las intervenciones) y al final del estudio. Es
importante considerar cuales diferencias en los valores usted va a presentar en el perfil de evidencia GRADE. Usted puede
presentar la diferencia entre los grupos en:

 Cambio en los puntajes – cambios entre los basales y el final del estudio
 Puntajes finales – medidos al final del estudio (valores finales)

Al momento de nombrar un desenlace hay que indicar si es un valor final o un cambio en el puntaje. Por ejemplo:
intensidad del dolor vs cambio en la intensidad del dolor, calidad de vida vs cambio con respecto a la calidad de vida basal,
etc.
Es muy importante resaltar que al momento de agrupar los datos de estudios utilizando la DEM no se deben combinar
cambios en los puntajes con puntajes finales, sino por el contrario agruparlos de forma separada (Manual Cochrane,
Secció n 9.4.5.2) (Higgins 2011). Usted puede decidir presentar el aná lisis que proporciona mejor calidad de evidencia (ver
el capítulo 5) o presentar los resultados de ambos aná lisis.
Estimativo del efecto
El estimativo del efecto se puede presentar en una variedad de formas. Hay 5 opciones:

 Diferencia de medias (DM)


 Media  
 Mediana
 Diferencia estandarizada de medias (DEM)
 Razó n de medias

Cuando se utiliza la DM, DEM, media o mediana


Ingrese el estimativo puntual y el intervalo de confianza. Uno puede agregar una nota al pie para proporcionar má s
informació n acerca del efecto y al intervalo de confianza segú n sea necesario.
Nota: cuando se importa la información de RevMan 5 el estimativo puntual y el intervalo de confianza se importarán
automáticamente.
Cuando se re-expresa la DEM
Uno tiene que ingresar o editar los datos dependiendo de có mo se re-exprese la DEM (ver abajo)

 Cuando se utilizan las reglas de oro para los tamañ os del efecto – usted debe seleccionar la DEM del menú y llenar
la DEM y el intervalo de confianza
 Cuando lo está transformando a una razó n de probabilidades – usted debe calcular el OR a partir de la DEM y
completar toda la informació n como para un desenlace dicó tomo. Va a necesitar cambiar el tipo de desenlace a
desenlace dicó tomo. Debe incluir el valor de la DEM original en una nota al pie (p.ej. “los nú meros se estimaron
utilizando una DEM 0,21; IC 95% 0,15 a 0,27)
 Cuando se emplea un instrumento conocido – para hacer la transformar una DEM a un instrumento conocido se
debe seleccionar una DM como el tipo de estimativo y después ingresar la diferencia calculada y el intervalo de
confianza en una escala conocida (ver re-expresió n de la DEM arriba)

Cuando se utiliza la razón de medias


La razó n de medias representa el promedio ponderado de los puntajes promedio en el grupo de intervenció n dividido por
el promedio ponderado de los puntajes promedio en los grupos control. Solo se proporciona el efecto relativo y los valores
finales o el cambio en los puntajes en el grupo control o en el grupo de intervenció n no se proporcionan. Usted debe
elegir otro… del menú e ingresar la informació n acerca de la razó n de medias directamente en la columna de comentarios.
Re-expresión de la DEM
Cuando los estudios han usado diferentes instrumentos para medir el mismo constructo, una diferencia estandarizada de
medias (DEM) puede utilizarse en un me aná lisis para combinar los datos continuos. La DEM expresa el efecto de la
intervenció n en unidades de una desviació n está ndar (DE) en vez de las unidades originales de medició n. La diferencia de
medias (bien sea el cambio en el puntaje o los valores al final del estudio) es estandarizada puesto que se divide en la
desviació n está ndar. Los promedios estandarizados de los estudios individuales se combinan en un me análisis posterior
para calcular la DEM. Consecuentemente, el valor de la DEM depende tanto del tamañ o del efecto (la diferencia entre las
medias) y la variabilidad entre los participantes (Desviació n está ndar).
Como la DEM se basa en promedios estandarizados de los estudios incluidos y no en una escala específica, no tiene
unidades. Esto hace que la interpretació n del efecto sea muy difícil. Hay 3 opciones para re-expresar una DEM con el fin de
mejorar su interpretació n.
Uso reglas de oro para el tamaño de los efectos
Las reglas de oro existen para interpretar las Demá s o el “tamañ o de los efectos”. Si usted elige este modo de presentar la
DEM debe incluir la regla de oro en una nota al pie. Debe tener en cuenta que algunos metodó logos creen que tales
interpretaciones son problemá ticas, porque la importancia del paciente de un hallazgo, es contexto-dependiente y no está
sujeto a declaraciones genéricas.
Regla de oro de acuerdo a la interpretació n de Cohen acerca del tamañ o del efecto

 0,2 representa un efecto pequeñ o


 0,5 representa un efecto moderado
 0,8 representa un gran efecto

Hay variaciones a la interpretació n de Cohen. Un ejemplo puede ser:

 <0,41 representa un efecto pequeñ o


 0,40 a 0,70 representa un efecto moderado
 > 0,70 representa un gran efecto

El siguiente perfil de evidencia GRADE, presenta la DEM del ejemplo descrito anteriormente, en el cual se ha utilizado la
interpretació n de Cohen del tamañ o del efecto:

Transformación a razón de probabilidades


Transformar de DEM a razó n de probabilidades (OR) es posible. Debido a las presunciones subyacentes para hacer esta
conversió n, los resultados son solo una aproximació n. Para calcular el OR utilice la fó rmula:
Dó nde:   es aproximadamente 1,8138
El OR estimado se puede ingresar de forma similar como para los desenlaces dicó tomos. Uno debe agregar una nota al pie
explicando el cá lculo, p.ej. “OR se estimó utilizando una DEM (-0,19; IC 95% -0,50 a 0,11”).
Ejemplo 4.7.

En el diagrama de bosque la DEM fue 0,19 que al multiplicarla por 1,8138 da 0,34.
Si el ln (OR) = 0,34, entonces OR = 1,41. A partir de este ejemplo, se construye el siguiente perfil de evidencia GRADE, para el cual se
ha transformado la DEM a OR:

Re- expresión de la DEM utilizando un instrumento conocido


El efecto combinado se puede re-expresar convirtiendo la DEM de nuevo en la escala utilizada en uno de los estudios
originales. Para hacer esta transformació n de la DEM a una escala conocida

 Seleccione un estudio incluido en el metaná lisis original que es representativo de la població n y la intervenció n y
con bajo riesgo de sesgo
 Multiplique la desviació n está ndar (DE) del grupo control por la DEM combinada

Este nú mero resultante representa la diferencia de medias estimada (DM) y se puede presentar en una tabla de evidencia
como la DM para la escala empleada en el estudio representativo seleccionado.
Nota: uno siempre debe interpretar dichos resultados con precaución puesto que la transformación del tamaño del
efecto se basa en los resultados de solo 1 estudio.
El siguiente perfil de evidencia GRADE presenta la DEM del ejemplo previo, utilizando la transformació n a un instrumento
conocido:
Consideraciones especiales para desenlaces continuos, datos ordinales, conteo de eventos y razón de medias
El término continuo en estadística convencional se refiere a los datos que pueden tener cualquier valor en un rango
específico (Manual Cochrane, secció n 9.2.3) (Higgins 2011). Ejemplos de datos verdaderamente continuos son el peso,
concentració n de sustancias en sangre, etc. En la prá ctica, uno puede usar los mismos métodos estadísticos para otros
tipos de datos, má s comú nmente para datos ordinales provenientes de mediciones con escalas y conteo de grandes
números de eventos (Manual Cochrane, secció n 9.2.4) (Higgins 2011).
Un conteo de eventos por grupo de pacientes en un periodo específico de tiempo (p.ej. el nú mero de exacerbaciones de la
enfermedad por paciente por añ o o el nú mero de nuevos pó lipos por 100 pacientes-añ o) se puede considerar un caso
especial en el cual un desenlace binario se presenta como un desenlace continuo. Sin embargo, si usted elige presentar el
conteo como una variable continua, esto puede realizarse ú nicamente cuando los eventos son muy frecuentes. De lo
contario, cuando los eventos son relativamente raros, es má s deseable utilizar el riesgo relativo del metaná lisis y
presentar el efecto relativo como un riesgo relativo (Manual Cochrane, secció n 9.4.8) (Higgins 2011).
Las tasas relacionan el conteo con la cantidad de tiempo durante el cual estas pudieron haber sucedido. Por ejemplo, si
hubo 20 exacerbaciones de enfermedad pulmonar obstructiva cró nica en 100 pacientes durante un periodo de 300
personas-añ o de seguimiento, entonces la tasa asociada a este resultado será 0,067 por persona-añ o o 6,7 por 100
personas-añ o.
Otra forma informativa de presentar desenlaces continuos es la razó n de medias (p.ej. la razó n de la media de ganancia de
peso en un grupo comparado con otro).

2. Presentació n narrativa de un desenlace


Cuando no es posible combinar los resultados de los estudios (p.ej. porque no se reporta la variabilidad de los resultados)
o no es deseable por otras razones (Manual Cochrane, Secció n 9.1.4), entonces usted puede describir los resultados en
formato narrativo.
La Importancia

5. Tabla de resumen de hallazgos (tabla SoFt)

Las tablas de resumen de los hallazgos brindan un resumen de los hallazgos para cada uno de los desenlaces incluidos y la
calificació n de la calidad de la evidencia para cada desenlace en un formato rá pido y accesible, sin el detalle acerca de los
juicios de la calidad de la evidencia. Está n destinadas a una audiencia má s amplia, incluyendo los usuarios finales de las
revisiones sistemá ticas y de las guías. Estos proporcionan un breve resumen de la informació n clave que necesita alguien
en la toma de decisiones, y en el contexto de una guía, provee un resumen de la informació n clave que soporta una
recomendació n.
El formato de las tablas SoFt elaboradas a través de la herramienta desarrolladora de las guías GRADEpro-GDT se ha
perfeccionado durante los ú ltimos añ os, mediante una amplia consulta, pruebas al usuario y evaluació n. Está diseñ ado
para apoyar la ó ptima presentació n de los hallazgos clave en una revisió n sistemá tica. El formato de la tabla SoFt se ha
desarrollado con el propó sito de asegurar la consistencia y la facilidad de uso a lo largo de las revisiones, de incluir la
informació n má s importante y necesaria para la toma de decisiones y la ó ptima presentació n de dicha informació n. Sin
embargo, pueden existir buenas razones para modificar el formato de las tablas en algunas revisiones.
El formato está ndar de las tablas SoFt incluye:

 Una lista de los desenlaces


 El riesgo asumido; medició n de la carga típica de los desenlaces, p.ej. Riesgo ilustrativo o también llamado riesgo
basal, calificació n basal o riesgo del grupo control
 El riesgo correspondiente; medició n de la carga de los desenlaces después de aplicada la intervenció n, p.ej. El
riesgo de un desenlace en las personas tratadas/expuestas con base en la magnitud relativa de un efecto y el riesgo
asumido (basal)
 El efecto relativo; para desenlaces dicó tomos la tabla proveerá usualmente el riesgo relativo(RR), la razó n de
probabilidades/momios (OR) o razó n de riesgos (HR)
 El número de participantes y el número y diseño(s) de los estudios
 Calificació n de la calidad global de la evidencia para cada desenlace (puede variar entre desenlaces)
 Notas de pie de página o explicación, en caso de ser necesario, acerca de la informació n en la tabla
 Comentarios (de ser necesarios)

Las revisiones sistemá ticas que abordan má s de una comparació n principal (p.ej. Examinar el efecto de un nú mero de
intervenciones) van a requerir tablas SoFt por separado para cada comparació n. Para cada comparación de estrategias
alternativas de manejo, todos los desenlaces se deben presentar juntos en un perfil de evidencia GRADE o tabla SoFt. Es
probable que todos los estudios relevantes para la pregunta de investigació n no proporcionen evidencia para cada uno de
los desenlaces. Incluso, pueda que no se superpongan los estudios que proporcionan evidencia para un desenlace y
aquellos que proporcionan evidencia para otro. Teniendo en cuenta que la mayoría de las revisiones sistemá ticas no
abordan de forma adecuada todos los desenlaces relevantes, el proceso GRADE debe soportarse en una o má s revisiones
sistemá ticas.
Ejemplo 4.8. Tabla de resumen de hallazgos GRADE
Ejemplo 4.9. Tabla de resumen de hallazgos (versión alternativa)
Ejemplo 4.10. Tabla de resumen de hallazgos (versión alternativa)
6. Tareas para crear una tabla de resumen de hallazgos en GRADEpro GDT

A continuació n, se describen los pasos para crear una SoFt basada en la efectividad de las intervenciones, para la
descripció n de las tablas basadas en precisió n diagnó stica remítase al capítulo 7.
Cree un “proyecto” en Gradepro
Cada proyecto corresponde a una revisió n sistemá tica ú nica o a una guía de prá ctica clínica.

Agregue una nueva pregunta/comparación (corresponde a las preguntas/comparaciones en la revisió n o la guía) bien sea
manual o importando un archivo de Revman

Agregue o edite información acerca de la pregunta/comparación


CAPÍTULO 5. Calidad de la evidencia
GRADE provee una definició n especifica de la calidad de la evidencia que es diferente en el contexto de formular
recomendaciones y en el contexto de resumir los hallazgos en una revisió n sistemá tica. Si bien GRADE sugiere diferentes
enfoques para la calificació n de la evidencia para una revisió n sistemá tica y para una guía, el manual se encarga de
resaltar la informació n que es específica para cada uno de los grupos. Los elaboradores de ETS pueden decidir cuál de los
dos abordajes resulta má s adecuado de acuerdo con sus objetivos.

1. Calidad de la evidencia GRADE

Para los paneles de guías


La calidad de la evidencia refleja el grado en que nuestra confianza en el estimativo del efecto es adecuado
para soportar una recomendación particular.
El panel de la guía debe emitir juicios acerca de la calidad de la evidencia en relació n a un contexto específico para el cual
está n usando la evidencia.
La aproximació n GRADE implica separar la calidad de la evidencia para cada desenlace importante y a continuació n
determinar la calidad global de la evidencia a lo largo de los desenlaces.
Para los autores de las revisiones sistemáticas
La calidad de la evidencia refleja el grado en el que estamos seguros que el estimativo del efecto es correcto.
Como las revisiones sistemá ticas no, o por lo menos no deberían, formular recomendaciones, requieren una definició n
diferente. Los autores de las revisiones sistemá ticas califican la calidad del cuerpo de la evidencia de forma separada para
cada uno de los desenlaces importantes para los pacientes.
La calidad de la evidencia se califica para cada desenlace a través de los estudios (p.ej. El cuerpo de la evidencia). Esto no
significa calificar cada estudio como una sola unidad. Sino por el contrario, GRADE es “centrado en desenlace”; la
calificació n se hace para cada desenlace, y la calidad puede, incluso es probable, que difiera de un desenlace al otro a lo
largo de un mismo estudio y a lo largo del cuerpo de la evidencia.
Ejemplo 5.1. La calidad de la evidencia puede diferir entre un desenlace y otro a lo largo de un
mismo estudio
En una serie de ECAs no enmascarados, en los que se medía tanto la ocurrencia de trombosis cerebral
y la mortalidad por todas las causas, es posible que en el caso de la trombosis, que es mucho má s
susceptible a los juicios sesgados, se baje la calificació n por riesgo de sesgo, mientras que para la
mortalidad por todas las causas no suceda lo mismo.
De forma similar, una serie de estudios en los que muy pocos pacientes se pierdan en el seguimiento para el desenlace de
mortalidad, y sí se pierden muchos má s para el desenlace de calidad de vida, es posible que resulte en un juicio de baja
calidad para éste ú ltimo desenlace. Problemas con la evidencia indirecta pueden llevar a disminució n en la calidad para un
desenlace y no para otro a lo largo de un mismo estudio o estudios, si por ejemplo las tasas de fractura se miden usando
un desenlace alternativo (subrogado) (p.ej. Densidad mineral ó sea) y por el contrario los efectos adversos se midan de
forma directa.
A pesar que la calidad de la evidencia representa un continuo, la aproximació n GRADE evalú a la calidad del cuerpo de la
evidencia en uno de cuatro grados:
Tabla 5.1. Grados de calidad de la evidencia
Grado Definició n
Hay una confianza alta en que el verdadero efecto está cercano del estimativo
Alta
del efecto.
Hay una confianza moderada en el estimativo del efecto: el verdadero efecto es
Moderada probable que este cercano al estimativo del efecto, pero hay una posibilidad
que sea sustancialmente diferente.
La confianza en el estimativo del efecto es limitada: el verdadero efecto puede
Baja
ser sustancialmente diferente del estimativo del efecto.
Se tiene muy baja confianza en el estimativo del efecto: el verdadero efecto es
Muy baja
probable que sea sustancialmente diferente al estimativo del efecto.
La calidad de la evidencia es un continuum; cualquier categorizació n discreta implica algú n grado de arbitrariedad. Sin
embargo, las ventajas de la simplicidad, la transparencia y la intensidad superan estas limitaciones.

2. Factores que determinan la calidad de la evidencia

El abordaje de la calificació n de la calidad de la evidencia parte del diseñ o del estudio (ensayos clínicos o estudios
observacionales) y posteriormente evalú a cinco razones que posiblemente pueden disminuir la calidad o tres que la
puedan aumentar. Las siguientes secciones del manual abordaran cada uno de los factores en detalle.
Tabla 5.2. Factores que pueden disminuir la calidad de la evidencia
Factor Consecuencia
Limitaciones en el diseño o ejecución del estudio ↓ 1 o 2 niveles
(riesgo de sesgo)
Inconsistencia en los resultados. Resultados ↓ 1 o 2 niveles
inconsistentes
Evidencia indirecta/Ausencia de evidencia directa ↓ 1 o 2 niveles
Imprecisión ↓ 1 o 2 niveles
Sesgo de publicación ↓ 1 o 2 niveles
Tabla 5.3. Factores que pueden aumentar la calidad de la evidencia
Factor Consecuencia
Gran magnitud del efecto -Efecto de gran ↑ 1 o 2 niveles
tamaño
Todos los posibles distractores podrían reducir ↑ 1 nivel
el efecto demostrado o incrementar el efecto, si
el efecto no es observado
Gradiente dosis- respuesta ↑ 1 nivel
Si bien los factores que influyen en la calidad de la evidencia son aditivos, así como la disminució n o el incremento de cada
factor individual se suma en conjunto al otro factor para reducir o incrementar la calidad de la evidencia para un
desenlace, la calificació n de la calidad de la evidencia involucra juicios que no son exclusivos. Por tanto, GRADE no es un
sistema cuantitativo para calificar la calidad de la evidencia. Cada factor para disminuir o incrementar no refleja
categorías discretas sino un continuum entre cada categoría y a lo largo de ellas. Cuando el cuerpo de la evidencia es
intermedio con respecto a un factor particular, la decisió n acerca de si el estudio cae por debajo o por encima del umbral
para disminuir o incrementar la calidad (por uno o má s factores) depende de un juicio.
Por ejemplo, si hubiera algú n grado de incertidumbre acerca de tres factores: limitaciones del estudio, inconsistencia e
imprecisió n, pero no lo suficientemente serias para disminuir por cada una de ellas, uno podría razonablemente disminuir
o no hacerlo. El autor de una revisió n en cada categoría podría darle a los estudios el beneficio de la duda e interpretar la
calidad de la evidencia como alta. Otro, por el contrario, podría decidir disminuir la calidad de la evidencia en un nivel, y
calificarla como moderada. Los autores deben calificar la calidad de la evidencia teniendo en consideració n los factores
individuales en el contexto de otros juicios hechos acerca de la calidad de la evidencia para el mismo desenlace.
En tal caso, uno debería elegir una o dos categorías de limitaciones que se podrían ofrecer como argumentos para
disminuir la calidad y explicar las razones de la elecció n en las notas al pie. También se debe poner una nota al pie junto a
ese otro factor en el cual se decidió no disminuir la calidad, explicando que, si bien hubo incertidumbre, ya se había
disminuido por el otro factor y resultaría inapropiado disminuir aú n má s. GRADE alienta fuertemente a los autores de las
guías y de las revisiones sistemá ticas a ser explícitos y transparentes cuando se encuentran en este tipo de
situaciones, reconociendo decisiones dudosas.
A pesar de las limitaciones que implica separar un continuo en categorías, el tratar cada criterio para aumentar o
disminuir la calidad como categorías discretas, promueve la transparencia. De hecho, el gran mérito de GRADE no es que
asegura juicios reproducibles, sino que requiere de juicios explícitos que resultan transparentes a los usuarios.
El diseño del estudio
El diseñ o del estudio es crítico para los juicios acerca de la calidad de la evidencia.
Para las recomendaciones acerca de las estrategias de manejo, al contrario de establecer pronó stico o la precisió n de los
exámenes diagnó sticos, los ensayos aleatorios por lo general, proveen evidencia mucho má s fuerte que aquella de los
estudios observacionales, y a su vez los estudios observacionales rigurosos proveen de evidencia má s fuerte que
las series de caso.
En la aproximació n GRADE para la calidad de la evidencia:

 Los ensayos aleatorizados sin limitaciones importantes proveen calidad de la evidencia alta


 Los estudios observacionales sin fortalezas especiales o limitaciones importantes proveen baja calidad de la
evidencia

Las fortalezas especiales o las limitaciones de los mismos pueden, sin embargo, modificar la calidad de la evidencia tanto
de los ensayos aleatorizados como de los estudios observacionales.
Nota:
Los ensayos experimentales no aleatorizados (cuasi- ECA) sin limitaciones importantes también proveen evidencia alta,
pero automáticamente se va a reducir por limitaciones en el diseño (riesgo de sesgo), tales como la ausencia de
ocultamiento en la asignación y generación de la secuencia aleatoria (p.ej. Número en una tabla).
Las series de casos y los reportes de caso son estudios observacionales que investigan únicamente pacientes expuestos
a la intervención. La fuente de resultados del grupo control no es clara o está implícita, y por tanto, usualmente
justifican reducir la calidad de baja a muy baja.
La opinión de un experto no es una categoría de calidad de la evidencia. La opinión de un experto representa la
interpretación de la evidencia en el contexto de experiencia de expertos y su conocimiento. Los expertos pueden tener
opiniones acerca de la evidencia basados en la interpretación de estudios que van desde, series de casos no controlados
(p.ej. Observaciones realizadas por el experto en su práctica) hasta ensayos aleatorizados y revisiones sistemáticas
conocidas por el experto. Es importante describir que tipo de evidencia (si publicada o no) se está usando como base
para la interpretación.

3. Factores que pueden disminuir la calidad de la evidencia

Las siguientes secciones discutirá n en detalle los 5 factores que pueden disminuir la calidad de la evidencia para un
desenlace específico y, por tanto, reducir la confianza en el estimativo del efecto.

1. Limitaciones en el estudio (Riesgo de sesgo)


Las limitaciones en el diseñ o y ejecució n del estudio pueden sesgar los estimativos del efecto del tratamiento. La confianza
en el estimativo del efecto y en las recomendaciones disminuye si un estudio tiene limitaciones mayores. Entre má s serias
sean las limitaciones, má s probable es que la calidad de la evidencia se disminuya. Existen numerosas herramientas para
evaluar el riesgo de sesgo en los ensayos aleatorizados y los estudios observacionales. Este manual describe criterios clave
usados por la aproximació n GRADE.
La confianza en el estimativo del efecto disminuye si los estudios tienen limitaciones mayores que resulten en una
evaluació n sesgada del efecto de la intervenció n. Para los ensayos aleatorizados, las limitaciones resaltadas en la Tabla 5.4
es probable que terminen en resultados sesgados.
Tabla 5.4. Limitaciones de estudio en los ensayos controlados aleatorizados
Explicación
Los encargados de reclutar pacientes son conscientes del grupo (o del periodo
Ausencia de
en un ensayo crossover) al cual el siguiente paciente va a ser asignado (lo que
enmascaramiento/
resulta un problema mayor en los ensayos “seudo” o “cuasi” aleatorios con
ocultamiento en la
asignació n por día de la semana, fecha de nacimiento o nú mero en una tabla,
asignación
etc.)
Los pacientes, cuidadores, quienes registran los desenlaces y quienes juzgan
Ausencia de los desenlaces o los analistas de datos son conscientes del brazo al cual los
enmascaramiento pacientes fueron asignados (o el medicamento que está recibiendo en un
ensayo crossover)
Pérdidas durante el seguimiento y falla en la adherencia al principio de
intenció n a tratar en los ensayos de superioridad; o en ensayos no
inferioridad, pérdida en el seguimiento y falla para conducir ambos aná lisis
considerando ú nicamente quienes se adhieren al tratamiento, así como todos
Recuento incompleto para los que se encuentre disponible los datos de los desenlaces.
de pacientes y La significancia de las tasas particulares de pérdida al seguimiento, varían
desenlaces ampliamente y son dependientes de la relació n entre la pérdida del
seguimiento y el nú mero de eventos. Entre má s alta sea la proporció n de las
pérdidas durante el seguimiento en relació n con la tasa de eventos en los
grupos de intervenció n y control, y las diferencias entre los grupos de
intervenció n y control, mayor será el riesgo de sesgo.
Reporte selectivo de Reporte incompleto o ausencia de reporte de algunos desenlaces y no de otros
los desenlaces con base en sus resultados.
Detener tempranamente el estudio por beneficios obtenidos. Es probable
sobreestimar de forma sustancial en los estudios con un nú mero de eventos
inferior de 500 y aú n má s en aquellos estudios con menos de 200 eventos.
Evidencia empírica sugiere que las reglas formales de cuando parar no
reducen el sesgo.
Otras limitaciones
 Uso de medidas de desenlaces no validadas (p.ej. Desenlaces reportados
por pacientes)
 Efectos remanentes o de arrastre en los estudios cruzados
 Sesgo de reclutamiento en los ensayos aleatorios de grupos

Revisiones sistemá ticas acerca de las herramientas para evaluar la calidad metodoló gica de los estudios no aleatorios, han
identificado má s de 200 listas de chequeo e instrumentos. En la tabla 5.5 se resumen los criterios clave para los estudios
observacionales que reflejan el contenido de estas listas de chequeo.
Tabla 5.5. Limitaciones de estudio en los estudios observacionales.
Explicació n
 Sobreapareamento o subapareamentoen los estudios de
Falla para desarrollar y aplicar casos y controles
criterios de elegibilidad
 Selecció n de los expuestos y los no expuestos de diferentes
apropiados (inclusión de
poblaciones en los estudios de cohorte
población control)

 Diferencias en la medició n de la exposició n (p.ej. Sesgo de


recuerdo en estudios de casos y controles)
Falla en la medición tanto de la
 Vigilancia diferencial de los desenlaces en los expuestos y
exposición como del desenlace
los no expuestos en los estudios de cohortes

Falla para controlar de forma  Falla en la medició n precisa de todos los factores
pronó stico conocidos
adecuada la confusión o factores  Falla para parear los factores pronó sticos y/o ajustar en el
de confusión aná lisis estadístico

Seguimiento incompleto o Especialmente en estudios de cohorte prospectiva, ambos


inadecuadamente corto grupos se deben seguir por el mismo espacio de tiempo.
Dependiendo del contexto y el tipo de estudio, puede haber limitaciones adicionales a las mencionadas previamente. Los
paneles de las guías y los autores de las revisiones sistemá ticas deben considerar todas las limitaciones posibles y deben
considerar hasta qué punto las limitaciones de un estudio puedan sesgar los resultados (ver ejemplos 5.2 al 5.8). Si las
limitaciones son serias ellos pueden disminuir la calidad de la evidencia en uno o dos niveles.
La transició n entre los criterios de riesgo de sesgo de cada estudio individual hacia los juicios acerca de disminuir la
calidad de la evidencia por riesgo de sesgo a lo largo de un grupo de estudios que abordan un desenlace particular resulta
un desafío. Se sugieren los siguientes principios:

 En cuanto a decidir la calidad global de la evidencia, no se debe promediar a lo largo de los estudios (por ejemplo, si
algunos estudios no tienen limitaciones serias, otros tienen limitaciones serias y otras limitaciones muy serias,
automá ticamente no se puede disminuir la calidad de la evidencia en un nivel promediando la calificació n de las
limitaciones serias). Por el contrario, se debe hacer una consideració n juiciosa de la contribució n de cada estudio,
concentrá ndose como guía general, en los estudios de mayor calidad.
 La consideració n juiciosa requiere evaluar hasta qué punto cada ensayo contribuye a la estimació n de la magnitud del
efecto. Esta contribució n usualmente reflejará el tamañ o de la muestra del estudio y el nú mero de desenlaces, estudios
grandes con muchos eventos contribuyen má s, estudios má s grandes con muchos má s eventos contribuirá n aú n má s.
 Se debe ser conservador en los juicios para disminuir la calidad de la evidencia. Es decir, se debe estar seguro que
existe un riesgo sustancial de sesgo a lo largo del cuerpo de la evidencia antes de disminuir por riesgo de sesgo.
 El riesgo de sesgo se debe considerar en el contexto de otras limitaciones. Si por ejemplo los autores de la revisió n se
encuentran en una situació n cercana con respecto a dos aspectos de calidad (riesgo de sesgo y por decir, precisió n), se
sugiere disminuir la calidad por al menos uno de los dos.

Los autores se van a encontrar en muchas de estas situaciones. Ellos deben reconocer que se encuentran en esta situació n,
hacer explícito porque piensan que está n en esa situació n y exponer las razones que soporten el juicio realizado.
Para los autores de revisiones sistemáticas
Los autores trabajando en el contexto de Revisiones Sistemá ticas Cochrane, pueden usar la siguiente guía para abordar las
limitaciones en el estudio (riesgo de sesgo) en dichas revisiones. El Capítulo 8 del Manual Cochrane (Higgins 2011).
proporciona una discusió n detallada del abordaje del riesgo de sesgo a nivel del estudio en el contexto de una revisió n
Cochrane, y propone una clasificació n del riesgo de sesgo para un desenlace a lo largo de estudios como “riesgo de sesgo
bajo”, “riesgo de sesgo no claro” y “riesgo de sesgo alto” (Higgins 2011). Estas evaluaciones caben dentro de la evaluació n
de las limitaciones del estudio. En particular “riesgo de sesgo bajo” indicaría “sin limitació n”; “riesgo de sesgo no claro”
indicaría o “sin limitació n” o “limitació n seria”; y “riesgo de sesgo alto” indicaría “limitació n seria” o “limitació n muy seria”
en la aproximació n GRADE. Los autores de las revisiones sistemá ticas Cochrane deben usar su juicio para decidir entre las
categorías alternativas, dependiendo de la probable magnitud de los potenciales sesgos.
Cada estudio que evalú e un desenlace particular va a ser diferente en cierta medida en el riesgo de sesgo. Los autores
deben hacer un juicio global en cuanto a si la calidad de la evidencia implica disminuir con base en las limitaciones del
estudio. La evaluació n de las limitaciones del estudio se debe aplicar a aquellos estudios que contribuyen a los resultados
de la Tabla SoFt, y no a todos los estudios que pueden ser potencialmente incluidos en el aná lisis.
Tabla 5.6. Guía para evaluar las limitaciones del estudio (riesgo de sesgo propuesta por la Colaboración Cochrane
y la calidad de la evidencia correspondiente según GRADE
Enfoque GRADE
Riesgo de A lo largo de los para evaluar las
Interpretació n Consideraciones
sesgo estudios limitaciones de los
estudios
La mayoría de la Poco probable que
informació n es de el sesgo plausible Sin limitaciones Sin limitaciones
Bajo
estudios con bajo riesgo afecte seriamente aparentes serias, no disminuir
de sesgo los resultados
No claro La mayoría de la Sesgo plausible Es poco probable que las Sin limitaciones
informació n es de que genera cierta potenciales limitaciones serias, no disminuir
estudios con bajo riesgo duda acerca de los disminuyan la confianza
de sesgo o riesgo no resultados en el estimativo del
claro efecto
La mayoría de la
Sesgo plausible Es probable que las
informació n es de
que genera cierta potenciales limitaciones Limitaciones serias,
No claro estudios con bajo riesgo
duda acerca de los disminuyan la confianza disminuir un nivel
de sesgo o riesgo no
resultados en el efecto estimativo.
claro
Limitació n crucial para
La proporció n de
un criterio, o algunas
informació n de los Sesgo plausible
limitaciones en
estudios con alto riesgo que debilita
mú ltiples criterios, Limitaciones serias,
Alto de sesgo es suficiente seriamente la
suficientes para disminuir un nivel
como para afectar la confianza en los
disminuir la confianza
interpretació n de los resultados
en el estimativo del
resultados
efecto
La proporció n de
Limitació n crucial para
informació n de los Sesgo plausible
uno o má s criterios,
estudios con alto riesgo que debilita Limitaciones muy
suficiente para
Alto de sesgo es suficiente seriamente la serias, disminuir
disminuir la confianza
como para afectar la confianza en los dos niveles
en el estimativo del
interpretació n de los resultados
efecto
resultados
Ejemplo 5.2. Riesgo de sesgo no claro (no disminuido)
Una revisió n sistemá tica investigó si menos personas con cá ncer murieron cuando se les administró
anticoagulante comparado con placebo. Había 5 ECAs. En tres estudios no era clara la generació n de la
secuencia aleatoria puesto que no fue reportada por los autores, y en un estudio (que contribuía con
pocos pacientes para el meta aná lisis) no era claro el enmascaramiento de la asignació n y los datos de los
desenlaces estaban incompletos. En este caso, las limitaciones globales no eran serias y no se disminuyó
la calidad de la evidencia por riesgo de sesgo.
Ejemplo 5.3. Riesgo de sesgo no claro (disminuido un nivel)
Una revisió n sistemá tica sobre los efectos de la testosterona en la satisfacció n de la erecció n en hombres
con bajos niveles de testosterona, identificó cuatro ECAs. Los resultados del ensayo má s grande se
reportaron ú nicamente como “no significativos” y no pudieron por tanto contribuir al meta aná lisis. Los
datos de los tres ensayos má s pequeñ os sugieren un efecto de tratamiento grande (1,3 desviaciones
está ndar, intervalo de confianza 95% 0,2- 2,3). Los autores no pudieron obtener los datos faltantes, y no
pudieron tener confianza en que el efecto del tratamiento fuera certero, por tanto, disminuyeron la
calidad del cuerpo de la evidencia por sesgo de reporte selectivo en el estudio má s grande.

En otro escenario, los autores de la revisió n obtuvieron los datos completos del estudio má s grande.
Después de incluir los resultados menos imprecisos, la magnitud del efecto fue menor y sin significancia
estadística (0,8 desviaciones está ndar, intervalo de confianza 95% 0,05- 1,63). En este caso la evidencia
no se disminuiría.
Ejemplo 5.4. Alto riesgo de sesgo debido a falta de enmascaramiento (disminuido en un nivel)
ECAs acerca del efecto de la intervenció n A en injuria espinal aguda, midieron todas las causas de
mortalidad y la funció n motora basados en los hallazgos del examen físico detallado. Quienes medían
los desenlaces no estaban enmascarados para ningú n desenlace. El enmascaramiento en los
evaluadores no resulta tan importante en la medició n de la mortalidad, pero si es crucial para la
evaluació n de la funció n motora. La calidad de la evidencia para el desenlace de mortalidad puede no
disminuirse. Sin embargo, la calidad se debería disminuir para el desenlace de funció n motora.
Ejemplo 5.5. Alto riesgo de sesgo por ausencia de enmascaramiento en la asignación (disminuido en un
nivel)
Una revisió n sistemática de 2 ECAs mostró que la terapia familiar en niñ os con asma mejoraba las
sibilancias durante el día. Sin embargo, la asignació n claramente no se realizó de forma enmascarada
en los dos ensayos incluidos. Esta limitació n justificaría disminuir la calidad de la evidencia en un
nivel.
Ejemplo 5.6. Alto riesgo de sesgo por ausencia de enmascaramiento en la asignación
(disminuido en un nivel)
Una revisió n se llevó a cabo para evaluar los efectos de tratamiento temprano versus tardío con
oseltamivir en influenza con estudios observacionales. Los investigadores encontraron 8 estudios
observacionales que evaluaban el riesgo de mortalidad. El aná lisis estadístico de los 8 estudios no
ajustó de acuerdo a los posibles factores de confusió n como la edad, condiciones pulmonares cró nicas,
inmunizaciones y estado inmune.  La calidad de la evidencia se debió disminuir de bajo a muy bajo por
limitaciones serias en el diseñ o del estudio.
Ejemplo 5.7. Alto riesgo de sesgo (disminuido dos niveles)
Tres ECAs acerca de los efectos de la cirugía en pacientes con prolapso de disco lumbar medido con
síntomas de 1 añ o o má s de duració n. Los ECAs tenían inadecuado enmascaramiento de la asignació n,
y evaluació n no enmascarada de los desenlaces, realizado por evaluadores potencialmente sesgados
(cirujanos) utilizando una herramienta no validada de calificació n. Los beneficios de la cirugía son
inciertos. La calidad de la evidencia se disminuyó en dos niveles por las limitaciones en la calidad del
estudio.
Ejemplo 5.8. Alto riesgo de sesgo (disminuido dos niveles)
La evidencia del efecto de inmunoterapia sublingual en niñ os con rinitis alérgica en el
desarrollo del asma proviene de un ú nico ensayo aleatorizado, sin descripció n de la
aleatorizació n, ni descripció n del enmascaramiento de la asignació n o el tipo de aná lisis, no
hubo enmascaramiento y el 21% de los niñ os se perdieron en el seguimiento. Estas grandes
limitaciones justifican la disminució n de la calidad de la evidencia, dos niveles, de alta a baja.

2. Inconsistencia de los resultados

Inconsistencia se refiere a la heterogeneidad inexplicada de los resultados.


Diferencias verdaderas en el efecto del tratamiento pueden existir cuando hay estimativos del efecto del tratamiento muy
diferentes a lo largo de los estudios (e. heterogeneidad o variabilidad en los resultados). Los investigadores deben
explorar explicaciones para dicha heterogeneidad, y si no pueden identificar una explicació n posible/plausible, la calidad
de la evidencia se debe disminuir. La decisió n de si se debe disminuir en uno o dos niveles va a depender de la magnitud
de la inconsistencia en los resultados.
Los pacientes varían en cuanto a sus riesgos basales o pre-intervenció n para desenlaces adversos que las intervenciones
en salud está n diseñ adas para prevenir (p.ej. Muerte, trombosis cerebral, infarto de miocardio). Como resultado, las
diferencias del riesgo (reducció n absoluta de riesgo) en subpoblaciones tienden a variar ampliamente. La reducció n del
riesgo relativo (RR), por otro lado, tiende a ser similar a lo largo de los subgrupos, incluso si los subgrupos tienen
diferencias sustanciales de riesgos basales. Por tanto, cuando se hace referencia a inconsistencias en el tamaño del
efecto, nos referimos a las medidas relativas (riesgo relativo (RR) y razó n de riesgos (HR) que son las que se prefieren, o
razó n de probabilidades (OR)).
Cuando características de los pacientes fá cilmente identificables permiten con confianza, clasificar a los pacientes en
subpoblaciones con riesgos apreciables diferentes, las diferencias absolutas en los desenlaces entre el grupo de
intervenció n y el control diferirá n sustancialmente en estas subpoblaciones. Esto a su vez puede justificar diferencias en
las recomendaciones a lo largo de las subpoblaciones, má s que una disminució n en la calidad de la evidencia por
inconsistencia en el tamañ o del efecto.
A pesar que existen métodos estadísticos para medir la heterogeneidad, existe también una variedad de criterios para
evaluarla, que se pueden usar cuando los resultados no se agrupar de forma estadística. Los criterios para determinar si se
debe disminuir por inconsistencia se pueden aplicar cuando los resultados son de má s de un estudio e incluyen:

 Amplia variació n en las estimaciones puntuales a lo largo de los estudios (nota: la direcció n del efecto no es un criterio
para inconsistencia)
 Amplia variació n de las estimaciones puntuales entre los estudios (nota: la direcció n del efecto no es un criterio para
la inconsistencia)
 Superposició n mínima o ausente de los intervalos de confianza (IC), que sugieren que la variació n es mayor que la que
se esperaría por el azar
 Criterios estadísticos, incluyendo pruebas/test de heterogeneidad que evalú an la hipó tesis nula de que todos los
estudios tienen la misma magnitud del efecto, tienen un valor p bajo (p<0,05) indicando que se rechaza la hipó tesis
nula.

El estadístico I2, que cuantifica la proporció n de la variació n en estimativos puntuales debido a diferencias entre estudios,
es grande (ver la nota a continuació n para decisiones basadas en el estadístico I2)
Nota: Aunque determinar que constituye un valor I 2 grande es subjetivo, se puede usar la siguiente regla de oro:

 <40% puede ser bajo


 30-60% puede ser moderado
 50-90% puede ser sustancial
 75-100% puede ser considerable

La superposició n en estos rangos y el uso del “puede ser” como terminología, ilustra la incertidumbre que existe al
momento de hacer estos juicios. También es importante resaltar las limitaciones implícitas de este estadístico. Cuando los
tamañ os de muestra de los estudios individuales son pequeñ os, el estimativo puntual puede variar sustancialmente, pero
como la variació n se puede explicar por azar, el I 2 puede ser bajo. Por el contrario, cuando los tamañ os de muestra son
grandes, una diferencia relativa pequeñ a en el estimativo puntual puede producir un I 2grande. Otro estadístico, τ2 (tau
cuadrado) es una medida de la variabilidad que tiene una ventaja sobre las otras medidas y es que no depende del tamañ o
de la muestra.
Todos los abordajes estadísticos tienen limitaciones, y sus resultados se deben ver en el contexto de una evaluació n
subjetiva de la variabilidad en los estimativos puntuales y la sobre posició n de los intervalos de confianza.
Ejemplo 5.9. Diferencias en la dirección, pero mínima heterogeneidad

La figura presenta un diagrama de bosque con cuatro estudios, dos a cada lado de la línea del no efecto. No habría ninguna inclinació n
para disminuir por inconsistencia. Las diferencias en la direcció n en sí mismas no constituyen un criterio por variabilidad en el efecto,
si la magnitud de las diferencias en estimativos puntuales es pequeñ a.
Como definimos antes, la inconsistencia es solo importante cuando reduce la confianza en los resultados en relación a
una decisión particular. Incluso cuando la inconsistencia es grande, pueda que no disminuya la confianza en los
resultados acerca de una decisió n particular.
Ejemplo 5.10.Cuando la inconsistencia es grande, pero las diferencias son entre efectos beneficiosos pequeños y grandes
Considere la figura, en la cual la variabilidad es sustancial, pero las diferencias entre efectos son de tratamiento pequeñ os y grandes.
Los desarrolladores de las guías pueden y no considerar este grado de variabilidad importante. Los autores de las
revisiones sistemá ticas, en menor condició n de juzgar si la alta heterogeneidad aparente puede ser desestimada con el
argumento que es poco importante, son mucho má s propensos a disminuir por inconsistencia.
Ejemplo 5.11. Heterogeneidad sustancial de importancia inequívoca

Considere la figura a anterior La magnitud de la variabilidad de los resultados es similar a aquella de la figura presentada en el
ejemplo 5.9. Sin embargo, como dos estudios sugieren un beneficio y dos sugieren un riesgo, incuestionablemente elegiríamos
disminuir la calidad de la evidencia como resultado de inconsistencia.
Ejemplo 5.12.Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser
pequeña
Un metaná lisis de ensayos aleatorizados de rofecoxib evaluando el desenlace de infarto de miocardio
encontraron resultados aparentemente consistentes (heterogeneidad p=0,82, I2=0%). Sin embargo,
cuando los investigadores examinaron el efecto en los ensayos que usaron un comité externo de
evaluació n final (RR 3,88, IC 95% 1,88-8,02) versus los ensayos que no lo usaron (RR 0,79, IC 95%
0,29-2,13), encontraron diferencias que eran grandes y poco probable que fuesen explicadas por el
azar (p=0,01).
Aunque este aspecto es controversial, se recomienda que el metaná lisis incluya pruebas formales de si
las hipó tesis a priori explican la inconsistencia entre los subgrupos importantes, aú n si la variabilidad
que existe aparenta ser explicada por el azar (p.ej. Valores p altos en las pruebas de heterogeneidad y
valores I2 bajos).
Si el tamañ o del efecto difiere a lo largo de los estudios, las explicaciones para la inconsistencia pueden ser debidas a
diferencias en:

 Población (p.ej. Medicamentos pueden tener efectos relativos mayores en població n enferma)


 Intervenciones (p.ej. Efectos mayores a dosis má s altas)
 Desenlaces (p.ej. Duració n del seguimiento)
 Métodos del estudio (p.ej. ECAs con mayor o menor riesgo de sesgo).

Si la inconsistencia se puede explicar por diferencias en las poblaciones, intervenciones o desenlaces, los autores
deben ofrecer diferentes estimativos para los grupos de pacientes, intervenciones y desenlaces. Los paneles de las guías
deben ofrecer diferentes recomendaciones para los diferentes grupos de pacientes e intervenciones. Si los métodos de
los estudios son argumento de las diferencias en los resultados entre los estudios, entonces los autores deben considerar
concentrarse en el efecto estimado de los estudios con bajo riesgo de sesgo.
Si una gran variabilidad en la magnitud del efecto persiste sin explicació n y los autores fallan en atribuirla a diferencias en
alguna de esas cuatro variables, entonces la calidad de la evidencia disminuye. Los autores de las revisiones y el panel de
la guía deben también considerar hasta qué punto la incertidumbre del efecto se debe a la inconsistencia. La
incertidumbre se refiere a la importancia de la inconsistencia en la confianza en el resultado.
Ejemplo 5.13. Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser
pequeña
Cuando el aná lisis de los beneficios de la endarterectomía se agrupo para todos los pacientes con
estenosis de la arteria caró tida, hubo una alta heterogeneidad. La heterogeneidad se exploró y se
explicó al separar los pacientes sintomá ticos con un grado mayor de estenosis (en los cuales la
endarterectomía era beneficiosa) y los pacientes asintomá ticos con un grado moderado de estenosis
(en los que la cirugía no era beneficiosa). Los autores presentaron y calificaron la evidencia por grupos
de pacientes y no disminuyeron la calidad de la evidencia por inconsistencia. El panel de la guía elaboró
dos recomendaciones diferentes para cada grupo de pacientes.

1. Decisió n de usar estimativos a partir de un aná lisis de subgrupos

Es preferible encontrar una explicació n para la inconsistencia. La explicació n puede radicar en diferencias en la població n,
la intervenció n o los desenlaces, que implican dos o má s estimativos del efecto, posiblemente con recomendaciones
separadas. Sin embargo, los efectos de los subgrupos pueden resultar falsos y pueden no explicar toda la variabilidad en el
grado de inconsistencia. De hecho, la mayoría de los efectos de los subgrupos putativos en ú ltimas resultan falsos. Se debe
hacer una nota aclaratoria acerca del aná lisis de los subgrupos y su presentació n. (Guyatt 2011).
Los autores de las revisiones y los desarrolladores de las guías deben tener un alto grado de escepticismo con respecto a
las explicaciones de los potenciales efectos de los subgrupos, poniendo particular atenció n en los siguientes 7 criterios:

1. ¿La variable del subgrupo es una característica especificada antes o después de la aleatorizació n? (las hipó tesis de los
subgrupos se deben desarrollar a priori)
2. ¿Las diferencias de los subgrupos surgieron por comparació n dentro o en lugar de entre los estudios?
3. ¿El aná lisis estadístico sugiere que el azar es una explicació n poco probable para las diferencias de los subgrupos?
4. ¿Las hipó tesis precedieron o resultaron después del aná lisis, e incluyeron una direcció n de la hipó tesis la cual fue confirmada
posteriormente?
5. ¿Fue la hipó tesis del subgrupo una de las de menor nú mero de pruebas?
6. ¿Las diferencias del subgrupo son consistentes a lo largo de los estudios y para los desenlaces importantes?
7. ¿La evidencia externa (raciocinio bioló gico o socioló gico) apoya la hipó tesis de las diferencias de los subgrupos?
La credibilidad del efecto del subgrupo no es un asunto de sí o no, sino un continuum. Se requiere de un juicio para
determinar qué de una manera convincente si el aná lisis de los subgrupos se basa en los criterios previamente
mencionados.
Ejemplo 5.14. El análisis de los subgrupos explica la inconsistencia de los resultados
Una revisió n sistemática y los datos de un metaná lisis de pacientes individuales, evalú a el impacto de la
Presió n Positiva Alta vs Baja del Final de la Espiració n (PEEPs por sus siglas en inglés Positive end-
expiratory pressures) en tres estudios aleatorios que incluyeron 2299 pacientes adultos con injuria
pulmonar aguda severa con requerimiento de ventilació n mecánica.
El resultado de este metaná lisis sugirió una posible reducció n de las muertes durante la hospitalizació n con la estrategia
de PEEP alta, pero la diferencia no fue estadísticamente significativa (RR 0,94; IC 95%: 0,86-1,04). En los pacientes con
enfermedad severa (síndrome de dificultad respiratorio agudo), el efecto claramente favorecía la estrategia con PEEP alta
(RR 0,90 IC 95% 0,81-1,00; P50, 049). En pacientes con enfermedad severa, los resultados sugieren que la estrategia con
PEEP alta puede ser inferior (RR 1.37; IC 95%: 0,98- 1,92).
Aplicando los siete criterios, se encontró que seis de ellos se cumplían, y el séptimo, consistencia a lo largo de los estudios
y desenlaces, se cumplía parcialmente: los resultados del aná lisis de los subgrupos eran consistentes a lo largo de los tres
estudios, pero otras formas de medir la severidad de la injuria pulmonar (por ejemplo, tratar la severidad como una
variable continua) falló en demostrar una interacció n estadísticamente significativa entre la severidad y la magnitud del
efecto. En este caso, el aná lisis del subgrupo es relativamente convincente.
Ejemplo 5.15. Probar hipótesis a priori a cerca de inconsistencia aún cuando la inconsistencia parezca ser
pequeña
Tres ensayos aleatorizados han evaluado el efecto de la vasopresina versus la epinefrina en la
sobrevida de pacientes con paro cardíaco. El resultado ha mostrado diferencias apreciables en los
estimativos puntuales con intervalos de confianza ampliamente superpuestos, y un valor p para la
prueba de heterogeneidad de 0,21 y un I2 de 35%.
Dos ensayos incluyeron tanto pacientes en quienes la asistolia era la responsable del paro cardiaco, así
como pacientes con fibrilació n ventricular como ritmo de paro. Uno de estos dos ensayos reportó un
beneficio estadísticamente significativo limítrofe – nuestro aná lisis fue limítrofe no significativo- de la
vasopresina sobre la epinefrina, restringido a pacientes con asistolia (en comparació n con pacientes
con paro inducido por fibrilació n ventricular).
No es muy probable que el aná lisis del subgrupo pueda explicar la inconsistencia moderada en los
resultados. El azar puede explicar el efecto del subgrupo putativo y la hipó tesis falla en los otros
criterios (incluyendo un nú mero pequeñ o de hipó tesis a priori y la consistencia del efecto). En este caso
los desarrolladores de las guías deben formular las recomendaciones con base en un estimativo
agrupado de los datos de ambos grupos. Si la calidad de la evidencia se debe o no disminuir por
inconsistencia es otro juicio; nosotros argumentaríamos a favor de no bajar por inconsistencia.

3.  Evidencia indirecta

Se está má s confiado en los resultados cuando hay evidencia directa. La evidencia directa consiste en investigaciones que
comparan directamente las intervenciones en las que se está interesado, aplicadas en la població n de interés y que mide
los desenlaces importantes para los pacientes.
Los autores de revisiones sistemá ticas y los paneles de las guías deben considerar hasta qué punto está n confiados en la
aplicabilidad de la evidencia en su pregunta relevante, y de acuerdo a esto disminuir la calidad de la evidencia en uno o
dos niveles.
Para los autores de las revisiones sistemáticas
La evidencia directa es juzgada por los usuarios de las tablas de evidencia, dependiendo de la població n blanco, la
intervenció n y los desenlaces de interés. Los autores de las revisiones deben responder la pregunta de investigació n
planteada, y por tanto van a calificar la evidencia directa que encuentran. Las consideraciones realizadas por los autores
de las revisiones sistemá ticas pueden ser diferentes a las de los paneles de las guías que utilizan revisiones sistemá ticas.
Entre má s clara y explícita se haya formulado la pregunta de investigació n, má s fá cil será para los usuarios entender los
juicios de los autores de la revisió n sistemá tica.
Existen cuatro fuentes de evidencia indirecta, que se describen a continuació n.

1. Diferencias en la població n (aplicabilidad)

Las diferencias entre las poblaciones de los estudios en una revisió n sistemá tica son un problema comú n para los autores
de revisiones sistemá ticas y para los paneles desarrolladores de guías. Cuando esto ocurre la evidencia es indirecta. El
efecto de la calidad global de la evidencia variará dependiendo qué tan diferentes son las poblaciones, porque puede no
disminuirse la calidad o, puede disminuirse en uno o en dos niveles en casos muy extremos. La discusió n se refiere a
poblaciones humanas diferentes, pero en algunos casos la ú nica evidencia disponible será de estudios en animales como
ratas o primates. En general, disminuiríamos la calidad de dicha evidencia en dos niveles por tratarse de evidencia
indirecta. Sin embargo, los estudios en animales pueden proveer indicaciones importantes de toxicidad de medicamentos.
Aunque los datos de toxicidad en animales no predicen con fiabilidad la toxicidad en los humanos, la evidencia de
toxicidad en animales debe generar precaució n en las recomendaciones. Otros tipos de estudios no realizados en humanos
(p.ej. Evidencia de laboratorio) puede generar evidencia de calidad alta.
Ejemplo 5.16. Evidencia indirecta en población (Disminuido en dos niveles)
Estudios aleatorizados de calidad alta han demostrado la efectividad del tratamiento antiviral para la
influenza estacional. El panel juzga que la biología de la influenza estacional era suficientemente
diferente de aquella de la influenza aviar (el organismo de la influenza aviar puede responder mucho
menos a los agentes antivirales que la influenza estacional), la calidad de esa evidencia debe
disminuirse en dos niveles, de alta a baja por tratarse de evidencia indirecta.
Ejemplo 5.17.Estudios no humanos que proporcionan evidencia de alta calidad (no se disminuye)
Considere la evidencia de laboratorio acerca del cambio en los patrones de resistencia bacteriana a los
agentes antimicrobianos (p.ej. Emergencia de estafilococo aureusmeticilino resistente SAMR). Estos
hallazgos de laboratorio pueden constituirse evidencia de alta calidad en cuanto a la superioridad de
los antibió ticos a los cuales es sensible el SAMR versus la meticilina como tratamiento inicial en
pacientes con sospecha de sepsis por estafilococo en escenarios de alta prevalencia de SAMR.

2. Diferencias en la intervenció n (aplicabilidad)

Los autores de las revisiones sistemá ticas deben hacer un esfuerzo por asegurar que solo estudios con intervenciones
relevantes se incluyan en sus revisiones. Sin embargo, pueden existir excepciones. Generalmente, cuando las
intervenciones indirectamente relacionadas con el estudio se incluyen en la revisió n, la calidad de la evidencia va a
disminuir. En algunos casos la intervenció n usada será la misma, pero puede ser aplicada de forma diferente dependiendo
del contexto.
Ejemplo 5.18. Intervenciones entregadas de forma diferente en diferentes escenarios (disminuido en un
nivel)
Una revisió n sistemática de terapias musicales para el autismo encontró que unos estudios evaluaron
estrategias estructuradas usadas má s frecuentemente en Norteamérica que en Europa. Como las
intervenciones eran diferentes, los resultados de estrategias estructuradas son má s aplicables en
Norteamérica y los resultados de estrategias menos estructuradas son má s aplicables en Europa.
Los panelistas deben considerar disminuir la calidad de la evidencia si la intervenció n no se pudiera implementar con el
mismo rigor o sofisticació n técnica en su contexto, así como se aplicó en el ECA del cual provienen los datos.
Ejemplo 5.19.Estudios de intervenciones relacionadas (disminuido en uno o dos niveles)
Los desarrolladores de las guías usualmente encuentran la mejor evidencia para abordar su pregunta
en estudios de intervenciones relacionadas, pero diferentes. Una guía que aborda el valor del tamizaje
con colonoscopia en cá ncer de colon, encontrará los ECAs de tamizaje con sangre oculta en materia
fecal que demuestran que dicha intervenció n disminuye la mortalidad por cá ncer de colon. El hecho de
disminuir en este caso la calidad en uno o dos niveles por tratarse de evidencia indirecta es un asunto
de juicio.
Ejemplo 5.20. Evidencia indirecta en intervenciones (no se disminuye)
Estudios má s antiguos demuestran alta eficacia con el uso de penicilina intramuscular para infecciones
gonocó cicas, pero las guías pueden razonablemente recomendar regímenes antibió ticos alternativos
basados en los patrones actuales de resistencia in vitro, lo que no implicaría disminuir la calidad de la
evidencia por tratarse de evidencia indirecta.
Ejemplo 5.21. Intervenciones no lo suficientemente diferentes (no se disminuye)  
Los estudios de Simvastatina demuestran reducció n en la mortalidad. Sugerir la administració n
nocturna versus diurna (porque hay una reducció n mayor de los niveles de colesterol) no justificaría
que se disminuya la calidad de la evidencia por diferencias en la intervenció n.

3. Diferencias en los desenlaces medidos (desenlaces alternativos)

La aproximació n GRADE especifica que aquellos que conducen revisiones sistemá ticas como aquellos desarrollando guías
de prá ctica deben comenzar especificando cada desenlace de interés importante. Los estudios disponibles pueden haber
medido el impacto de la intervenció n de interés en desenlaces relacionados, pero diferentes de aquellos de importancia
para los pacientes.
La diferencia entre los desenlaces deseados y los medidos pueden relacionarse al período del tiempo (p.ej. Desenlace
medido a los 3 meses versus a los 12 meses). Otra fuente de evidencia indirecta relacionada con la medició n de los
desenlaces es el uso de puntos finales subrogados o sustitutos en lugar de los desenlaces de interés importantes para los
pacientes.
Tabla 5.7. Desenlaces subrogados comunes y sus correspondientes desenlaces importantes para
los pacientes
Desenlace (s) importante para los
Condición Desenlace (s) subrogado
pacientes
Síntomas diabéticos, ingreso
Glucosa sanguínea,
hospitalaria, complicaciones
Diabetes mellitus hemoglobina glicosilada
(cardiovasculares, oftalmoló gicas,
A1C.
renales, neuropá ticas)
Muerte cardiovascular, infarto de
Hipertensión Presió n arterial
miocardio, ataque cerebrovascular
Funcionalidad del paciente,
Demencia comportamiento, carga para el Funció n cognitiva
cuidador
Osteoporosis Fracturas Densidad ó sea
Síndrome de dificultad
Mortalidad Oxigenació n
respiratoria del adulto
Calidad de vida, morbilidad
Enfermedad renal
(trombosis de derivació n o falla Hemoglobina
estadio final
cardíaca), mortalidad
Trombosis venosa
Trombosis venosa Trombosis venosa sintomá tica
asintomá tica
Enfermedad Calidad de vida, exacerbaciones, Funció n pulmonar,
respiratoria crónica mortalidad capacidad de ejercicio
Lípidos en suero,
Enfermedad Infarto de miocardio, eventos calcificació n coronaria,
cardiovascular vasculares, mortalidad metabolismo
calcio/fosfato
En general, el uso de un desenlace subrogado requiere disminuir la calidad de la evidencia en un nivel o incluso en dos.
Tener en cuenta la biología, el mecanismo y la historia natural de la enfermedad puede ser de ayuda en la toma de
decisiones acerca de evidencia indirecta. Para los subrogados que se encuentran muy alejadas de las vías causales
putativas de los desenlaces importantes, nosotros disminuiríamos la calidad de la evidencia con respecto a este desenlace
en dos niveles. Los subrogados má s cercanos a las vías causales de los desenlaces producen que solo se disminuya la
calidad en un nivel.
Ejemplo 5.22.Diferencias en el tiempo de los desenlaces (disminuido un nivel)
Una revisió n sistemática de las intervenciones comportamentales y cognitivo- comportamentales
dirigidas a las conductas agresivas en personas con problemas de aprendizaje, mostró que un
programa de 3 semanas de entrenamiento en relajació n reducía significativamente el comportamiento
disruptivo a los 3 meses. Desafortunadamente, ningú n estudio elegible evaluó el desenlace de interés
predefinido por los autores, el impacto a largo plazo definido como un efecto mayor o igual a 9 meses.
El argumento para disminuir la calidad de la evidencia por evidencia indirecta se hace má s fuerte
cuando se considera que otros tipos de intervenciones comportamentales hayan demostrado beneficio
temprano que no hubiese continuado a los 6 meses del seguimiento
Ejemplo 5 23. Desenlaces alternativos (disminuido uno o dos niveles)
El metabolismo del calcio y el fosfato se encuentran alejados de la vía causal de los desenlaces
importantes para los pacientes como el infarto de miocardio, e implican disminuir la calidad de la
evidencia en uno o dos niveles. Los desenlaces alternativos que se encuentran má s cercanos a las vías
causales de los desenlaces importantes tales como la calcificació n coronaria en el infarto de miocardio,
la densidad ó sea en las fracturas, y la calcificació n de los tejidos blandos en el dolor, implican bajar la
calidad en un nivel por evidencia indirecta.
Ejemplo 5.24. Incertidumbre en la relación entre el subrogado y los desenlaces subrogados (disminuido en
uno o dos niveles)
Los investigadores evaluaron la “validez” de la sobrevida libre de progresió n como un subrogado para
la sobrevida global en las quimioterapias basadas en antraciclinas y taxanos en cá ncer de seno
avanzado. Encontraron que había una asociació n estadísticamente significativa entre la sobrevida libre
de progresió n y la sobrevida global en los ensayos aleatorizados analizados, pero predecir la sobrevida
global usando la sobrevida libre de progresió n siguió siendo incierto. Disminuir la calidad en un nivel
sería apropiado en esta situació n.

4. Comparaciones indirectas

Ocurre cuando no se encuentra disponible una comparació n entre la intervenció n A versus B, pero se comparó A versus C
y a su vez se comparó B versus C. Dichos estudios permiten comparaciones indirectas de la magnitud del efecto de A
versus B. Como resultado de esta comparació n indirecta, la evidencia es de menor calidad que la que produciría una
comparació n cara a cara A y B.
La validez de una comparació n indirecta descansa en el supuesto que los factores del diseñ o del estudio (los pacientes,
intervenciones, medició n de los desenlaces) y la calidad metodoló gica no son lo suficientemente diferentes como para
resultar en efectos diferentes (en otras palabras, las verdaderas diferencias en el efecto explican las diferencias
aparentes). Algunos autores se refieren acerca de esto como “supuesto de similitud”. Como este supuesto siempre es
dudoso, las comparaciones indirectas siempre implican bajar la calidad de la evidencia en un nivel. El hecho de
disminuirlo dos niveles depende de la posibilidad que los factores alternativos (població n, intervenciones, co-
intervenciones, desenlaces y métodos del estudio) expliquen o escondan las diferencias en el efecto.
Ejemplo 5.25. Comparaciones indirectas de dosis bajas versus dosis intermedia de aspirina (disminuido en
un nivel)
Una revisió n sistemática que consideraba los méritos relativos de la dosis baja versus dosis intermedia
de aspirina en la prevenció n de oclusió n del injerto después de una cirugía de bypass de arterias
coronarias. Los autores encontraron cinco ensayos relevantes que comparaban la aspirina con el
placebo, de los cuales dos evaluaron dosis intermedia y tres, dosis baja de aspirina. El riesgo relativo
combinado de la probabilidad de oclusió n del injerto fue 0.74 (IC 95%: 0,60- 0,91) en el ensayo de bajas
dosis y 0.55 (IC 95%: 0,28- 0,82) en el ensayo de dosis intermedia. El riesgo relativo de dosis
intermedia versus baja fue 0.74 (IC 95%: 0,52- 1,06; P = 0,10) sugiriendo la posibilidad de un mayor
efecto con los regímenes de dosis intermedia. Esta comparació n es má s débil que si los ensayos
aleatorizados hubiesen comparados dos regímenes de dosis de aspirina directamente, porque hay otras
características de los estudios que pueden ser responsables de las diferencias encontradas.
Ejemplo 5.26.Metanálisis en red- Comparaciones indirectas -(disminuido en dos niveles)
Investigadores condujeron una comparació n simultá nea de tratamientos de 12 antidepresivos de
nueva generació n. Los autores evaluaron 117 ensayos aleatorizados que involucraron má s de 25000
pacientes; el artículo no proporcionó informació n acerca de la similitud entre los pacientes, o acerca de
las co-intervenciones. Sin embargo, en correspondencia con los autores, ellos indicaron que excluyeron
los ensayos con depresió n resistente al tratamiento, argumentando que distintos tipos de depresió n
tienen respuestas similares a los tratamientos, y que es muy probable que los pacientes no recibieran
co-intervenciones importantes. Con respecto al riesgo de sesgo, los autores informaron que usando la
estrategia de la colaboració n Cochrane para evaluarlo, la mayoría de los estudios tenía un riesgo de
sesgo “no claro”, y 12 tuvieron un riesgo bajo de sesgo; probablemente un menor nú mero tenían riesgo
alto de sesgo. Esto resulta ú til, aú n cuando “no claro” representa un rango muy amplio para el riesgo de
sesgo. Todos los estudios incluían comparaciones cara a cara entre al menos dos de los 12
medicamentos: los 117 ensayos involucraron 70 comparaciones individuales (p.ej. Dos comparaciones
entre fluoxetina y fluvoxamina). Los autores reportaron diferencias estadísticamente significativas
entre comparaciones directas e indirectas en solo tres de las 70 comparaciones acerca de respuesta a
medicamentos. Sin embargo, el poder de esas evaluaciones probablemente no era tan alto. En general,
estaríamos inclinados a tener precaució n con estos metaná lisis en red y bajar la calidad de la evidencia
en dos niveles por evidencia indirecta.

4. Imprecisió n

En general los resultados son imprecisos cuando los estudios incluyen relativamente pocos pacientes y pocos eventos y
por tanto tienen intervalos de confianza (IC) amplios alrededor del estimativo del efecto. En este caso, uno puede juzgar la
calidad de la evidencia má s baja de lo que se consideraría a causa de incertidumbre acerca de los resultados.
Adicionalmente a describir có mo se debe usar el intervalo de confianza del 95% como criterio principal para hacer juicios
acerca de la imprecisió n, también se introduce el tamaño óptimo de información (TOI) (conocido como OIS por su
nombre en inglés optimal information size) como un segundo criterio, necesario para determinar la precisió n adecuada.
Como GRADE define la calidad de la evidencia de forma diferente para las revisiones sistemá ticas y las guías, los criterios
para disminuir por imprecisió n difieren en tanto que los panelistas de las guías necesitan considerar el contexto de una
recomendació n y otros desenlaces, mientras que el juicio acerca de un desenlace específico en una revisió n sistemá tica es
libre del contexto. Es por esto, que la aproximació n GRADE sugiere lineamientos separados para determinar la
imprecisió n, como se describe en las siguientes secciones.
5. Imprecisió n en las guías de prá ctica clínica

La calidad de la evidencia se refiere hasta qué punto nuestra confianza en el estimativo de efecto es adecuada para
soportar una decisión particular. En las guías se consideran todos los desenlaces en conjunto, atendiendo si son
críticos o importantes, pero no críticos.
Para los paneles de las guías la decisió n de bajar la calidad de la evidencia por imprecisió n depende del umbral que
representa la base para una decisió n de manejo y tomar en consideració n el equilibrio entre consecuencias deseables e
indeseables. Determinar el umbral aceptable inevitablemente involucra un juicio que debe hacerse explícito.
Consideraciones sobre imprecisión en desenlaces dicótomos
Los desarrolladores de las guías deben considerar el contexto de una recomendació n particular para determinar si los
resultados de un desenlace dicó tomo (binario) son lo suficientemente precisos para soportar dicha recomendació n.
Establecer un umbral específico para un estimativo aceptable de un efecto de tratamiento involucrará un juicio en el
contexto de factores como efectos adversos, toxicidad medicamentosa y costos (ver ejemplo 5.27). Examinar los límites
superiores e inferiores del IC en relació n con el umbral establecido por el panel de la guía, y a continuació n determinar si
los criterios para el tamañ o ó ptimo de informació n se cumplen, ayudará a decidir si se debe bajar la calidad de la evidencia
por imprecisió n.
Se sugiere que los desarrolladores de las guías consideren los siguientes pasos para decidir si deben o no bajar la calidad
de la evidencia por imprecisió n:

 Primero considerar si los límites del IC se encuentran en el mismo lado del umbral de decisió n establecido. ¿El IC
cruza el umbral de decisión clínica entre recomendar y no recomendar el tratamiento? Si la respuesta
es afirmativa (p.ej. El IC cruza el umbral), baje por imprecisión independientemente de dó nde se encuentre el
estimativo puntual y el IC. (ver ejemplo 5.27)
 Si no se cruza el umbral, ¿se cumplen los criterios para un tamaño óptimo de información? (ver nota en TOI y
ejemplo 5.29)
 O,
 ¿la tasa de eventos es muy baja y el tamañ o de la muestra muy grande (al menos 2000, y quizá s 4000 pacientes)? (ver
nota de excepció n)
 Si ninguno de los criterios se cumple, baje por imprecisió n.

Aunque los intervalos de confianza por lo general capturan el grado de imprecisió n, pueden resultar engañ osos en algunas
circunstancias a causa de fragilidad. Específicamente los IC pueden parecer muy robustos, pero un nú mero pequeñ o de
eventos puede producir resultados frá giles. Los intervalos de confianza asumen que todos los pacientes tienen el mismo
riesgo (p.ej. Hay un equilibrio pronó stico), y dicha presunció n es falsa. La aleatorizació n mejora un poco este problema en
la medida en que equilibra los factores pronó sticos entre los grupos de intervenció n y control, pero la ú nica forma de
confiar en que se logra el balance pronó stico es cuando el tamañ o de la muestra es grande. Un gran efecto de tratamiento
en presencia de tamañ os de muestra pequeñ os, incluso en ECAs, puede ser debido a un desequilibrio pronó stico e implica
tener precaució n.
Ensayos tempranos que evalú an una pregunta, particularmente si son pequeñ os, van a sobreestimar sustancialmente el
efecto del tratamiento. Una revisió n sistemá tica de estos ensayos también generará un sobreestimado del efecto. Algunos
ejemplos de metaná lisis que generaron efectos beneficiosos o perjudiciales que fueron refutados posteriormente por
ensayos má s grandes incluyen los estudios del uso de magnesio en la reducció n de la mortalidad después de un infarto de
miocardio, los inhibidores de la enzima convertidora de angiotensina en la reducció n de la incidencia de diabetes, los
nitratos en la reducció n de la mortalidad infarto de miocardio, y la aspirina para reducir la hipertensió n inducida por el
embarazo. Una circunstancia similar ocurre cuando los ensayos se detienen tempranamente por beneficios (p.ej. Antes de
alcanzar el nú mero necesario total de eventos, o el tamañ o de la muestra, que se había calculado para que el ensayo tenga
poder suficiente). Estudios simulados y la evidencia empírica sugiere que los ensayos detenidos de forma temprana
sobreestiman los efectos del tratamiento (ver ejemplo 5.30). Cuando un efecto de un tratamiento se sobreestima, el IC
alrededor del efecto puede parecer falsamente adecuada para cumplir el umbral de decisió n clínica, indicando precisió n
adecuada.
Por tanto, el criterio del umbral de decisió n clínica no es suficiente para lidiar con el asunto de precisió n, y se requiere
también el criterio de tamañ o ó ptimo de informació n.
Nota: Tamaño óptimo de información (TOI). Para hacer frente a la vulnerabilidad del intervalo de confianza como un
criterio para adecuada precisión, se sugiere el “tamaño óptimo de información” como segundo criterio necesario a
considerar. El TOI se aplica como una regla de acuerdo a lo siguiente:
 Si el número total de pacientes incluidos en una revisión sistemática es menor que el número de pacientes
generados por el cálculo convencional del tamaño de la muestra, para un único ensayo con adecuado
poder, considere bajar por imprecisión.

Existen muchas calculadoras disponibles en línea para el cálculo del tamaño de la muestra. Una simple de usar se puede
encontrar en http://www.stat.ubc.ca/rollin/stats/ssize/b2.html . Como alternativa al cálculo del TOI los desarrolladores
de las guías también pueden consultar las figuras que muestran la relación entre el tamaño de la muestra requerido, o
el número de eventos necesario y el tamaño del efecto. Ver en el ejemplo 5.28 que demuestra cómo se usan estas
figuras.
Excepción: Tasa de eventos baja con tamaños de muestra grandes, una excepción a la necesidad de TOI
Cuando las tasas de eventos son bajas, los IC alrededor del efecto relativo pueden ser amplios, pero si los tamañ os de
muestra son lo suficientemente grandes, es probable que el equilibrio pronó stico se haya alcanzado en efecto y que el IC
alrededor del efecto absoluto sea angosto. En tales circunstancias el juicio acerca de la precisió n se puede basar en el IC
alrededor del efecto absoluto y puede no disminuir la calidad de la evidencia por imprecisió n. (Ver ejemplos 5.31 y 5.32)
Ejemplo 5.27. Establecer umbrales de decisión clínica para determinar la imprecisión en las guías.
Una revisió n sistemá tica hipotética de ECAs de una intervenció n para prevenir un evento
cerebrovascular llega a un estimativo puntual de reducció n absoluta en eventos cerebrovasculares
de 1,3% con un IC 95% de 0,06% a 2,0%. Esto se traduce a un nú mero necesario a tratar (NNT) de
77 (100÷1,3) pacientes por añ o para prevenir un evento cerebrovascular. El IC 95% alrededor del
NNT es de 50 a 167. Por tanto, mientras que 77 es nuestro mejor estimativo, es posible que se
necesite tratar tan solo 55 o hasta 167 personas para prevenir un ú nico evento cerebrovascular
Si consideramos que la intervenció n es un medicamento sin efectos adversos serios, inconveniencia mínima y un costo
modesto, podríamos establecer un umbral para una reducció n absoluta de eventos cerebrovasculares de 0,5% o un NNT=
200, incluso este pequeñ o efecto garantizaría una recomendació n. El IC completo (0,6% a 2,0%) cae a la izquierda del
umbral del 0,5% y por tanto excluye cualquier beneficio menor del umbral. Podemos concluir que la precisió n de la
evidencia es suficiente para soportar una recomendació n y no bajar la calidad de la evidencia por imprecisió n.
Por otro lado, si el medicamento se asocia con toxicidad seria, estaríamos reacios a hacer una recomendació n a menos que
la reducció n absoluta del evento cerebrovascular sea al menos del 1% o NNT =100 (línea roja en la figura previa). En estas
circunstancias, la precisió n es insuficiente ya que el IC abarca efectos del tratamiento menores que este umbral (p.ej. Tan
pequeñ os como 0,6%). Una recomendació n a favor de la intervenció n todavía sería apropiada si el estimativo puntual de
1,3% llega al umbral, pero bajaríamos la calidad de la evidencia en un nivel por imprecisió n (p.ej. De alta a moderada).
Como una alternativa al cálculo del TOI, los autores de las revisiones y las guías pueden también consultar una figura para
determinar el TOI.
Ejemplo 5.28. Uso de figuras para determinar el tamaño óptimo de información
La figura a continuació n presenta el tamañ o de muestra requerido (asumiendo un α de 0,05 y β de 0,2)
para una reducció n relativa del riesgo (RRR) del 20%, 25% y 30% a lo largo de diferentes niveles de
riesgos en el grupo control. Por ejemplo, si el mejor estimativo del grupo control fue 0,2 y se especifica
una RRR del 25%, el TOI es de 2000 pacientes aproximadamente.

El poder, sin embargo, se relaciona en mayor medida al nú mero de eventos que al tamañ o de la muestra.
Nota: Elección de la Reducción Relativa del Riesgo
Nosotros hemos sugerido usar RRR del 20% al 30% para calcular el TOI. La elección de la RRR es una cuestión de juicio, y
existirán casos en las que la información recolectada previamente sugiere elegir un valor menor o un mayor valor de la
RRR para calcular el TOI.
Ejemplo 5.29. Aplicación el criterio del TOI
Una revisió n sistemá tica de flavonoides para el tratamiento de hemorroides, evaluó el desenlace de
falla en alcanzar una reducció n sintomá tica importante. Al momento de calcular el TOI, los autores
fueron conservadores utilizando un α de 0,01, una RRR del 20%, un β de 0,2 y un riesgo del grupo
control del 50%. El TOI calculado fue marginalmente mayor que el total del tamañ o de la muestra
incluido (1194 vs. 1102 pacientes).
Un ejemplo má s dramá tico proviene de una revisió n sistemá tica y metaná lisis de fluoroquinolonas
como profilaxis en pacientes con neutropenia. Solo uno de ocho estudios que contribuyeron al
metaná lisis cumplía con los criterios convencionales de significancia estadística, pero el estimativo
agrupado sugirió una reducció n impresionante y robusta de la mortalidad relacionada con infecció n
con el uso de profilaxis (RR: 0,38; IC 95%: 0,21 a 0,69). El nú mero total de eventos fue solo de 69 y el
nú mero total de pacientes 1022. Considerando el riesgo de grupo control de 6,9% y estableciendo un
α de 0,05, β de 0,02 y una RRR de 25% el resultado del TOI es de 6400 pacientes- este metaná lisis falla
en cumplir el criterio de TOI, y es necesario bajar por imprecisió n
Detener tempranamente los ensayos puede resultar en un efecto sobreestimado del tratamiento y un juicio incorrecto de
precisió n.
Ejemplo 5.30.Juicio incorrecto de precisión
Considere un ensayo aleatorizado de β bloqueadores en 112 pacientes que se someten a cirugía por
enfermedad vascular periférica que cumplió con los criterios preestablecidos de O´Briene-Fleming
para detenerse tempranamente. De 59 pacientes a los que se les dio bisoprolol, 2 sufrieron muerte o
infarto de miocardio no fatal, así como 18 de 53 pacientes del grupo control. A pesar de un total de 20
eventos solamente, el IC 95% alrededor del cociente de riesgo (0,02 a 0,41) excluye todo menos un
gran efecto del tratamiento. El IC sugiere que el menor efecto plausible es una RRR del 59%. Una
recomendació n para administrar este tratamiento basado en estos resultados se presume que tendría
adecuada precisió n.
Sin embargo, existen razones para poner en duda la magnitud del estimativo del efecto de este ensayo.
En primer lugar, es mucho mayor que el esperado basá ndose en el efecto de los β bloqueadores en
muchas otras situaciones. Segundo el estudio se terminó tempranamente con base al gran efecto. En
tercer lugar, existe una sensació n de fragilidad con respecto a estos resultados considerando que una
RRR menor del 59% resulta imposible basá ndose solo en 20 eventos, y se viola el sentido comú n. Si se
movieran solo cinco eventos del grupo control al de intervenció n, el resultado perdería su significancia
estadística y el nuevo estimado puntual (una RRR de 52%) se encuentra por fuera del IC original.
Ejemplo 5.31. Concentrarse en efectos absolutos cuando las tasas de eventos son bajas y el tamaño de las
muestras es grande
Una revisió n sistemática de siete ensayos aleatorizados de angioplastia versus endarterectomía
carotídea para enfermedad cerebrovascular encontró que un total de 16 de 1482 (1,1%) pacientes que
recibieron angioplastia murieron, así como 19 de 1465(1,3%) de los llevado a endarterectomía.
Mirando al IC 95% (0,43 a 1,66) alrededor del estimativo puntual del riesgo relativo (0,85), los
resultados son consistentes con un beneficio sustancial y un riesgo sustancial, sugiriendo la necesidad
de bajar por imprecisió n.
Sin embargo, la diferencia absoluta sugiere una conclusió n diferente. La diferencia absoluta en las
tasas de muerte entre los dos procedimientos es muy pequeñ a (diferencia absoluta de 0,2% con un IC
95% que oscila entre -0,5% a 1,0%). Establecer un límite en el umbral de decisió n clínica del 1% de
diferencia absoluta (la diferencia mínima importante para los pacientes), los resultados de la revisió n
sistemá tica excluyen una diferencia favoreciendo alguno de los procedimientos. Si uno aceptara este
umbral de decisió n clínica como apropiado, no se bajaría por imprecisió n. Se podría argumentar que
una diferencia de menos del 1% podría ser importante para los pacientes: si fuese el caso, se bajaría
por imprecisió n, incluso después de considerar el IC alrededor de la diferencia absoluta, puesto que el
IC cruzaría el umbral.
Ejemplo 5.32. No hay necesidad de bajar por imprecisión cuando los tamaños de muestra son muy
grandes
Un metaná lisis de ensayos aleatorizados de β bloqueadores para prevenir eventos cardiovasculares en
pacientes sometidos a cirugía no cardíaca sugirió una duplicació n en el riesgo de eventos
cerebrovasculares con los β bloqueadores (RR: 2,2; IC 95% 1,39 a 3,56). La mayoría de los ensayos en
el metaná lisis no tenían limitaciones importantes, la evidencia era directa y consistente y no se había
detectado sesgo de publicació n. Considerando el límite inferior del IC (un incremento en el RR de
39%), el umbral para una precisió n adecuada no se iba a cruzar si se creía que la mayoría de los
pacientes serían reacios a usar bloqueadores con un aumento en el RR de eventos cerebrovasculares
del 39%.
Sin embargo, el nú mero total de eventos (75), parecía insuficiente, dicha inferencia se confirma con el
cá lculo del TOI (α 0,05, β 0,2 usando la tasa de eventos del 1% del grupo de β bloqueadores como
control, y Δ 0,25, un tamañ o de muestra total 43586 en comparació n con los 10889 pacientes
incluidos). Los lineamientos propuestos para calcular la precisió n implicarían bajar la calidad por
imprecisió n.
Sin embargo, con un tamañ o de muestra de má s de 5000 pacientes por grupo, es probable que la
aleatorizació n hubiese logrado crear el equilibrio pronó stico. Si esto es cierto, los β bloqueadores
realmente incrementan el riesgo de eventos cerebrovasculares. Y por tanto en esta situació n sería
apropiado no disminuir por precisió n. Informació n preliminar sugiere que para un riesgo basal bajo
(<5%) uno estaría seguro con respecto al equilibrio pronó stico con un total de 4000 pacientes (2000
pacientes por grupo). Disponer de este nú mero de pacientes implicaría no bajar por imprecisió n a
pesar de no cumplir el criterio de TOI.
Consideraciones para desenlaces continuos
Las consideraciones para bajar la calidad de la evidencia por imprecisió n en las variables continuas siguen la misma
lógica que para las variables binarias. El proceso comienza bajando la calidad por imprecisió n si una recomendació n se
alterara si el límite inferior o superior del IC representara el verdadero efecto. Si el IC no cruza este umbral, pero la
evidencia falla en cumplir el criterio de TOI, los autores de la guía deberían considerar bajar la calidad de la evidencia por
imprecisió n. En este caso, juzgar el criterio del TOI requerirá el cá lculo del tamañ o de la muestra para variables continuas.
En el contexto de una guía, el umbral de decisió n clínica para un estimativo de tratamiento aceptable requiere
consideració n del contexto completo de una recomendació n, incluyendo otros desenlaces, como todos los potenciales
beneficios y efectos adversos importantes (ver ejemplo 5.33).
Ejemplo 5.33. Considerar el contexto completo de una recomendación
Una revisió n sistemá tica sugiere que la administració n de corticoides disminuye la estancia
hospitalaria en pacientes con exacerbaciones de enfermedad pulmonar obstructiva cró nica (EPOC) en
1,42 días (IC 95%: 0,65 a 2,2). El límite inferior del IC es 0,65 días, un tamañ o de efecto muy pequeñ o
que no es considerado importante para los pacientes.
Mientras tanto, los esteroides también reducen el riesgo de falla terapéutica (definido de forma
variable) durante el seguimiento intrahospitalario y extra-hospitalario (RR 0,54; IC 95%: 0,41 a 0,71).
El mejor estimativo de la probabilidad de deterioro sintomá tico en aquellos no tratados con esteroides
es aproximadamente 30%. Administrar esteroides a estos pacientes reduce el riesgo de 30% a 16%
(30-[0,54x30]), una diferencia de 14%, y el efecto es poco probable que sea menor del 9% (30-
[0,71x30]).
Los efectos adversos fueron pobremente reportados en los estudios. El ú nico problema reportado
consistentemente fue la hiperglicemia, que se incrementó hasta casi seis veces, representando un
incremento absoluto del 15% al 20%. El grado en el cual esta hiperglicemia tiene consecuencias
importantes para los pacientes, es incierto. Una conclusió n posible de esta informació n, es que dada la
magnitud de la reducció n en el deterioro y la falta de evidencia que sugiera efectos adversos
importantes, un beneficio en la reducció n de inclusive 0,65 días del promedio de hospitalizació n
implicaría la administració n de esteroides. Si esta fuera la conclusió n, el IC (0,65 a 2,2) no cruzaría el
umbral en la toma de decisió n y el panel de la guía procedería a considerar si la evidencia cumple el
criterio de TOI.

6. Imprecisió n en las revisiones sistemá ticas

La calidad de la evidencia se refiere a la confianza en el estimativo del efecto. En las revisiones sistemá ticas cada
desenlace se considera de forma separada.
Los autores de las revisiones sistemá ticas no deberían bajar la calidad por imprecisió n con base a un balance entre
consecuencias deseables e indeseables, no hace parte de su trabajo hacer juicios de valor y preferencias. Por tanto, al
momento de juzgar la precisió n no se deben concentrar en el umbral que representa la base para tomar una decisió n de
manejo, sino que por el contrario deben considerar el tamañ o ó ptimo de informació n para hacer estos juicios.
Consideraciones para desenlaces dicótomos
Sugerimos que los autores de las revisiones sistemá ticas consideren los siguientes pasos para decidir bajar la calidad de la
evidencia por imprecisió n:

 Si el criterio de tamañ o ó ptimo de informació n no se cumple, baje por imprecisión, a menos que el tamañ o de
muestra sea muy grade (al menos 2000, e incluso 4000 pacientes)
 Si se cumple el criterio de TOI y el IC 95% excluye el no efecto (p.ej. IC alrededor del RR excluye 1,0), no baje
por imprecisión
 Si se cumple el criterio del TOI, y el IC 95% sobrepasa el no efecto (p.ej. IC incluye el RR de 1,0) baje por
imprecisión si el IC falla en excluir los beneficios importantes o los riesgos importantes (ver ejemplo 8)

Nota: Para poder ser usadas por los desarrolladores de las guías, una revisión sistemática puede señalar cuales umbrales
de beneficio implicarían bajar por imprecisión.
Aunque cumplir el umbral del TOI en la presencia de un IC que excluye el no efecto indica una precisió n adecuada, lo
mismo no es cierto cuando el estimado puntual falla en excluir el no efecto. Considere el ejemplo a continuació n, éste
sugiere que cuando el criterio de TOI se cumple y el IC incluye el efecto nulo, los autores de la revisió n sistemá tica deben
considerar si el IC incluye un beneficio o riesgo apreciable.
Ejemplo 5.34. Cumplir el umbral del TOI puede no asegurar la precisión
Considere la revisió n sistemá tica de los β bloqueadores en cirugía no cardiaca previamente
introducida en el ejemplo 5.32. Para la mortalidad total, con 295 muertes y un tamañ o de muestra de
má s de 10000, el estimativo puntual y el IC 95% para el RR con β bloqueadores fue 1,24 (IC 95% 0,99
a 1,56). A pesar del gran tamañ o de muestra y el nú mero de eventos, uno puede ser reacio a concluir
que la precisió n es adecuada cuando hay una reducció n pequeñ a de la mortalidad con los β
bloqueadores, así como es posible un incremento del 56%.
Los autores deben usar su juicio al decidir qué constituye un beneficio y un riesgo apreciable y justificar sus
elecciones. Si los autores fallan en argumentar el umbral, nuestro umbral predeterminado sugerido para un beneficio o
riesgo apreciable que garantiza bajar es una RRR o un incremento del RR de 25% o mayor.
Consideraciones para desenlaces continuos
Los autores de las revisiones pueden calcular el TOI para una variable continua exactamente de la misma forma que lo
hacen para variables binarias, especificando umbral de los errores α y β (hemos sugerido 0,05 y 0,2) y del Δ, y
seleccionando la desviació n está ndar poblacional apropiada basados en uno de los estudios relevantes.
Si se va a bajar por imprecisió n depende de la elección de la diferencia (Δ) que se desea detectar y el tamañ o de la
muestra requerido. De nuevo, el mérito de la aproximació n GRADE no es que asegura un acuerdo entre individuos
racionales, sino que los juicios que se hacen, se hagan de forma explícita.
Ejemplo 5.35. Los juicios acerca de la imprecisión dependen de la elección de la diferencia a detectar
Considere la revisió n sistemá tica previamente introducida en el ejemplo 7, que sugiere que la
administració n de corticoesteroides disminuye la estancia hospitalaria en pacientes con
exacerbaciones de enfermedad pulmonar obstructiva cró nica (EPOC) en 1,42 días (IC 95%: 0,65 a 2,2).
Elegir un Δ de 1,0 (insinuando que una reducció n en la estancia hospitalaria de má s de un día es
importante) y usando la desviació n está ndar asociada con la estancia hospitalaria en los cuatro
estudios relevantes (3,4, 4,5, y 4,9) produce unos tamañ os de muestra requeridos correspondientes de
364, 636 y 754. El numero de 602 pacientes disponibles para este aná lisis no cumple el criterio de TOI
y uno consideraría bajar por imprecisió n.
De haber querido detectar una diferencia má s pequeñ a (p.ej. 0,5 días), el tamañ o de la muestra de los
estudios habría sido inequívocamente insuficiente. De haber elegido un valor mayor (p.ej. 1,5 días) el
tamañ o de la muestra de 602 habría cumplido el criterio de TOI.
Desenlaces reportados como una diferencia promedio estandarizada
Un desafío particular al momento de calcular el TOI para las variables continuas aparece cuando los estudios han utilizado
diferentes instrumentos para medir un constructo, y el estimativo agrupado se calcula usando una diferencia promedio
estandarizada. Los autores de revisiones sistemá ticas y de las guías se van a encontrar por lo general con esta situació n al
momento de tratar con los desenlaces reportados por pacientes tales como la calidad de vida. En este contexto, se sugiere
que los autores elijan uno de los instrumentos disponibles (idealmente uno en el cual esté disponible un estimativo de la
diferencia mínima importante) y se calcule el TOI usando este instrumento.
Como puede generar falsas esperanzas, dudamos en ofrecer umbral como regla de oro para el nú mero absoluto de
pacientes requeridos para una precisió n adecuada para variables continuas. Por ejemplo, usar el α está ndar (0,05) y β
(0,2) y el tamañ o del efecto de 0,2 desviaciones está ndar representando un efecto pequeñ o, requiere un tamañ o de
muestra total aproximado de 400 (200 por grupo), tamañ o de muestra que puede no ser suficiente para asegurar un
equilibrio pronó stico.
Sin embargo, cuando hay tamañ os de muestra que son menores de 400, los autores de la revisió n y los desarrolladores de
las guías deben considerar bajar por imprecisió n. En el futuro simulaciones estadísticas van a proporcionar la base para
una regla de oro robusta para los desenlaces continuos. Las limitaciones para un umbral del tamañ o de muestra arbitrario
sugieren la conveniencia de abordar la precisió n calculando el TOI relevante para cada variable continua.

7. Bajar dos niveles por imprecisió n


Cuando existen muy pocos eventos y los IC alrededor de los estimativos del efecto absoluto y relativo, que incluye tanto un
beneficio como un riesgo apreciable, los autores de las revisiones y los desarrolladores de las guías deben considerar bajar
la calidad de la evidencia en dos niveles.
Ejemplo 5.36. Bajar dos niveles por imprecisión
Una revisió n sistemá tica del uso de prebió ticos en la inducció n de la remisió n de la enfermedad de
Crohn encontró un ensayo clínico aleatorizado que incluía 11 pacientes. Cuatro de cinco pacientes en
el grupo de tratamiento lograron remisió n, y cinco de seis pacientes en el grupo control lograron
remisió n. El estimativo puntual del riesgo relativo (0,96) sugiere no diferencia, pero el IC incluía una
reducció n de la probabilidad de remisió n de casi la mitad o un incremento del riesgo de má s del 50%
(IC 95%; 0,56-1,69). Como hay pocos eventos y el IC incluye beneficios y riesgos apreciables, uno
podría bajar la calidad de la evidencia dos niveles por imprecisió n.

5. Sesgo de publicació n

El sesgo de publicación es una sub o sobre estimació n sistemá tica de los efectos beneficiosos o riesgosos subyacentes
debido a una publicación selectiva de estudios. La confianza en los estimativos combinados de los efectos de una
revisió n sistemá tica puede disminuirse cuando se sospecha sesgo de publicació n, incluso cuando los estudios por si solos
tienen bajo riesgo de sesgo.
Nota: Algunos sistemas que evalúan la calidad del cuerpo de evidencia usan el término “sesgo de reporte” con 2
subcategorías: reporte selectivo de desenlaces y sesgo de publicación. Sin embargo, GRADE considera el reporte
selectivo de desenlaces bajo el riesgo de sesgo (limitaciones del estudio), puesto que se puede evaluar en cada estudio.
Por el contrario, cuando todo un estudio se queda sin publicar (no reportado), se puede evaluar la posibilidad de sesgo
de publicación solo con mirar el grupo de los estudios. Actualmente GRADE sigue el abordaje de la Colaboración
Cochrane y considera el reporte selectivo de desenlaces como un aspecto del riesgo de sesgo en los estudios
individuales (The Cochrane Collaboration’s tool for assessing risk of bias. [Higgns 2011b]).
La evidencia empírica sugiere que los estudios que reportan hallazgos estadísticamente significativos son má s probables
que sean aceptados para publicació n que aquellos que reportan hallazgos estadísticamente insignificantes (“estudios
negativos”). El sesgo de publicació n aparece cuando un estudio completo no se reporta. La falta de éxito en identificar
estudios es un resultado típico de estudios que permanecen no publicados u obscuramente publicados (p.ej. En revistas
con circulació n limitada, no indexadas en grandes bases de datos, como resú menes de conferencias o tesis), y por tanto los
metodó logos han llamado este fenó meno como “sesgo de publicació n”. Los autores de revisiones sistemá ticas pueden
fallar en identificar estudios no publicados o que hayan sido publicados en revistas no indexadas, de circulació n limitada o
en literatura gris, aú n cuando empleen las técnicas má s rigurosas de bú squeda. Si no se implementan técnicas de
bú squeda rigurosas es difícil hacer un juicio de sesgo de publicació n puesto que los estudios pueden no ser identificados
debido a sesgo de publicació n como por un esfuerzo insuficiente para identificarlos.
El riesgo de sesgo de publicació n puede ser mayor en revisiones sistemá ticas de estudios observacionales que en las
revisiones de ECAs. Esto puede ocurrir especialmente si los estudios observacionales se conducen automá ticamente a
partir de registros de pacientes o historias clínicas. En estas instancias resulta difícil para el autor saber si el estudio
observacional que aparece en la literatura representa todo o una fracció n (usualmente aquellos que mostraron resultados
“interesantes”) de los estudios conducidos.
Tabla 5.8. Posibles fuentes de sesgo de publicación a lo largo del proceso de publicación
Fases de publicación
Acciones que contribuyen o resultan en sesgo
de investigación
Los estudios má s pequeñ os tienen mayor probabilidad de ser
Estudios preliminares “negativos” (p.ej. Aquellos con hipó tesis descartadas o fallidas) y
y pilotos permanecen sin publicar; las compañ ías clasifican algunos como
informació n del propietario
Los autores consideran que reportar un estudio “negativo” no es
Finalización del
interesante; y no invierten el tiempo y esfuerzo requerido en la
informe
publicació n
Los autores deciden someter el reporte “negativo” a revistas no
Elección de la revista
indexadas, de lenguas no nativas o de circulació n limitada.
Consideraciones El editor decide que el estudio “negativo” no amerita una revisió n
editorials de pares y rechaza el manuscrito.
Los pares revisores concluyen que los estudios “negativos” no
contribuyen al á rea de investigació n y recomiendan rechazar el
Revisión de pares
manuscrito. Lo que ocasiona que el autor busque una revista de
menor impacto. Retraso en la publicació n
Revisión del autor y El autor del manuscrito rechazado decide abstenerse de enviar
reenvío para nuevo un estudio “negativo” o lo envía má s tarde a otra revista (ver
sometimiento elecció n de la revista)
Las revistas retrasan la publicació n de estudios “negativos”. Los
Publicación del
propietarios interesados someten y son aceptados por diferentes
informe
revistas.
Los estudios con tamaños de muestra pequeños son má s propensos a no ser publicados o ignorados. Discrepancias
entre los resultados de metaná lisis de estudios pequeñ os y de estudios má s grandes posteriores pueden ocurrir hasta en
el 20% de los casos, el sesgo de publicació n puede contribuir de manera importante en dichas discrepancias. Por lo tanto
se debe sospechar sesgo de publicació n cuando la evidencia se limita a un pequeñ o nú mero de estudios pequeñ os. Esto
resulta especialmente cierto si muchos de estos estudios pequeñ os muestran beneficios de alguna intervenció n.
Los métodos para detectar el posible sesgo de publicació n en una revisió n sistemá tica incluyen inspecció n visual y
pruebas de asimetría en los grá ficos de embudo (para mayor informació n los lectores pueden consultar el
Manual Cochrane. Capítulo 104. Detectando sesgos de publicació n). El examen empírico de los patrones de los resultados
puede sugerir sesgo de publicació n si los resultados son asimétricos con respecto al resumen del estimado del efecto. Esto
se puede determinar tanto mediante inspecció n visual de la grá fica de embudo (como se muestra a continuació n) o a
partir de un resultado positivo en una prueba estadística de asimetría. Como regla de oro, la grá fica de embudo y las
pruebas estadísticas de asimetría se deben usar para detectar sesgo de publicació n si existen al menos 10 estudios
incluidos en el metaná lisis (algunos dicen que al menos 5 estudios).
Otra prueba utilizada para detectar sesgo de publicació n es el método de “recortar y llenar”, que es una extensió n del
grá fico de embudo. Esta técnica de “recortar y llenar” comienza quitando los estudios pequeñ os y “positivos” que no
tienen una contraparte negativa, dejando así un grá fico de embudo simétrico. El supuesto nuevo efecto verdadero se
calcula usando los efectos de los estudios incluidos en el nuevo grá fico de embudo. El siguiente paso es agregar los
estudios hipotéticos que reflejan los resultados de los estudios positivos, pero conservando el nuevo efecto estimado
combinado. Es importante notar que aú n si se detecta asimetría, puede no ser resultado de un sesgo de publicació n. Por
ejemplo, en estudios pequeñ os, efectos sobreestimados puede producir un grá fico de embudo asimétrico que podría
explicarse por limitaciones diferentes del sesgo de publicació n como una població n de estudio restrictiva. Para fortalecer
conclusiones en relació n con el sesgo de publicació n se recomienda usar mú ltiples pruebas.
Los metaná lisis recursivos acumulados, utilizados para detectar el sesgo de retraso en el tiempo, realizan un metaná lisis al
final de cada añ o, identificando cambios en el estimado del efecto para cada añ o en curso. Si el efecto de una intervenció n
continú a disminuyendo, indica fuertemente sesgo de retraso en el tiempo.
Independientemente de la prueba utilizada, los autores de revisiones sistemá ticas y los desarrolladores de las guías deben
tener presente que dichas pruebas son susceptibles de tener errores y que sus resultados se deben interpretar con
precaució n. Es extremadamente difícil estar seguro que no existe sesgo de publicació n y casi igual de difícil de establecer
un umbral de cuando bajar la calidad de la evidencia porque hay una sospecha fuerte de sesgo de publicació n. Por ésta
razó n GRADE sugiere bajar la calidad de la evidencia por sesgo de publicació n má ximo en un nivel.
Ejemplo 5.37. Los estudios con hallazgos positivos (p.ej. Diferencias estadísticamente significativas) es
más probable que sean publicados que aquellos con hallazgos negativos o nulos.
Una revisió n sistemática evaluó hasta qué punto la publicació n de una cohorte de ensayos clínicos
estaba influenciada por la significancia estadística, importancia percibida o por la direcció n de los
resultados. Encontró cinco estudios que investigaron esta asociació n en una cohorte de ensayos
clínicos registrados. Los ensayos con hallazgos positivos tenían mayor probabilidad de ser publicados
que los estudios con hallazgos negativos y nulos (OR 3,9 IC 95%: 2,7 a 5,7). Esto corresponde a un
riesgo relativo de 1,8 (IC 95%: 1,6 a 2,0), asumiendo que el 41% de los ensayos negativos son
publicados (la mediana de los estudios incluidos, rango=11% a 85%). En términos absolutos, esto
significa que, si el 41% de los estudios negativos se publica, se esperaría que el 73% de los estudios
positivos se publicaran. Dos estudios evaluaron el tiempo hasta la publicació n y mostraron que los
estudios con hallazgos positivos tendían a ser publicados después de 4 a 5 añ os comparados con
aquellos con hallazgos negativos, los cuales se publicaban después de 6 a 8 añ os. Tres estudios no
encontraron una asociació n estadísticamente significativa entre el tamañ o de la muestra y la
publicació n. Uno de los estudios encontró que no hay asociació n estadísticamente significativa entre el
mecanismo de financiació n, el ranking del investigador o el sexo y la publicació n.
Las revisiones sistemá ticas realizadas tempranamente en el desarrollo del cuerpo de la investigació n pueden estar
sesgadas por la tendencia a publicar tempranamente los resultados “positivos” y por la no publicació n o la publicació n
tardía de los resultados negativos. Esto se conoce como “sesgo de tiempo” y es especialmente cierto en los estudios
financiados por la industria.
Ejemplo 5.38. Estimativo del efecto reducido como resultado de estudios negativos no publicados
Una investigació n de 74 estudios de antidepresivos con un promedio de tamañ o de muestra de menos
de 200 pacientes fue sometida a la FDA. De los 38 estudios vistos como positivos por la FDA, 37 se
publicaron. De los 36 estudios vistos como negativos por la FDA solo 14 se publicaron. Un sesgo de
publicació n de esta magnitud puede sesgar seriamente el estimado del efecto.
Uso de gráficos de embudo para detectar sesgo de publicación
En el grafico A los círculos representan los estimados puntuales en los estudios. El patró n de distribució n asemeja un
embudo invertido. Los estudios má s grades tienden a estar má s cerca al estimado combinado (la línea discontinua). En
este caso, los tamañ os de los efectos de los estudios má s pequeñ os se encuentran má s o menos simétricamente

distribuidos alrededor del estimado combinado. 


En el grafico B se detecta el sesgo de publicació n. Este grá fico de embudo muestra que los estudios má s pequeñ os no está n
simétricamente distribuidos ni alrededor del estimado puntual (dominado por los estudios má s grandes) ni de los
resultados de los mismos estudios má s grandes. Los estudios que se deberían encontrar en el cuadrante inferior derecho
está n ausentes. Una posible explicació n para estos resultados es el sesgo de publicació n – un sobreestimado del efecto de

tratamiento relativo al verdadero efecto subyacente. 


Ejemplo 5.39.Sesgo de publicación detectado
Un nú mero de ensayos pequeñ os de una revisió n sistemá tica de la terapia de oxígeno en pacientes con
enfermedad pulmonar obstructiva cró nica mostraron que la intervenció n mejoró la capacidad de
ejercicio, pero la evaluació n de la informació n sugería sesgo de publicació n. [Higgins 2011]

El grá fico de embudo de la distancia de ejercicio muestra la distancia en el eje  x y la varianza en el
eje y. Los puntos rojos representan las diferencias promedio de los estimados de cada estudio
individual y la línea punteada el estimado puntual del efecto promedio indicando beneficio de la
terapia con oxígeno. La distribució n de estos puntos a la derecha de la línea punteada sugiere que
puede ser equivalente el nú mero de estudios “negativos” que no han sido incluidos en el aná lisis. Por
tanto uno puede bajar la calidad de la evidencia en este caso por la incertidumbre que resulta de la
asimetría en el patró n de los resultados.
Ejemplo 5.40. Sesgo de publicación detectado
Una revisió n sistemática de anticoagulació n parenteral para prolongar la sobrevida en pacientes con
cá ncer que no tienen otra indicació n para anticoagulació n mostró cinco ECAs que estaban
simétricamente distribuidos alrededor del mejor estimado del efecto. El sesgo de publicació n no es
detectado en este escenario y por lo tanto no debería bajarse la calidad de la evidencia. [Higgins 2011]

¿Cuándo bajar la calidad de la evidencia por sospecha de sesgo de publicación?


Los paneles de las guías y los autores de revisiones sistemá ticas deben considerar el grado de incertidumbre acerca de la
magnitud del efecto debido a publicació n selectiva de estudios y deben bajar la calidad de la evidencia en un nivel.
Considere:

 Diseñ o del estudio (experimental versus observacional)


 Tamañ o del estudio (estudios pequeñ os versus estudios grandes)
 Sesgo de tiempo (publicació n temprana de resultados positivos)
 Estrategia de bú squeda (¿fue exhaustiva?)
 Asimetría del grá fico de embudo.

La consideración de los factores que disminuyen la calidad de la evidencia debe preceder la consideración de las
razones para aumentarla. Por tanto, los 5 factores que disminuyen la calidad de la evidencia (riesgo de sesgo,
imprecisió n, inconsistencia, evidencia indirecta y sesgo de publicació n) deben ser calificados previo a los 3 factores para
aumentar la calidad (gran efecto/efecto de gran magnitud, gradiente dosis- respuesta y efectos de confusió n residual). La
decisió n para aumentar la calidad de la evidencia solo debe realizarse cuando no hay limitaciones serias en cualquiera de
las 5 á reas que reducen la calidad de la evidencia.
Las siguientes secciones discuten en detalle los 3 factores que permiten aumentar la calidad de la evidencia, p.ej.
Incrementar la confianza en el estimado del efecto.

4. Factores que pueden aumentar la calidad de la evidencia

Bajo la aproximació n GRADE, el cuerpo de la evidencia proveniente de estudios observacionales se clasifica inicialmente
como baja calidad de evidencia (p.ej. Baja confianza en el estimado del efecto). Sin embargo, existen ocasiones en las que
se tiene alta confianza en el estimado del efecto proveniente de estudios observacionales (incluyendo cohortes, casos y
controles, antes y después, estudios de series de tiempo, etc.) y estudios experimentales no aleatorizados (p.ej. Estudios
cuasi-aleatorios o ensayos controlados no aleatorizados). Las circunstancias en las cuales el cuerpo de evidencia de
estudios observacionales puede proveer má s alta confianza que la baja confianza en los estimados de los efectos
probablemente ocurren con poca frecuencia.
Nota: aunque existe teóricamente la posibilidad de incrementar la calidad de estudios controlados aleatorizados,
tenemos que encontrar un ejemplo convincente de una instancia de este tipo.

6. Efecto de gran magnitud

Cuando el cuerpo de la evidencia de estudios observacionales no se disminuye por ninguno de los 5 factores, y arroja
estimados grandes o muy grandes de la magnitud del efecto una intervenció n, en ese caso se puede tener má s confianza
acerca de los resultados. En esas situaciones, a pesar que los estudios observacionales tienen mayor probabilidad de
sobreestimar el verdadero efecto, el diseñ o del estudio que es má s propenso al sesgo es poco probable que explique la
totalidad del beneficio aparente (o riesgo). La decisió n de aumentarla calidad de la evidencia porque hay un efecto grande
o muy grande (tabla 5.9) debe considerar no solo el estimado puntual sino también la precisió n (amplitud del IC)
alrededor del efecto: uno debe rara vez y con mucha precaució n subir la calidad de la evidencia por un gran efecto
aparente si el IC se superpone sustancialmente con efectos má s pequeñ os que el umbral elegido de importancia clínica.
Tabla 5.9. Definiciones de efecto grande y muy grande
Magnitud del efecto Definición Calidad de la evidencia
RR* >2 o <0,5
Grande (basado en evidencia directa y sin posibles Puede aumentar un nivel
factores de confusió n)
RR* >5 or<0,2
(basado en evidencia directa sin problemas
Muy grande Puede aumentar 2 niveles
serios, sin riesgo de sesgo o precisió n, p.ej.
Con intervalos de confianza muy angostos)
*Estas reglas aplican cuando el efecto medido se expresa como riesgo relativo (RR) o razón de riesgos (HR). No se
pueden aplicar siempre si la medida del efecto está expresada como (OR).  Se sugiere convertir OR a RR y ahí si
evaluar la magnitud del efecto.
Existe mayor probabilidad de aumentar la calidad de la evidencia por magnitud de efecto grande o muy grande si:

 El efecto es rá pido
 El efecto es consistente a lo largo de los sujetos
 Trayectoria previa de la enfermedad se revierte
 La gran magnitud del efecto está soportada por evidencia indirecta

Nota: cuando los desenlaces son subjetivos es importante tener precaución al momento de considerar subir la calidad
sólo por los grandes efectos observados. Esto resulta especialmente cierto cuando los evaluadores de los desenlaces
conocían a qué grupo del estudio pertenecían los sujetos (p.ej. no eran ciegos)
Ejemplo 5.41.
Una revisió n sistemática de estudios observacionales que evaluaba la relació n entre la posició n de
dormir de los niñ os y el síndrome de muerte sú bita del lactante (SMSL), encontró un OR de 4,1 (IC
95% 3,1 a 5,5) de SMSL ocurriendo en posició n de decú bito supino versus prono. En adelante las
campañ as “de espalda para dormir” (por su traducció n en inglés “back to sleep”) que iniciaron en
1980 para promover la posició n de espalda al momento de dormir se asociaron a una disminució n en
la incidencia de SMSL en un 50 a 70% en numerosos países.

7. Gradiente dosis- respuesta

La presencia del gradiente dosis respuesta ha sido reconocido por mucho tiempo como un criterio importante por aceptar
como cierto la relació n causa-efecto putativa. La presencia del gradiente dosis-respuesta puede incrementar nuestra
confianza en los hallazgos de los estudios observacionales y por tanto aumentar la calidad de la evidencia.
Ejemplo 5.42. Gradiente dosis respuesta (aumentar un nivel)
La observació n que en los pacientes anticoagulados con warfarina, existe un gradiente dosis respuesta
entre los niveles má s altos de INR (razó n normalizada internacional), un indicador del grado de
anticoagulació n, y un mayor riesgo de sangrado, incrementa nuestra confianza que los niveles supra
terapéuticos de anticoagulació n incrementan el riesgo de sangrado.
Ejemplo 5.43. Gradiente dosis respuesta (aumentar un nivel)
El gradiente dosis respuesta asociado con la rapidez de la administració n de antibió ticos en pacientes
con sepsis e hipotensió n también puede ser una razó n para aumentar la calidad de la evidencia para
tales estudios. Existe un gran incremento absoluto en la mortalidad por cada hora de retraso en la
administració n de antibió tico. Esta relació n dosis respuesta incrementa nuestra confianza que el
efecto sobre la mortalidad es real y sustancial y conlleva a aumentar la calidad de la evidencia.

8. Efecto de los potenciales factores de confusió n residual

En ocasiones todos los potenciales factores de confusión residual de estudios observacionales pueden estar
funcionando para disminuir el efecto demostrado o incrementar el efecto, si no se observó ningún efecto
Los estudios observacionales rigurosos medirá n con precisió n los factores pronó stico asociados al desenlace de interés y
conducirá n un aná lisis ajustado que demuestre las diferencias en la distribució n de estos factores entre los grupos de
intervenció n y control. La razó n por la cual en la mayoría de las instancias se considera que los estudios observacionales
solo proveen evidencia de baja calidad es que los determinantes no medidos o desconocidos de desenlaces no
incluidos en el aná lisis ajustado es probable que se distribuyan de forma desigual entre los grupos de intervenció n y
control, lo que se refiere como “confusió n residual” o “sesgo residual”.
En ocasiones, todos los posibles factores de confusió n (sesgos) de estudios observacionales no evaluados en el aná lisis
ajustado (p.ej. factores de confusió n residual) de un estudio observacional riguroso puede resultar en una subestimació n
de un efecto del tratamiento aparente. Si, por ejemplo, solo los pacientes má s enfermos reciben una intervenció n o
exposició n experimental, y sin embargo todavía les va mejor, es probable que el efecto de la intervenció n o exposició n
actual sea incluso mayor que el sugerido por los datos. Una situació n paralela existe cuando los estudios observacionales
han fallado en demostrar una asociació n.
Ejemplo 5.44 Cuando se espera que los factores de confusión reduzcan el efecto demostrado (subir por un
nivel)
Una revisió n sistemática rigurosa de estudios observacionales que incluyó un total de 38 millones de
pacientes demostró tasas má s altas de muerte en hospitales privados con fines de lucro versus
hospitales privados sin ánimo de lucro. Sin embargo, es probable que los pacientes en los hospitales
sin á nimo de lucro estuvieran má s enfermos que aquellos pacientes en los hospitales con fines
lucrativos. Esto podría sesgar los resultados en contra de los hospitales sin ánimo de lucro. El segundo
sesgo probable es la posibilidad que un mayor nú mero de pacientes con seguros privados con
excelente cobertura conducirían hospitales con má s recursos y un efecto “indirecto” que podría
beneficiar aquellos sin esa cobertura. A su vez como en los hospitales con fines lucrativos es má s
probable que admitan una mayor proporció n de pacientes con dichos seguros, que los hospitales sin
ánimo de lucro, el sesgo es una vez má s en contra de estos ú ltimos. Como todos los posibles sesgos
disminuirían el efecto de la intervenció n demostrado, se puede considerar la calidad de la evidencia de
este estudio observacional como moderada en vez de baja.
Ejemplo 5.45 Cuando se espera que los factores de confusión reduzcan el efecto demostrado (subir por un
nivel)
En una revisió n sistemá tica investigando el uso de condones en relaciones homosexuales entre
hombres como una forma de prevenció n de la transmisió n del VIH, se identificaron cinco estudios
observacionales. El estimativo combinado fue un riesgo relativo de 0,34 (IC 95% 0,21 a 0,54) a favor
del uso del condó n. Los autores fallaron en ajustar el aná lisis al hecho que los usuarios de los
condones son má s propensos a tener má s parejas que los que no usan condones. Uno esperaría que a
mayor nú mero de parejas mayor sea el riesgo de adquirir VIH y por tanto reduce el riesgo relativo
resultante de infecció n por VIH. Por lo tanto, la confianza en este efecto que sigue siendo grande,
llevaría a subir en un nivel.
Ejemplo 5.46. Cuando se espera que los factores de confusión incrementen el efecto pero no se observa
ningún efecto (subir por un nivel)
El medicamento hipoglucemiante Fenformina causa acidosis lá ctica, y el agente relacionado
Metformina está bajo sospecha por la misma toxicidad. Estudios observacionales muy grandes han
fallado en demostrar una asociació n entre metformina y acidosis lá ctica. Dada la probabilidad que los
clínicos hubiesen estado má s alerta a la acidosis lá ctica con la metformina y que habría sobre-
reportado su ocurrencia, y aú n así no se ha encontrado asociació n, se podría aumentar la evidencia.
Ejemplo 5.47. Cuando se espera que los factores de confusión incrementen el efecto pero no se observa
ningún efecto (subir por un nivel)
Considere los reportes tempranos que asociaban la vacuna MMR con autismo. Se pensaría que habría
sobre-reporte de autismo en niñ os que recibieron la vacuna MMR. Sin embargo, las revisiones
sistemá ticas fallaron en probar cualquier asociació n entre los dos. Debido a los resultados negativos, a
pesar de la potencial presencia de factores de confusió n que aumentarían la probabilidad de reportar
autismo, no se encontró ninguna asociació n. Por tanto, se puede subir la evidencia en un nivel.

5. Calidad global de la evidencia

La calidad global de la evidencia es la calificació n combinada de la calidad de la evidencia a lo largo de todos los
desenlaces considerados críticos para responder la pregunta de investigació n (p.ej. tomar una decisió n o recomendació n).
Se advierte en contra de un enfoque mecá nico en la aplicació n de criterios para disminuir o aumentar la calidad de la
evidencia. Aunque GRADE sugiere la consideració n inicial por separado de cinco categorías de razones para reducir la
calidad de la evidencia y tres categorías para aumentarla, con decisiones de si/no para subirla o bajarla en cada caso, la
calificació n final de la calidad global de la evidencia ocurre como un continuum de confianza en las estimaciones de los
efectos.
Para los autores de las revisiones sistemáticas
Los autores de las revisiones sistemá ticas no califican la calidad global de la evidencia a lo largo de los desenlaces.
Como las revisiones sistemá ticas no formulan recomendaciones, o al menos no lo deberían hacer, los autores califican la
calidad de la evidencia solo para cada desenlace de forma separada.
Para los paneles de las guías y otros que formulan recomendaciones
El panel de la guía debe determinar la calidad global de la evidencia a lo largo de todos los desenlaces críticos
esenciales para la recomendació n que realizan. Los paneles de las guías proveen un ú nico grado de la calidad de la
evidencia para cada recomendació n, pero la fuerza de la recomendació n usualmente depende de la evidencia no solo de
uno, sino de varios desenlaces importantes para los pacientes y de la calidad de la evidencia para cada uno de estos
desenlaces.
Como la aproximació n GRADE califica la calidad de la evidencia de forma separada para cada desenlace, es frecuente que
la calidad difiera a lo largo de los desenlaces. Al momento de determinar la calidad global de la evidencia a lo largo de los
desenlaces:

 Considere solamente los desenlaces que se hayan considerado críticos


 Si la calidad de la evidencia es la misma para todos los desenlaces críticos, entonces esta se vuelve la calidad
global de la evidencia que soporta la respuesta a la pregunta
 Si la calidad de la evidencia difiere a lo largo de los desenlaces críticos, es ló gico que la confianza global en los
estimativos de los efectos no puede ser mayor que la menor confianza en el estimativo del efecto para cualquiera
de los desenlaces críticos para la toma de decisiones. Por tanto, la menor calidad de la evidencia para cualquier
desenlace crítico, determina la calidad global de la evidencia.

Ejemplo 5.48. Calificar la calidad global de la evidencia basado en la importancia de los desenlaces
Varias revisiones sistemá ticas de ensayos aleatorizados de alta calidad sugieren una disminució n en la
incidencia de infecciones y, probablemente, en la mortalidad de pacientes ventilados en unidad de
cuidado intensivo recibiendo descontaminació n digestiva selectiva (DDS). La calidad de la evidencia
del efecto de DDS en la emergencia de resistencia antibió tica bacteriana y su relevancia clínica no es
tan clara. Uno podría razonablemente calificar la evidencia de este temido efecto adverso potencial
como de baja calidad. Si quienes formulan las recomendaciones consideran que las desventajas de esta
terapia son críticas, la calidad global de la evidencia para DDS sería baja. Si el panel de la guía
considera que la emergencia de resistencia antibió tica fuese importante má s no crítica, la calidad
global de la evidencia sería alta.
Sin embargo, cuales desenlaces son críticos depende de la evidencia. En ocasiones, la confianza global en el estimativo del
efecto puede que no provenga de los desenlaces juzgados como críticos al principio del proceso del desarrollo de la guía –
los juicios acerca de cuá les desenlaces son críticos para la decisió n (recomendació n) pueden cambiar al considerar los
resultados. Nó tese que dichos juicios requieren consideraciones cuidadosas y rara vez suceden.
Ejemplo 5.49. Situaciones prototipo en las cuales un desenlace considerado inicialmente crítico
deja de serlo cuando se resume la evidencia:
 Un desenlace resulta no ser relevante (p.ej. un efecto adverso particular se puede considerar
como crítico al principio del proceso de la guía, pero si resulta que ese evento ocurre de forma
infrecuente, la decisió n final puede ser que este efecto adverso es importante pero no crítico
para la recomendació n).
 Un desenlace resulta no necesario si, a lo largo de todos los posibles efectos de la intervenció n
de ese desenlace, la recomendació n y su fuerza permanecerían iguales. Si hay calidad de la
evidencia má s alta para algunos desenlaces críticos que apoyen una decisió n, entonces no se
necesitaría disminuir la calidad de la evidencia por baja confianza en el estimativo del efecto
en otros desenlaces críticos que apoyen la misma recomendació n.

Por ejemplo, considere la siguiente pregunta: ¿se debe usar estatinas versus no estatinas en individuos en los que no se ha
documentado enfermedad coronaria, pero con alto riesgo de eventos cardiovasculares? los desarrolladores de las guías
inician el proceso considerando los desenlaces: muerte por causas cardiovasculares, infarto de miocardio, eventos
cerebrovasculares y efectos adversos, como críticos para la decisió n.
Una revisió n sistemá tica o ensayos aleatorizados demostraron reducció n consistente en el infarto de miocardio y eventos
cerebrovasculares, pero no encontraron reducciones significativas en las muertes coronarias. Los efectos adversos serios
fueron inusuales y reversibles con la descontinuació n del medicamento. Los autores de las guías encontraron que para
tres de cuatro desenlaces (infarto de miocardio, eventos cerebrovasculares y efectos adversos) había alta calidad de la
evidencia. Para las muertes coronarias la calidad de la evidencia era moderada por imprecisió n.
¿La calidad global de la evidencia a lo largo de los desenlaces debería ser alta o moderada? Los juicios realizados al
principio del proceso sugieren que la respuesta es calidad de la evidencia “moderada”. Sin embargo, una vez que se
establece que el riesgo de infarto de miocardio y de eventos cerebrovasculares disminuye con estatinas, la mayoría de las
personas considerarían que es una razó n convincente para usar estatinas. Saber si la mortalidad coronaria también
disminuye ya no resulta necesario para la decisió n (siempre y cuando sea poco probable que se incremente).
Considerando esto, la forma má s apropiada de designar la calidad global de la evidencia es “alta”.

CAPÍTULO 6. De la evidencia a las recomendaciones


1. Las recomendaciones y su fuerza

La fuerza de una recomendación refleja el grado de confianza de un panel de una guía, en que los efectos deseados de
una intervenció n son mayores que los efectos indeseables, o viceversa, a lo largo de los pacientes para los cuales está
dirigida la recomendació n.
GRADE específica dos categorías de la fuerza de la recomendació n. Si bien GRADE sugiere usar los
términos recomendación fuerte y recomendación débil, aquellos que formulan las recomendaciones pueden elegir
distintos términos para caracterizar estas dos categorías de la fuerza.
En casos especiales, el panel de la guía puede recomendar que una intervenció n se use solo en investigació n hasta que se
generen má s datos, lo que permitiría una recomendació n má s completa o no hacer una recomendació n en absoluto.
Existen limitaciones para la calificació n formal de las recomendaciones. Al igual que la calidad de la evidencia, el balance
entre efectos deseables e indeseables refleja un continuum.  Es por esto, que se asociará con algú n grado de arbitrariedad
el poner una recomendació n particular en categorías como “fuerte” y “débil”. La mayoría de organizaciones que producen
guías han decidido que las ventajas de un grado de recomendació n explícita sobrepasan sus desventajas.

Figura 6.1. Fuerza de las recomendaciones: un continuum dividido en categorías


Para un panel de guía y otros que formulen recomendaciones para ofrecer recomendaciones fuertes, deben tener
certeza de los varios factores que influyen la fuerza de la recomendació n. El panel también debe tener la informació n
relevante disponible que soporta el balance hacia los efectos deseables de una intervenció n (para recomendar la acció n) o
los efectos indeseables (para recomendar en contra de la acció n).
Cuando el panel de una guía no tiene certeza si el balance es claro o cuando la informació n relevante acerca de los varios
factores que influyen en la fuerza de la recomendació n no se encuentra disponible, el panel de la guía debe ser má s
cauteloso y en la mayoría de los casos debe optar por formular recomendaciones débiles.
Figura 6.2. Escalas de balance para describir recomendaciones fuertes versus débiles
Para ayudar a la interpretació n, GRADE sugiere implicaciones de recomendaciones fuertes o débiles que acompañ a a las
recomendaciones. La ventaja de dos categorías de la fuerza de la recomendació n es que provee una clara direcció n para
pacientes, clínicos y desarrolladores de políticas.
Tabla 6.1. Implicaciones de recomendaciones fuertes y débiles para los diferentes usuarios de las
guías
  Recomendaciones fuertes Recomendaciones débiles
La mayoría de los individuos en
La mayoría de los individuos desearían
esta situació n desearían el curso de
Para pacientes el curso de acció n sugerido, pero
acció n recomendado y solo una
muchos no
pequeñ a proporció n no lo desearía.
La mayoría de los individuos Reconocer que opciones diferentes
debería recibir el curso de acció n serían apropiadas para distintos
recomendado. La adherencia a esta pacientes, y que se debe ayudar para
recomendació n de acuerdo a la que cada paciente alcance una decisió n
guía podría ser usada como un de manejo consistente con sus valores y
criterio de calidad o un indicador preferencias. Las ayudas en decisiones
Para clínicos
de rendimiento. pueden resultar ú tiles al momento de
Es poco probable que se necesite ayudar a los individuos en la toma de
ayuda en las decisiones formales decisiones coherentes con sus valores y
para ayudar a los individuos a preferencias. Los clínicos deben esperar
tomar decisiones coherentes con pasar má s tiempo con los pacientes en el
sus valores y preferencias. proceso de la toma de decisió n.
Formular políticas requeriría de debates
importantes y la participació n de
La recomendació n se puede muchas partes interesadas.
Para adaptar como política en la Es muy probable que las políticas varíen
desarrolladores de mayoría de las situaciones entre regiones. Los indicadores de
políticas incluyendo su uso como indicador rendimiento tendrían que centrarse en
de rendimiento. el hecho que la deliberació n adecuada
acerca de las opciones de manejo ha
tenido lugar.
La individualizació n de la toma de decisiones clínicas con recomendaciones débiles sigue siendo un desafío. Aunque los
clínicos deben siempre considerar las preferencias y valores de los pacientes, cuando se enfrentan a una recomendació n
débil deben tener una conversació n má s detallada con los pacientes que la que deberían tener si fuese una recomendació n
fuerte, para asegurar que la decisió n final es coherente con las preferencias y valores del paciente.
Es importante resaltar que los clínicos, pacientes, pagadores, comités de revisió n institucional, otros interesados o los
tribunales nunca deberían ver las recomendaciones como obligación. Incluso las recomendaciones fuertes basadas en
evidencia de alta calidad no se aplicará n a todos los pacientes y en todas las circunstancias.
Los usuarios de las guías pueden concluir razonablemente que seguir algunas recomendaciones fuertes basadas en
evidencia de alta calidad puede ser un error para algunos pacientes. Ninguna guía de prá ctica clínica o recomendació n
puede tener en cuenta todas las posibles características ú nicas de pacientes o circunstancias clínicas. Por lo tanto, nadie a
cargo de evaluar las acciones de los clínicos, debe intentar aplicar las recomendaciones de memoria o de manera absoluta.

1. Recomendaciones fuertes
Una recomendació n fuerte es aquella con la cual el panel de la guía tiene confianza que el efecto deseable de la
intervenció n supera los efectos indeseables (recomendació n fuerte para una intervenció n) o que los efectos indeseables
de una intervenció n, superan los efectos deseables (recomendació n fuerte en contra de una intervenció n).
Nota: las recomendaciones fuertes no necesariamente son recomendaciones de alta prioridad
Una recomendació n fuerte implica que la mayoría o todos los individuos se beneficiarían por el curso de acció n
recomendado. 
Ejemplo 6.1. Algunas recomendaciones fuertes

Anticoagulació n temprana en pacientes con trombosis venosa profunda para prevenció n de


embolismo pulmonar;
Antibió ticos para el tratamiento de la neumonía adquirida en la comunidad;
Dejar de fumar para prevenir consecuencias adversas de la exposició n al humo del
cigarrillo;
Uso de broncodilatadores en pacientes con EPOC

2. Recomendaciones débiles

Una recomendació n débil es aquella en la cual el efecto deseable probablemente sobrepase los efectos indeseables
(recomendació n débil para una intervenció n), o los efectos indeseables probablemente sobrepasen los efectos deseables
(recomendació n débil en contra de una intervenció n), pero existe una incertidumbre apreciable.
Una recomendació n débil sugiere que no todos los individuos se beneficiarían por el curso de acció n recomendado. Se
necesita considerar má s cuidadosamente que lo usual las circunstancias individuales, las preferencias y los valores de los
pacientes. Cuando hay recomendaciones débiles, los clínicos deben dedicar má s tiempo a compartir el proceso de toma de
decisió n, asegurá ndose que se explican de forma clara y comprensible los beneficios y riesgos potenciales a los pacientes.
Nombres alternativos para recomendaciones débiles
Algunos se han preocupado que el término “recomendació n débil”, experimente una connotació n negativa no
intencionada con la palabra “débil”, incluso confundiéndola frecuentemente con evidencia “débil”. Para evitar confusió n,
se pueden usar los siguientes términos en lugar de “recomendació n débil”:

 Condicional (dependiendo de los valores de los pacientes, disponibilidad de recursos o el contexto)


 Discrecional (basado en la opinió n del paciente o del clínico)
 Calificada (por una explicació n con respecto a los temas que podrían llevar a decisiones diferentes).

Si se usa alguna de las variaciones, es esencial que los autores sean consistentes con todas las recomendaciones a lo largo
de la guía y en todas las guías que produzcan.

3. Recomendaciones para el uso de intervenciones ú nicamente en investigació n

Intervenciones prometedoras (usualmente nuevas) con evidencia hasta ahora insuficiente del beneficio que soporte su
uso, pueden estar asociadas con potenciales dañ os o costos. Quienes tomas las decisiones pueden preocuparse de proveer
recomendaciones favorables prematuras de uso, alentando la rá pida difusió n de intervenciones potencialmente ineficaces
o perjudiciales, y previniendo el reclutamiento de investigaciones en curso. Igualmente pueden estar reacios a
recomendar en contra de dichas intervenciones por miedo a inhibir investigació n futura. Formulando una recomendació n
para el uso de una intervenció n ú nicamente en el contexto de investigació n, los autores pueden proporcionar un estímulo
importante a los esfuerzos para responder las preguntas de investigació n, resolviendo la incertidumbre sobre el manejo
ó ptimo.
Recomendaciones para usar intervenciones ú nicamente en investigació n son apropiadas cuando se cumplen tres
condiciones:

 La evidencia hasta el momento es insuficiente para apoyar decisiones a favor o en contra de la intervenció n
 Es probable que la investigació n futura tenga gran potencial de reducir la incertidumbre acerca de los efectos de la
intervenció n
 Se piensa que la investigació n futura será de buena calidad con relació n a los costos anticipados

Las recomendaciones para el uso de intervenciones en investigació n deben acompañ arse de sugerencias detalladas sobre
las preguntas de investigació n específicas que se deberían abordar, particularmente los desenlaces importantes para el
paciente que se deben medir.  La recomendació n para investigació n se puede acompañ ar de una recomendació n fuerte
explícita acerca de no usar la intervenció n experimental fuera del contexto de investigació n.

4. Ninguna recomendació n

Existen 3 razones por las cuales quienes formulan las recomendaciones pueden estar reacios a formular una
recomendació n a favor o en contra de una estrategia de manejo particular, y también concluyen que recomendar el uso de
la intervenció n solo en investigació n tampoco es apropiado. Estas razones son:

 La confianza en el estimativo del efecto es tan baja que el panel siente que una recomendació n es muy especulativa
(ver la discusió n de este tema del US PreventativeServicesTaskForce [Petitti 2009]).
 Independientemente de la confianza en el estimativo del efecto, el balance es tan pequeñ o, y los valores y
preferencias y las implicaciones de los recursos son desconocidos o muy variables, por lo que el panel tiene gran
dificultad decidiendo la direcció n de la recomendació n. las compensaciones está n tan estrechamente equilibradas.
 Dos opciones de manejo que tienen consecuencias indeseables muy diferentes, y es probable que la reacció n de los
pacientes a estas consecuencias sea tan diferente que no hay razó n para pensar acerca de valores y preferencias
típicas.

La tercera razó n requiere explicació n. Considere pacientes adultos con talasemia mayor que está n considerando
trasplante de células hematopoyéticas (posibilidad de cura pero con un riesgo de mortalidad temprana del 33%) versus
tratamiento médico continuo con transfusió n y quelació n de hierro (morbilidad continua y un pronó stico incierto). Un
panel de una guía puede considerar que en dichas situaciones la ú nica recomendació n sensata es una discusió n entre el
paciente y el médico para determinar las preferencias de los pacientes.
Sin embargo, para los usuarios de las guías puede resultar frustrante la falta de orientació n cuando el panel de la guía falla
en formular una recomendació n. El USPSTF establece: “quienes toman las decisiones no se pueden dar el lujo de esperar
cierta evidencia. Aú n cuando la evidencia es insuficiente, los clínicos deben proporcionar consejo, los pacientes deben
tomar decisiones, y los desarrolladores de políticas deben establecer políticas” [Petitti 2009].
Los clínicos rara vez explorará n la evidencia tan minuciosamente como el panel de la guía, ni van a dedicar mucha
atenció n al balance, o los posibles valores y preferencias subyacentes de la població n. GRADE alienta a los paneles a pasar
este inconveniente y a formular recomendaciones aú n cuando la confianza en el estimativo del efecto es baja y/o las
consecuencias deseables e indeseables está n estrechamente balanceadas. Dichas recomendaciones, inevitablemente será n
débiles y se pueden acompañ ar de calificaciones.
En la circunstancia inusual en la que el panel decida no formular la recomendació n, deben especificar la razó n de esta
decisió n (ver arriba).

2. Factores que determinan la direcció n y fuerza de las recomendaciones

Cuatro factores clave influyen la direcció n y la fuerza de una recomendació n (tabla 6.2)
Tabla 6.2. Dominios que contribuyen a la fuerza de la recomendación
Dominios Comentarios
Entre mayor sean las diferencias entre las
Balance entre desenlaces deseables e
consecuencias deseables e indeseables, mayor
indeseables (intercambio) teniendo en cuenta:
probabilidad de justificar una recomendació n
-el mejor estimativo de la magnitud del efecto en
fuerte. Entre má s pequeñ o sea el beneficio neto y
los desenlaces deseables e indeseables
menor sea la certeza del beneficio, mayor
-importancia de los desenlaces (valores y
probabilidad de garantiza una recomendació n
preferencias típicos estimados)
débil
Confianza en la magnitud de los estimativos del
efecto de intervenciones en los desenlaces A mayor sea la calidad de la evidencia, mayor es
importantes (calidad global de la evidencia para la probabilidad de una recomendació n fuerte
desenlaces)
A mayor sea la variabilidad en los valores y
Confianza en los valores y preferencias y su preferencias, o la incertidumbre acerca de los
variabilidad valores típicos y preferencias, mayor
probabilidad de una recomendació n débil.
Cuanto mayores sean los costos de una
Uso de los recursos y costos intervenció n (má s recursos consumidos), menor
probabilidad de una recomendació n fuerte
5. Balance entre consecuencias deseables e indeseables

Al momento de decidir acerca del balance entre desenlaces deseables e indeseables (intercambio), se deben considerar
dos dominios:

 El mejor estimativo de la magnitud de los efectos deseables e indeseables (resumidos en perfiles de evidencia)
 Importancia de los desenlaces – valores típicos que los pacientes o la població n aplica a estos desenlaces (“peso”
de los desenlaces).

Estimativos de la magnitud de los efectos deseables e indeseables


Efectos relativos grandes de una intervenció n consistentemente apuntando a la misma dirección – hacia efectos
deseables o hacia efectos indeseables, es má s probable que garanticen una recomendació n fuerte.
Al contrario, efectos relativos grandes de una intervenció n apuntando en direcciones opuestas – grandes efectos
deseables acompañ ados de grandes efectos indeseables llevará n a una recomendació n débil.
También es má s probable que los grandes efectos absolutos conduzcan a una recomendació n fuerte, que los efectos
absolutos pequeñ os. El riesgo basal (tasa de eventos en el grupo control) puede influenciar el balance de desenlaces
deseables e indeseables. Grandes diferencias en el riesgo basal resultará n en grandes diferencias en efectos absolutos de
una intervenció n. Por tanto, la fuerza de la recomendació n y su direcció n probablemente diferirá en los grupos de alto y
de bajo riesgo.
Ejemplo 6.2. Influencia del balance de efectos deseables/indeseables en la definición de la
recomendación
Gran balance entre efectos deseables e indeseables (mayor probabilidad de una recomendació n
fuerte)

1. El gran balance entre los beneficios de bajas dosis de aspirina en la reducció n de la mortalidad
y la recurrencia del infarto del miocardio, y las consecuencias indeseables de efectos adversos
mínimos y los costos hacen que sea muy probable una recomendació n fuerte.

Pequeñ o balance entre efectos deseables e indeseables (mayor probabilidad de una recomendació n
débil)

1. Considere la elecció n de agentes inmunomoduladores, a saber ciclosporina o tacrolimus, en


receptores de trasplante renal. Tacrolimus resulta en una mejor sobrevida del injerto
(desenlace altamente valorado), pero a un costo importante, por una mayor incidencia de
diabetes (las complicaciones a largo plazo que pueden ser devastadoras).
2. Los pacientes con fibrilació n auricular típicamente son má s reacios a los eventos
cerebrovasculares que al sangrado. Sin embargo, si el riesgo de eventos cerebrovasculares es
lo suficientemente bajo, el balance entre la reducció n de eventos cerebrovasculares y el
incremento en el riesgo de sangrado con los anticoagulantes está estrechamente equilibrado.

6. Confianza en el mejor estimativo de la magnitud del efecto (calidad de la evidencia)

Para todos los desenlaces considerados, el proceso de la aproximació n GRADE requiere una calificació n de la calidad de la
evidencia. Finalmente, los autores de las guías formulará n las recomendaciones basadas en la confianza en todos los
estimativos del efecto para cada desenlace considerado crítico para la recomendació n y la calidad de la evidencia. La
calificació n de la calidad de la evidencia se determina por los ocho factores previamente discutidos; los cinco criterios que
resultan en disminució n de la calidad de la evidencia (limitaciones en el estudio, inconsistencia, evidencia indirecta,
imprecisió n y sesgo de publicació n), mientras que los tres criterios restantes llevan a aumentar  la calidad de la evidencia;
gran magnitud del efecto, gradiente dosis respuesta y cuando todos los posibles sesgos o factores de confusió n
incrementan nuestra confianza en el estimativo del efecto.
Típicamente, una recomendació n fuerte se asocia a confianza alta o al menos moderada en el estimativo del efecto para los
desenlaces críticos. Si se tiene alta confianza en el efecto de algunos desenlaces considerados críticos (usualmente
beneficios), pero baja confianza en efectos de otros desenlaces críticos (por lo general riesgos a largo plazo), se garantiza
por lo general una recomendació n débil. Aú n cuando aparentemente existe un gradiente grande en el balance de
desenlaces deseables versus indeseables el panel será reacio a ofrecer una recomendació n fuerte, si la confianza en el
estimativo del efecto para algunos desenlaces críticos es baja.
Para algunas preguntas, la evidencia directa acerca de efectos en ciertos desenlaces críticos puede estar ausente (p.ej.
calidad de vida no se ha medido en ningú n estudio). En tales instancias, aú n si los subrogados medidos está n disponibles,
la confianza en el estimativo del efecto de desenlaces importantes para los pacientes, es muy probable que sea baja.
Rara vez una baja confianza en el estimativo del efecto, se asocia a recomendaciones fuertes. En general  GRADE
desalienta a los paneles de las guías a hacer recomendaciones fuertes cuando la confianza en el estimativo del
efecto para desenlaces críticos, es baja o muy baja. GRADE ha identificado cinco situaciones paradigmá ticas en las
cuales se garantizan recomendaciones fuertes o muy fuertes a pesar de la baja o muy baja calidad de la evidencia (tabla
6.3). Estas situaciones se pueden conceptualizar como aquellas en las que el panel tendría un bajo grado de
arrepentimiento si la evidencia subsecuente demuestra que la recomendació n formulada fue erró nea.
Tabla 6.3. Situaciones paradigmáticas en las cuales se garantiza una recomendación fuerte a
pesar de la baja o muy baja confianza en el estimativo del efecto
Condición Ejemplo
1. Plasma fresco congelado o vitamina K en un paciente recibiendo
Cuando evidencia de baja warfarina que tiene un INR elevado y tiene sangrado intracraneal.
calidad sugiere beneficio en Solo evidencia de baja calidad soporta el beneficio de limitar el
una situació n que amenace grado de sangrado.
1
la vida (la evidencia acerca 2. Anfotericina B vs. itraconazol en blastomicosis diseminada que
de los riesgos puede ser baja amenaza la vida. Evidencia de alta calidad sugiere que la
o alta) anfotericina B es má s tó xica que el itraconazol, y evidencia de baja
calidad sugiere que ésta reduce la mortalidad en este contexto.
Cuando evidencia de baja
Tamizaje de cá ncer con TAC/RMN de cabeza a pies. Evidencia de
calidad sugiere beneficio y
baja calidad de beneficios de detecció n temprana, pero evidencia
2 evidencia de alta calidad
de alta calidad de posibles riesgos y/o evidencia de costos altos ∑
sugiere riesgo o costos muy
(recomendació n fuerte en contra de esta estrategia)
altos
Cuando evidencia de baja Erradicació n de Helicobacter pylori en pacientes con linfoma
calidad sugiere equivalencia gá strico MALT en fases tempranas con H. pilory positivo. Evidencia
de dos alternativas, pero de baja calidad sugiere que la erradicació n inicial de H. pillory
3
evidencia de alta calidad de resulta en tasas similares de respuesta completa en comparació n
menor riesgo para una de con las alternativas de radioterapia o gastrectomía; evidencia de
las alternativas alta calidad sugiere menos dañ o/morbilidad.
Hipertensió n en mujeres planeando concebir y en embarazo.
Cuando evidencia de alta
Recomendaciones fuertes para labetalol y nifedipino y
calidad sugiere equivalencia
recomendaciones fuertes en contra de inhibidores de la enzima
de dos alternativas y
4 convertidora de angiotensina (IECA) y antagonistas de receptores
evidencia de baja calidad
de angiotensina (ARA), todos los agentes tienen evidencia de alta
sugiere riesgo en una de las
calidad para desenlaces equivalentes beneficiosos, con evidencia
alternativas
de baja calidad de efectos adversos mayores con IECAs y ARAs
Cuando evidencia de alta Testosterona en hombres con cá ncer de pró stata o en riesgo de
calidad sugiere beneficio tenerlo. Evidencia de alta calidad para beneficios moderados del
moderado y evidencia de tratamiento con testosterona en hombres con deficiencia de
5
baja o muy baja calidad andró genos sintomá tica en mejorar la densidad mineral ó sea y la
sugiere posibilidad de riesgo fuerza muscular. Evidencia de baja calidad para riesgos en
catastró fico. pacientes con cá ncer de pró stata o en riesgo de tenerlo.
INR – razón normalizada internacional; TAC – tomografía axial computarizada; RMN– Resonancia magnética nuclear; MALT – Tejido linfoide asociado a
mucosa.

7. Confianza en valores y preferencias

La incertidumbre sobre los valores y preferencias o su variabilidad entre los pacientes puede disminuir la fuerza de la
recomendació n.
Como se mencionó anteriormente, los estudios sistemá ticos de valores y preferencias de los pacientes son muy limitados.
Por este motivo, los paneles usualmente no tendrá n certeza acerca de los valores y preferencias típicos. A mayor
incertidumbre, mayor será la probabilidad de emitir una recomendació n débil. Debido a la carencia de estudios
sistemá ticos de valores y preferencias de pacientes, se podría argumentar la gran incertidumbre que siempre va a existir
con respecto a la perspectiva de los pacientes. Por otro lado, la experiencia de los clínicos con los pacientes, puede
proporcionar una visió n adicional considerable. Es má s, en ocasiones el panel, con base en la experiencia clínica, puede
estar confiado en los valores y preferencias típicas de los pacientes. La fuerte aversió n de las mujeres en embarazo al
mínimo riesgo de anormalidades fetales importantes, puede ser una de estas situaciones.
La gran variabilidad en los valores y preferencias puede hacer má s probable la formulació n de una recomendació n débil.
En estas situaciones, es menos probable que una ú nica recomendació n sea aplicable de forma uniforme a todos los
pacientes, y el curso de acció n correcto es probable que varíe entre pacientes. De nuevo, la investigació n sistemá tica
acerca de la variabilidad en los valores y preferencias es escasa. Por otro lado, la experiencia clínica puede hacer que el
panel confíe en que existen diferencias entre los valores y preferencias de los pacientes.
Ejemplo 6.3. Influencia de los valores y preferencias en la definición del tipo de recomendación
1. Un paciente esperanzado puede prestar má s atenció n en una pequeñ a probabilidad de beneficio,
mientras que un paciente pesimista, reacio a los riesgos puede concentrarse má s en evitar los riesgos
asociados a una terapia potencialmente beneficiosa. Algunos pacientes pueden creer que incluso
cuando el riesgo de un evento adverso es bajo, ellos será n aquella persona que va a padecer dicho
efecto adverso. Por ejemplo, en pacientes con fibrosis pulmonar idiopá tica, la evidencia de los
beneficios de los esteroides garantiza solo baja confianza, mientras que se puede estar muy confiado
en un amplio rango de efectos adversos asociados a los esteroides. El paciente optimista con fibrosis
pulmonar puede ser entusiasta acerca del uso de esteroides, mientras que el paciente reacio a riesgos
es probable que se niegue.
2. La trombo-profilaxis reduce la incidencia de trombo embolismo venoso en pacientes hospitalizados
inmó viles y severamente enfermos. La trombo-profilaxis cuidadosa tiene efectos adversos mínimos y
relativamente a bajos costos mientras permanece siendo muy efectiva en la prevenció n de trombosis
venosa profunda y sus secuelas. Los valores y preferencias de los pacientes son tales que virtualmente
todos los pacientes admitidos en un hospital optarían, si entendieran la opció n que está n eligiendo,
por recibir alguna forma de trombo-profilaxis. Aquellos que formulan las recomendaciones pueden
por tanto ofrecer una recomendació n fuerte a favor de la trombo-profilaxis en pacientes para este
escenario.
3. Una revisió n sistemá tica y un metaná lisis describen una reducció n relativa del riesgo (RRR) de
aproximadamente 80% en trombosis venosa profunda (TVP) recurrente para profilaxis mayor de 3
meses hasta un añ o. Este gran efecto apoya una recomendació n fuerte a favor de la warfarina.
Adicionalmente el relativamente angosto intervalo de confianza del 95%, (aproximadamente 74 a
88%) sugiere que la warfarina provee una RRR de al menos 74% y por tanto apoya una
recomendació n fuerte. Así mismo, la warfarina se asocia a una carga inevitable de mantener una
ingesta de vitamina k en la dieta, relativamente constante, monitorizar la intensidad de la
anticoagulació n con pruebas sanguíneas y vivir con un riesgo incrementado de sangrado mayor y
menor. Sin embargo, es probable que la mayoría de los pacientes prefieran evitar una nueva TVP y
aceptan el riesgo de un episodio de sangrado. Como resultado, casi la mayoría de los pacientes con alto
riesgo de TVP recurrente elegirían tomar warfarina por 3 a 12 meses, lo que sugiere la conveniencia
de una recomendació n fuerte. Después de eso, puede haber un nú mero apreciable de pacientes que
rechazará n la anticoagulació n de por vida.
Los mejores estimados de valores y preferencias
Sin considerar los valores y preferencias asociadas, evaluar la magnitud de efectos grandes versus pequeñ as puede ser
engañ oso. Balancear la magnitud de los desenlaces deseables e indeseables requiere considerar el peso (importancia) de
aquellos desenlaces que está n determinados por los valores y preferencias.
Idealmente para informar los estimados de los valores y preferencias típicos de los pacientes, los paneles de las guías
conducirá n o identificará n revisiones sistemá ticas de estudios relevantes acerca de los valores y preferencias de los
pacientes. Sin embargo, hay escasez de pruebas empíricas de los valores y preferencias de los pacientes.
Los paneles de las guías con adecuados recursos, usualmente complementará n dichos estudios con consultas a pacientes
individuales y a grupos de pacientes. El panel deberá discutir cuales valores está n siendo representados por estas
personas, es decir pacientes representativos, un grupo definido de pacientes o representantes de la població n general.
Los paneles de las guías con menos recursos, sin revisiones sistemá ticas de valores y preferencias o sin forma de consultar
a los pacientes o grupos de pacientes, deben basarse en revisiones no sistematizadas disponibles en la literatura y en su
experiencia derivada de la interacció n con los pacientes. Qué tanto corresponda dichos estimados a los valores y
preferencias típicos verdaderos, seguirá siendo incierto.
Sea cual sea la fuente de los estimados de los valores y preferencias, resulta imperativo formular declaraciones explícitas y
transparentes acerca de las elecciones del panel (ver 6.3.3 proporcionar declaraciones transparentes acerca de los valores
y preferencias asumidos).

8. Uso de los recursos (costos)

Los paneles pueden o no considerar el uso de los recursos en sus juicios acerca de la direcció n y la fuerza de las
recomendaciones. Las razones para no considerar el uso de los recursos incluyen la ausencia de datos confiables, que la
intervenció n no sea ú til y el esfuerzo de calcular el uso de los recursos se puede ahorrar, el efecto deseable sobrepasa en
gran medida cualquier efecto indeseable que las consideraciones de los recursos no alterarían el juicio final, o que ellos
elijan (o se haya indicado) dejar las consideraciones de los recursos a otras instancias de decisió n. El panel debe ser
explícito acerca de la decisió n de no considerar el uso de los recursos y las razones de dicha decisió n.
Si ellos eligen incluir la utilizació n de los recursos cuando hacen la recomendació n, pero no han incluido el uso de los
recursos como una consecuencia al momento de preparar el perfil de evidencia, deben ser explícitos sobre qué tipos de
uso de recursos ellos consideraron al momento de hacer la recomendació n y si se utilizó la ló gica o evidencia en sus
juicios.
Los costos se pueden considerar como otro desenlace potencialmente importante, tal como mortalidad, morbilidad y
calidad de vida, asociado a formas alternativas de manejo de problemas de los pacientes. Adicionalmente a estos
desenlaces clínicos, una intervenció n puede incrementar o disminuir costos. La aproximació n GRADE recomienda que el
uso de recursos importantes o críticos sea considerarado al igual que otros desenlaces relevantes en los perfiles de
evidencia, y en las tablas de resumen de hallazgos. Es importante el uso de unidades naturales cuando se presenten los
datos del uso de recursos, ya que pueden ser aplicados en cualquier escenario.
Consideraciones especiales al momento de incorporar el uso de los recursos (costos) en las recomendaciones:

 ¿Cuá les son las diferencias entre costos y otros desenlaces?


 ¿Qué perspectiva tomar?
 ¿Qué implicaciones de recursos se deben incluir?
 ¿Có mo hacer juicios acerca de la calidad de la evidencia?
 ¿Có mo presentar estas implicaciones?
 ¿Cuá l es la utilidad potencial de un modelo econó mico formal?
 ¿Có mo considerar el uso de recursos al momento de formular las recomendaciones?

1. Diferencias entre costos y otros desenlaces

Existen varias diferencias entre los costos y otros desenlaces:

 Con los costos es má s prominente el asunto de quien paga y quien gana


 Las actitudes acerca del grado en el cual los costos deberían influir las decisiones difieren dependiendo de quién
asume los costos.
 Los costos tienden a variar ampliamente entre jurisdicciones y a lo largo del tiempo.
 Las personas tienen diferentes perspectivas sobre lo que está n considerando costos de oportunidad.
 La asignació n de los recursos es un asunto mucho má s político que considerar otros desenlaces

Con los costos es más prominente el asunto de quien paga y quien gana
Para la mayoría de desenlaces diferentes de costos, es claro que el paciente y en segunda medida la familia del paciente,
ganan las ventajas y deben vivir con las desventajas (esto no es cierto para todos los desenlaces – con vacunació n la
comunidad entera se beneficia del efecto rebañ o, o el uso generalizado de antibió ticos puede tener consecuencias
adversas de resistencia antibió tica). Los costos de atenció n en salud usualmente está n a cargo de la sociedad como un
conjunto. Incluso dentro de una sociedad, quien se hace cargo de los costos puede variar dependiendo de la edad y
situació n del paciente.
Las actitudes acerca del grado en el cual los costos deberían influir las decisiones difieren dependiendo de quién
asume los costos.
Si los costos son asumidos por el gobierno, o un tercero pagador, algunos argumentarían que la responsabilidad del
médico con el paciente significa que los costos no deberían influenciar la decisió n. Por otra parte, la responsabilidad del
médico al momento de cuidar al paciente se descarga en un contexto má s amplio: los recursos que se usan en una
intervenció n no se pueden usar para nada má s y pueden afectar la habilidad del sistema de salud para cubrir con las
necesidades de aquellos a quienes sirve.
Los costos tienden a variar ampliamente entre jurisdicciones y a lo largo del tiempo.
Los costos de los medicamentos no se relacionan con los costos de producció n, ni con las decisiones de mercadeo ni con
las políticas nacionales. Los hospitales y las organizaciones de mantenimiento de la salud pueden, por ejemplo, negociar
acuerdos especiales con compañ ías farmacéuticas por precios sustancialmente menores a los que está n disponibles para
los pacientes u otros proveedores. Aú n cuando el uso de los recursos permanezca igual, las implicaciones de los recursos
pueden variar ampliamente entre jurisdicciones. Los costos también pueden variar en gran medida con el tiempo (p.ej.
cuando los medicamentos salen de las patentes o una nueva tecnología má s baratas está disponible). La gran variabilidad
de los costos en el tiempo y jurisdicciones requiere que los paneles de las guías formulen preguntas de investigació n tan
específicas como sea posible al momento de incluir los costos a la ecuació n. La elecció n del comparador puede ser un
problema particular en los aná lisis econó micos. Si la elecció n del comparador es inapropiada (por ejemplo, no tratamiento
en lugar de una intervenció n alternativa menos efectiva) las conclusiones pueden ser equivocadas. Aú n cuando el uso de
los recursos sea el mismo, las implicaciones de los recursos pueden variar ampliamente entre jurisdicciones. El suministro
anual de un medicamento muy costoso puede pagar el salario de una enfermera en los Estados Unidos, el salario de seis
enfermeras en Polonia y el salario de 30 enfermeras en China. Por lo tanto, lo que se puede comprar con los recursos
ahorrados si se deja de comprar el medicamento (el “costo de oportunidad”) – y los beneficios de salud logrados con esos
gastos – diferirá n en gran medida.
Las personas tienen diferentes perspectivas sobre lo que están considerando costos de oportunidad.
La farmacia de un hospital con un presupuesto fijo al considerar la compra de un nuevo medicamento costoso tendrá una
idea clara de lo que dicha compra significará en términos de otros medicamentos que no se podrá n comprar. Las personas
generalmente asumen que el sobrecosto son gastos de salud pú blica – financiar un nuevo medicamento o un programa
limitará los recursos para otros gastos de salud pú blica. Sin embargo, no se puede estar seguro que abstenerse de esa
compra realmente significa que los recursos equivalentes estará n disponibles para el sistema de salud. Ademá s, puede
uno preguntarse si el sistema de salud pú blico está gastando en lo correcto.
La asignación de los recursos es un asunto mucho más político que considerar otros desenlaces
Si el panel considera o no de forma explícita los asuntos de asignació n de recursos, esas políticas pueden influir en la
funció n del panel de la guía a través de los conflictos de interés.
A pesar de estas diferencias, los enfoques de los costos (uso de los recursos) son similares a otros desenlaces:

 Los paneles de las guías deben considerar solo las implicaciones de recursos
  importantes
 Quienes toman las decisiones requieren un estimado de la diferencia entre el tratamiento y el control
 Los paneles de las guías deben hacer juicios explícitos sobre la calidad de la evidencia concerniente al uso
incremental de los recursos

1. Perspectiva

Una recomendació n podría estar destinada a una audiencia muy estrecha, como por ejemplo la farmacia de un hospital, un
hospital individual o una organizació n del mantenimiento de salud. Alternativamente podría estar destinada a una regió n
en salud, un país o una audiencia internacional.
Independientemente de qué tan estrecha o amplia sea la audiencia, los grupos de las guías que eligen incorporar
implicaciones de los recursos, deben ser explícitos acerca de la perspectiva que está n tomando.
 De forma alternativa una guía puede elegir tomar una perspectiva social, e incluir todas las implicaciones de recursos
importantes, independientemente de quien asuma los costos.
En un sistema de salud financiado con fondos pú blicos la perspectiva del paciente consideraría ú nicamente las
implicaciones de los recursos que afectan directamente los pacientes individuales (p.ej. costos de bolsillo), e ignoraría
muchos de los costos generados (p.ej. costos asumidos por el gobierno). En el sistema de salud europeo, en el cual, en la
mayoría de los casos, el gobierno asume los costos del cuidado de la salud, los gastos asumidos directamente por los
pacientes será n mínimos. La perspectiva de una farmacia ignoraría el ahorro en costos resultantes de eventos adversos
(p.ej. infarto de miocardio o evento cerebrovascular) prevenidos por los medicamentos. La perspectiva de un hospital
ignoraría los costos tanto incurridos como prevenidos en pacientes ambulatorios. En el sector privado, en el cual la
desafiliació n y la pérdida de los seguros pueden cambiar la carga de los costos de un sistema a otro, el estimado del uso de
los recursos debería incluir los costos posteriores de todos los pacientes tratados, y no solo aquellos que permanecen en
un plan de salud particular.
Una perspectiva má s amplia, la de la sociedad, se incluirían los gastos indirectos o ahorros (salarios perdidos, por
ejemplo).
Una perspectiva aú n má s amplia, la de la sociedad, incluiría los costos indirectos o ahorros (p.ej. salarios perdidos). Estos
son difíciles de estimar y controversiales porque se asume que la pérdida de productividad no será reemplazada por un
individuo que de otra manera estaría desempleado o subempleado, e implícitamente colocan un menor valor en
individuos que no trabajan (p.ej. los pensionados). Tomar la perspectiva de los sistemas de salud tiene otra ventaja. Una
presentació n del uso de los recursos asociado con estrategias de manejo alternativas permite a un individuo o un grupo –
un paciente, la farmacia o un hospital—examinar los méritos relativos de las alternativas desde su perspectiva particular.
Los clínicos que atienden pacientes sin seguro, ni pú blico ni privado, deben pueden necesitar ayudar a estos individuos en
la toma de decisiones teniendo en cuenta los costos de bolsillo. Esto es especialmente cierto cuando las ventajas y
desventajas clínicas está n estrechamente balanceadas, y existen costos de bolsillo sustanciales. En estas circunstancias, si
el panel de la guía ha usado la aproximació n GRADE y hace que los perfiles de evidencia estén disponibles para los
usuarios de las guías, los clínicos pueden revisar los resú menes de evidencia y asegurar que la decisió n del paciente, de
aceptar la estrategia de manejo recomendada es consistente con sus valores y preferencias – bien sea comunicando
directamente la informació n al paciente, o averiguando cuá l es la situació n del paciente, sus valores y sus preferencias.
GRADE sugiere que es má s deseable una perspectiva amplia.

2. Implicació n de los recursos que se consideran

Los perfiles de evidencia y las tablas de resumen de hallazgos siempre deberían presentar el uso de los recursos, no solo
valores monetarios porque éstos, para el mismo recurso, variará n dependiendo del escenario.
Se sugiere que los desarrolladores de las guías documenten el mejor estimado del uso de los recursos, y no el mejor
estimado de los costos. Los costos está n en funció n de los recursos gastados y el costo por unidad de recurso. Dada la
amplia variabilidad en los costos por unidad, reportar solamente los costos totales a lo largo de amplias categorías del
gasto de los recursos, deja a los usuarios sin la informació n requerida para juzgar si los estimados de costos de unidad
aplican a su escenario. Se recomienda por tanto que se utilicen unidades naturales para estimar el uso de los recursos. Por
el ejemplo, nú mero de días requeridos de estancia hospitalaria, los costos por noche variará n dependiendo del escenario.
Los usuarios de las guías estará n mejor informados, si los desarrolladores de las guías especifican los recursos
consumidos por estrategias de manejo alternas, porque pueden:

 Juzgar si el uso de los recursos refleja patrones de prá ctica de su escenario


 Concentrarse en ítems de mayor relevancia para ellos
 Determinar si los costos por unidad aplican en su escenario

A menos que se especifique el uso de los recursos, los usuarios en escenarios diferentes a aquellos en los que los analistas
se concentraron, no pueden estimar el costo incremental asociado de la intervenció n.

3. Confianza en el estimado del uso de los recursos (calidad de la evidencia de los costos)

La evidencia del uso de los recursos puede venir de diferentes fuentes que no sean la evidencia de los beneficios de salud.
Este puede ser el tanto el caso por el cual los ensayos de intervenciones no reportan plenamente el uso de los recursos,
porque la situació n del ensayo no refleja completamente las circunstancias (y por tanto el uso de los recursos) que se
esperaría en la práctica clínica, porque el uso de recursos relevantes se puede extender má s allá de la duració n del ensayo,
y porque el uso de los recursos puede variar sustancialmente a lo largo de los escenarios.  
Para el uso de los recursos reportados en el contexto de ensayos, los criterios para evaluar la calidad son idénticos a los de
los demá s desenlaces. Así como para los demá s desenlaces de un ensayo, la calidad de la evidencia puede diferir a lo largo
de los diferentes recursos. Por ejemplo, el uso de medicamentos puede ser relativamente fá cil de estimar, mientras que el
uso del tiempo de los profesionales de la salud puede ser má s difícil, y por tanto el estimado del uso de medicamentos
puede ser de mayor calidad.

4. Presentació n del uso de los recursos

Una hoja de balance (p.ej. perfil de evidencia) debe informar los juicios acerca de si los beneficios netos justifican los
costos incrementales. Las hojas de balance presentan de manera eficiente la informació n cruda necesaria para hacer
juicios explícitos informados acerca del uso de los recursos en las recomendaciones de las guías. Sin embargo, cuando se
necesita tomar decisiones de intercambio complejas que involucran varios desenlaces, los juicios pueden permanecer
implícitos o se pueden describir cualitativamente.
Es poco frecuente el agrupar los estimados de los recursos de diferentes estudios, ya que puede resultar bastante
controversial y se debe considerar cuidadosamente. Sin embargo, algunos autores pueden considerar presentar el
estimado agrupado de los recursos cuando confían que el desenlace en cuestió n tiene un significado comú n (p.ej. nú mero
de noches de estancia hospitalaria) a lo largo de los estudios involucrados en el aná lisis. Incluso en este caso, se
recomienda que los autores ajusten por diferencias en costos geográ ficas y temporales.

5. El modelo econó mico

Modelos econó micos formales pueden – o no—ser ú tiles.


Los modelos econó micos formales resultan en costos por unidad de beneficio alcanzado: costo por unidad natural, tales
como costo por evento cerebrovascular prevenido (aná lisis de costo-efectividad), costo por añ os de vida ajustados por
calidad ganados (aná lisis de costo-utilidad) costo y beneficios valorados en valores monetarios (aná lisis de costo-
beneficio). Estos resú menes pueden ser ú tiles para informar los juicios. Desafortunadamente, muchos aná lisis de costo-
efectividad publicados tienen una mayor probabilidad de estar falseados o sesgados, y son escenario-específicos. Cuando
los estimados de los riesgos, beneficios y recursos usados se basan en evidencia de baja calidad, la transparencia del
modelo econó mico se reducirá y el modelo puede ser engañ oso.
¿Deberían los paneles de las guías considerar desarrollar sus propios modelos económicos formales?
Crear un modelo econó mico puede ser recomendable si:

 Los grupos de las guías tienen la experticia y los recursos necesarios


 La diferencia en los recursos consumidos por las estrategias de manejo alternativas es grande y por tanto existe
suficiente incertidumbre acerca de si los beneficios netos de una intervenció n justifican los costos incrementales
 La calidad de la evidencia disponible acerca del consumo de los recursos es alta y es probable que un modelo
econó mico completo ayudaría a informar una decisió n
 Implementar una intervenció n requiere la inversió n de un gran capital, tal como construcció n de nuevas
instalaciones o la compra de nuevos equipos costosos

Hacer un modelo – si bien es necesario para tener en cuenta las complejidades e incertidumbre en el cálculo del costo por
unidad de beneficio – reduce la transparencia. Cualquier modelo es tan bueno como los datos en los que se basa. Cuando
los estimados de los beneficios, de los riesgos o de los recursos usados proviene de evidencia de baja calidad, los
resultados de cualquier modelo econó mico, será altamente especulativos.
Aunque está n disponibles los criterios para evaluar la credibilidad que se da a los resultados de los modelos estadísticos
de costo-efectividad o costo-utilidad, estos modelos incluyen generalmente un gran nú mero de supuestos y calidad de la
evidencia variable para los estimados que se incluyen en el modelo. Por estas razones, el grupo de trabajo GRADE
recomienda no incluir modelos de costo-efectividad o de costo-utilidad en los perfiles de evidencia. Estos modelos pueden,
sin embargo, informar los juicios de un panel, o del gobierno o de los terceros pagadores que está n considerando incluir
una intervenció n dentro de sus programas de beneficios.

9. Consideració n del uso de los recursos en la formulació n de recomendaciones

El panel de la guía puede elegir considerar explícitamente o no considerar el uso de los recursos en las recomendaciones.
El panel de una guía puede legítimamente elegir dejar las consideraciones de los recursos a un lado, y ofrecer una
recomendació n ú nicamente con base en otras ventajas y desventajas de las alternativas que se está n considerando. La
asignació n de los recursos debe considerarse en el ú ltimo nivel de la toma de decisiones – bien sea el paciente, el
profesional de la salud, una organizació n (p.ej. farmacia de un hospital o una organizació n de mantenimiento de la salud)
el tercero pagador, o el gobierno. Los paneles de las guías deben ser explícitos acerca de la decisió n de considerar o no
considerar la utilizació n de los recursos.
Si el panel de la guía considera el uso de los recursos debe, antes de incluir los costos a la ecuació n, decidir primero sobre
la calidad de la evidencia acerca de los otros desenlaces, y sopesar las ventajas y desventajas. Las decisiones concernientes
a los aspectos de la importancia del uso de los recursos fluirá n desde este primer paso. Por ejemplo, la implicació n de los
recursos puede ser irrelevante si la evidencia de los beneficios netos en salud no existe. Si las ventajas de una intervenció n
sobrepasan por mucho las desventajas, es menos probable que el uso de los recursos sea importante. El uso de los
recursos generalmente se vuelve importante cuando las ventajas y las desventajas está n estrechamente equilibradas.
La aproximació n GRADE sugiere que los paneles que consideran el uso de recursos deben ofrecer solamente una ú nica
recomendació n teniendo en cuenta el uso de recursos. El panel debe abstenerse de formular dos recomendaciones – una
sin tener en cuenta el uso de recursos y la segunda teniéndolos en cuenta. Aunque esto tendría la ventaja de ser explícito,
en lo cual GRADE pone un gran valor, el grupo de trabajo GRADE se preocupa que aquellos con interés en la diseminació n
de una intervenció n utilizarían efectivamente solo la recomendació n que ignora la implicació n de los recursos como un
arma en su batalla por fondos (fondos pú blicos en particular).

3. Presentació n de las recomendaciones

1. Redacció n de las recomendaciones

La forma en la que se redacta una recomendació n debería ofrecer al clínico tantos indicadores como sea posible
para entender e interpretar.
Las recomendaciones siempre deben responder la pregunta clínica inicial. Por tanto, siempre deben especificar
los pacientes o la población (caracterizada por la enfermedad y otros factores que los identifican) a quienes está dirigida
la recomendació n, y la intervenció n recomendada tan específica y detallada como sea posible. A menos que sea obvio,
también deben especificar el comparador. En algunos casos, la recomendació n puede incluir una referencia a un escenario
(p.ej. nivel de atenció n primaria o terciario, países de bajos ingresos o altos, etc.).
Por lo general, pareciera preferible presentar recomendaciones a favor de una estrategia de manejo particular que hacerlo
en contra de una alternativa. Por ejemplo, al considerar adicionar aspirina al clopidogrel en pacientes que han tenido
eventos cerebrovasculares, sería preferible decir: “en pacientes que han tenido un evento cerebrovascular, se sugiere
clopidogrel ú nicamente versus adicionar aspirina al clopidogrel”, en lugar de: “en pacientes que han tenido un evento
cerebrovascular y está n usando clopidogrel, se sugiere no adicionar aspirina”. Sin embargo, cuando hay una terapia inú til
o dañ ina ampliamente usada, las recomendaciones en contra de esta estrategia de manejo son apropiadas. Por ejemplo,
“en pacientes que van a ser sometidos a cirugía cardiaca que no se encuentran recibiendo betabloqueadores, se sugiere no
iniciar la terapia peri operatoria con beta bloqueadores”.
Las recomendaciones en voz pasiva pueden carecer de claridad, por tanto, GRADE sugiere que los desarrolladores de guías
presenten recomendaciones en voz activa.
Para las recomendaciones fuertes, el grupo de trabajo GRADE ha sugerido adoptar terminología tal como, “nosotros
recomendamos…” o “los clínicos deberían…”, “los clínicos no deberían…” o “Haga…”, “No haga…”
Para recomendaciones débiles, el grupo de trabajo GRADE ha sugerido frases menos definitivas, tales como “nosotros
sugerimos” o “los clínicos podrían…” o “Nosotros recomendamos condicionalmente…” o “Nosotros hacemos una
recomendació n calificada que…”.
La redacció n de las recomendaciones fuertes y débiles es particularmente importante cuando las guías se desarrollan por
organizaciones internacionales y/o son dirigidas a pacientes y clínicos en diferentes regiones, culturas, tradiciones y uso
del lenguaje. También es fundamental tener en cuenta la redacció n de manera explícita y precisa al momento traducir las
recomendaciones a diferentes idiomas. Cualquiera que sea la terminología seleccionada por el panel de la guía para
comunicar la naturaleza dicotó mica de una recomendació n, es esencial que ellos informen a sus usuarios lo que los
términos implican proporcionando explicaciones como en la tabla 6.4.
Es posible que haya malinterpretació n, a pesar de expresar la fuerza de la recomendació n. Nosotros sugerimos que los
desarrolladores de las guías consideren usar tanto palabras como símbolos (que pueden ser menos confusos que nú meros
o letras) para expresar la fuerza de la recomendació n.

2. Representació n simbó lica

Una variedad de presentaciones de la calidad de la evidencia y la fuerza de la recomendació n puede ser apropiada. La
mayoría de los paneles de las guías han utilizado letras y nú mero para resumir sus recomendaciones. Debido a la amplia
variabilidad en el uso de los nú meros y las letras por las diferentes organizaciones, la presentació n puede ser confusa. La
representació n simbó lica de la calidad de la evidencia y la fuerza de las recomendaciones resulta atractiva, en cuanto a
que no está n limitados por esta confusió n histó rica. Por otro lado, los clínicos parecieran estar muy a gusto con nú meros y
letras, que son particularmente adecuados para la comunicació n verbal, y por tanto existen buenas razones por las que las
organizaciones han elegido usarlas.
El grupo de trabajo GRADE ha decidido ofrecer las representaciones simbó licas preferidas, pero los usuarios de las guías
basadas en la aproximació n GRADE por lo general verá n usar nú meros y letras para expresar la calidad de la evidencia y la
fuerza de la recomendació n.
Tabla 6.4. Representaciones sugeridas de la calidad de la evidencia y
la fuerza de las recomendaciones
Calidad de la Evidencia Símbolo Letras (varía)
Alta ⨁⨁⨁⨁  A
Moderada ⨁⨁⨁◯ B
Baja ⨁⨁◯◯  C
Muy baja ⨁◯◯◯  D
Fuerza de la Recomendación Símbolo Nú mero
Fuerte a favor de la intervención ↑↑ 1
Débil a favor de la intervención ↑? 2
Débil en contra de la intervención ↓? 2
Fuerte en contra de la intervención  ↓↓ 1

4. Declaraciones transparentes acerca de los valores y preferencias asumidas


Idealmente las recomendaciones deben estar acompañadas de una declaración presentando los valores y
preferencias asumidos que subyacen a la recomendació n. Por ejemplo, una guía que aborda temas de prevenció n y
tratamiento de trombosis en el embarazo señ aló : “nuestras recomendaciones reflejan la creencia de que la mayoría de las
mujeres pondrían un valor bajo en evitar el dolor, costos y la inconveniencia de la terapia con heparinas para evitar el
pequeño riesgo de incluso una anormalidad menor en sus hijos, asociado a la profilaxis con warfarina”.
Adicionalmente a, o en cambio de, hacer tales declaraciones generales, los paneles de las guías pueden
proporcionar declaraciones asociadas a recomendaciones individuales, especialmente aquellas que son
particularmente sensibles a los valores y preferencias. En esos casos los autores deberían poner las declaraciones acerca
de los valores y preferencias con las recomendaciones, en lugar del texto que lo acompañ a. Este posicionamiento
prominente de las declaraciones hará menos probable que los usuarios de las guías pierdan la importancia de los juicios
de valores y preferencias.
Considere, por ejemplo, dos grupos que fueron parte de un esfuerzo má s amplio de guía que hicieron recomendaciones
aparentemente contradictorias acerca de la aspirina versus clopidogrel en pacientes con enfermedad vascular
ateroscleró tica, a pesar de usa la misma evidencia de un ensayo que incluyó tanto pacientes en riesgo de eventos
cerebrovasculares como aquellos con enfermedad vascular periférica. Un grupo que se concentró en la prevenció n de
eventos cerebrovasculares recomendó clopidogrel sobre la aspirina indicando: “esta recomendació n pone un valor
relativamente alto en una pequeñ a reducció n absoluta del riesgo en la tasa de eventos cerebrovasculares, y un valor
relativamente bajo en minimizar el gasto de medicamentos”. El otro grupo que se centró en la enfermedad vascular
periférica recomendó la aspirina sobre el clopidogrelindicando: “esta recomendació n pone un valor relativamente alto en
evitar gastos excesivos de recursos para alcanzar reducciones mínimas de eventos vasculares”. Estas recomendaciones
sugieren cursos de acció n opuestos. Las dos son apropiadas considerando los valores y preferencias establecidas, los
cuales fueron hechos explícitamente en las declaraciones de calificació n que acompañ an cada recomendació n.
Otra forma de enmarcar las declaraciones de los valores y preferencias, que el panel puede querer considerar, es en
términos de pacientes que no comparten los valores y preferencias en que se basan las recomendaciones. Por ejemplo, se
puede decir: “para la mayoría de las personas sanas con acalasia que se someten a procedimientos invasivos, se sugiere
miotomía mínimamente invasiva, en vez de dilatación neumática. Los pacientes que prefieren evitar la cirugía y las altas
tasas de enfermedad por reflujo gastroesofágico postquirúrgico, y que están dispuestos a aceptar una tasa inicial de fracaso
mayor y una tasa de recurrencia a largo plazo, pueden razonablemente elegir la dilatación neumática”.

5. El marco de evidencia a la decisió n

Finalmente, los paneles deben integrar los determinantes de la direcció n y la fuerza para elaborar recomendaciones
fuertes o débiles a favor o en contra de una intervenció n. La tabla 6.5 presenta la tabla genérica de la “Evidencia-a la-
Decisió n” (EtD por sus siglas en ingles Evidence to Desicion), que pueden usar los grupos que elaboran recomendaciones
para facilitar la toma de decisiones, registrar los juicios y documentar el proceso desde la evidencia hasta la decisió n. La
tabla 6.6 presenta un ejemplo del marco de EtD utilizado en el desarrollo de las recomendaciones, acerca del uso de ASA
en los pacientes con fibrilació n auricular.
Tabla 6.5. El marco de evidencia a la decisión (EtD)
Consideraciones
Criterio Juicio Evidencia
adicionales
○ No
○ Probablemente no
¿El problema es una ○ Incierto
Problema
prioridad? ○ Probablemente si
○ Si
○ Varía
Beneficios y ¿Cuál es la certeza ○ No hay estudios La importancia relativa o los valores de los principales desenlaces de
riesgos de las global de la incluidos interés:
opciones evidencia? ○ Muy baja Importancia Certeza de la evidencia
○ Baja Desenlace
relativa (GRADE)
○ Moderada
⨁⨁⨁⨁
○ Alta Desenlace 1 CRITICA
ALTA
⨁⨁⨁◯
Desenlace 2 CRITICA
MODERADA
Resumen de hallazgos: intervenció n C
Efecto
Sin la Con la Diferencia
Desenlace relativo (RR)
intervenció n I intervenció n I (IC 95%)
(IC 95%)
25 menos
por
Desenlace 37 de 1000 RR 0.6
61 de 1000 1000(de 12
1 (25 a 49) (0.4 a 0.8)
menos a 37
menos)
Desenlace 108 de 1000 99 de 1000 9 menos por RR 0.92
1000(de 26
2 (80 a 134) más a 28 (0.74 a 1.24)
menos)
○ Incertidumbre o
variabilidad importante
○  Incertidumbre o
¿Existe
variabilidad importante
incertidumbre
posible
importante acerca
○  Probable Incertidumbre
de cómo valoran las
o variabilidad no
personas los
importante
desenlaces
○ Incertidumbre o
principales?
variabilidad no importante
○ No se conoce
incertidumbre
○ No
¿Son los efectos ○ Probablemente no
deseados ○ Incierto
anticipados ○ Probablemente si        
grandes? ○ Si
○ Varía
○ No
¿Son los efectos ○ Probablemente no
indeseables ○ Incierto
anticipados ○ Probablemente si
pequeños? ○ Si
○ Varía
○ No
¿Son los efectos ○ Probablemente no
deseables grandes ○ Incierto
relativos a los ○ Probablemente si
efectos indeseables? ○ Si
○ Varía
○ No
○ Probablemente no
¿Los recursos
○ Incierto
requeridos son
○ Probablemente si
pequeños?
○Si
Uso de los ○ Varía
recursos ○ No
¿El costo
○ Probablemente no
incremental es
○ Incierto
pequeño en relación
○ Probablemente si
a los beneficios
○ Si
netos?
○ Varía
○ Incrementaría
○ Probablemente
¿Cuál sería el
incrementaría
impacto en las
Equidad ○ Incierto
inequidades en
○ Probablemente reducido
salud?
○ Reducido
○ Varía
○ No
¿La opción es ○ Probablemente no
aceptable para las ○ Incierto
Aceptabilidad
partes clave ○ Probablemente si        
interesadas? ○ Si
○ Varía
○ No
○ Probablemente no
¿Es viable
○ Incierto
Factibilidad implementar la
○ Probablemente si      
opción?
○ Si
○ Varía

3. Propó sito del marco

El propó sito del marco es ayudar a los paneles que desarrollan guías a moverse de la evidencia a las recomendaciones. La
intenció n es:

 Informar los miembros del panel los juicios acerca de los pros y contras de cada opció n (intervenció n) que se
considera
 Asegurar que los factores importantes que determinan una recomendació n (criterios) se toman en consideració n
 Proporcionar un resumen conciso de la mejor evidencia disponible para informar los juicios acerca de cada
criterio
 Ayudar a la estructura de discusió n e identificar razones de desacuerdo
 Hacer las bases de las recomendaciones transparentes a los usuarios de las guías
1. Desarrollo del marco

El marco está siendo desarrollando como parte del proyecto DECIDE usando un proceso iterativo informado por la
aproximació n GRADE para ir desde la evidencia hasta las recomendaciones clínicas, una revisió n de la literatura relevante,
lluvia de ideas, retroalimentació n de las partes involucradas, aplicació n del marco a los ejemplos, encuestas a
desarrolladores de políticas, pruebas de usuarios y ensayos. DECIDE (sigla en inglés de Developing and Evaluating
Communication Strategies to Support Informed Decisions and Practice Based on Evidence – Desarrollando y evaluando
estrategias de comunicació n para apoyar las decisiones informadas y la prá ctica basada en evidencia), es un proyecto de 5
añ os (desarrollado desde enero 2011 al 2015), cofinanciado por la Comisió n Europea bajo el programa Séptimo Marco. El
objetivo principal de DECIDE es mejorar la difusió n de las recomendaciones basadas en la evidencia, basá ndose en el
trabajo del grupo de trabajo GRADE para desarrollar y evaluar métodos que se enfoquen en la difusió n de las guías.

2. Descripció n del marco

El marco incluye una tabla con las siguientes columnas:

 Criterios (factores que se deben considerar) para las recomendaciones del sistema de salud o de salud pú blica
 Juicios que los miembros del panel deben hacer en relació n con cada criterio, que deben incluir borradores o
versiones preliminares de los juicios sugeridos por las personas que han preparado el marco
 La evidencia para informar cada uno de esos juicios, que puede incluir los vínculos a los resú menes de evidencia
má s detallados
 Consideraciones adicionales para informar o justificar cada juicio

El marco también incluye las siguientes conclusiones a las cuales deben llegar los miembros del panel, que deben incluir
borradores o versiones preliminares de conclusiones sugeridas por las personas que han preparado el marco:

 El balance de consecuencias de la opció n considerada en relació n a la alternativa (comparació n)


 El tipo de recomendación (en contra de la opció n, a favor de la opció n en ciertas condiciones específicas, o a
favor de la opció n)
 La recomendación en texto conciso, claro y accionable
 La justificación de la recomendació n, que fluye desde los juicios en relació n a los criterios
 Cualquier consideración importante de subgrupos que pueda ser relevante a los usuarios de las guías
 Consideraciones de implementación claves (adicional a cualquiera que se especifique en la recomendació n),
incluyendo estrategias para abordar cualquier preocupació n acerca de la aceptabilidad y viabilidad de la opció n
 Sugerencias para monitorear y evaluar si la opció n se está implementando, incluyendo cualquier indicador
importante que deba ser monitorizado, y cualquier necesidad de un estudio piloto o evaluació n de impacto
 Cualquier prioridad investigativa clave para abordar incertidumbres importantes en relació n con cualquier
criterio

El marco es flexible. Las organizaciones pueden decidir modificar la terminología (y el idioma) que se usa, los criterios, las
opciones de respuesta y las directrices para usar el marco, para asegurar que el marco se ajusta a su propó sito.

3. Uso del marco

Las sugerencias de có mo usar el marco se encuentran en: Marco para ir de la evidencia a la recomendació n – guía para las
recomendaciones del sistema de salud y de salud pú blica, incluyendo sugerencias para preparar los marcos, apoyar el uso
del marco por los paneles de las guías y usar el marco para apoyar decisiones bien informadas por los usuarios de las
guías.
La recomendació n final elaborada por el panel de la guía es un consenso basado en los juicios de los miembros del panel,
informados por la evidencia presentada en el marco y su experticia y experiencia.

4. Explicaciones de los criterios del marco

¿Por qué estos criterios?


Los criterios incluidos en el marco son aquellos que han surgido de nuestra revisió n de la literatura, lluvia de ideas,
retroalimentació n de las partes involucradas, aplicació n del marco a ejemplos, encuestas a los desarrolladores de políticas
y evaluació n de los usuarios. Es posible que se hagan modificaciones en el futuro, basados en una retroalimentació n
continua, la aplicació n del marco y la evaluació n de los usuarios. Los desarrolladores de guías pueden querer también
hacer modificaciones, tales como agregar o eliminar criterios que son o no importantes para considerar. A pesar que hay
un apoyo claro y consistente para incluir de forma rutinaria todos estos criterios, hasta el momento, falta un apoyo claro y
consistente para incluir otros criterios potenciales.
Juicios detallados
Los juicios que se necesitan hacer en ocasiones resultan complejos. Los paneles de las guías pueden encontrar ú til para
hacer y registrar de forma detallada los juicios para algunos criterios, utilizar tablas para juicios detallados. Estas incluyen,
por ejemplo, juicios detallados del tamañ o del efecto para cada desenlace, la certeza de la evidencia de la importancia
relativa de los desenlaces y el uso de recursos, y consideraciones importantes de subgrupos. Algunos criterios se pueden
dividir a su vez en dos o má s criterios separados y algunos paneles pueden elegir hacer esto para resaltar consideraciones
clave que tienen importancia particular para sus guías. Por ejemplo, existen varias razones por las que una opció n puede
no ser aceptable para las partes involucradas - interesadas, y estas podrían considerarse potencialmente como criterios
separados.
¿Desde la perspectiva de quién?
Los paneles de guías deben indicar explícitamente la perspectiva que ellos está n teniendo en cuenta al momento de hacer
las recomendaciones. Esto es importante especialmente para determinar cuá les costos (uso de recursos) se deben
considerar. Esto puede influenciar también cuales desenlaces y de quien son los valores que se está n considerando. Por
ejemplo, los costos de bolsillo son importantes desde la perspectiva de un paciente individual, mientras que los costos de
gobierno son importantes desde la perspectiva del gobierno.  Las decisiones del sistema de salud y de salud pú blica se
toman en nombre de la població n y se requiere una perspectiva má s amplia. Sin embargo, debido a su mandato, algunos
paneles pueden tomar la perspectiva del ministerio de salud o departamentos de salud, mientras que otros paneles
pueden tomar una perspectiva de la sociedad (incluyendo todos los costos, independientemente de quién pague). Otras
perspectivas (la distribució n de los beneficios, riesgos y costos) deben tomarse cuando se considera la aceptabilidad de la
opció n para las partes claves involucradas.
¿Grandes o pequeños comparados con qué?
Algunos de los criterios implican una comparació n; por ejemplo, ¿el tamañ o de los efectos o los requerimientos de los
recursos comparados con qué? Las comparaciones o los está ndares que se usan son propensos a ser diferentes para
diferentes organizaciones, paneles de las guías y jurisdicciones. Algunas organizaciones o paneles de guías pueden elegir
especificar las comparaciones o los está ndares que se van a utilizar. En ausencia de tales comparaciones especificadas, los
miembros de los paneles deben considerar cuá les será n sus comparaciones o está ndares cuando no está n de acuerdo, por
ejemplo, acerca de si el requerimiento de los recursos es grande. Cuando la comparació n utilizada, es la fuente de
desacuerdo, deberá n estar de acuerdo en una comparació n apropiada, e incluirla como una consideració n adicional en el
marco, cuando sea relevante.

5. Directrices para hacer juicios

Las sugerencias de có mo hacer los juicios en relació n a cada criterio se proporcionan en el Marco de la evidencia a la
recomendació n – guía para las recomendaciones del sistema de salud y de salud pú blica.
Para cada criterio existen cuatro o cinco opciones de respuesta, desde aquellas que favorecen la recomendació n en contra
de la opció n a la izquierda, hasta aquellas que favorecen la recomendació n a favor de la opció n en la derecha.
Adicionalmente, la mayoría de opciones incluye “varía” como una opció n de respuesta para situaciones en las cuales
existe una variació n importante a lo largo de diferentes escenarios para los cuales se pretenden las guías, y esas
diferencias son lo suficientemente importantes que pueden llevar a diferentes recomendaciones para diferentes
escenarios.
Preguntas a considerar para cada criterio y su relación con la recomendación
Para cada criterio sugerimos considerar una o má s preguntas detalladas al momento de hacer el juicio, y explicar la
relació n entre los criterios y la recomendació n. Estos criterios se presentan en la tabla 6.6.
Tabla 6.6. Criterios para hacer los juicios en el EtD
Criterio Preguntas Explicaciones
¿El problema es ¿Las consecuencias del problema Entre má s serio sea el problema, es má s
una prioridad? son serias (p.ej. severas o probable que una opció n que aborda el
importantes en términos de problema sea una prioridad (p.ej. Las
beneficios potenciales o ahorro)? ¿El enfermedades que son fatales o
problema es urgente? ¿Es una incapacitantes son má s probables que sean
prioridad reconocida (p.ej. basado una mayor prioridad que las enfermedades
en un plan nacional de salud)? ¿El que solo causan una alteració n menor).
Entre má s personas se vean afectadas, es
problema afecta a gran nú mero de
má s probable que una opció n que aborda el
personas?
problema sea una prioridad.
Entre má s probable sea que las diferencias
¿Qué tanto aquellos afectados por la en los valores lleven a decisiones diferentes,
opció n valoran cada uno de los menos probable es que exista un consenso
¿Existe
desenlaces en relació n con los otros de que una opció n es una prioridad (o
incertidumbre
desenlaces (p.ej. cuá l es la cuanto má s importante sea obtener
importante
importancia relativa de los evidencia de los valores de aquellos
sobre có mo las
desenlaces)? ¿Existe evidencia que afectados por la opció n).
personas valoran
apoye los juicios de valor, o existe Los valores en este contexto se refieren a la
los desenlaces
evidencia de la variabilidad en importancia relativa de los desenlaces de
principales?
aquellos valores, tan grande que interés (có mo valoran cada uno de los
conlleve a decisiones diferentes? desenlaces). Estos valores se llaman en
ocasiones “valores de utilidad”.
Cuanto menos certera sea la evidencia para
los desenlaces críticos (aquellos que
¿Cuá l es la ¿Cuá l es la certeza global de la
conducen a una recomendació n), es menos
certeza1global de evidencia de los efectos, a lo largo
probable que una opció n sea recomendada
la evidencia de la de los desenlaces que son críticos
(o entre má s importante sea conducir un
efectividad? para la toma de decisiones?
estudio piloto o una evaluació n de impacto,
si es recomendada).
¿Qué tan importantes (grandes) son
¿Qué tan los efectos deseables esperados de
importantes son la opció n (incluyendo salud y otros
A mayor sea el beneficio, mayor
los efectos beneficios) (teniendo en cuenta la
probabilidad que la opció n sea recomendada
deseables severidad o importancia de las
esperados? consecuencias deseables y el
nú mero de personas afectadas)?
¿Qué tan importantes (grandes) son
¿Qué tan los efectos indeseables esperados de
importantes son la opció n (incluyendo riesgos para
A mayor sea el riesgo, menor la probabilidad
los efectos la salud y otros riesgos) (teniendo
que la opció n sea recomendada.
indeseables en cuenta la severidad o
esperados? importancia de los efectos adversos
y el nú mero de personas afectadas)?
Entre mayor sean los efectos deseables en
¿Los efectos relació n con los efectos indeseables,
deseables son ¿Son los efectos deseables mayores teniendo en cuenta los valores de aquellos
mayores que los con respecto a los efectos afectados (p.ej. el valor relativo que
efectos indeseables? atribuyen a los desenlaces deseables e
indeseables? indeseables), mayor será la probabilidad
que la opció n sea recomendada.
A mayor sea el costo, menor será la
¿Qué tan grandes
¿Qué tan grande sería la inversió n probabilidad que una opció n deba ser una
son los
de recursos que requeriría o prioridad. Por el contrario, entre mayor sea
requerimientos
ahorraría la opció n? el ahorro, mayor será la probabilidad que
de recursos?
una opció n sea una prioridad.
¿Qué tan grande
es el costo ¿El costo es pequeñ o con relació n al Entre mayor sea el costo por unidad de
incremental con beneficio neto (beneficios menos beneficio, menor probabilidad que una
relació n al riesgos)? opció n sea una prioridad.
beneficio neto?
¿Cuá l sería el Las políticas o programas que reducen las
¿La opció n reduciría o
impacto sobre inequidades tienen mayor probabilidad de
incrementaría las inequidades en
las inequidades ser prioridad que aquellos que no (o
salud?
en salud? aquellos que incrementan las inequidades).
¿Es aceptable la ¿Es probable que las partes clave Entre menos aceptable sea la opció n para las
opció n para las involucradas encuentren la opció n partes clave involucradas, menos probable
partes clave aceptable (dada la importancia que una opció n sea recomendada, o si es
involucradas? relativa que atribuyen a las recomendada, mayor será la probabilidad
consecuencias deseables e que la recomendació n deba incluir una
estrategia de implementació n para abordar
las preocupaciones acerca de la
aceptabilidad. La aceptabilidad puede
reflejar quien se beneficia (o resulta
afectado) y quien paga (o ahorra); y cuando
ocurren los beneficios, efectos adversos y
costos (y las tasas de descuento de las partes
clave; p.ej. Los políticos pueden tener una
tasa de descuento mayor por cualquier cosa
que ocurra después de la siguiente elecció n).
La inaceptabilidad puede deberse a algunas
partes interesadas:

 No aceptando la distribució n de los


indeseables de la opció n; el tiempo beneficios, riesgos y costos
de los beneficios, riesgos y costos; y  No aceptando los costos o efectos
sus valores morales)? indeseables a corto plazo, por efectos
deseables (beneficios) en el futuro
 Atribuir má s valor (importancia
relativa) a las consecuencias
indeseables que a las consecuencias
deseables o costos de una opció n (por
como ellos puede estar afectados
personalmente o por su percepció n de
la importancia relativa de las
consecuencias para otros)
 Desaprobació n moral (p.ej. en relació n
con los principios éticos tales como
autonomía, no-maleficencia,
beneficencia o justicia)

Entre menos factible sea una opció n (capaz


¿Es viable de ser lograda o de llevarla a cabo), menor
¿Se puede lograr o llevar a cabo la
implementar la será la probabilidad que sea recomendada
opció n?
opció n? (p.ej. gran cantidad de barreras que son
difíciles de sobrepasar).
1
La “certeza de la evidencia” es una evaluación de la probabilidad que el efecto será sustancialmente diferente de aquel encontrado por la investigación.

6. Explicaciones ú tiles en el marco de trabajo EtD

Tabla 6.7. Explicaciones de los términos usados en los resúmenes de hallazgos

Término Explicación
Estos son todos los desenlaces (beneficios o riesgos potenciales) que se
consideran importantes para aquellos afectados por la intervenció n, y los cuales son
importantes para hacer una recomendació n o una decisió n. Para seleccionar
los desenlaces importantes se puede consultar a aquellos afectados por la intervenció n
Desenlaces
(como pacientes y sus cuidadores) y otros miembros del pú blico. También se puede
realizar una revisió n de la literatura para informar la selecció n de los desenlaces
importantes. La importancia (o valor) de cada desenlace en relació n a los otros desenlaces
también se debe considerar. É sta es la importancia relativa del desenlace.
Intervalo de El intervalo de confianza es un rango alrededor de un estimado que indica que tan
confianza del preciso es el estimado. El intervalo de confianza es una guía de qué tan seguro se puede
95% (IC) estar sobre la cantidad en la que se está interesado. Entre menos amplio sea el rango entre
los dos nú meros, mayor será la confianza que podemos tener sobre cuá l es el verdadero
valor; entre má s amplio sea el rango, menos seguro se puede estar. La amplitud del
intervalo de confianza refleja el grado en el cual el azar puede ser responsable del
estimado observado (un intervalo má s amplio refleja má s azar). Un intervalo de confianza
del 95% (IC) significa que se puede tener 95 porciento de confianza que el verdadero
tamañ o del efecto se encuentra entre los límites inferior y superior de confianza. Por el
contrario, existe un 5 por ciento de probabilidad que el verdadero efecto esté por fuera de
ese rango.
Aquí el efecto relativo se expresa como razón de riesgo (RR). El riesgo es la probabilidad
que ocurra un desenlace. La razón de riesgo es la razó n entre el riesgo en el grupo de
intervenció n y el riesgo en el grupo control. Por ejemplo, si el riesgo en el grupo de
intervenció n es 1% (10 por cada 1000) y el riesgo en el grupo control es 10%(100 por
cada 1000), el efecto relativo es 10/100 o 0,10. Si el RR es exactamente 1,0, esto significa
Efecto
que no hay diferencia entre la ocurrencia del desenlace en el grupo de intervenció n o el
relativo o RR
control. Si el RR es mayor de 1, la intervenció n aumenta el riesgo del desenlace. Si es un
(Razó n de
buen desenlace (por ejemplo, el nacimiento de un bebé sano), un RR mayor de 1,0 indica
riesgo)
un efecto deseable para una intervenció n. Mientras que si un mal desenlace (por ejemplo,
muerte), un RR mayor de 1,0 indicaría un efecto indeseable. Si el RR es menor de 1,0, la
intervenció n disminuye el riesgo del desenlace. Esto indica un efecto deseable, si es un mal
desenlace (por ejemplo, muerte) y un efecto indeseable si es un buen desenlace (por
ejemplo, nacimiento de un bebé sano).
La certeza de la evidencia es una evaluació n de que tan buena es la indicació n
proporcionada por la investigació n acerca del efecto probable, p.ej. la probabilidad que el
efecto sea sustancialmente diferente de aquel encontrado por la investigació n.
Con sustancialmente diferente nos referimos a una diferencia lo suficientemente grande
que pueda afectar la decisió n. Esta evaluació n se basa en una evaluació n global de las
Certeza de la
razones, de que haya má s o menos certeza utilizando la aproximació n GRADE.
evidencia
En el contexto de las decisiones, estas consideraciones incluyen la aplicabilidad de la
(GRADE)2
evidencia en un contexto específico. Otros términos se pueden usar como sinó nimos
de certeza de la evidencia, incluyendo calidad de la evidencia, confianza en el
estimado y fuerza de la evidencia. Las definiciones de las categorías usadas para calificar
la certeza de la evidencia (alta, moderada, baja y muy baja) se detallan en la tabla a
continuació n.
Tabla 6.8. Definiciones para calificar la certeza de la evidencia

Calificaciones Definiciones

Esta investigació n proporciona una muy buena indicació n del efecto probable.
La probabilidad que el efecto sea sustancialmente diferente es baja.
Alta

Esta investigació n proporciona una buena indicació n del efecto probable. La


probabilidad que el efecto sea sustancialmente diferente es moderada.
Moderada
Esta investigació n proporciona alguna indicació n del efecto probable. Sin
embargo, la probabilidad que sea sustancialmente diferente (una diferencia
Baja suficientemente grande que pueda tener un efecto en la decisió n) es alta.

Esta investigació n no proporciona una indicació n confiable del efecto probable.


La probabilidad que el efecto sea sustancialmente diferente (una diferencia
Muy baja suficientemente grande que pueda tener un efecto en la decisió n) es muy alta.
Para cada conclusió n, sugerimos considerar una o má s preguntas al momento de hacer el juicio y explicar lo que sea
necesario. (tabla 6.7)
Tabla 6.9. Explicaciones útiles para cada conclusión

Término Pregunta Explicación


Un juicio global de si las consecuencias deseables
sobrepasan las consecuencias indeseables, o
¿Cuál es el balance global entre viceversa (basado en toda la evidencia e
Juicio global entre
todas las consecuencias informació n adicional considerada en relació n con
todos los criterios
deseables e indeseables? todos los criterios). Las consecuencias incluyen la
salud y otros beneficios, efectos adversos y otros
riesgos, uso de recursos e impactos en equidad.
Tipo de Basado en el balance de las Una recomendació n basada en el balance de las
recomendació n consecuencias en relación a consecuencias y sus juicios en relació n a todos los
todos los criterios del marco, criterios, por ejemplo:
¿cuál es su recomendación?
 No implementar la opció n
 Considerar la opció n solo en el contexto de
investigació n rigurosa
 Considerar la opció n solo con seguimiento y
evaluació n específica.
 Considerar la opció n solo en contextos
específicos
 Implementar la opció n

Recomendació n ¿Cuál es su recomendación en


Una recomendació n concisa, clara y accionable
(texto) lenguaje simple?
¿Cuál es la justificación para la
recomendación, basado en los Un resumen conciso del racionamiento que sustenta
Justificació n
criterios del marco que llevaron la recomendació n
a la recomendación?
¿Qué subgrupos, si existen,
fueron considerados, y qué
factores específicos, si existen, Un resumen conciso de los subgrupos que se
Consideraciones (basados en los criterios del consideraron y cualquier modificació n de la
de subgrupos marco) se deben considerar en recomendació n con relació n a cualquiera de esos
relación con esos subgrupos al subgrupos
momento de implementar la
opción?
¿Qué se debe considerar al
Consideraciones momento de implementar la Consideraciones clave, incluyendo estrategias que
de opción, incluyendo estrategias aborden las preocupaciones de aceptabilidad y
implementació n que aborden las preocupaciones viabilidad, al momento de implementar la opció n
de aceptabilidad y viabilidad?
¿Qué indicadores deben ser
monitoreados? ¿Existe alguna
necesidad de evaluar los
Consideraciones impactos de la opción, bien sea
Cualquier indicador importante que deba ser
de seguimiento y en un estudio piloto o una
monitoreado si la opció n es implementada
evaluació n evaluación de impacto, llevada
a cabo a lo largo o antes de la
implementación total de la
opción?
¿Existe incertidumbre
importante en relación con
Prioridades de
cualquiera de los criterios que Cualquier prioridad de investigació n
investigación
son prioridad para futuras
investigaciones?

CAPÍTULO 7. La aproximación GRADE para pruebas y estrategias


diagnósticas
Las recomendaciones que conciernen a las pruebas diagnó sticas comparten la ló gica fundamental de las recomendaciones
para intervenciones terapéuticas y otras intervenciones tales como tamizaje. Sin embargo, las preguntas diagnó sticas
también presentan desafíos ú nicos.
Mientras que algunas pruebas reportan naturalmente resultados positivos y negativos (p.ej. embarazo, infecció n por VIH),
otras pruebas reportan sus resultados como variables ordinales (p.ej. escala de coma de Glasgow o el examen Mini-
mental) o variables continuas (p.ej. medidas metabó licas), usualmente con un incremento en la probabilidad de
enfermedad o eventos adversos a medida que los resultados de las pruebas se hacen má s extremos. Por simplicidad, en
esta discusió n generalmente asumimos un enfoque diagnó stico que categoriza finalmente los resultados de las pruebas
como positivos y negativos. Esto a su vez reconoce que muchas pruebas en ú ltima instancia conducen a decisiones
dicotó micas acerca de tratar o no tratar.
Los clínicos y los investigadores generalmente administran pruebas diagnó sticas como un paquete o una estrategia
compuesta por varias pruebas. Por lo tanto, uno puede por lo general pensar en evaluar o recomendar una estrategia
diagnó stica en lugar de una ú nica prueba.
Ejemplo. 7.1
1. En el manejo de pacientes con diagnó stico de neoplasia intra-epitelial cervical, un precursor
prevenible de cá ncer cervical, basado en la inspecció n visual con á cido acético (IVA), los
clínicos pueden proceder a tratar directamente o aplicar una estrategia para evaluar virus del
papiloma humano e IVA.
2. La estrategia diagnó stica  puede usar una prueba inicial sensible pero no específica, la cual, si
es positiva, es seguida por una prueba má s específica (p.ej. las pruebas de VIH incluyen el uso
de una prueba de ELISA seguida por la determinació n cuantitativa de RNA de VIH, en aquellos
con una prueba de ELISA positiva; pero uno podría preguntar por qué no es apropiado usar
ú nicamente una determinació n cuantitativa de RNA de VIH).

1. Preguntas de pruebas diagnó sticas

El formato de la pregunta formulada por los autores de revisiones sistemá ticas o desarrolladores de guías siguen los
mismos principios del formato para las preguntas de manejo:

 ¿Se debe usar la PRUEBA A vs la PRUEBA B en ALGUNOS PACIENTES/POBLACIÓ N?


 ¿se debe usar la PRUEBA A vs la PRUEBA B para ALGUN PROPÓ SITO?

1. Establecer el propó sito de una prueba

Los paneles de las guías deben ser explícitos acerca del propó sito de la prueba en la pregunta. Los investigadores y los
clínicos aplican pruebas médicas a las que nos referimos usualmente como “diagnó sticas” – incluyendo signos y síntomas,
imá genes, bioquímica, patología y pruebas psicoló gicas—para un nú mero de propó sitos. Estas aplicaciones incluyen
identificar alteraciones fisioló gicas, establecer pronó stico, monitorizar la enfermedad y la respuesta al tratamiento,
tamizaje y diagnó stico.

2. Establecer el rol de una prueba

Los paneles de las guías y los autores de revisiones sistemá ticas también deben establecer claramente el rol de una prueba
o estrategia diagnó stica. Este proceso debe iniciar determinando la vía de diagnó stico está ndar – o las vías—para la
presentació n del paciente blanco e identificar las limitaciones asociadas. Conociendo esas limitaciones, se pueden
identificar las deficiencias particulares para las cuales la prueba o estrategia diagnó stica alternativa ofrece un remedio
alterno. El propó sito de una prueba bajo consideració n puede ser para (i) reemplazo (p.ej. de pruebas con mayor carga,
pruebas invasivas, costo o menor precisió n, (ii) triaje/clasificación (p.ej. minimizar el uso de una prueba invasiva o
costosa) o (iii) adición (p.ej. para optimizar la precisió n diagnó stica má s allá de la vía diagnó stica existente) (tabla
7.1) (Bossuyt 2006).
Tabla 7.1. Roles posibles de nuevas pruebas diagnósticas
Reemplazo Una nueva prueba puede sustituir una prueba anterior, porque es má s precisa,
menos invasiva, menos riesgosa o menos incó moda para los pacientes, menos
desafiante organizacionalmente o técnicamente, con resultados má s rápidos o
má s fá ciles de interpretar, o menos costosa.
Triaje/clasificación Una nueva prueba se incluye antes de la vía diagnó stica existente, y solo los
pacientes con un resultado particular en la prueba del triaje continú an la vía de
evaluació n; las pruebas de triaje no necesariamente son las má s precisas, pero
usualmente son las má s simples y menos costosas.
Adición Una nueva prueba se adiciona a la vía diagnó stica existente, y se puede usar
para limitar tanto el nú mero de los resultados falsos positivos como de los
falsos negativos que resultan de la vía diagnó stica existente; las pruebas que se
adicionan usualmente son má s precisas, pero por lo demá s menos atractivas
que aquellas existentes.

3. Preguntas clínicas claras

Establecer claramente el rol o propó sito de una prueba o una estrategia de prueba conducirá a la identificació n de
preguntas clínicas sensibles, que, de forma similar a otros problemas de manejo, tiene cuatro componentes: pacientes,
intervenció n diagnó stica (estrategia), intervenció n diagnó stica de comparació n (estrategia), y los desenlaces de interés.
Ejemplo 7.2
¿En pacientes con sospecha de enfermedad arterial coronaria (pacientes) se debería usar tomografía
computarizada espiral multi-corte (TC) de las arterias coronarias (intervenció n), como reemplazo de
la angiografía coronaria invasiva convencional(comparació n), para disminuir las complicaciones con
tasas aceptables de falsos negativos asociados con eventos coronarios y falsos positivos que llevarían a
tratamiento innecesario y complicaciones (desenlaces)?
Este ejemplo ilustra una razó n comú n para una nueva prueba – prueba reemplazo (TC coronaria en lugar de angiografía
convencional) para evitar complicaciones asociadas a una alternativa má s invasiva y costosa para una condició n que
puede ser tratada efectivamente. En esta situació n, la nueva prueba solo necesitará replicar los resultados de la prueba
existente para demostrar un beneficio neto mayor para el paciente. Esto asume que la nueva prueba categoriza de forma
similar los pacientes en la misma fase de la enfermedad y que las consecuencias del resultado de la prueba son similares,
p.ej. decisiones de manejo y desenlaces.
Ejemplo 7.3
En pacientes con sospecha de alergia a la leche de vaca (ALV), se debería usar prueba de parche
cutá nea en lugar de una prueba oral con leche de vaca para el diagnó stico y manejo de ALV mediada
por IgE.
En adultos atendidos en un escenario clínico no especializado, se debería usar cystatina C sérica o
plasmá tica en lugar de la concentració n de sérica de la creatinina para el diagnó stico y manejo de
insuficiencia renal.

2. Patró n de oro y prueba de referencia

El concepto de precisió n diagnó stica recae en la presencia del llamado “patrón de oro”, p.ej. definició n claramente
establecida de la enfermedad blanco (p.ej. constructo de una enfermedad). Sin embargo, el término “patró n de oro” es
ambiguo y no está definido de forma consistente. Adicionalmente los constructos de las enfermedades cambian
constantemente con el progreso en la comprensió n de la biología (p.ej. en oncología, con una mayor comprensió n
molecular de las patologías subyacentes o la demencia tipo Alzheimer). Aquí utilizaremos el término “patró n de oro”
representando el abordaje “perfecto” para definir o diagnosticar la enfermedad o condició n de interés, aú n si el abordaje
es teó rico y basado en convenció n. Siguiendo esta definició n, la precisió n de la prueba diagnó stica (p.ej. sensibilidad y
especificidad) como una propiedad de medició n no se asocia con el “patrón de oro”. Se utilizará el término “estándar de
referencia” o prueba de referencia para la prueba o estrategia de prueba que es actualmente la mejor estrategia y la má s
aceptada para realizar el diagnostico contra la cual se puede hacer la comparació n (con una prueba índice).

3. Estimació n del impacto en los pacientes

Resulta que las recomendaciones acerca del uso de pruebas médicas requieren inferencias acerca de las
consecuencias de identificar erró neamente si los pacientes padecen o no la enfermedad. Si una prueba falla en mejorar
los desenlaces importantes para los pacientes, no hay razó n para su uso, sin importar su precisió n. Dada la incertidumbre
acerca de la prueba de referencia y el está ndar de oro y la relació n entre el diagnó stico y las consecuencias para el
paciente y la població n, la mejor forma para evaluar una estrategia o prueba diagnó stica sería un ensayo clínico
aleatorizado controlado de prueba-tratamiento, en el cual los investigadores asignan los pacientes a las estrategias
diagnó sticas experimentales o de control, y miden los desenlaces importantes para los pacientes (mortalidad, morbilidad,
síntomas, calidad de vida y uso de los recursos).
La figura 7.1 muestra dos formas genéricas en las cuales uno puede evaluar una estrategia o prueba diagnó stica: a) los
pacientes son aleatorizados a una nueva prueba o estrategia, o alternativamente a una estrategia o prueba antigua.
Aquellos con una prueba positiva (casos detectados) son aleatorizados (o fueron aleatorizados previamente) a recibir la
mejor alternativa de manejo disponible (Segundo paso de aleatorizació n para manejo no se muestra en esta figura). Los
investigadores evalú an y comparan los desenlaces importantes en todos los pacientes en ambos grupos. b) los pacientes
reciben ambas pruebas, la prueba nueva y una prueba referencia (ésta es, sin embargo, por lo general el comparador
antiguo o una prueba o estrategia comparadora). Los investigadores pueden entonces calcular la precisió n de la prueba
comparada con la prueba de referencia (primer paso). Para hacer juicios acerca de la importancia para el paciente de esta
informació n, los pacientes con una prueba positiva (o estrategia) en cualquiera de los grupos son (o han sido en cualquier
estudio previo) sometidos a tratamiento o no tratamiento; los investigadores seguidamente evalú an y comparan los
desenlaces importantes en todos los pacientes de ambos grupos (segundo paso).
Figura 7.1. Diseños de estudios genéricos que los desarrolladores de guías pueden usar para evaluar el impacto de las pruebas.
 Ejemplo 7.3. Diseños usados en la evaluación de las pruebas diagnósticas
ECAs- Observacionales analíticos Estudios de concordancia
Ensayos clínicos aleatorizados (ECAs) que Evidencia consistente de estudios bien diseñ ados
exploraron una estrategia diagnó stica guiada por demostraron menos resultados falsos negativos
el uso de péptido natriurético tipo B (BNP) – con TC helicoidal no contrastada que con
diseñ ado para ayudar en el diagnó stico de falla pielografía intravenosa (PIV) en la sospecha
cardíaca—comparado con el no uso del BNP en diagnó stica de urolitiasis aguda. Sin embargo, los
pacientes que se presentan al departamento de cá lculos en el uréter que una TC detecta pero que
urgencias con disnea aguda. Al final resultó que, el la PIV “omite” son má s pequeñ os, y por tanto má s
grupo aleatorizado a recibir BNP tuvo una estadía probable que pasen con facilidad. Considerando
má s corta en el hospital, con má s bajo costo, sin que no hay ECAs disponibles que evalú an los
incremento en la mortalidad o morbilidad. desenlaces de pacientes tratados con cá lculos
pequeñ os, el grado en el cual la reducció n de
casos que no se detectan (falsos negativos) y si el
seguimiento de hallazgos de cá lculos renales
incidentales por medio de TC tiene beneficios
importantes para la salud continú an siendo
inciertos.
Cuando se encuentra disponibles estudios de intervenció n diagnó stica (ECAs o estudios observacionales) que comparan
alternativas de estrategias diagnó sticas con la evaluació n de desenlaces directos importantes para el paciente, los paneles
de las guías pueden usar la aproximació n GRADE para otras intervenciones.
Si los estudios que miden el impacto de la prueba en los desenlaces importantes para el paciente o la població n no se
encuentran disponibles, los paneles de las guías deben concentrarse en otros estudios, tales como estudios de precisió n de
pruebas diagnó sticas, y hacer inferencias acerca del probable impacto de utilizar pruebas alternativas en desenlaces
importantes para los pacientes. En este ú ltimo caso, la precisió n diagnó stica se puede considerar como un desenlace
subrogado de los beneficios y riesgos importantes para los pacientes.
Preguntas clave al momento de usar la precisió n como un subrogado:

 ¿cuá les desenlaces pueden esperar aquellos etiquetados como casos y aquellos etiquetados de no tener la
enfermedad, basados en el conocimiento acerca de la mejor estrategia de manejo disponible?
 ¿habrá una reducció n en los falsos negativos (casos no identificados) o falsos positivos y el correspondiente
incremento en los verdaderos positivos y los verdaderos negativos?
 ¿qué tan similares (o diferentes) son las personas a las cuales se aplica la prueba y se clasifica de forma precisa por
las distintas estrategias de prueba a aquellos evaluados en los estudios?

4. Evidencia indirecta y el impacto en los desenlaces importantes para los pacientes

Una recomendació n asociada a la pregunta diagnó stica se deriva de la evaluació n del balance entre consecuencias
deseables e indeseables de una estrategia o prueba diagnó stica. Se debería basar en una revisió n sistemá tica que evalú e la
pregunta clínica, así como de informació n acerca del manejo después de aplicada la prueba diagnó stica.
Inferir que los datos de precisió n de una prueba o estrategia diagnó stica mejoran los desenlaces importantes para los
pacientes, requieren de acceso a las terapias de manejo efectivas. De igual forma, aú n cuando no existe un tratamiento
efectivo disponible, utilizar una prueba precisa puede resultar beneficioso, si esta reduce los efectos adversos, costos o la
ansiedad, excluyendo un diagnó stico ominoso, o si confirmando el diagnó stico se mejora el bienestar del paciente
derivado de la informació n pronostica que imparte. Antes de llegar a tales inferencias, se requiere que se hagan juicios
acerca de la confianza en la informació n de la precisió n diagnó stica.

5. Juicio acerca de la calidad de la evidencia subyacente

Como se describió previamente, cuando existen estudios disponibles como los descritos en la figura 7.1, se debería usar la
estrategia para evaluar la confianza en el estimativo del efecto (calidad de la evidencia) descrita previamente para otras
intervenciones en artículos previos en esta serie. El resto del artículo actual, se concentra en el caso en el que tales datos
directos de desenlaces importantes para el paciente no se encuentran disponibles, y el cuerpo de la evidencia se deriva de
estudios de precisió n de pruebas diagnó sticas (PPD) (DTA por sus siglas en inglés Diagnostic Test Accuracy). Por tanto, en
este manual, se proporcionará una guía para evaluar la confianza en los estimativos para aquellos que sintetizan la
informació n de estudios de PPD, p.ej. autores de revisiones sistemá ticas. Las tablas de resumen de hallazgos y los perfiles
de evidencia GRADE proporcionan cuentas transparentes de esta informació n, un resumen de la informació n numérica y
la calificació n de la confianza en esos estimativos.
La tabla 7.2. presenta los factores que determinan y pueden disminuir la calidad de la evidencia
Tabla 7.2. Factores que disminuyen la calidad de la evidencia para los estudios de precisión
diagnóstica y cómo ellos difieren de la evidencia para otras intervenciones
Factores que determinan y Explicaciones y cómo el factor puede diferir de la calidad de la
pueden disminuir la calidad evidencia para otras intervenciones
de la evidencia
Criterios diferentes para estudios de precisió n
Estudios de corte transversal o estudios de cohorte en pacientes con
incertidumbre diagnó stica y comparació n directa de los resultados de las
Diseño del estudio
pruebas con un está ndar de referencia apropiado (mejor estrategia de
prueba posible) se consideran alta calidad y pueden cambiar a moderada,
calidad baja o muy baja dependiendo de otros factores.
6. Criterios diferentes para estudios de precisió n
7. Representatividad de la població n que estaba destinada a ser muestreada.
8. Comparació n independiente con la mejor estrategia de prueba.
9.
Riesgo de sesgo (limitaciones Todos los pacientes incluidos deberían recibir la nueva prueba y la mejor
en el diseño y ejecución del estrategia de prueba alternativa.
estudio) 10. La incertidumbre diagnó stica debe ser suministrada.
11. ¿Es probable que el está ndar de referencia clasifique correctamente la
condició n blanco?

Evidencia indirecta Criterios similares


Población de pacientes, La calidad de la evidencia se puede disminuir si hay diferencias importantes
prueba diagnóstica, prueba entre las poblaciones estudiadas y aquellos para quienes esta destinadas las
comparadora y pruebas de recomendaciones (en pruebas previas, el espectro de enfermedad o
comparación indirectas comorbilidad); si hay diferencias importantes en las pruebas estudiadas y la
experticia diagnó stica de aquellos que las aplican en los estudios
comparados con los escenarios para los cuales está n destinadas las
recomendaciones; o si las pruebas comparadas se comparan cada una con
una referencia está ndar (oro) en diferentes estudios y no comparadas
directamente en los mismos estudios.
Criterios similares
Los paneles que evalú an pruebas diagnó sticas por lo general se ven
enfrentados a la ausencia de evidencia directa sobre el impacto en los
desenlaces importantes para los pacientes. Ellos deben hacer deducciones, a
partir de los estudios de pruebas diagnó sticas, acerca del balance entre las
influencias presumidas en los desenlaces importantes de cualquier
diferencia en verdaderos y falsos positivos, y los verdaderos y falsos
negativos en relació n a las complicaciones de las pruebas y los costos. Por
tanto, los estudios de precisió n típicamente proporcionan baja calidad de la
evidencia para hacer recomendaciones, debido a la evidencia indirecta de
los desenlaces, similares a los desenlaces subrogados para tratamientos.
Criterios similares
Inconsistencia importante en Para los estudios de precisió n la inconsistencia inexplicada en sensibilidad,
los resultados de los estudios especificidad o razones de probabilidad (en vez de riesgos relativos o
diferencias de promedios) pueden disminuir la calidad de la evidencia.
Criterios similares
Para estudios de precisió n, intervalos de confianza amplios para los
Evidencia imprecisa
estimativos de la precisió n de la prueba, o para las tasas de verdaderos y
falsos negativos y positivos, pueden disminuir la calidad de la evidencia.
Criterios similares
Alta probabilidad de sesgo Un alto riesgo de sesgo de publicació n (p.ej. evidencia solo de estudios
de publicación pequeñ os que soportan una nueva prueba, o asimetría en el grá fico de
embudo) pueden disminuir la calidad de la evidencia.
Criterios similares
Para todos estos factores, los métodos no se han desarrollado de forma
apropiada. Sin embargo, determinar una dosis-efecto (p.ej. incrementar los
Subir por dosis-efecto, niveles de anticoagulació n medida con INR incrementa la probabilidad de
posible sesgo de grandes deficiencia de vitamina K o antagonistas de vitamina K). Una muy alta
efectos residuales y factores probabilidad de enfermedad (no con desenlaces importantes para los
de confusión pacientes) asociado a los resultados de la prueba puede incrementar la
calidad de la evidencia. Sin embargo, existe alguna discusió n de si la dosis-
efecto juega un papel importante en la evaluació n de la calidad de la
evidencia en los estudios PPD, y de ser así có mo lo hace.

4. Diseñ o inicial del estudio

En un estudio típico de precisió n de la prueba, una serie consecutiva de pacientes con sospecha de una condició n
particular se someten a la prueba índice (la prueba que se está evaluando) y después todos los pacientes reciben una
prueba de referencia o el está ndar de oro (el mejor método disponible para establecer la presencia de la condició n
blanco). Mientras que en la aproximació n GRADE los estudios de precisió n apropiados (ver a continuació n) comienzan
como evidencia de alta calidad acerca de la precisió n diagnó stica, estos estudios son vulnerables a limitaciones y con
frecuencia llevan a evidencia  de baja calidad para soportar recomendaciones de la guía, sobre todo debido a la evidencia
indirecta que se asocia al hecho que la precisió n diagnó stica es ú nicamente un subrogado de los desenlaces de los
pacientes.

5. Riesgo de sesgo

Algunos instrumentos para la evaluació n del riesgo de sesgo en estudios de PPD está n disponibles. La Colaboració n
Cochrane sugiere una selecció n de los ítems de los instrumentos QUADAS [Whiting 2003; PMID 14606960] y QUADAS -2
[Whiting 2011; PMID 22007046]. Los autores de revisiones sistemá ticas y paneles de las guías pueden usar los criterios
de la lista QUADAS (tabla 7.3) para evaluar el riesgo de sesgo dentro y entre los estudios.
Las limitaciones serias en un cuerpo de la evidencia que indican riesgo de sesgo, si se encuentran, conducirá
probablemente a bajar la calidad de la evidencia en uno o dos niveles.
Tabla 7.3. Criterios de calidad de estudios de precisión diagnóstica derivados de QUADAS (I) 
¿El espectro de pacientes fue representativo de los pacientes que van a recibir la prueba
1.
en la prá ctica? (espectro representativo)
¿El estándar de referencia probablemente clasificará la condició n blanco correctamente?
2.
(está ndar de referencia aceptable)
¿El período de tiempo entre el está ndar de referencia y la prueba índice es lo
3. suficientemente corto para asegurar razonablemente que la condició n blanco no cambió
entre las dos pruebas? (retraso aceptable entre pruebas)
¿Toda la muestra o una selecció n aleatoria de la muestra, recibió verificació n usando el
4.
está ndar de referencia destinado? (evitar la verificació n parcial)
¿los pacientes recibieron el mismo está ndar de referencia independiente del resultado de
5.
la prueba índice? (evitar la verificació n diferencial)
6. ¿El está ndar de referencia fue independiente de la prueba índice? (incorporació n evitada)
¿Los resultados del está ndar de referencia fueron interpretados sin conocimiento de los
7.
resultados de la prueba índice? (resultados de la prueba índice ocultos)
¿Los resultados de la prueba índice fueron interpretados sin conocimiento de los
8.
resultados del está ndar de referencia? (resultados del está ndar de referencia ocultos)
¿Se encontraba disponible la misma informació n clínica al momento de interpretar los
9. resultados de las pruebas, como estaría disponible cuando la prueba sea utilizada en la
prá ctica? (informació n clínica relevante)
¿Se reportaron los resultados no interpretables/ intermedios? (reporte de resultados no
10.
interpretables)
11. ¿Los retiros/pérdidas del estudio fueron explicados? (explicació n de los retiros)
Fuente [Reitsma 2009].
Tabla 7.4. Criterios de calidad de estudios de precisión diagnóstica derivados de QUADAS-2
Dominio Selección de Prueba índice Estándar de Flujo y tiempos
pacientes referencia
Describa cualquier
Describa los métodos paciente que no recibió
de la selecció n de las pruebas índice o
pacientes Describa el está ndar de referencia o
Describa la
Describa los está ndar de que fue excluido de las
prueba índice y
pacientes incluidos referencia y tablas de 2x2 (ver
Descripció n có mo se
(pruebas previas, có mo se diagrama de flujo)
condujo y se
presentació n, uso condujo y se Describa el intervalo y
interpretó
destinado de la interpretó cualquier intervenció n
prueba índice, y entre las pruebas índice
escenario) y el está ndar de
referencia
¿El estándar de
¿Los resultados referencia
de la prueba probablemente ¿Existió un intervalo
índice fueron clasificó de apropiado entre las
¿Se incluyó una
interpretados forma correcta pruebas índice y el
muestra de pacientes
sin la condició n está ndar de referencia?
Señ alizació n consecutiva o
conocimiento blanco? ¿Todos los pacientes
de aleatoria?
de los ¿Los resultados recibieron un está ndar
preguntas ¿Se evitó el diseñ o de
resultados del del está ndar de de referencia?
(si, no o casos y controles?
está ndar de referencia se ¿Todos los pacientes
incierto) ¿El estudio evitó
referencia? interpretaron recibieron el mismo
exclusiones
¿Si se utilizó un sin está ndar de referencia?
inapropiadas?
umbral, se conocimiento ¿Se incluyeron todos los
especificó de los pacientes en el aná lisis?
previamente? resultados de la
prueba índice?
¿Pudo el
¿Pudo la
está ndar de
ejecució n o la
Riesgo de referencia, su
¿La selecció n de interpretació n ¿Pudo el flujo de
sesgo (alto, ejecució n o su
pacientes pudo haber de la prueba pacientes haber
bajo o interpretació n
introducido sesgo? índice haber introducido sesgo?
incierto) haber
introducido
introducido
sesgo?
sesgo?

6. Evidencia indirecta

Juzgar si la evidencia es indirecta, representa un desafío adicional y probablemente mayor para los autores de revisiones
sistemá ticas de precisió n de pruebas diagnó sticas y para paneles de guías que formulan recomendaciones acerca de
pruebas diagnó sticas. En primer lugar, así como para intervenciones terapéuticas, la evidencia indirecta se debe evaluar
en relació n con la població n, el escenario, la intervenció n (la prueba índice o la nueva prueba) y el comparador (otra
prueba investigada o el está ndar de referencia). Por ejemplo, un juicio de evidencia indirecta de la població n puede
resultar de usar diferentes escenarios de pruebas, así como los pacientes vistos en un departamento de emergencias
pueden diferir de pacientes vistos en un consultorio de medicina general, los pacientes incluidos en los estudios de interés
pueden diferir, o la condició n blanco de la població n no es la misma en los estudios comparados a la pregunta formulada.
Si la pregunta clínica es acerca de la elecció n entre dos pruebas, ninguna de las cuales es está ndar de referencia, uno debe
evaluar si las dos pruebas se compararon directamente la una con la otra y con el está ndar de referencia en el mismo
estudio, o en estudios separados en los cuales cada prueba se comparó con el está ndar de referencia.
A diferencia de las preguntas de manejo, si solo hay disponible información de precisión diagnóstica, la evaluación
de la evidencia indirecta requiere de juicios adicionales acerca de si la clasificación correcta o incorrecta de los
sujetos de tener o no la condición blanco, se relaciona con los desenlaces importantes para los pacientes.  Mientras
que los autores de revisiones sistemá ticas omitirá n frecuentemente este paso, porque su interés puede relacionarse
ú nicamente con la revisió n de la precisió n diagnó stica, los paneles de las guías deben siempre hacer estos juicios – bien
sea implícitos, o mejor, de forma explícita y transparente.
Ejemplo 7.1.
Una revisió n sistemá tica que compara la precisió n diagnó stica de dos pruebas para insuficiencia renal – creatinina sérica y cistatina C sérica –
identificó un nú mero de estudios que realizaron pruebas séricas tanto de creatinina como de cistatina C y el está ndar de referencia en los mismos
pacientes. Tabla SoFt de precisió n diagnó stica: cistatina versus creatinina en el diagnó stico de falla renal sería como sigue:
7. Inconsistencia, imprecisió n, sesgo de publicació n y subir por dosis efecto, grandes estimativos de precisió n y
posibles factores de confusió n residuales

Aunque estos criterios son aplicables al cuerpo de la evidencia de estudios de precisió n de pruebas diagnó sticas, los
métodos para determinar si un criterio particular se cumple está n menos establecidos, en comparació n con la evidencia
acerca de los efectos de intervenciones terapéuticas. Se requiere de má s trabajo empírico y teó rico a futuro para proveer
una directriz de como evaluar dichos criterios.
8. Confianza global en los estimativos de los efectos

Los ejemplos a continuació n muestran la evaluació n de la confianza en los estimativos y la tabla SoF de todos los
desenlaces críticos para la comparació n de la angiografía por tomografía computarizada (TC) con una angiografía invasiva
(está ndar de referencia) en pacientes con sospecha de enfermedad arterial coronaria.
En el ejemplo 7.3., la figura muestra la sensibilidad y especificidad de TC coronaria multicorte comparada con angiograma
coronario. La heterogeneidad también existió para razones de probabilidad y razones de probabilidad diagnó stica.
Ejemplo 7.2. Evaluación de la calidad de los estudios de precisión diagnóstica
¿Se debería usar tomografía computarizada espiral multi-corte en lugar de angiografía coronaria convencional para el diagnó stico de
enfermedad arterial coronaria?

Ejemplo 7.3. Resumen de hallazgos de todos los desenlaces críticos para la comparación de angiografía por tomografía
computarizada (TC) con angiografía invasiva (estándar de referencia) en pacientes con sospecha de enfermedad coronaria.
Los estudios de precisió n originales se planearon y ejecutaron de forma correcta, los resultados son precisos, y uno no sospecha sesgo
relevante de publicació n. Sin embargo, existen problemas de inconsistencia. Los revisores que evalú an los méritos relativos de TC
versus angiografía invasiva para el diagnó stico de enfermedad coronaria, encontraron importante heterogeneidad en los resultados
para la proporció n de pacientes con angiografías invasivas negativas con un resultado positivo en la TC (especificidad), y en los
resultados para la proporció n de pacientes con angiografías positivas con resultados negativos en TC (sensibilidad) que no podían
explicar (ver figura a continuació n). Esta heterogeneidad también estaba presente para otras medidas de precisió n de pruebas
diagnó sticas (p.ej. razones de probabilidad positivas y negativas y razones de probabilidades diagnó sticas). La heterogeneidad
inexplicada en los resultados entre los estudios reduce la calidad de la evidencia para todos los desenlaces.
  
CAPÍTULO 8. Criterios para determinar si se utilizó la aproximación GRADE
Uno de los propó sitos del grupo de trabajo GRADE es reducir la confusió n innecesaria que surge de los mú ltiples sistemas
para calificar la calidad de la evidencia y la fuerza de las recomendaciones. Para evitar agregar a esta confusió n mú ltiples
variaciones la aproximació n GRADE, sugiere que los criterios a continuació n se deben cumplir si se menciona que se
utilizó la aproximació n GRADE. También, incluso cuando los usuarios puedan creer que existen buenas razones para
modificar la aproximació n GRADE, desalentamos el uso de estrategias “modificadas” de GRADE que difieran
sustancialmente de la aproximació n descrita por el Grupo de trabajo GRADE. Sin embargo, se alienta y se reciben las
críticas constructivas a la aproximació n GRADE, sugerencias para su mejoramiento, y la participació n en el Grupo de
trabajo GRADE. Al igual que muchas estrategias científicas para mejoras de los sistemas de salud, la aproximació n GRADE
continuará evolucionando en respuesta a nueva investigació n, y para satisfacer las necesidades de los autores de
revisiones sistemá ticas, desarrolladores de guías y otros usuarios.
Lista de chequeo: criterios sugeridos para afirmar que si se empleó la aproximació n GRADE

 Definición de calidad de la evidencia: La calidad de la evidencia (confianza en los estimativos de los efectos) se
debe definir de forma consistente con las definiciones (para las guías o revisiones sistemá ticas) utilizadas por el
Grupo de trabajo GRADE.
 Criterios para evaluar la calidad de la evidencia: Se deben proporcionar consideraciones explícitas para cada
uno de los ocho criterios GRADE para evaluar la calidad de la evidencia (riesgo de sesgo, evidencia directa,
consistencia y precisió n de los resultados, sesgo de publicació n, magnitud del efecto, gradiente dosis respuesta,
influencia de los posibles factores de confusió n residual) aunque se puede usar diferente terminología.
 Calidad de la evidencia para cada desenlace: la calidad de la evidencia (confianza en los estimativos de los
efectos) se debe evaluar para cada desenlace importante y expresarse usando las cuatro categorías (p.ej. alta,
moderada, baja, muy baja) o, si se justifica, tres categorías (p.ej. alta, moderada y baja [baja y muy baja se reduce a
una categoría]) basada en la consideració n de los factores previos (ver punto 2) con interpretació n sugerida de
cada categoría que sea consistente con la interpretació n utilizada por el Grupo de trabajo GRADE.
 Resúmenes de la evidencia: tablas de evidencia o resú menes de la evidencia narrativos detallados, que describen
transparentemente los juicios acerca de los factores descritos previamente en el punto 2, se deben usar como base
para los juicios acerca de la calidad de la evidencia y la fuerza de la recomendació n. Idealmente, los perfiles de
evidencia completos sugeridos por el Grupo de trabajo GRADE se deben usar y éstos deben basarse en revisiones
sistemá ticas. Como mínimo, la evidencia que fue evaluada y los métodos que fueron empleados para identificar y
evaluar la evidencia deben ser descritos de forma clara. En particular, las razones que fueron usadas para
disminuir o aumentar la calidad de la evidencia, se deben describir transparentemente.
 Criterios para determinar la fuerza de la recomendación: consideraciones explícitas se deben dar para cada
uno de los cuatro criterios GRADE para determinar la fuerza de la recomendació n (el balance de consecuencias
deseables e indeseables, calidad de la evidencia, valores y preferencias de aquellos afectados, y el uso de recursos)
y se debe reportar un enfoque general (p.ej. si se consideraron los costos y có mo se consideraron, de quiénes se
asumieron los valores y preferencias, etc.).
 Terminología de la fuerza de la recomendación: la fuerza de la recomendació n a favor o en contra de una
opció n de manejo específica se debe expresar usando dos categorías (débil o fuerte) y la definició n/interpretació n
de cada categoría debe ser consistente con aquella utilizada por el Grupo de trabajo GRADE. Una terminología
diferente para expresar recomendaciones débiles y fuertes se puede usar (p.ej. frase alternativa para
recomendaciones débiles es condicional), aunque la interpretació n y las implicaciones se deben preservar.
 Reporte de los juicios: idealmente, las decisiones acerca de la fuerza de las recomendaciones se deben reportar
de forma transparente.

REFERENCIAS
Bossuyt 2006. Bossuyt PM, Irwig L, Craig J, Glasziou P. Comparative accuracy: assessing new tests against existing
diagnostic pathways. BMJ. 2006 May 6;332(7549):1089-92. Review. Erratum in: BMJ. 2006 Jun 10;332(7554):1368.

Cohen 1977. Jacob Cohen. The Concepts of Power Analysis. En: Statistical Power Analysis for the Behavioral Sciences
(Revised Edition). Chapter 1. Academic Press. 1977, Pages 1–17.

Higgins 2011. Higgins JPT, Green S (editors). Cochrane Handbook for Systematic Reviews of Interventions Version 5.1.0
[updated March 2011]. The Cochrane Collaboration, 2011. Available from http://handbook.cochrane.org.
Mustafa 2013. Mustafa RA, Santesso N, Brozek J, Akl EA, Walter SD, Norman G, Kulasegaram M, Christensen R, Guyatt GH,
Falck-Ytter Y, Chang S, Murad MH, Vist GE, Lasserson T, Gartlehner G, Shukla V, Sun X, Whittington C, Post PN, Lang E,
Thaler K, Kunnamo I, Alenius H, Meerpohl JJ, Alba AC, Nevis IF, Gentles S, Ethier MC,Carrasco-Labra A, Khatib R, Nesrallah
G, Kroft J, Selk A, Brignardello-Petersen R, Schü nemann HJ. The GRADE approach is reproducible in assessing the quality
of evidence of quantitative evidence syntheses. J Clin Epidemiol. 2013 Jul;66(7):736-42; quiz 742.e1-5. doi:
10.1016/j.jclinepi.2013.02.004.
Petitti 2009. Petitti DB, Teutsch SM, Barton MB, Sawaya GF, Ockene JK, DeWitt T; U.S. Preventive Services Task Force..
Update on the methods of the U.S. Preventive Services Task Force: insufficient evidence. Ann Intern Med. 2009 Feb
3;150(3):199-205.
Reitsma 2009. Reitsma JB, Rutjes AW, Khan KS, Coomarasamy A, Bossuyt PM. A review of solutions for diagnostic
accuracy studies with an imperfect or missing reference standard. J Clin Epidemiol. 2009 Aug;62(8):797-806.
doi:10.1016/j.jclinepi.2009.02.005. Review. PubMed PMID: 19447581.
Santesso 2012. Santesso, N., Schü nemann, H., Blumenthal, P., De Vuyst, H., Gage, J., Garcia, F., Jeronimo, J., Lu, R., Luciani,
S., Quek, S. C., Awad, T., Broutet, N. and World Health Organization Steering Committee for the Recommendations on the
Use of Cryotherapy for Cervical Cancer Prevention (2012), World Health Organization Guidelines: Use of cryotherapy for
cervical intraepithelial neoplasia. International Journal of Gynecology & Obstetrics, 118: 97–102.
doi:10.1016/j.ijgo.2012.01.029
Schünemann 2013. Schü nemann HJ, Wiercioch W, Etxeandia I, Falavigna M, Santesso N, Mustafa R, Ventresca M,
Brignardello-Petersen R, Laisaar KT, Kowalski S, Baldeh T, Zhang Y, Raid U, Neumann I, Norris SL, Thornton J, Harbour R,
Treweek S, Guyatt G, Alonso-Coello P, Reinap M, Brozek J, Oxman A, Akl EA. Guidelines 2.0: systematic development of a
comprehensive checklist for a successful guideline enterprise. CMAJ. 2014 Feb 18;186(3):E123-42. doi:
10.1503/cmaj.131237. PubMed PMID: 24344144; PubMed Central PMCID: PMC3928232.
Schünemann 2006. Schü nemann HJ, Jaeschke R, Cook DJ, Bria WF, El-Solh AA, Ernst A, Fahy BF, Gould MK, Horan KL,
Krishnan JA, Manthous CA, Maurer JR, McNicholas WT, Oxman AD, Rubenfeld G, Turino GM, Guyatt G; ATS Documents
Development and Implementation Committee. An official ATS statement: grading the quality of evidence and strength of
recommendations in ATS guidelines and recommendations. Am J Respir Crit Care Med. 2006 Sep 1;174(5):605-14.

Glosario de términos y conceptos (orden alfabético)


Este glosario se basa parcialmente y con permiso, en el glosario de la Colaboració n Cochrane y las Guías de Usuarios para
la Literatura Médica.
Análisis de intención de tratar (IT): una estrategia para analizar los datos de ensayos controlados aleatorizados. Todos
los participantes se incluyen en el brazo al cual fueron asignados, así hayan o no recibido (o completado) la intervenció n
administrada a dicho brazo. El aná lisis de intenció n de tratar previene el sesgo causado por la pérdida de participantes,
que puede alterar el equilibrio de base establecido por la aleatorizació n, y que puede reflejar la no adherencia al
protocolo. El término por lo general se utiliza de forma erró nea en publicaciones de ensayos cuando algunos participantes
se excluyen.
Calidad de la evidencia: el grado en el cual uno puede estar confiado que el efecto estimado es correcto.
Cargas: las cargas son las peticiones o solicitudes que no agradan a los pacientes o cuidadores (p.ej. familia), tales como
tener que tomar los medicamentos o las incomodidades de tener que ir al consultorio de los doctores.
Cociente de riesgo/razón de riesgos (CR): una medida de efecto producida por un aná lisis de supervivencia y
representando el incremento del riesgo con el cual un grupo es probable que experimente el desenlace de interés. Por
ejemplo, si el cociente de riesgo de muerte por un tratamiento es 0,5, entonces se puede decir que los pacientes tratados
es probable que mueran a la mitad de la tasa de los pacientes no tratados.
Comparación: una intervenció n frente a la cual una nueva intervenció n se compara, grupo control.
Consumidor (consumidor de atenció n de salud): alguien que utiliza, está afectado por, o quien tiene derechos a utilizar
servicios de salud.
Contexto: las condiciones y circunstancias que son relevantes a la aplicació n de una intervenció n, por ejemplo, el
escenario (en el hospital, en la casa, en el aire); el tiempo (día laboral, festivo, tiempo nocturno); tipo de prá ctica/nivel de
atenció n (primaria, secundaria, terciaria; prá ctica privada, prá ctica por seguro, caridad); si de rutina o emergencia.
También llamada situació n clínica.
Control: en un ensayo controlado, un control es un participante en el brazo que actú a como comparador para una o má s
intervenciones experimentales. Los controles pueden recibir placebo, ningú n tratamiento, tratamiento está ndar o una
intervenció n activa, tal como un medicamento está ndar. En un estudio observacional un control es la persona en el grupo
sin la enfermedad o el desenlace de interés.
Datos categóricos: datos que son clasificados en dos o má s categorías que no se superponen. Género y tipo de
medicamentos (aspirina, acetaminofén, etc.) son ejemplos de variables categó ricas.
Datos continuos: datos con un nú mero potencial infinito de posibles valores dentro de un rango establecido. Altura, peso,
presió n sanguínea son ejemplos de variables continuas.
Desenlace: un componente del estado clínico o funcional de un participante después de que se ha aplicado una
intervenció n, que se utiliza para evaluar la efectividad de una intervenció n.
Desenlaces subrogados/alternativos: desenlace medido que no tiene importancia directa, pero que se cree reflejan un
desenlace que es importante; por ejemplo, la presió n arterial no es directamente importante para los pacientes, pero se
utiliza como un desenlace en los ensayos clínicos porque es un factor de riesgo para los eventos cerebrovasculares y los
ataques cardíacos. Los desenlaces subrogados son por lo general marcadores fisioló gicos o bioquímicos que pueden
medirse relativamente rá pido y fácilmente, y que se toman porque predicen desenlaces clínicos importantes. Se utilizan
por lo general cuando la observació n de los desenlaces clínicos requiere un seguimiento extenso. También llamados:
desenlaces intermediarios o finales subrogados.
Diferencia de medias (DM): la “diferencia en medias” es un estadístico está ndar que mide la diferencia absoluta entre el
valor del promedio en los dos grupos en un ensayo clínico. Estima la cantidad en la que el tratamiento modifica el
desenlace en promedio. Se puede utilizar como un estadístico de resumen en metaná lisis cuando la medida de los
desenlaces en todos los estudios se hace en la misma escala. Previamente se conocía como diferencia de medias
ponderada (DMP).
Diferencia estandarizada de medias (DEM): la diferencia entre dos medias estimadas dividida por una desviació n
está ndar estimada. Se utiliza para combinar los resultados de estudios que utilizan diferentes formas de medir la misma
variable continua, p.ej. Dolor. Expresando los efectos como un valor estandarizado, los resultados se pueden combinar
puesto que no tienen unidades. La diferencia estandarizada de medias es referida en ocasiones como d índice.
Diferencia mínimamente importante (DMI): la menor diferencia en puntuació n en el desenlace de interés que los
pacientes informaron o los apoderados de los pacientes percibieron como importantes, bien sea beneficioso o perjudicial,
y que llevaría a un paciente o clínico a considerar un cambio en el manejo.
Efectividad: el grado en el cual una intervenció n produce un resultado beneficioso en condiciones ideales. Los ensayos
clínicos que evalú an la efectividad también se llaman en ocasiones ensayos pragmá ticos o de manejo.
Efecto deseable: un efecto deseable de adherencia a una recomendació n puede incluir desenlaces beneficiosos en salud,
menos carga y ahorro.
Efectos indeseables: un efecto indeseable de adherencia a una recomendació n puede incluir dañ os/riesgos, mayor carga
y costos.
Eficacia: el grado en el cual una intervenció n produce un resultado beneficioso en condiciones ideales. Los ensayos
clínicos que evalú an la eficacia se llaman en ocasiones ensayos explicativos.
Ensayo controlado aleatorizado (ECA): un estudio experimental en el cual dos o má s intervenciones se comparan
siendo asignadas de forma aleatoria a los participantes. En la mayoría de ensayos una intervenció n se asigna a cada
individuo, pero en algunos casos la asignació n es para grupos definidos de individuos (por ejemplo, en un hogar) o
intervenciones son asignadas entre individuos (por ejemplo, en diferentes ó rdenes o a diferentes partes del cuerpo).
Estimativo del efecto: la relació n observada entre una intervenció n y un desenlace, expresado como, por ejemplo,
nú mero necesario a tratar, razó n de probabilidad, diferencia del riesgo, razó n de riesgo, reducció n relativa del riesgo,
diferencia de medias estandarizada o diferencia de medias ponderada.
Estimativo puntual: los resultados (p.ej. media, diferencia de medias ponderada, razó n de probabilidades, razó n de
riesgo o diferencia de riesgo) obtenidos en una muestra (un estudio o metaná lisis) que se utiliza como el mejor estimado
de lo que es verdadero para la població n relevante de la cual se toma la muestra.
Estudio de casos y controles: un estudio observacional que compara personas con una enfermedad específica o
desenlace de interés (casos) con personas de la misma població n sin esa enfermedad o desenlace (controles), y que busca
encontrar asociaciones entre el desenlace y la exposició n previa a factores de riesgo particulares. Este diseñ o es
particularmente ú til cuando los desenlaces son raros y la exposició n pasada se puede medir de forma confiable. Los
estudios de casos y controles son usualmente retrospectivos, pero no en todos los casos.
Estudio de cohorte: un estudio observacional en el cual un grupo definido de personas (la cohorte) se sigue por un
periodo de tiempo. Los desenlaces de las personas en los subconjuntos de esta cohorte se comparan, para examinar
quienes estuvieron y no estuvieron expuestos (o expuestos en diferentes niveles) a una intervenció n particular o a otros
factores de interés. Un estudio de cohorte prospectivo reú ne los participantes y los sigue en el futuro. Un estudio de
cohorte retrospectivo (o histó rico) identifica los sujetos de registros pasados y los sigue desde el tiempo del registro hasta
el presente.
Estudio observacional: un estudio en el cual los investigadores no pretenden intervenir, sino simplemente observar el
curso de eventos. Cambios o diferencias en una característica (p.ej. si las personas recibieron o no la intervenció n de
interés) se estudian en relació n a cambios o diferencias en otra característica(s) (p.ej. si murieron o no), sin acció n del
investigador. Existe un mayor riesgo de sesgo de selecció n que en estudios experimentales.
Factor de confusión: un factor que está asociado tanto con una intervenció n (o exposició n) y el desenlace de interés.  Por
ejemplo, si las personas de un grupo experimental de un ensayo controlado son má s jó venes que las del grupo control,
será difícil decidir si un riesgo menor de muerte en un grupo se debe a la intervenció n o a la diferencia de edades. La edad
se dice entonces que es un factor de confusió n, o una variable de confusió n. La aleatorizació n se utiliza para minimizar
desequilibrios en variables de confusió n entre los grupos experimentales y control. Los factores de confusió n son una
preocupació n importante en los estudios no aleatorizados.
Fuerza de la recomendación: el grado de confianza que los efectos deseables de adherencia a una recomendació n
sobrepasan los efectos indeseables.
Gradiente dosis respuesta: la relació n entre la cantidad del tratamiento administrado y su efecto en el desenlace.
Guía de práctica clínica (GPC): una declaració n sistemá ticamente desarrollada para asistir en las decisiones del médico y
pacientes acerca de la atenció n apropiada en salud para circunstancias clínicas específicas.
Intervalo de confianza (IC): una medida de la incertidumbre alrededor del principal hallazgo de un aná lisis estadístico.
Estimativos de cantidades desconocidas, tales como RR que compara una intervenció n experimental con un control, se
presentan usualmente como un estimativo puntual y un intervalo de confianza del 95%. Esto significa que si alguien fuese
a repetir el estudio en otras muestras para la misma població n, el 95% de los intervalos de confianza calculados de esos
estudios incluirían el verdadero valor subyacente. Resulta má s fácil conceptualmente pensar el IC como el rango en el cual
la verdad se encuentra posiblemente. Intervalos má s amplios indican menos precisió n; intervalos menos amplios mayor
precisió n. Alternativas al 95%, tales como intervalos de confianza de 90% y 99%, se utilizan en ocasiones.
Intervención: el proceso de intervenir personas, grupos, entidades u objetos en un estudio experimental. En ensayos
controlados, la palabra se utiliza en ocasiones para describir los regímenes en todos los grupos de comparació n,
incluyendo los brazos de placebo y de no tratamiento.
Metanálisis: la combinació n estadística de resultados de dos o má s estudios separados.
Número necesario a tratar (NNT): un estimado de cuantas personas necesitan recibir el tratamiento antes de que una
persona experimente un desenlace beneficioso. Por ejemplo, si se necesita dar un medicamento para la prevenció n de
evento cerebrovascular a 20 personas antes de prevenir un evento, entones el nú mero necesario a tratar para beneficiarse
de ese medicamento de prevenció n del evento cerebrovascular es 20. Se estima como el recíproco de la diferencia de
riesgo.
Número necesario para dañar (NND): un nú mero necesario a tratar para beneficiar asociado a un efecto dañ ino/nocivo.
Es un estimado de cuantas personas necesitan recibir el tratamiento antes de que una o má s personas experimenten un
desenlace dañ ino/nocivo o una persona menos experimente un desenlace beneficioso.
Población: el grupo de personas en estudio, usualmente tomando muestras de dicha població n. Las poblaciones se
pueden definir por cualquier característica p.ej. Geografía, grupo etario, ciertas enfermedades.
Precisión: una medida de la probabilidad de errores aleatorios en los resultados de un estudio, metaná lisis o medida. A
menor error aleatorio mayor la precisió n. Intervalos de confianza alrededor del estimativo del efecto de cada estudio, son
una forma de expresar la precisió n, un intervalo de confianza má s angosto significa má s precisió n.
Razón de probabilidades (OR): la razó n de probabilidades de un evento en un grupo a la probabilidad de un evento en
otro grupo. En estudios de efecto de tratamiento, las probabilidades en el grupo de tratamiento se dividen usualmente en
las probabilidades en el grupo control. Una razó n de probabilidades de uno indica que no hay diferencias entre los grupos
en comparació n. Para desenlaces poco deseados un OR menor de uno indica que la intervenció n fue efectiva en reducir el
riesgo de ese desenlace. Cuando el riesgo es pequeñ o, el valor de la razó n de probabilidades es similar a la razó n del riego.
Cuando los eventos en el grupo control no son frecuentes, OR y CR se pueden asumir iguales al RR para la aplicació n de
este criterio.
Reducción absoluta del riesgo (RAR): sinó nimo de diferencia del riesgo (DR). La diferencia en el riesgo entre dos
grupos. Por ejemplo, si un grupo tiene un riesgo del 15% de contraer una enfermedad particular, y el otro tiene un riesgo
de 10% de contraer la enfermedad, la diferencia del riesgo es 5 puntos porcentuales.
Reducción relativa del riesgo (RRR): la reducció n proporcional en el riesgo en un grupo de tratamiento comparado con
otro. Es uno menos la razó n de riesgo. Si la razó n de riesgo es 0,25, entonces la reducció n relativa del riesgo es 1-
0,25=0,75 o 75%.
Reporte de caso: un estudio reportando observaciones de un ú nico individuo. También llamado: anécdota, historia de
caso, o estudio de caso.
Review Manager (RevMan): es el software utilizado para preparar y mantener las revisiones sistemá ticas de Cochrane.
Revman permite escribir y manejar los protocolos de las revisiones sistemá ticas, así como completar las revisiones, incluir
texto, tablas y datos del estudio. Puede elaborar metaná lisis de los datos ingresados y presentar los resultados
grá ficamente.
Revisión sistemática: una revisió n de una pregunta claramente formulada que utiliza métodos sistemá ticos y explícitos
para identificar, seleccionar y evaluar críticamente investigació n relevante, y para recolectar y analizar datos de estudios
que se incluyen en la revisió n. Métodos estadísticos (metaná lisis) se pueden o no emplear para analizar y resumir los
resultados de los estudios incluidos.
Riesgo basal: sinó nimo del riesgo del grupo control.
Riesgo del grupo control: riesgo observado del evento en el grupo control. Sinó nimo de riesgo basal. El riesgo del grupo
control para un desenlace se calcula dividiendo el nú mero de personas con un desenlace en el grupo control en el nú mero
total de participantes del grupo control.
Riesgo relativo (RR): sinó nimo de razó n de riesgo. La razó n de riesgos en dos grupos. En estudios de intervenció n, es la
razó n del riesgo en el grupo de intervenció n al riesgo en el grupo control. Una razó n de riesgo de uno indica no diferencia
entre los grupos comparados. Para desenlaces indeseables, una razó n de riesgo que es menor de uno indica que la
intervenció n fue efectiva en reducir el riesgo de ese desenlace.
Riesgo: la proporció n de participantes que experimentan el evento de interés. Por tanto, si de 100 participantes, el evento
(p.ej. evento cerebrovascular) se observa en 32, el riesgo es 0,32. El riesgo del grupo control es el riesgo en el grupo
control. El riesgo algunas veces es referido como la tasa de eventos.
Seguimiento: la observació n en un período de tiempo del estudio/ensayo de los pacientes para medir los desenlaces que
se encuentran en investigació n.
Series de casos: un estudio reportando observaciones en una serie de individuos, usualmente todos recibiendo las
mismas intervenciones, sin grupo control.
Sesgo: un error sistemá tico o desviació n en los resultados o inferencias de la verdad. En los estudios de los efectos de la
atenció n en salud, los principales tipos de sesgo se originan de diferencias sistemá ticas en los grupos que se comparan
(sesgo de selecció n), la atenció n provista, exposició n a otros factores aparte de la intervenció n de interés (sesgo de
desempeñ o), retiros/pérdidas o exclusiones de personas incluidas en un estudio (sesgo de deserció n) o có mo se está n
evaluando los desenlaces (sesgo de detecció n). Las revisiones sistemá ticas de estudios se pueden ver afectadas también
particularmente por el sesgo de reporte, donde un subconjunto sesgado de todos los datos relevantes se encuentra
disponible.
Significancia estadística: un resultado que es poco probable que suceda por el azar. El umbral usual para estos juicios es
que los resultados, o los resultados má s extremos, ocurrirían por el azar con una probabilidad menor de 0,05 si la
hipó tesis nula fuese cierta. Las pruebas estadísticas producen un valor p utilizado para evaluar esto.
Tamaño del efecto (TE): un término genérico para el estimado del efecto de tratamiento para un estudio. Algunas veces
el término es utilizado para referirse a diferencia de medias estandarizada. Para facilitar la comprensió n se sugiere
interpretar el tamañ o del efecto de acuerdo a lo ofrecido por Cohen (Cohen 1977). De acuerdo a esta interpretació n, un
tamañ o de efecto o diferencia de media estandarizada de alrededor de:

 0,2 es considerada un pequeño efecto


 0,5 es considerada un moderado efecto
 0,8 o má s es considerada un gran efecto

Tamaño óptimo de información (TOI): nú mero de pacientes generados por el cálculo del tamañ o de muestra
convencional para un ú nico ensayo.
Validez externa: el grado en el cual los resultados proporcionan una base correcta para generalizar a otras
circunstancias. Por ejemplo, un metaná lisis de ensayos de pacientes mayores no se puede generalizar a niñ os. También se
puede llamar generalizació n o aplicabilidad.
Validez interna: el grado en el cual el diseñ o y la conducció n de un estudio son propensos de haber prevenido el sesgo.
Variació n en la calidad metodoló gica puede explicar variació n en los resultados de los estudios. Ensayos diseñ ados con
má s rigor (mejor calidad) es má s probable que produzcan resultados má s cercanos a la verdad.
Valoración/Apreciación crítica: el proceso de evaluació n e interpretació n de la evidencia considerando de forma
sistemá tica su validez, resultados y relevancia.

Recursos adicionales
Recursos para autores de revisiones sistemáticas
El manual Cochrane (The Cochrane Handbook) incluye dos capítulos principales que proporcionan informació n de có mo
crear tablas de resú menes de hallazgos usando la informació n de las revisiones sistemá ticas Cochrane y GRADEing la
evidencia.
Parte 2 Capítulo 11: presentando los resultados y tablas “resú menes de hallazgos”
Parte 2 Capítulo 12: interpretando los resultados y sacando conclusiones
Recursos generales de medicina basada en la evidencia
La biblioteca Cochrane
La biblioteca Cochrane (The Cochrane Library ) contiene evidencia independiente de alta calidad, para informar las
decisiones de atenció n en salud. Incluye evidencia confiable de revisiones sistemá ticas Cochrane y otras revisiones,
ensayos clínicos entre otros. Las revisiones Cochrane proveen los resultados combinados de los mejores estudios médicos
del mundo, y son reconocidos como el está ndar de oro en la atenció n en salud basada en evidencia.
El manual Cochrane
El manual Cochrane (The Cochrane Handbook ) para revisiones sistemá ticas de intervenciones (el manual) provee
directrices para los autores al momento de preparar revisiones de intervenciones Cochrane (incluyendo Resumen de las
revisiones Cochrane). El manual se actualiza regularmente para reflejar los avances en la metodología de las revisiones
sistemá ticas y en respuesta a la retroalimentació n de los usuarios.
Guía de usuarios de literatura médica (Users´Guides to the Medical Literature)
Un set completo de usuario para encontrar, evaluar y utilizar literatura médica que fue publicado originalmente como
series en la revista de la Asociació n Médica Americana (JAMA).
Guías de usuario de literatura médica: un manual de prá ctica clínica basada en la evidencia (interactivo disponible en
inglés) (Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice (Interactive)), presenta los
conceptos sofisticados de medicina basada en evidencia (MBE) en formas ú nicas que se pueden utilizar para determinar
diagnó sticos, decidir terapias ó ptimas y predecir pronó stico. También ofrece una expansió n a fondo de la metodología,
estadística y cuestiones de costo que emergen en la investigació n médica.
Recursos específicos de guías
Mejora del uso de la evidencia de la investigación en el desarrollo de guías (SERIES)
Una serie de 16 trabajos publicados en Health Research Policy and Systems (disponible en inglés) en 2006, Volumen 4,
secciones 12 a 28 acerca del desarrollo de guías. Los temas son Guías para guías, escenarios prioritarios, composició n de
Grupos y procesos de consultoría, Manejo de conflictos de interés, Procesos de grupo, Decidiendo cuá les desenlaces son
importantes, Decidiendo qué evidencia incluir, Síntesis y presentació n de la evidencia, Calificando la evidencia y las
recomendaciones, Integrando los valores del consumidor, Incorporando consideraciones de costo-efectividad,
asequibilidad e implicaciones de recursos, Incorporando consideraciones de equidad, Adaptació n, aplicabilidad y
transferibilidad, Reportando guías, Diseminando e implementando guías, y Evaluació n.
El instrumento AGREE
El propó sito del instrumento AGREE (Appraisal of Guidelines Research & Evaluation (AGREE) Instrument) es proveer un
marco para evaluar la calidad de las guías de prá ctica clínica
Comité asesor de guías
Comité asesor de guías: (GuidelinesAdvisoryCommittee) (CAG) es una asociació n independiente de la Asociació n Médica
de Ontario y el Ministerio de Salud y Cuidado a Largo Plazo de Ontario (MOHLTC por sus siglas en inglés). La misió n es
promover una mejor salud para las personas de Ontario alentando a los médicos y otros involucrados en la atenció n de
pacientes, a utilizar guías de prá ctica clínica basadas en evidencia y prá cticas clínicas basadas en la mejor evidencia
disponible. Nosotros identificamos, evaluamos, avalamos y resumimos las guías para el uso en Ontario.
National Guideline Clearinghouse 
La National Guideline Clearinghouse (NGC por sus siglas en inglés), es una base de datos comprensiva de guías de prá ctica
clínica basadas en la evidencia y documentos relacionados. NGC es una iniciativa de la Agencia para la investigació n en
salud y calidad (AHRQ por sus siglas en inglés), del departamento de Salud y servicios humanos de los Estados Unidos.
Biblioteca nacional de guías
Biblioteca nacional de guías: National Library of Guidelines es una colecció n de guías para el Servicio Nacional de Salud
(NHS). Se basa en guías producidas por NICE y otras agencias nacionales. La aproximació n principal de la biblioteca son
las guías producidas en el Reino Unido, pero de no haber guía producida en el Reino Unido disponible, guías de otros
países son incluidas en la colecció n.

Acerca del Grupo de trabajo GRADE


Grupo de trabajo GRADE: (Grading of Recommendations Assessment, Development and Evaluation (short GRADE)
Working Group). El Grupo de trabajo GRADE comenzó en el añ o 2000 como una colaboració n informal de má s de 60
metodó logos, clínicos, revisores sistemá ticos y desarrolladores de guías representando varias organizaciones con el
propó sito de abordar las dificultades de los sistemas de calificació n de la atenció n de salud actuales. El propó sito fue
desarrollar un enfoque comú n, sensible para calificar la calidad de la evidencia y la fuerza de la recomendació n. Basados
en la experiencia comú n, la revisió n crítica de otros sistemas, trabajando por medio de ejemplos y aplicando el sistema en
guías, el grupo de trabajo ha desarrollado la aproximació n GRADE como un método comú n, transparente y aplicable para
calificar la calidad de la evidencia y la fuerza de las recomendaciones.
El grupo interactú a a través de reuniones bianuales produciendo directrices metodoló gicas, desarrollando resú menes de
la evidencia y guías de aplicació n. Los miembros colaboran en proyectos de investigació n como el proyecto DECIDE
(www.decide-collaboration.eu) junto con otros miembros y científicos u organizaciones (p.ej. www.rarebestpractices.eu).
La membrecía es abierta y gratuita. Para má s informació n acerca del Grupo de Trabajo y la lista de las organizaciones que
han avalado y adoptado la aproximació n GRADE, visite www.gradeworkinggroup.org.
Actualmente existen centros académicos y de investigació n que se han dedicado a apoyar la iniciativa GRADE y varios
países han creado Redes Nacionales que unen los Centros GRADE. Un centro o red de GRADE sirve como el centro
principal dentro de la regió n para las preguntas relacionadas con la aproximació n GRADE y para oportunidades de apoyo
y colaboració n. La misió n de los centros / redes de GRADE es ayudar al grupo de trabajo GRADE en la capacitació n,
promoció n, difusió n e implementació n de GRADE. Los centros y redes de GRADE desarrollan acciones efectivas para
difundir el uso de la aproximació n GRADE en las directrices de salud y revisiones sistemá ticas a través de la promoció n,
capacitació n y apoyo de los desarrolladores de las directrices y los autores de la revisió n; para proporcionar apoyo
metodoló gico a organizaciones nacionales, regionales o profesionales y programas de desarrollo de guías de prá ctica
clínica; y realizar talleres y cursos de posgrado en la aplicació n GRADE, por ejemplo, para estudiantes de ciencias de la
salud, aprendices y miembros de la facultad.
A continuació n, se listan los centros y redes formalmente inscritos al cierre de la edició n de éste manual:
GRADE centers

 McMaster University, Hamilton, Canadá. McMaster GRADE Center


 Lanzhou University GRADE Center
 Barcelona GRADE Center
 Freiburg University GRADE Center
 American University of Beirut GRADE Center
 Lazio Region-ASL Rome GRADE Center
 Pontificia Universidad Javeriana Bogotá , Colombia -Javeriana GRADE Center
 JBI Adelaide GRADE Center

GRADE networks

 U.S. GRADE Network


 Dutch GRADE Network
 UK GRADE Network

Adicionalmente, el Grupo de trabajo GRADE ha conformado diferentes grupos a su interior, caracterizados por compartir
un interés temá tico comú n o un proyecto. Actualmente los grupos de trabajo registrados son:
 DECIDE research project  Public health
 Rare diseases
Environmental health  Evidence to decision
 Equity
 Prognosis  Algorithms and pathways
 Outcomes valuation  Modeling
 GRADE-CERQual  Biosimilars
 Diagnosis  Animal studies
 Network meta-analysis  Complex intervent
 Observational studies

1. GRADE training and credentialing

Si desea má s informació n sobre las actividades, publicaciones y proyectos del grupo de trabajo GRADE puede visitar la
web del grupo GRADE http://gradeworkinggroup.org
Usted puede ser parte del GRADE wg si es de su interes, visite la secció n “GET INVOLVE”.
Para apoyo, asesoría y solució n de dudas en la aplicació n de éste manual version en españ ol, y la aproximació n GRADE en
general, puede dirigirse al Javeriana GRADE center- Departamento de Epidemiología Clínica y Bioestadisca de la
PUJ http://medicina.javeriana.edu.co/departamentos-institutos/epidemiologia-clinica-bioestadistica

[1]Cursos y mó dulos de entrenamiento:


http://cebgrade.mcmaster.ca/QuestionsAndOutcomes/index.html
[2]Para generar los perfiles de evidencia puede consultar los tutoriales en línea disponibles en: cebgrade.mcmaster.ca

También podría gustarte