Curva ROC
La curva ROC fue desarrollada por ingenieros para medir la eficacia
en la deteccin de objetos enemigos en campos de batalla durante la
Segunda Guerra Mundial, mediante pantallas de radar, a partir de lo
cual se desarroll la Teora de Deteccin de Seales (TDS).
Esta curva fue propuesta por primera vez para describir la relacin
entre seal y ruido, y se desarroll en la comparacin de la eficacia
de radares. Se necesitaba evaluar la capacidad de un radar para
distinguir entre verdaderas seales y ruido de otros tipos.
El radar podra equivocarse de dos formas: fallando en la
deteccin de la seal (falso negativo) o detectando una falsa
(falso positivo). As, a los radares se les cambiaba el umbral de
deteccin de seales y este cambio originaba distintas tasas de
errores relacionados entre s: a medida que el umbral
disminua, la tasa de falsos negativos descenda (aumenta la
sensibilidad) y aumenta la tasa de falsos positivos
(disminuyendo la especificidad).
En Medicina el anlisis ROC se ha utilizado de forma muy
extensa en Epidemiologa e investigacin mdica.
Se trata de detectar una enfermedad dada, y la prueba en
cuestin puede equivocarse en el sentido de los falsos
negativos o los falsos positivos; al cambiar el punto de corte
(homlogo del umbral para el radar) cambian las tasas de error,
es decir, la sensibilidad y la especificidad.
La curva ROC es una representacin grfica de la sensibilidad
frente a (1 - especificidad) para un sistema clasificador binario
segn los diferentes puntos de corte o umbral de
discriminacin, es decir, valor a partir del cual se acepta que un
caso es un positivo.
La curva ROC se construye al representar grficamente en dos
ejes de coordenadas (X, Y), cada uno de los puntos de corte
dados por los falsos positivos (1 - especificidad) en el eje de las
X y la sensibilidad (verdaderos positivos) en el eje de las Y.
Un espacio ROC representa los intercambios entre verdaderos
positivos y falsos positivos.
El mejor resultado posible de prediccin o poder de la prueba
se sita en la esquina superior izquierda, o coordenada (0,1)
del espacio ROC, representando un 100% de sensibilidad
(ningn falso negativo) y un 100% tambin de especificidad
(ningn falso positivo).
La curva ROC permite entonces seleccionar el mejor punto de
corte y observar comparativamente la sensibilidad y
especificidad de una prueba. Adems se utilizan para mostrar la
relacin o comparacin entre diferentes valores de sensibilidad
y especificidad.
Debe tomarse en cuenta que algunos valores cercanos a los
lmites de normalidad no necesariamente son manifestaciones
de enfermedad. Asimismo, es posible que personas que tienen
un padecimiento presenten valores normales. Esta
superposicin exige que se defina un valor crtico que
discrimine a los individuos enfermos de los sanos.
Al definir como valor crtico para el diagnstico de diabetes tipo
2, en 100, 120 o 130 mg/100 ml de glucosa en sangre en
ayunas, se modifican tanto la sensibilidad como la
especificidad.
El comportamiento de dichas pruebas depende de dnde se
coloque el punto de corte o valor crtico; si ste se desplaza
hacia la derecha (valores mayores de glucosa) disminuyen los
falsos positivos, pero aumentan los falsos negativos, o en
otros trminos, disminuye la sensibilidad y aumenta la
especificidad.
Si se desplaza hacia la izquierda (valores menores de glucosa),
disminuyen los falsos negativos, pero aumentan los falsos
positivos, es decir, disminuye la especificidad y aumenta la
sensibilidad.
Comparacin de pruebas diagnsticas
mediante curva ROC
Lo ms natural es que la comparacin de la eficacia de dos o ms
pruebas diagnsticas para detectar una enfermedad o proceso
patolgico dado, pueda hacerse sobre la base de comparar los valores
de S y de E de tales pruebas.
Pero, cuando se trata de pruebas con resultado cuantitativo, la utilizacin
de la curva ROC correspondiente resulta el modo ms adecuado de
determinar cul de las pruebas es ms eficaz, puesto que ya se vio que
la S y la E de pruebas de este tipo dependen del punto de corte elegido.
Es posible comprender que la curva ROC que tenga el rea
mayor ser la que corresponda a la prueba ms eficaz.
En todo nuevo procedimiento o con el uso de nuevos equipos
de diagnstico, es indispensable realizar cuanto antes la
determinacin de su valor real en relacin con otros mtodos, y
para elegir la mejor prueba diagnstica (con mejor sensibilidad
y especificidad).
Condiciones necesarias para la
validacin de una prueba diagnstica.
Caractersticas de la poblacin. La sensibilidad o especificidad de
una prueba depende de las caractersticas de la poblacin estudiada.
Para que este criterio se cumpla, se debe contar con informacin
sobre los siguientes aspectos: sexo y edad de los sujetos en
evaluacin, resumen de los sntomas clnicos iniciales o estadio de la
enfermedad, y criterios de eleccin para los sujetos que son
enrolados en el estudio.
Subgrupos adecuados. La sensibilidad y la especificidad
pueden representar valores promedio para una poblacin
determinada.
Este criterio se cumple cuando se informa sobre la precisin de
la prueba en relacin con cualquier subgrupo demogrfico o
clnico (p. ej., en sujetos sintomticos y sujetos asintomticos).
Sesgo de seleccin. Puede producirse cuando los sujetos con
los resultados positivos o negativos de una prueba son
derivados de forma preferente para verificar el diagnstico
mediante otra prueba considerada el estndar de referencia.
Para que este criterio se cumpla, todos los sujetos deberan
haber sido asignados para recibir tanto la prueba diagnstica
en estudio como el estndar de referencia a travs de un
procedimiento directo o mediante el seguimiento clnico.
Sesgo de medicin. Podra introducirse si la PD o el estndar
de referencia se realizan sin tomar precauciones para
garantizar la objetividad de su interpretacin (similar al
enmascaramiento utilizado en los ensayos clnicos para
tratamiento).
Se puede obviar si la PD en evaluacin y el estndar de
referencia son interpretados de forma separada y enmascarada
por personas independientes que desconocen los resultados
de una y otro.
Precisin de los resultados. La precisin de la sensibilidad y
la especificidad dependen del nmero de pacientes evaluados.
Igual que otras medidas, el resultado estimado debe tener los
intervalos de confianza o el error estndar reportados,
independientemente de la magnitud encontrada.
Presentacin de resultados indeterminados. No todas las PD
dan lugar a un s o un no como respuesta, a veces dan lugar a
resultados equvocos o indeterminados.
La frecuencia de resultados indeterminados limitar la aplicabilidad
de la prueba o la har ms cara si da lugar a otros procedimientos
diagnsticos posteriores.
La frecuencia de resultados indefinidos y el modo en el que se
usan en el clculo de la precisin de la prueba constituyen una
informacin de importancia crtica para conocer la eficacia de la
misma.
Para que este criterio se cumpla, el trabajo debe reflejar de
forma apropiada todos los resultados positivos, negativos o
indeterminados generados durante el estudio, as como si los
resultados indeterminados se incluyeron o excluyeron al
calcular los indicadores de precisin de la prueba.
Reproducibilidad de la prueba. Las pruebas no siempre dan
el mismo resultado, por motivos relacionados con la variabilidad
de stas o de la interpretacin del observador. Los motivos y el
impacto de este asunto deben ser tenidos en cuenta.
Para que se cumpla este criterio en pruebas que requieren
interpretacin del observador, al menos alguna de las pruebas
debera ser evaluada con alguna medida que resuma la
variabilidad interobservador. Para pruebas sin interpretacin del
observador, el criterio se cumple cuando se refleja una media
que resuma la variabilidad del instrumento.
Pruebas de deteccin temprana, tamiz
o escrutinio.
Las pruebas de deteccin representan la identificacin presuntiva de
una enfermedad o defecto no reconocido mediante la aplicacin de
pruebas, exmenes u otros procedimientos, los cuales pueden ser
aplicados rpidamente.
Las pruebas de deteccin identifican a las personas en apariencia
sanas que probablemente tienen una enfermedad de aquellas que no
la tienen. Una prueba de deteccin no pretende establecer
diagnsticos.
Las personas con hallazgos positivos o de sospecha deben ser
referidas para que se confirme el diagnstico y se establezca el
tratamiento pertinente.
Las pruebas de deteccin se aplican a poblacin asintomtica
o grupos de poblacin en riesgo para diagnosticar un
padecimiento cuya morbilidad y mortalidad pueden disminuirse
si la entidad se detecta y trata en forma oportuna.
Para decidir si se lleva a cabo una prueba de escrutinio o tamiz
han de tomarse en cuenta las siguientes consideraciones:
El padecimiento debe ser muy frecuente para justificar el
enorme esfuerzo que tendr que hacerse para detectarlo.
El pronstico de la entidad tiene que ser lo bastante grave
en caso de que se trate en trminos de morbilidad,
incapacidad que produce, intensidad de las molestias y
costo financiero.
Tiene que haber un periodo suficientemente largo entre el
momento en que se puede detectar el padecimiento en
individuos asintomticos y la aparicin de los primeros
sntomas (tiempo de atencin).
Ha de existir una diferencia importante en el pronstico del
individuo si se lo atiende en la etapa asintomtica o si se
trata en la fase de aparicin de los primeros sntomas.
La prueba diagnstica debe tener sensibilidad y
especificidad alta; ha de ser fcilmente aplicable, barata y
segura, y tiene que ser aceptada tanto por los pacientes
como por quienes la aplican.
Debe existir algn tratamiento eficaz que altere la historia
actual del padecimiento.
Pruebas mltiples
Cuando al realizar estudios a un paciente y resultar todos
positivos o negativos, la interpretacin es directa, sin embargo,
lo ms frecuente es que algunas pruebas resulten positivas y
otras negativas; entonces la dificultad es mayscula para
establecer un diagnstico.
En el proceso diagnstico es posible realizar las pruebas en
serie o en paralelo; esta decisin depende de la enfermedad en
estudio y del paciente a tratar.
JUSTO EN EL PROTOCOLO
DE INVESTIGACIN
Pruebas en serie
Se realiza la primera prueba, y si el resultado es positivo, se
lleva a cabo la segunda, y as sucesivamente.
Aumentan la especificidad y el valor predictivo positivo.
Disminuyen la sensibilidad y el valor predictivo negativo.
Ventajas
Se inician con las factibles y pertinentes (menos riesgosas y ms
baratas).
Implican menor utilizacin de laboratorio y gabinete.
tiles cuando las disponibles no son muy especficas.
Mayor seguridad sobre el resultado positivo.
Limitaciones
Establecer el diagnstico conlleva ms tiempo.
Existe probabilidad de no diagnosticar una enfermedad.
Pruebas en paralelo
Se realizan varias pruebas en forma simultnea y cuando una
de estas pruebas es positiva, se considera que existe la
enfermedad.
Aumentan la sensibilidad y el valor predictivo negativo.
Disminuyen la especificidad y el valor predictivo positivo.
Ventajas
El diagnstico se hace con mayor rapidez.
Indicadas y tiles en caso de urgencia.
Existe mayor probabilidad de diagnosticar una enfermedad.
tiles cuando las pruebas disponibles no son muy sensibles.
Limitaciones
Generan un nmero importante de falsos positivos
(sobrediagnostican).
Los costos son ms elevados.
Conllevan mayor utilizacin de laboratorio y gabinete.
ANEXO 1
Casos dudosos
En muchas ocasiones no se puede precisar si un resultado es
positivo o negativo.
Es posible que dichos estudios dudosos sean de dos clases:
Aquellos en que no puede determinarse con precisin si la alteracin
existe. Por ejemplo, en una serie gastroduodenal quiz se observe
depsito de material de contraste que genera una imagen parecida a una
lcera duodenal, pero tal vez no sea posible decidir con seguridad si se
trata de una lcera o si slo es un artefacto del estudio.
Estudios en que es evidente que existe una alteracin pero no es
posible darle una interpretacin precisa. Por ejemplo, en un estudio
ultrasonogrfico se observa una imagen francamente alterada de un
ovario, pero no puede establecerse si se trata de un ovario qustico o
de un tumor maligno.
Es claro que los casos dudosos se presentan y no es posible
soslayarlos. Ha sido bastante comn que estos resultados
dudosos se eliminen al analizar los datos de una investigacin,
pero esto no es correcto.
A un grupo de 100 personas se aplic una prueba diagnstica
cuyos resultados fueron los siguientes:
50 individuos con la enfermedad:
Prueba positiva = 5 verdaderos positivos
Prueba negativa = 0 falsos negativos
Prueba dudosa = 45 dudosos
50 sujetos sin la enfermedad:
Prueba negativa = 10 verdaderos negativos
Prueba positiva = 0 falsos positivos
Prueba dudosa = 40 dudosos
Si no se toman en cuenta los casos dudosos, se tiene que S =
100% y E = 100%, lo cual significa una eficacia muy alta de la
prueba, hecho evidentemente falso.
Lo adecuado es considerar los resultados dudosos como parte
importante de las frmulas de sensibilidad y especificidad.
Para incluir estos casos, deben clasificarse como dudosos con el
padecimiento (Dp). Se da este nombre a las pruebas practicadas a
personas con la enfermedad, cuyos resultados no muestran datos
suficientes que permitan confirmar la presencia del padecimiento.
En ocasiones, una prueba dudosa puede considerarse como
verdadera positiva segn la precisin con que el investigador
desee hacer un diagnstico.
Los casos dudosos sin el padecimiento (Ds) son aquellos cuyas
pruebas, aplicadas a personas sin la enfermedad, muestran
datos que no permiten descartar la presencia de isquemia del
miocardio.
Al incluir estos conceptos en las frmulas de sensibilidad y
especificidad se obtiene lo siguiente:
Por ejemplo, se realiz un estudio reciente sobre sensibilidad y
especificidad en 107 sujetos con probable colecistitis calculosa,
a quienes se realiz intervencin quirrgica (con diagnstico
comprobado); a estos individuos se les practic previamente
colecistografa y ultrasonido, y se encontraron los datos que se
anotan a continuacin.
En los estudios de colecistografa:
Vp = verdaderos positivos = 25
Fn = falsos negativos = 7
Vn = verdaderos negativos = 15
Fp = falsos positivos = 3
Dp = dudosos con el padecimiento = 42
Ds = dudosos sin el padecimiento = 15
La aplicacin de estas frmulas, que toman en cuenta los
casos dudosos, permite conocer de manera ms aproximada la
verdadera eficacia diagnstica de la prueba.
Si se comparan estas dos pruebas diagnsticas, se puede
concluir que el ultrasonido es ms sensible que la
colecistografa para el diagnstico de colecistitis calculosa,
mientras que la colecistografa es un poco ms especfica para
esta enfermedad.
Los ndices de sensibilidad y especificidad de una prueba
diagnstica tienen valores diferentes para cada padecimiento, o
sea que es posible que una prueba diagnstica presente
variaciones en su sensibilidad segn la enfermedad que se
pretende diagnosticar.
ANEXO 2
Tamao de la muestra
Para calcular el nmero de elementos de una muestra en la
que se establece una proporcin, se ha utilizado el coeficiente
de variacin, que expresa la desviacin estndar como
porcentaje de la proporcin.
El tamao de la muestra se busca en las tablas en que se
incluye este coeficiente de variacin y la proporcin estimada.
Es probable que en la prctica, el mdico prefiera que los
lmites de confiabilidad no excedan valores fijos, como pueden
ser 2.5, 5 o 10% por encima y por debajo de los valores
esperados.
El tamao de la muestra en estos casos se puede encontrar en
el cuadro elaborado por Garca Romero.
En este cuadro, los valores de p pueden sustituirse por los de
sensibilidad y especificidad esperados.
Si no se tiene ninguna informacin previa que permita suponer algunos
valores aproximados, stos deben determinarse en un estudio piloto.
Si se desea que al final del estudio los lmites de confiabilidad se
encuentren entre p 0.025 (2.5% por arriba y abajo del valor
encontrado), el tamao de la muestra ha de buscarse en la columna
correspondiente, en la lnea horizontal del valor de p. Lo mismo tiene
que hacerse si se hallan 5 o 10% por encima o debajo de los valores
encontrados.
Si la sensibilidad de una prueba es aproximadamente de 0.90
0.05 (85 y 95%), en el cuadro es posible observar que la
muestra debe ser de un mnimo de 144 elementos.