0% encontró este documento útil (0 votos)
45 vistas9 páginas

Desarrollo de Escalas de Salud

Este documento describe diferentes aspectos relacionados con la elaboración y evaluación de escalas de medición en salud. Explica cómo se pueden clasificar las escalas, los enfoques para su desarrollo, las fuentes para generar ítems, y métodos para evaluar su confiabilidad y validez.

Cargado por

mamanrique1
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
45 vistas9 páginas

Desarrollo de Escalas de Salud

Este documento describe diferentes aspectos relacionados con la elaboración y evaluación de escalas de medición en salud. Explica cómo se pueden clasificar las escalas, los enfoques para su desarrollo, las fuentes para generar ítems, y métodos para evaluar su confiabilidad y validez.

Cargado por

mamanrique1
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

Preparación de lecturas para la introducción

Keszei AP, Novak M, Streiner DL. Introduction to health measurement scales. Journal of psychosomatic research.
2010;68(4):319-23.

1. ¿Cómo se pueden clasificar las escalas?


Las escalas pueden ser clasificadas al menos de 3 formas: según su función, descripción y metodología.
 La clasificación funcional se centra en la aplicación de métodos y cómo se utilizan, como la clasificación de Bombardier y
Tugwell de medidas de diagnóstico, pronóstico y evaluación de la salud; sin embargo, otros han argumentado que esta
clasificación ignora la forma en que se utilizan realmente las escalas en la práctica.
 La clasificación descriptiva de las mediciones de salud se ocupa de la variedad de temas cubiertos por una medición
particular. Por ejemplo, uno podría centrarse en un sistema de órganos en particular, un diagnóstico o un concepto más
amplio como ansiedad o calidad de vida. Otra distinción puede ser entre una clasificación amplia de medidas sanitarias
genéricas y de instrumentos específicos. Un instrumento específico puede referirse no sólo a una enfermedad particular,
sino también a una población objetivo particular, como los niños.
 La clasificación metodológica distingue entre escalas de calificación, cuestionarios, índices y medidas subjetivas versus
objetivas.

Cuánto error aleatorio está presente en la medición (es decir, su confiabilidad)

Si las puntuaciones nos brindan información significativa sobre el encuestado (la validez del instrumento)

Una tercera medida de desempeño aborda la cuestión de si es factible utilizar el instrumento para un propósito particular.

2. ¿Cuáles son las aproximaciones para elaborar una escala?


El desarrollo de escalas se puede abordar de dos maneras: las preguntas se pueden elegir desde un punto de vista empírico o
teórico.
Con el enfoque empírico, se prueba una gran cantidad de preguntas y se utilizan procedimientos estadísticos para seleccionar las
que mejor predicen el resultado de interés. Sin embargo, la desventaja de este método es que es difícil interpretar por qué los
individuos que responden una determinada pregunta de cierta manera tienden a obtener resultados diferentes.
Las escalas desarrolladas enteramente desde una postura empírica pueden tener valor clínico, pero no mejoran nuestra
comprensión de los fenómenos subyacentes.
La estrategia alternativa es seleccionar preguntas que se consideren relevantes desde el punto de vista de una teoría particular,
como el Cuestionario de Dolor de McGill. Al menos en psicología, la tendencia de los últimos 50 años ha sido un movimiento hacia
instrumentos derivados teóricamente.

3. ¿Cuáles son las fuentes para elaborar ítems?


Los ítems de una escala pueden provenir de varias fuentes diferentes: escalas existentes, informes de experiencias subjetivas de los
individuos, observaciones clínicas, opiniones de expertos, resultados de investigaciones y teorías. Se deben ser conscientes de las
fortalezas y debilidades de cada fuente al considerar una escala para un uso particular. La ventaja de utilizar ítems existentes de
escalas más antiguas es que los ítems probablemente ya hayan pasado por un riguroso proceso de evaluación y, por lo tanto, es más
probable que sean útiles. Por lo tanto, puede ahorrar tiempo y trabajo en lugar de construir nuevos elementos. Sin embargo, la
terminología obsoleta puede inutilizar algunos elementos antiguos.
Los pacientes que experimentan un rasgo o trastorno pueden ser excelentes fuentes de ítems de escala, especialmente cuando el
interés reside en los elementos más subjetivos del rasgo. Los grupos focales y las entrevistas con informantes clave son técnicas que
pueden utilizarse para adquirir los puntos de vista de los pacientes de manera sistemática.
La observación clínica como medio para desarrollar ítems de escala puede ser útil, ya que estas observaciones preceden a cualquier
teoría, investigación u opinión de expertos. Las escalas desarrolladas de esta manera pueden verse como una forma estructurada de
reunir observaciones clínicas. Sin embargo, la principal desventaja es que el médico que desarrolló la escala podría haberse
equivocado en su observación. Si una escala se basa en hallazgos no replicados, conduce a una escala inútil. Por ejemplo, una escala
que se base en la observación errónea de que la incidencia de epilepsia es menor en la población esquizofrénica está destinada al
fracaso.
Además, el médico observa un fenómeno particular en una muestra limitada de pacientes y, por lo tanto, puede pasar por alto otros
factores relevantes que serían evidentes en otra población. Una forma de superar el problema de las observaciones erróneas es
utilizar el criterio no sólo de uno, sino de un panel de expertos. La ventaja de este enfoque es que un panel de expertos
probablemente represente las opiniones más recientes sobre un tema. Sin embargo, conviene hacer una nota de cautela, ya que no
existen reglas sobre cómo y cuántos expertos deben elegirse y cómo deben sintetizarse las opiniones. Si todos los expertos
seleccionados comparten la opinión y quizás los prejuicios con respecto al dominio que se va a medir, entonces utilizar un panel de
expertos no proporciona ninguna ventaja adicional a utilizar las opiniones de una sola persona.
Otra fuente de ítems pueden ser los resultados de investigaciones provenientes de revisiones bibliográficas de estudios previos en el
área o nuevas investigaciones realizadas para desarrollar una escala. Un ejemplo es un subconjunto de una escala desarrollada para
diferenciar entre el síndrome del intestino irritable y la enfermedad orgánica del intestino. Consta de valores de laboratorio e
historia clínica que fueron elegidos en base a investigaciones previas, indicando diferencia entre síndrome de intestino irritable y
enfermedad orgánica respecto a estas variables.
Como se mencionó anteriormente, un conjunto de observaciones clínicas y/o de laboratorio que formen una teoría sobre las
diferencias en los pacientes también podrían proporcionar elementos. En este contexto, no deberíamos pensar sólo en teorías
formales, sino también en ideas más vagas, como la noción de que los pacientes que creen en la eficacia de un tratamiento serán
más obedientes. La debilidad de utilizar “teorías” en la selección de ítems es la posibilidad de utilizar un modelo incorrecto, y esto
puede que sólo sea evidente más adelante, cuando se evalúe la validez de la escala.

4. Relación entre coeficiente Alpha y longitud de la escala

 Consistencia interna
El coeficiente alfa de Cronbach es una medida de la consistencia interna de una escala de medición, que indica en qué medida los
ítems de la escala están correlacionados entre sí. La longitud de la escala, es decir, el número de ítems que contiene, puede influir
en el valor del coeficiente alfa.
Se trata de una medida basada en la administración única de una prueba y, por tanto, es fácil de obtener. Mide la correlación
promedio entre todos los elementos de la medida. Se espera que las puntuaciones de los ítems que abordan la misma dimensión
subyacente se correlacionen bien. Una baja consistencia interna podría significar que los ítems miden atributos diferentes o que las
respuestas de los sujetos sean inconsistentes. La consistencia interna se puede medir mediante el α de Cronbach, que se deriva de
la fórmula de Kuder Richardson 20, o el método de división por mitades.
Estas medidas no tienen en cuenta las variaciones en el tiempo o de un observador a otro y, por lo tanto, producen una estimación
optimista de la verdadera confiabilidad de la prueba. Un problema importante con estos índices es que son sensibles no sólo a la
consistencia interna de la escala, sino también a su longitud. α será alto si hay más de 15 ítems, independientemente de la
correlación entre ellos, y para escalas más largas, se deben utilizar otros índices, como la correlación media entre ítems.

5. ¿Cuál es la ventaja del coeficiente de correlación intraclase sobre el Pearson al evaluar la confiabilidad test-retest de
una escala?
Cuando una escala la completa un evaluador, y no el propio paciente, diferentes evaluadores que evalúen al mismo
individuo deberían obtener puntuaciones similares. La confiabilidad entre evaluadores se mide con un coeficiente entre 0
y 1 y, en general, sigue los criterios de confiabilidad test-retest. Cuando los evaluadores evalúan a la persona en diferentes
momentos, se introduce una fuente adicional de variación, a saber, el cambio en el paciente entre las dos calificaciones.
Por lo tanto, en estos casos, puede ser aceptable un coeficiente de confiabilidad entre evaluadores más bajo. Aunque la
confiabilidad test-retest y entre evaluadores generalmente se mide con la r de Pearson, es mejor usar la correlación
intraclase basada en un análisis de varianza de medidas repetidas bidireccionales que observa el acuerdo absoluto, ya que
esto es sensible a cualquier sesgo entre los evaluadores o los tiempos.
 Validez

La validez tiene que ver con el significado y la interpretación de las puntuaciones. En otras palabras, la validez nos orienta
sobre qué conclusiones se pueden sacar sobre las personas con una puntuación determinada. Si, por ejemplo, utilizamos
una escala para medir el grado de dolor lumbar, entonces nos gustaría estar seguros de que las personas que obtienen
puntuaciones más altas en realidad tienen más dolor lumbar. Si este es el caso es una cuestión de validez. Puede ser que
la escala mida algo más, como el grado de dolor de otras fuentes o la tendencia a quejarse.

La evaluación de la validez se puede realizar de varias maneras, cada una de las cuales evalúa diferentes aspectos de una
escala, y debe considerarse como un proceso continuo y no como una conclusión definitiva. Al igual que con la
confiabilidad, la validez no es una propiedad inherente de la medida sino una interacción de la escala, el grupo evaluado
y las condiciones. Aunque la conceptualización de las pruebas de validez ha pasado de los “tipos” de validez a ver todos
los tipos como subconjuntos de validez de constructo, es útil por razones didácticas e históricas explicar la validez en el
contexto de su categorización tradicional en las llamadas tres C. de validez: validez de contenido, de criterio y de
constructo. Sin embargo, para ser coherentes con la nueva definición de validez, nos referiremos, por ejemplo, a la
validación de criterio en lugar de a la validez de criterio, lo que refleja que es un método para determinar la validez más
que un tipo de validez.

 Validación de criterio
La validación de criterios consiste en correlacionar la nueva escala con una medida ampliamente aceptada de las mismas
características: el “estándar de oro”. Si la comparación de las dos escalas se realiza al mismo tiempo, se denomina
validación concurrente. Esta situación suele surgir cuando se cree que algún aspecto de la nueva escala (por ejemplo, su
costo o su carácter invasivo) es superior al estándar de oro. En este caso, esperaríamos que la correlación fuera alta (≥0,8).
Por otro lado, si se cree que la nueva escala es mejor porque es más válida que la antigua, entonces no queremos ver una
correlación muy alta, ya que eso significaría que la nueva escala no es diferente. Si la correlación es demasiado baja (por
debajo de 0,30), entonces las medidas no están relacionadas entre sí, lo que indica que miden características diferentes.
Cuando se compara una escala con un criterio que se mide posteriormente, la nueva prueba se evalúa en función de qué
tan bien predice la puntuación del criterio. Este tipo de prueba de validez se llama validación predictiva y se utiliza a
menudo con pruebas de diagnóstico y pruebas de admisión a la escuela, donde uno se interesa antes de que los
estudiantes sean admitidos en la escuela qué tan bien se desempeñarán, es decir, si se graduarán o no varios años
después.

 Validación de contenido
Una escala que mide el nivel de depresión de un paciente debe cubrir todos los aspectos de la depresión y no debe incluir
elementos que no estén relacionados con ese constructo. A diferencia de otras formas de validación, no existe un
coeficiente de correlación ni ninguna otra estadística que pueda usarse para medir la validación de contenido. El
desarrollador de la prueba debe evaluar si todos los aspectos relevantes de un rasgo o trastorno están incluidos en una
escala y si hay aspectos irrelevantes. Vale la pena señalar que suele existir una relación inversa entre la validación de
contenido y la coherencia interna. Una prueba destinada a medir un rasgo o trastorno heterogéneo puede tener una
consistencia interna relativamente baja, que puede aumentar eliminando ítems que muestran baja correlación con otros
ítems. Sin embargo, al eliminar elementos, la escala aborda menos aspectos del rasgo, lo que lleva a una validación de
contenido reducida.

 Validación del constructo


A menos que midamos variables físicas fácilmente observables, confiamos en la medición de ciertos atributos sustitutos
que creemos que encajan en nuestra teoría de un determinado concepto. En psicología, estas variables abstractas se
denominan constructos hipotéticos. Por ejemplo, podríamos medir la frecuencia cardíaca, la sudoración y la dificultad
para concentrarnos porque nuestra “teoría” nos dice que son manifestaciones observables del proceso subyacente de
ansiedad, nuestro constructo. Por lo general, se confía mucho en la validación de constructo en situaciones en las que no
existe un criterio con el que se pueda comparar una escala.
Para establecer la validez del constructo, es necesario generar predicciones basadas en el constructo hipotético, y estas
predicciones pueden luego probarse para respaldar la validez de la escala. Sin embargo, como se señaló anteriormente,
dado que decir que la nueva prueba debe correlacionarse con otra prueba del mismo constructo (lo que se había llamado
validación de criterio) es en sí mismo una predicción, todos los estudios de validación ahora se incluyen en la validación
de constructo.
La capacidad de un instrumento para medir el cambio, llamada sensibilidad al cambio, es otro componente útil de la
evaluación a escala. Se ha sugerido que es un atributo distintivo de una escala, pero muchos investigadores lo consideran
conceptualmente parte de la validez.

Streiner DL, Norman GR, Cairney J. Health measurement scales: a practical guide to their development and use. Fifth
edition. ed. Oxford: Oxford University Press; 2015. xiii, 399 pages
p. Chapter 2: Basic concepts

1. ¿Qué diferencia hay entre validez de apariencia y de contenido?


Validez de apariencia: la validez de apariencia simplemente indica si, a primera vista, el instrumento parece estar evaluando las
cualidades deseadas. El criterio representa un juicio subjetivo basado en una revisión de la medida en sí por uno o más expertos, y
rara vez se utilizan enfoques empíricos.
Validez de contenido: es un concepto estrechamente relacionado, que consiste en juzgar si el instrumento muestra todos los
contenidos o dominios relevantes o importantes.
Estas dos formas de validez consisten en un juicio de expertos sobre si la escala parece apropiada para el propósito previsto.
Guilford (1954) llama a este enfoque de validación "validez por supuesto", es decir, el instrumento mide tal o cual cosa porque un
experto dice que así lo hace. Sin embargo, una declaración explícita sobre la validez de apariencia y de contenido, basada en algún
tipo de revisión por parte de un panel de expertos o métodos alternativos descritos más adelante, debería ser un requisito previo
mínimo para la aceptación de una medida.

2. ¿Cuál es la definición formal de confiabilidad?


Antes de poder obtener evidencia de que un instrumento está midiendo lo que se pretende, primero es necesario reunir evidencia
de que la escala está midiendo algo de manera reproducible. Es decir, un primer paso para proporcionar evidencia del valor de un
instrumento es demostrar que las mediciones de individuos en diferentes ocasiones, o por diferentes observadores, o mediante
pruebas similares o paralelas, producen resultados iguales o similares.
La confiabilidad es una medida de la proporción de la variabilidad en las puntuaciones que se debió a diferencias reales entre
individuos. Por lo tanto, la confiabilidad se expresa como un número entre 0 y 1, donde 0 indica ninguna confiabilidad y 1 indica
confiabilidad perfecta.
Una cuestión importante al examinar la confiabilidad de un instrumento es la manera en que se obtuvieron los datos que
proporcionaron la base para el cálculo de un coeficiente de confiabilidad. En primer lugar, dado que la confiabilidad implica la
relación entre la variabilidad entre los sujetos y la variabilidad total, una forma de garantizar que una prueba se vea bien es realizar
el estudio en una muestra extremadamente heterogénea, por ejemplo para medir el conocimiento de la medicina clínica utilizando
muestras de estudiantes de primer año, tercer año y quinto año. Examine los procedimientos de muestreo cuidadosamente y
asegúrese de que la muestra utilizada en el estudio de confiabilidad sea aproximadamente la misma que la muestra que desea
estudiar.

En segundo lugar, hay varias formas de obtener medidas de confiabilidad, y la magnitud del coeficiente de confiabilidad será un
reflejo directo del enfoque particular utilizado.

 Consistencia interna: Las medidas de coherencia interna se basan en una única administración de la medida. Si la medida
tiene un número relativamente grande de elementos que abordan la misma dimensión subyacente, por ejemplo: ¿Puedes
vestirte solo?, ¿Puedes hacer la compra?, ¿Puedes coser?, como medidas de función física. Entonces es razonable esperar
que las puntuaciones de cada ítem estén correlacionadas con las puntuaciones de todos los demás ítems. Ésta es la idea
detrás de las medidas de consistencia interna: esencialmente, representan el promedio de las correlaciones entre todos los
elementos de la medida. Hay varias formas de calcular estas correlaciones, llamadas alfa de Cronbach, Kuder - Richardson o
dividir por mitades, pero todas arrojan resultados similares. Dado que el método implica sólo una única administración de
la prueba, dichos coeficientes son fáciles de obtener. Sin embargo, no tienen en cuenta ninguna variación de un día a otro o
de un observador a otro, por lo que conducen a una interpretación optimista de la verdadera fiabilidad de la prueba.

3. ¿Qué caracteriza los modelos categóricos y dimensionales de medición?

Modelo Categórico Modelo Dimensional


El diagnóstico requiere que se cumplan múltiples criterios, La ocurrencia de algunas características a altas intensidades
cada uno con su valor umbral puede compensar no ocurrencia de otros.
El fenómeno difiere cualitativamente Y cuantitativamente en El fenómeno difiere solo cuantitativamente, en diferentes
diferentes severidades. severidades.
Las diferencias entre casos y no casos están implícitas en la Las diferencias entre casos y no casos están menos
definición. claramente delineadas.
La gravedad es más baja en los casos que satisfacen La gravedad es más baja entre los individuos no perturbados.
mínimamente los criterios de diagnóstico.
Una persona puede tener diferentes cantidades de trastornos.
Un diagnóstico a menudo excluye a otros

DeVellis RF. Scale Development. Theory and applications. Fourth Edition. Los Angeles: Sage; 2017. Chapter 1: overview.

1. ¿Qué es medición?
Duncan en 1984 definió la medición como la “asignación de números a objetos o eventos según reglas”. La medición no es sólo la
asignación de números, etc. También es la asignación de números de tal manera que correspondan a diferentes grados de una
cualidad o propiedad de algún objeto o evento.

2. ¿Qué diferencia hay entre escala, indicadores y variables emergentes


Escala: los instrumentos de medición que son colecciones de ítems combinados en una puntuación compuesta y destinados a revelar
niveles de variables teóricas que no son fácilmente observables por medios directos a menudo se denominan escalas. Desarrollamos
escalas cuando queremos medir fenómenos que creemos que existen debido a nuestra comprensión teórica del mundo pero que no
podemos evaluar directamente. Por ejemplo, podemos invocar la depresión o la ansiedad como explicaciones de las conductas que
observamos.

Indicadores: Por otra parte, utilizaré el término índice para describir conjuntos de elementos que son indicadores de causa, es decir,
elementos que determinan el nivel de un constructo. Una medida del atractivo de un candidato presidencial, por ejemplo, podría
ajustarse a las características de un índice. Los ítems podrían evaluar la residencia geográfica de un candidato, el tamaño de la
familia, el atractivo físico, la capacidad para inspirar a los trabajadores de la campaña y los posibles recursos financieros. Aunque
estas características probablemente no comparten ninguna causa común, todas podrían compartir un efecto: aumentar la
probabilidad de una campaña presidencial exitosa. Los elementos no son el resultado de una sola cosa, pero determinan el mismo
resultado.

Variable emergente: Un término más general para un conjunto de elementos que se podrían agregar en una puntuación compuesta
es variable emergente, que incluye conjuntos de entidades que comparten ciertas características y pueden agruparse bajo un
encabezado de categoría común. Sin embargo, agruparlos no implica necesariamente ningún vínculo causal. Las oraciones que
comienzan con una palabra que tiene menos de cinco letras, por ejemplo, se pueden clasificar juntas fácilmente aunque no
comparten ni una causa común ni un efecto común. Una variable emergente “aparece” simplemente porque alguien o algo (como
un programa de análisis de datos) percibe algún tipo de similitud entre los elementos en cuestión.

Sánchez R, Echeverry J. Validación de escalas de medición en salud. Revista de Salud Pública. 2004; 6:302-18.

1. ¿Por qué se recomienda validar escalas de medición de constructos?


Validez de Constructo: La escala no deja factores sin medir ni mide dominios que no son del síndrome.
Todos los pacientes deben presentar la condición que la escala pretende medir, incluyendo los diferentes espectros de intensidad.
Una vez determi nados cuáles son los diferentes factores que mide la escala, puede recurrirse a otros instrumentos que midan esos
factores para efectuar una comparación: a esto se le denomina Validez de Constructo. Por ejemplo, si el análisis fac torial en una
validación de una escala muestra un dominio denominado De presión, puede aplicarse simultáneamente una escala reconocida
para medir depresión y contrastar su resultado con el de la escala que se está validando. Otra estrategia reconocida para medir la
validez de constructo es mediante la evaluación de los valores de correlación en estructuras matriciales (Matriz multirrasgo –
multimétodo)

2. ¿Cuáles son las fuentes para elaborar ítems?


 De escalas previas.
 De observación clínica.
 De opinión de expertos.
 De reporte de pacientes.
 De hallazgos de investigación.
 De supuestos teóricos.

3. ¿Qué es validar una escala?


Validar es “certificar” que la escala tiene ciertas características o atributos que hacen meritoria su utilización. Esas características,
de las cuales depende la “certificación”, son:
a. La realidad existente está adecuadamente representada por la escala. En otras palabras, la escala parece medir lo que debe
medir (validez de apariencia)
b. La escala refleja la estructura de Dominios o de Factores en los cuales fue dividida le realidad que se va a medir. En otras
palabras, la escala no deja Factores sin medir, ni mide Dominios que no corresponden a la realidad (validez de constructo)
c. La escala funciona de manera parecida a otros instrumentos para medir esa realidad que ya han sido “certificados” (validez de
criterio)
d. La escala funciona bien bajo diferentes condiciones, por ejemplo cuando se aplica en diferentes oportunidades o cuando es
aplicada por distintas personas (confiabilidad test - retest)
e. Cuando la realidad que se está midiendo cambia, la escala puede detectar ese cambio (sensibilidad al cambio)
f. La escala es práctica, fácil de aplicar y de procesar (utilidad)

4. ¿Cuáles son los tipos de confiabilidad y de validez?

Confiabilidad: la confiabilidad hace referencia a si la escala funciona de manera similar bajo diferentes condiciones, dependientes
del mismo instrumento, del tiempo de aplicación y del clínico que hace la medición. Se puede decir que la confiabilidad es una
medición del error que puede generar un instrumento al ser inestable y aplicarse en diferentes condiciones.

 Consistencia Interna u homogeneidad: si los ítems que conforman la escala, tienen unos adecuados niveles de correlación
entre ellos, conforman una estructura “aglutinada” que le confiere cierta estabilidad al instrumento. Las correlaciones entre
ítem con ítem, entre ítem y factor y entre ítem y escala son una especie de pegante que le confiere al instrumento.
Coeficiente KR-20 (fórmula 20 de Kuder–Richardson) y especialmente el alfa de Cronbach. El primero de estos instrumentos
se usa cuando los ítems son de respuesta dicotómica. El alfa de Cronbach permite evaluar homogeneidad en escalas cuyos
ítems pueden responderse en más de dos alternativas
 Confiabilidad test – retest: se debe medir si la escala, cuando se aplica en diferentes momentos, permaneciendo estable la
condición que se mide, mantiene un resultado similar en la medición. Para medir este tipo de confiabilidad se aplica la
escala por lo menos dos ve ces, en diferentes momentos, en situaciones de estabilidad del fenómeno o síndrome que se
está midiendo.
 Coeficiente de correlación de Pearson: evalúa cómo se relacionan los pun tajes de los diferentes momentos, en términos de
asociación lineal. Es un método poco utilizado ya que no incorpora en el análisis otras fuentes de variabilidad, al asumir que
toda la varianza es explicada por las diferencias entre los sujetos medidos.
 Coeficiente de correlación intraclase: es una medida de confiabilidad mejor que la anterior ya que incorpora en el análisis,
además de la variabilidad entre los sujetos, otras fuentes de variabilidad como pueden ser diferentes observadores,
características de los pacientes (también llamada variabilidad dentro de los sujetos) y error. Se puede calcular a través de
un procedimiento estadístico denominado Análisis de Varianza de Mediciones Repetidas (ANOVA de medidas repetidas). El
resultado del coeficiente se interpreta como el porcentaje de la variabilidad de los puntajes que depende solo se la
variabilidad entre los sujetos medidos. Por ejemplo, si el valor es 0.9 esto indica que el 90% de la varianza de los puntajes
depende solo de la variabilidad de los sujetos. Una adecuada confiabilidad test – retest está indicada por valores mayores
de 0.8.
 Coeficiente de correlación–concordancia de Lin: este coeficiente se basa en la premisa de que el caso ideal de correlación se
da cuando la dispersión es de 45 grados. Los coeficientes tradicionales no pueden detectar esta situación ideal, por lo cual,
así reporten valores elevados, no necesariamente están reflejando la concordancia entre las dos mediciones. El coeficiente
de Lin compara el acuerdo entre dos pares de mediciones midiendo la variación alrededor de una línea de 45º que parte del
origen. Se recomienda usar esta medida como complemento del coeficiente de correlación intraclase.
 Confiabilidad interevaluador: si en el mismo momento, ante el mismo paciente, la escala es aplicada por diferentes
observadores, los resultados de la medición deberían ser similares

Validez
 Validez de apariencia: tiene importancia para determinar la aceptabilidad que puede tener la escala en el escenario de
aplicación. Para establecer la validez de apariencia se deben conformar dos grupos, uno de sujetos que van a ser medidos
con la escala y otro de expertos: ellos analizan la escala y dictaminan si ésta realmente parece medir lo que se propone.
Esta validez no supone un concepto estadístico, sino que depende de los juicios que los expertos hagan sobre la pertinencia
de los ítems. Cada uno de los grupos puede estar conformado por cuatro o cinco personas
 Validez de contenido: la respuesta a esta pregunta supone evaluar si los diferentes ítems incluidos en el instrumento
representan adecuadamente los dominios o factores del concepto que se pretende medir. El procedimiento para evaluar la
validez de contenido supone aplicar métodos estadísticos como el análisis factorial. La ventaja de estos métodos es que
permiten saber, no solo cuál es la estructura factorial, sino cómo representan los ítems los distintos factores, y
eventualmente retirar ítem que no aportan variabilidad a la medición del síndrome. Para efectuar este tipo de análisis se
requieren por lo menos cinco pacientes por cada ítem que tenga el instrumento, pero no menos de 100 pacientes en total
 Validez de Constructo: todos los pacientes deben presentar la condición que la escala pretende medir, incluyendo los
diferentes espectros de intensidad. Una vez determinados cuáles son los diferentes factores que mide la escala, puede
recurrirse a otros instrumentos que midan esos factores para efectuar una comparación
 Validez de criterio (concurrente y predictiva): para saber esto debe compararse la escala que se está validando, con un
patrón de oro que debería ser la mejor escala disponible en el área de aplicación clínica: en este caso se habla de validez de
criterio concurrente. Esta dísticamente la comparación se efectúa mediante coeficientes de correlación de Pearson o de
Spearman, dependiendo de las características de distribución de los datos. Por supuesto, la comparación debe hacerse con
un instrumento ya validado. En caso de que no haya más instrumentos validados la comparación suele efectuarse con
métodos de apreciación clínica subjetiva (como la impresión clínica global), pero reconociendo que los valores de
correlación con este tipo de instrumentos no suelen ser muy altos, lo cual no quiere decir que la escala funcione mal. Para
obviar este inconveniente, una alternativa es efectuar validación simultánea de dos instrumentos que evalúen la misma
condición. Esta alternativa tiene la ventaja de que reporta va lores de correlación más consistentes y que permite
aprovechar una misma muestra de pacientes para el procedimiento de validación. Los valores de correlación deben estar
preferiblemente por encima de 0.8. El hallazgo de valores altos de correlación entre las escalas en proceso paralelo de
validación debe interpretarse con cautela.
Cuando quiera que se evalúe la correlación o concordancia entre el resultado actual del instrumento y un evento
relacionado que puede suceder en el futuro, el procedimiento recibe el nombre de validez de criterio predictivo (validez
predictiva). Un ejemplo es la evaluación de un estudiante universitario con” criterios ideales de excelencia” antes de iniciar
su entrenamiento y compararlo con las notas que ese estudiante vaya a obtener en el futuro o al finalizar su carrera.

5. ¿Cómo se evalúa la sensibilidad al cambio?


El procedimiento más usado para evaluar la sensibilidad al cambio consiste en comparar una puntuación inicial con una puntuación
posterior, en un momento en el cual se haya modificado la condición clínica. La documentación de este cambio suele hacerse
aplicando otras escalas o simplemente una evaluación clínica global. Los métodos estadísticos empleados dependen de las
características distribucionales de los puntajes de la escala, aunque usualmente son útiles los Análisis de Varianza para Mediciones
Repetidas

Martínez-Arias et al., Psicometría: Alianza Editorial; 2014. Capítulo 1: Test psicológicos y educativos: conceptos básicos,
clasificación y construcción.
1. ¿Qué es medición?
 Asignación de números a atributos de los sujetos, de tal forma que los números reflejen los diferentes grados del atributo
que es evaluado
 Un procedimiento para la asignación de números (puntuaciones) a propiedades especificadas de las unidades
experimentales, de modo que las caractericen y preserven las relaciones especificadas en el dominio comportamental

2. ¿Qué es un constructo?
 Abstracciones que únicamente se pueden evaluar indirectamente
 Concepto o característica que el test pretende medir

3. ¿Cuáles son los modelos estadísticos empleados en la construcción y validación de escalas?


En la construcción y validación de escalas, se utilizan varios modelos estadísticos para evaluar la fiabilidad y validez de las
mediciones. Algunos de los modelos más comunes incluyen:
 Análisis factorial exploratorio (AFE): Se utiliza para explorar la estructura subyacente de los datos y determinar cuántos
factores están presentes en un conjunto de variables observadas. Ayuda a identificar las dimensiones o componentes de
una escala y a agrupar ítems relacionados.
 Análisis factorial confirmatorio (AFC): Se utiliza para confirmar la estructura factorial identificada en el AFE y evaluar la
ajustabilidad de un modelo hipotético a los datos observados. Se emplean medidas de ajuste, como el índice de bondad
de ajuste (GFI), el índice de ajuste comparativo (CFI) y el error cuadrático medio de aproximación (RMSEA), entre otros.
 Análisis de fiabilidad: Incluye diferentes métodos para evaluar la consistencia interna de la escala, como el coeficiente alfa
de Cronbach, la consistencia interna compuesta (Cronbach's alpha composite), y la fiabilidad test-retest.
 Análisis de validez: Se utiliza para evaluar si la escala mide lo que pretende medir. Incluye la validez de contenido, la
validez de criterio (concurrente y predictiva) y la validez de constructo (convergente y discriminante).

 Modelos de ecuaciones estructurales (SEM): Son útiles para evaluar relaciones causales entre variables latentes y
observadas, y para probar modelos complejos que involucran múltiples relaciones entre variables. Los SEM también
pueden utilizarse para integrar análisis factorial confirmatorio con análisis de trayectoria o causalidad.
 Teoría de respuesta al ítem (TRI): Se utiliza para evaluar la relación entre los ítems individuales de una escala y la
habilidad subyacente que se está midiendo. La TRI puede ayudar a identificar ítems problemáticos y mejorar la precisión
de la medición

4. ¿Cuáles son los tipos de escalas en los que se puede calificar cada ítem?
En psicometría y en la construcción de escalas, los ítems pueden ser calificados en diferentes tipos de escalas. Algunos de los tipos
más comunes incluyen:
 Escala de Likert: Es una escala de respuesta utilizada comúnmente en encuestas y cuestionarios. Los participantes indican
su grado de acuerdo o desacuerdo con una afirmación mediante una serie de opciones que van desde "totalmente en
desacuerdo" hasta "totalmente de acuerdo". Por ejemplo, una escala de 5 puntos podría ser: "1 = Totalmente en
desacuerdo", "2 = En desacuerdo", "3 = Neutral", "4 = De acuerdo", "5 = Totalmente de acuerdo".
 Escala de frecuencia: Se utiliza para medir la frecuencia con la que ocurre un comportamiento o una experiencia. Los
participantes eligen entre opciones que van desde "nunca" hasta "siempre" o una escala similar.
 Escala de clasificación: Los participantes clasifican los ítems en función de su importancia, preferencia u otro criterio. Por
ejemplo, pueden ordenar los ítems de acuerdo con su prioridad.
 Escala de categorías ordenadas: Similar a la escala de Likert, pero con opciones que no son necesariamente equidistantes.
Por ejemplo, una escala de dolor que va desde "sin dolor" hasta "dolor moderado" y "dolor severo".
 Escala visual analógica (EVA): Los participantes indican su respuesta colocando una marca en una línea continua que
representa un continuo, como la intensidad de un síntoma o la satisfacción con un producto.
 Escala de sí/no: Los ítems se califican simplemente como "sí" o "no" en función de la presencia o ausencia de cierta
característica o experiencia
 Test de inteligencia y aptitudes
 Test de personalidad: formatos varían entre «dicotomías» (sí-no) y «varios grados» (normalmente entre 4 y 9)
 Escalas tipo Thurstone y Guttman (cuyos ítems varían en la intensidad del atributo) tienen escaso uso en la actualidad

También podría gustarte