0% encontró este documento útil (0 votos)
214 vistas19 páginas

Pruebas Psicológicas: Construcción y Evaluación

Este documento describe la historia y propósito de las pruebas psicológicas y la evaluación. Discutió que las pruebas psicológicas se originaron en Francia en el siglo XIX y se utilizaron ampliamente durante las guerras mundiales para evaluar reclutas. Luego se administraron pruebas en escuelas y centros de salud mental. El documento define los términos clave como "evaluación psicológica", "prueba psicológica" y "test", y explica los siete supuestos subyacentes

Cargado por

renata lobo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
214 vistas19 páginas

Pruebas Psicológicas: Construcción y Evaluación

Este documento describe la historia y propósito de las pruebas psicológicas y la evaluación. Discutió que las pruebas psicológicas se originaron en Francia en el siglo XIX y se utilizaron ampliamente durante las guerras mundiales para evaluar reclutas. Luego se administraron pruebas en escuelas y centros de salud mental. El documento define los términos clave como "evaluación psicológica", "prueba psicológica" y "test", y explica los siete supuestos subyacentes

Cargado por

renata lobo
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como DOCX, PDF, TXT o lee en línea desde Scribd

CONSTRUCCIÓN Y ADAPTACIÓN DE PRUEBAS PSICOLÓGICAS

MIKULIC, ISABEL

PRIMERA PARTE

LOS TESTS Y LA EVALUACION PSICOLOGICA

TESTS, PRUEBAS, DIAGNÓSTICO Y EVALUACIÓN PSICOLÓGICA

Las raíces de las pruebas y la evaluación psicológica contemporánea se encuentran en Francia


a principios del Siglo XX:

 En 1905 Alfred Binet y un colega publican una prueba que fue diseñada para ayudar a
colocar a los niños parisienses en edad escolar en clases apropiadas.
 En Estados Unidos se estaba estudiando el uso de pruebas psicológicas por primera
vez en el ejército.
 En la primera y segunda guerra mundial, las pruebas cumplieron con el objetivo de
examinar con rapidez grandes cantidades de reclutas en busca de problemas
intelectuales y emocionales.

El apogeo de las pruebas se dio en la década del ‘50 y principios de 1960. administrándose
pruebas en escuelas, en instituciones de salud mental, dependencias gubernamentales, etc.

“Prueba” era el término usado para referirse a todo, desde la administración de una prueba
hasta la interpretación de la evaluación de la misma. Sin embargo, durante la Segunda Guerra
Mundial comenzó a surgir una distinción entre “prueba” y “evaluación”. Para nuestros
objetivos definiremos:

 “Evaluación psicológica” como la recopilación e integración de datos relacionados con


la psicología con el propósito de hacer una valoración psicológica, lograda con el uso
de herramientas como pruebas, entrevistas, estudios de caso, observación conductual
y aparatos y procedimientos de medición.
 “Prueba psicológica” como el proceso de medir variables relacionadas con la psicología
por medio de dispositivos o procedimientos diseñados para obtener una muestra de
comportamiento.
 Un “test” es un instrumento de evaluación cuantitativa de los atributos psicológicos de
un individuo. La Asociación de Psicólogos Americanos (1999), propone una
conceptualización al definir a un “Test” como “un procedimiento evaluativo por medio
del cual una muestra de comportamiento de un dominio especificado es obtenida y
posteriormente evaluada y puntuada empleando un proceso estandarizado”.
 Definiremos las “situaciones de diagnóstico” como aquellas en las que se produce el
conocimiento mediato, no directo, sino a través de indicadores que son observables
comportamentales y / o clínicos, de personas concretas, no de grupos ni de
colectividades.

SIETE SUPUESTOS EN LAS PRUEBAS Y LA EVALUACIÓN PSICOLÓGICA


1. Los rasgos y estados psicológicos existen: Un rasgo se ha definido como “cualquier
forma distinguible, relativamente perdurable, en la que un individuo varía de otro”.
Los estados también distinguen a una persona de otra, pero son menos perdurables.
Un comportamiento puede tomarse de una manera en un contexto y de otra manera
si realiza el mismo comportamiento en un contexto inadecuado. También la forma en
que se manifiesta un rasgo particular depende de la situación.
2. Los rasgos y estados psicológicos pueden cuantificarse y medirse: La ponderación del
valor comparativo de los reactivos de una prueba ocurre como resultado de una
interacción compleja entre muchos factores: consideraciones técnicas, en forma en
que se ha definido un constructo para los propósitos de la prueba y el valor que le da
la sociedad a los comportamientos que se están evaluando.
3. Pueden ser útiles diversos enfoques para medir aspectos del mismo objeto de estudio:
Pueden existir varias pruebas y técnicas de medición diferentes para medir el mismo
constructo. Algunas son mejores que otras y deberá demostrarse la utilidad de las
pruebas para los escenarios en los que deberán ser aplicadas según su diseño original y
luego demostrarse de nuevo para otros escenarios adicionales en los que no se
contemple su uso.
4. La evaluación puede señalar fenómenos que requieren una mayor atención o estudio:
las herramientas de evaluación pueden usarse con propósitos de diagnóstico. Puede
definirse “diagnóstico” como una conclusión alcanzada con base en la evidencia y
opinión por medio de un proceso de distinción de la naturaleza de algo y descartar
conclusiones alternativas.
5. Diversas fuentes de información enriquecen y son parte del proceso de evaluación: Los
datos de una prueba de inteligencia pueden ser útiles, pero para el proceso de toma
de decisiones se requerirá información adicional.
6. Diversas fuentes de error son parte del proceso de evaluación: “error” se refiere a la
suposición de que factores distintos al que pretende medir la prueba influirán en el
desempeño de ésta. Debido a que el error es una variable en cualquier proceso de
evaluación psicológica, a menudo hablamos de varianza de error. Tanto el evaluado
como el evaluador son fuentes de varianza de error. También las pruebas mismas son
fuentes de varianza de error por ser unas mejores que otras.
7. Las pruebas y otras técnicas de medición tienen ventajas y desventajas: se deberá
tener en cuenta cómo se elaboró la prueba, las condiciones para su aplicación, cómo y
a quién se debe administrar, cómo deberían interpretarse los resultados de la prueba y
a quienes, y cuál es el significado de la puntuación. Ello implica conocer las
limitaciones y compensarlas con datos de otras fuentes.

¿QUIÉN, QUÉ Y POR QUÉ EVALUAR?

¿QUIÉNES SON LAS PARTES?

1. El que construye la prueba

Quienes elaboran las pruebas, brindan una amplia variedad de antecedentes y detalles
respecto del proceso de elaboración. Reconociendo que las pruebas y las decisiones tomadas
como resultado de su administración pueden tener un impacto significativo en las vidas de las
personas, varias organizaciones publicaron normas de comportamiento ético referidas a la
elaboración y uso responsable de pruebas. Las más conocidas son las Normas o Standards for
Educational and Psychological Testing elaboradas por la Asociación Estadounidense de
Investigación Educativa, la Asociación Psicológica Estadounidense y el Consejo Nacional sobre
Medición en Educación.
2. El que usa la prueba

Si bien las pruebas son usadas por una variedad de profesionales, todos deberán cumplir los
principios éticos correspondientes. La prueba debe guardarse para que su contenido específico
no sea dado a conocer con anticipación. Descripciones previas no son aconsejables pues
podrían comprometer los resultados. El que administra la prueba debe estar familiarizado con
los materiales y procedimientos y tener todos los materiales necesarios para administrarla en
forma apropiada. También debe asegurarse de que el salón en el que se realice la prueba sea
el adecuado, evitando condiciones distractoras. Es fundamental la empatía entre el evaluador
y el evaluado, sim embargo, esta empatía no debe alterar las condiciones de administración de
la prueba.

3. El que responde la prueba:

Las personas evaluadas enfocan una situación de evaluación de diferentes formas y los
administradores deben ser sensibles a la diversidad de respuestas posibles ante una situación
de prueba. El evaluado en situación de diagnóstico o evaluación puede variar en:

a) ansiedad y grado en que ésta podría afectar los resultados


b) capacidad y disposición para cooperar con el evaluador o comprender las
instrucciones.
c) el dolor físico o la angustia emocional.
d) malestar e incomodidad
e) grado en que está alerta y despierto
f) grado en que estén predispuestos a estar de acuerdo o en desacuerdo cuando se les
presenten los reactivos
g) grado en que han recibido preparación previa.
h) importancia que atribuyan a describirse a sí mismos en forma buena o mala
i) grado de “suerte” que tiene el evaluado al responder sin conocer de lo que responde.

También el evaluado tiene derechos en situaciones de evaluación como por ejemplo a dar su
consentimiento para ser evaluado, a que los resultados sean confidenciales y a ser informado
de los resultados.

¿EN QUÉ TIPO DE CONTEXTOS SE REALIZAN EVALUACIONES?

1) Contexto clínico: las pruebas y otros métodos de evaluación se usan en forma amplia
en escenarios clínicos como hospitales, consultorios y solo se usan con un individuo a
la vez, las pruebas colectivas solo se usan en el screening o casos que requieren una
mayor evaluación.
2) Contexto educativo: a menudo, para diagnosticar problemas de aprendizaje. Las
medidas de inteligencia y logro se usan con más frecuencia con propósitos de
diagnóstico. Existen otras pruebas que se administran a los aspirantes a un nuevo
ingreso. También se usan las pruebas en un contexto de orientación vocacional o de
counseling.
3) Contexto jurídico: como fuente de información para ayudar a responder si la persona
es competente para ser enjuiciada o para saber si un acusado distinguía el bien del mal
en el momento de cometer el delito.
4) Contexto organizacional: en particular en recursos humanos. Los psicólogos usan
pruebas y procedimientos de medición para evaluar conocimientos o habilidades en
las que necesite ser evaluado un empleado, un candidato, para tomar decisiones de
ascensos, transferencias, y elegibilidad para mayor capacitación.

5) Otros contextos: en el área de psicología del consumidor también se usan pruebas, al


igual que para evaluar a personas con discapacidad o con deficiencias
neuropsicológicas.

EVALUACIÓN DE LA CALIDAD DE LAS PRUEBAS: CONFIABILIDAD Y VALIDEZ

Existen criterios técnicos que usan los profesionales al evaluar para estimar la solidez
psicométrica de los instrumentos. La Psicometría estudia la confiabilidad y la validez de las
pruebas.

CONFIABILIDAD

Una prueba es confiable cuando es consistente y precisa. Las pruebas psicológicas son
confiables en grados diversos. En las mediciones comportamentales, la variabilidad es mayor
dada las características del objeto epistémico y de los instrumentos de medición. Las
diferencias en el desempeño de un sujeto en sucesivas ocasiones pueden estar causadas por
diversas razones: distinta motivación, cansancio o ansiedad, estar más o menos familiarizado
con el contenido del test, etc.

FACTORES QUE DETERMINAN LA FALTA DE CONFIABILIDAD

a) Al construir o adaptar un test: se debe prestar atención a la selección de los ítems, a la


formulación de las consignas, y se debe cuidar el muestreo del contenido para evitar
que sea tendencioso o insuficiente. Otra fuente de error son los efectos de la
adivinación.
b) Al administrar un test: se debe evaluar a todos los sujetos en las mismas condiciones,
tratando de controlar posibles interferencias ambientales. Las consignas deberían ser
estandarizadas desde la construcción del test hasta en su administración. Otro punto a
considerar son las influencias que pueden afectar la motivación o la atención del
evaluado.
c) Al evaluar un test: se deben sostener los criterios de evaluación, no es posible cambiar
los criterios en función de un criterio subjetivo del evaluador.

TÉCNICAS PARA MEDIR LA CONFIABILIDAD

VALIDEZ

Se refiere a lo que mide una prueba y no puede expresarse en general, sino que debe
consignarse el uso particular para el que se planea utilizar el instrumento. Todos los
procedimientos utilizados para determinar la validez se interesan en las relaciones entre
ejecución en las pruebas y otros factores observados independientemente de las
características de la conducta considerada.

VALIDEZ DE CONTENIDO
Los procedimientos de validación por la descripción del contenido comprenden el examen
sistemático del contenido de la prueba para determinar si cubre una muestra representativa
del área de conducta que debe medirse. El área de conducta por examinar debe analizarse
sistemáticamente para garantizar que los reactivos cubran todos los aspectos importantes y en
la proporción correcta. Se debe tener en cuenta no sobregeneralizar ni incluir factores
irrelevantes en los resultados. Básicamente se deben contestar dos preguntas: a)¿cubre la
prueba una muestra representativa de las habilidades y conocimientos especificados? b) ¿el
desempeño en la prueba está razonablemente libre de la influencia de variables irrelevantes?.

VALIDEZ EN RELACIÓN A UN CRITERIO

Los procedimientos de validación de criterio-predicción indican la efectividad de la prueba


para predecir el desempeño del individuo en actividades específicas. La medida de criterio
contra la que se validan los resultados del instrumento puede obtenerse aproximadamente al
mismo tiempo que los resultados de la prueba o después de un intervalo establecido. Las
relaciones temporales entre el criterio y la prueba permiten diferenciar la validación
concurrente y la predictiva. La validez predictiva permite anticiparse sobre un intervalo.

Con la validación concurrente, en cambio, la prueba se aplica a personas que ya cuentan con
datos de criterio. La distinción lógica entre la validez concurrente y la predictiva se basa en los
objetivos más que en el tiempo. La validación concurrente es adecuada para las pruebas que
se emplean para diagnosticar el estado actual más que para predecir resultados futuros.

VALIDEZ DE CONSTRUCTO

La validez de constructo ha centrado la atención en la función que cumple la teoría psicológica


en la elaboración de la prueba y en la necesidad de formular hipótesis que puedan ser
comprobadas o refutadas en el proceso de validación. La validez de constructo de un
instrumento es el grado en el que puede afirmarse que mide un constructo o rasgo teórico.
Requiere de la acumulación gradual de diversas fuentes de información.

COEFICIENTE DE VALIDEZ

El coeficiente de validez es la correlación entre la puntuación de la prueba y la medida de


criterio. Los datos empleados al calcular cualquier coeficiente de validez también pueden
expresarse como tablas o gráficos de espectancias que muestran la probabilidad de que un
individuo que obtiene cierta puntuación en la prueba obtenga un nivel especificado de
desempeño en el de criterio.

VALIDEZ DE LA PRUEBA Y TEORÍA DE LA DECISIÓN

Algunos de los conceptos básicos de la teoría de la decisión han demostrado su utilidad para
replantear y aclarar algunos interrogantes sobre las pruebas. Una característica de la teoría de
la decisión es que las pruebas se evalúan en términos de su eficacia en una situación particular.
La evaluación no solo toma en consideración la validez de la prueba para predecir un criterio
particular, sino también otros parámetros como la tasa base y la razón de selección. Otro
parámetro importante es la relativa utilidad de los resultados esperados. Las decisiones
individuales deben considerar las preferencias y el sistema de valores del individuo. La teoría
de la decisión no introduce al proceso de decisión el problema de los valores, solamente lo
hace explícito. Los sistemas de valores siempre han estado presentes en las decisiones. La
teoría de la decisión ha permitido centrar la atención en la complejidad de los factores que
determinan la contribución de determinado instrumento a una situación particular. El
coeficiente de validez por sí mismo no puede indicar si se debe usar o no una prueba, ya que
es sólo uno de los factores por ser considerados al evaluar el impacto de la prueba sobre la
eficacia del proceso total de la toma de decisiones.

COMBINACIÓN DE INFORMACIÓN A PARTIR DE DIFERENTES PRUEBAS

Para la predicción de criterios prácticos, a menudo se requieren varias pruebas. Los criterios
son, en su mayoría, complejos y la medida de criterio depende de varios rasgos diferentes. Si
se diseñara una prueba para medir este criterio tendría que ser muy heterogénea, pero es más
conveniente una prueba relativamente homogénea porque produce puntuaciones menos
ambiguas. Por ende, a menudo es preferible usar una combinación de pruebas relativamente
homogéneas, cada una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar
una sola con reactivos muy mezclados. El problema principal del uso de tales baterías tiene
que ver con la forma en que se combinan las puntuaciones de estos distintos instrumentos
para llegar a una decisión con respecto a cada individuo.

VALIDEZ Y UTILIDAD PRÁCTICA DE LOS TESTS PARA DECISIONES DE CLASIFICACIÓN

El diagnóstico clínico es un problema de clasificación ya que el propósito principal consiste en


tomar una decisión.

Validez diferencial: En una batería de clasificación, la principal consideración es su validez


diferencial comparada con criterios separados. El objeto de la batería es predecir la diferencia
en la ejecución de cada persona en dos o más empleos, programas de capacitación u otras
situaciones de criterio. Las pruebas que se eligen para integrar la batería producen coeficientes
de validez diferentes para los criterios separados. Las pruebas de inteligencia son pobres para
los propósitos de clasificación porque su predicción del éxito en la mayor parte de las áreas es
más o menos igual de buena. Un individuo que califique alto en una prueba de inteligencia
sería clasificado como exitoso en cualquier tarea.

SEGUNDA PARTE

CONSTRUCCIÓN Y ADAPTACIÓN DE LOS TESTS

DISEÑO Y ELABORACIÓN DE LOS TESTS

La elaboración de las pruebas implica la aplicación de principios establecidos; la obtención de


una buena prueba es la respuesta a diversos interrogantes:

 ¿Qué es lo que la prueba medirá según su diseño?


 ¿Cuál es el objetivo de la prueba?
 ¿Existe necesidad de esta prueba?
 ¿Quién usará esta prueba?
 ¿Qué contenido abarcará esta prueba?
 ¿Cómo se aplicará la prueba?
 ¿Cuál es el formato ideal de la prueba?
 ¿Debería elaborarse más de una forma de la prueba?
 ¿Qué capacitación especial se requerirá de los administradores de la prueba para
aplicarla o interpretarla?
 ¿Qué clases de respuestas se requerirán de quienes respondan la prueba?
 ¿Cómo se interpretarán los resultados de la prueba?

TEORÍAS DE LOS TESTS

Existen diversos paradigmas o modelos que permiten explicar el significado de las


puntuaciones obtenidas con los Tests.

El objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos
poseen la característica o rasgo inobservable que mide el test, a partir de las respuestas que
éstos han dado a los elementos que forman el mismo.

a) Teoría Clásica de los Tests:

Iniciada por Spearman, sostiene que la puntuación observable de una persona en un test es
una función de dos componentes: su puntaje verdadero (inobservable) y el error de medición
implícito en la prueba. Es un modelo de puntuación matemática y probabilística. Es un
conjunto de principios teóricos y métodos cuantitativos que fundamentan la construcción,
aplicación, validación e interpretación de tests y que permiten derivar escalas estandarizadas.

La primera etapa que Cattell (1986) denomina itemetría, se caracteriza por la construcción de
pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención
principal. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la
medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la
medida como la medida básica del error. Además, dio lugar a contribuciones tales como las
fórmulas de Spearman-Brown, Kuder-Richardson, Alfa de Cronbach y a varios principios
básicos de escalamiento, así como al uso generalizado de la curva normal, el uso de las
correlaciones múltiples y la fórmula de atenuación, etc.

La siguiente etapa es la que Cattell denomina psicometría estructural y se caracteriza por el


uso de las nuevas herramientas estadísticas tales como el análisis factorial. Su objetivo no era
aplicar pruebas, sino determinar la relación que hay entre los conceptos clínicos sobre
personalidad, y los fundamentos de la investigación experimental multivariada, así como
analizar las interacciones dinámicas entre los rasgos y los estadíos de la personalidad.

b) Teoría de la Generalizabilidad

Cronbach y Glaser postularon la Teoría de la Generalizabilidad (TG) que es una extensión del
modelo clásico en el que diversas mediciones del mismo individuo pueden variar tanto por
efecto de una variación en lo que se mide como por el error de medición. Las decisiones sobre
la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
análisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un
dominio o universo confiable de observaciones. El puntaje del universo es semejante al
puntaje verdadero en el modelo clásico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, la TG reconoce que existen otros universos de
generalización y por lo tanto muchos puntajes de universo posibles. Solo cuando el universo se
ha definido podemos afirmar cuáles son las fuentes de variación que producen error. Las
diferentes fuentes de error en esta teoría se denominan facetas, término que introdujo
Cronbach para designar cada una de las características de la situación de medición que pueden
cambiar de un momento a otro y, por tanto, hacer variar los resultados obtenidos.

Según esta teoría los puntajes observados solo poseen interés si son representativos de todos
los puntajes posibles de un mismo universo. Población es el conjunto de personas de las que
se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un constructo;
y Universo de Condiciones de Medición al conjunto de todas las facetas estudiadas. Las
distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que
contribuyen a la varianza de error y disminuyen la generalizabilidad de los puntajes observados
en las personas evaluadas.

c)Teoría de Respuesta al Ítem

Desarrollada para resolver varios de los problemas que presentaba la TCT y que no habían sido
resueltos:

1) El uso de índices de los reactivos cuyos valores dependen de la población particular de


la cual fueron obtenidos, y
2) La estimación de la habilidad del examinado depende del conjunto específico de
reactivos incluidos en la prueba.

Es decir, las características del examinado y las características de la prueba no pueden


separarse en un instrumento elaborado conforme a los principios de la Teoría Clásica de los
Tests; y por el contrario, cada uno sólo puede ser interpretado en términos del otro. Las
características del examinado en las cuales la teoría TRI está interesada, son la "habilidad" que
mide el test. Para la TCT, la noción de habilidad se expresa por medio del llamado puntaje
verdadero que se define como "el valor esperado a partir de la destreza observada en la
prueba en cuestión".La habilidad del examinado se define sólo en términos de una prueba
específica. Si el test es "difícil", el examinado parecerá tener un nivel bajo de habilidad. Si el
test es "fácil", el examinado parecerá tener un mayor nivel de habilidad. Y el nivel de dificultad
de la prueba se define como "la proporción de examinados en el grupo de interés, que
contestó el reactivo correctamente". Por lo tanto, el que un ítem sea difícil o fácil depende de
la habilidad de los examinados a quienes se aplicó la prueba y a su vez, la habilidad de los
examinados depende del nivel de dificultad de la prueba. De la misma forma, el nivel de
discriminación de los reactivos y los coeficientes de validez y confiabilidad de la prueba se
definen también en base a las características del grupo particular de examinados. Así, las
características del test y de los reactivos cambian a medida que cambia el contexto de la
prueba. Por lo tanto, es muy difícil comparar examinados a quienes se aplican diferentes tests;
o aún, comparar ítems cuyas características se obtuvieron utilizando diferentes grupos de
examinados. Esto significa que los coeficientes de los reactivos son dependientes del grupo al
mismo tiempo que son dependientes del test. Esta clase de dependencia es la que se trata de
eliminar mediante la TRI. Otro problema de la TCT es que es centrada-en-el-test, más que
centrada-en-el-reactivo. No se toma en consideración cómo responde el examinado a un
reactivo dado, y por lo tanto, no se tienen bases para determinar qué tan bien podría
desempeñarse un examinado particular ante un reactivo individual. Es decir, la TCT no permite
hacer predicciones acerca de cómo se comportará un individuo o grupo particular ante un
reactivo dado. Esta posibilidad de predicción es importante en una gran variedad de
situaciones como, por ejemplo, cuando se intenta predecir el comportamiento de un
profesional ante diferentes tipos de situaciones prácticas.

Las principales características de la TRI como una alternativa a la teoría clásica de los tests son:
1) Las características de los reactivos no dependen del grupo del cual fueron obtenidos;
2) Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3) El modelo se expresa a nivel del reactivo más que a nivel del test;
4) El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5) Provee una medida de la precisión de cada índice de habilidad.

Los postulados básicos de la TRI son:

1. El resultado de un evaluado en un ítem puede ser explicado por un conjunto de factores


llamados rasgos latentes o aptitudes
2. La relación entre la respuesta de un sujeto a un ítem y el rasgo latente que subyace
puede describirse como una función monotónica creciente que se llama función
característica del ítem o curva característica del ítem (CCI) Esta función específica que a
medida que la aptitud aumenta la probabilidad de una respuesta correcta al ítem también
aumenta.
3. Las estimaciones de la aptitud obtenidas con distintos ítems serían iguales y las
estimaciones de los parámetros de los ítems obtenidos en distintas muestras de
examinados serán iguales. Es decir que en la TRI los parámetros de aptitud y de los ítem son
invariantes.

La ejecución de un examinado en una prueba puede ser predichos por un conjunto de rasgos,
rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los
reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden
describirse por una función monotónicamente incrementada llamada función característica del
reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel
del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante
ese reactivo."

Son supuestos de la TRI:

1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estén
determinadas por una única variable denominada Rasgo.
2. La independencia local: Las respuestas de un evaluado a cualquier par de ítem son
independientes y la probabilidad de responder correctamente a un ítem es independiente de
la probabilidad de responder correctamente cualquier otro ítem.

Existen muchos modelos de la TRI, pero los básicos son:

 Modelo Logístico de un parámetro o Modelo de Rasch que está medido en la misma


escala que el parámetro zeta que representa el nivel de habilidad, el parámetro b
representa la dificultad del ítem. Cuanto mayor sea el valor de b, más difícil será el
ítem ya que mayor será el nivel de habilidad necesario para tener una probabilidad de
acertar de 0.5
 Modelo Logístico de dos parámetros o Modelo de Birnbaum que indica en qué medida
el ítem diferencia entre examinados con un nivel alto y bajo de habilidad. Cuanto
mayor sea el valor de a, mayor poder discriminativo del ítem, parámetro a que
representa la discriminación del ítem.
 Modelo Logístico de tres parámetros incorpora junto con el a y el b al c que representa
la probabilidad de acertar el ítem que tienen las personas con un nivel de habilidad
muy bajo; o parámetro del pseudo azar.
Para construir una prueba de acuerdo a los principios de la TRI, es necesario construir un
banco de reactivos con parámetros estimados para cada ítem, de acuerdo al modelo
seleccionado. El procedimiento recomendado por Lord (1977) consiste en cuatro pasos:

1. Decidir acerca de la forma deseada de la función de información de la prueba o curva de


información deseada (target information curve).
2. Seleccionar los reactivos del banco cuya curva de información deseada cae bajo el área
de la curva de información de la prueba, de tal manera que saturen el área bajo la curva de la
función deseada de la prueba.
3. Conforme se adicionan reactivos a la prueba, se recalcula la curva de información de la
prueba con los reactivos seleccionados hasta ese momento.
4. Continuar la selección de los reactivos hasta que la función de información de la prueba
se aproxime a la función de información deseada con un grado satisfactorio.

Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos
riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no
asegura una prueba con contenidos completamente válidos. Deficiencias en los
procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel
de validez de contenido.

Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos
durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo
tanto, la función de información podría sesgarse. Una prueba construida con ítems de valores
elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la
función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios
reactivos adicionales para compensar esta sobrevaloración.

Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos de la
TRI es que se pueden elaborar tests individualizados, es decir, “a la medida” de los sujetos que
permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera más
precisa.

DEFINICIÓN DEL DOMINIO DEL TEST

La construcción de una escala de medición de algún aspecto del comportamiento humano


requiere un análisis conceptual del dominio o rasgo a medir. Se debe obtener definiciones
conceptuales ajustadas del rasgo en cuestión y decidir cuál tipo de indicadores operacionales
son adecuados para describirlo. Todas las dimensiones importantes del rasgo estudiado deben
incluirse. Si se trata de una prueba para medir rendimiento, la definición del dominio puede
realizarse delimitando el universo de situaciones a ser evaluadas. Se pueden utilizar pruebas
referidas a criterios o referidas a normas. Para la elaboración de pruebas por normas, se parte
de la construcción de una tabla de especificaciones que es una tabla de doble entrada por
medio de la cual se relacionan los objetivos cuyo logro se desea evaluar con los contenidos
específicos correspondientes. A partir de esta tabla se determina la cantidad de ítems que
conformará la prueba y se lleva a cabo su redacción.

En la construcción de una prueba con referencia a criterios se define y delimita el dominio de


conductas correspondientes a cada objetivo. Se elaboran los ítems que evaluarán ese dominio
de conductas y todos los desempeños individuales serán referidos a ese dominio. Si el dominio
comprende más de un objetivo pueden construirse subtests para cada objetivo. Para la
especificación del dominio de conductas o clase de tareas que el individuo debe realizar,
seguiremos el esquema propuesto por Tornimbeni (2004):

1. Definición del objetivo: Se establece cuál o cuáles serán los objetivos que se
evaluarán a través de la prueba.
2. Descripción del objetivo: Se define en términos de conductas observables el o
los objetivos a ser evaluados.
3. Especificación de las características de la situación de evaluación: se
especifican todos aquellos aspectos a tener en cuenta en la situación de
evaluación.
4. Características de la respuesta: Se especifica cuál es la respuesta que se
espera del sujeto.

SELECCIÓN Y ELABORACIÓN DE LAS ESCALAS

La medición es la asignación numérica de acuerdo con reglas y las escalas son las reglas de
medición. Éstos son instrumentos usados para medir rasgos o atributos psicológicos.

Quienes elaboran las pruebas diseñan un método de medición en la forma que creen que se
adapta mejor a la manera en que han conceptualizado la medición del rasgo o rasgos que son
su objetivo. No hay un único método, el que una escala sea de naturaleza nominal, ordinal, de
intervalo o de razón dependerá de los objetivos de la escala y de la legitimidad matemática de
las manipulaciones y transformaciones de los datos resultantes.

Existen escalas de estimación que son agrupamientos de palabras, afirmaciones o símbolos en


los que juicios relativos a la intensidad de un rasgo, actitud o emoción particular es indicada
por quien responde la prueba. Un tipo de escala de estimación sumatoria (escala Likert) se usa
dentro de la psicología, por lo general en escala de actitudes. Estas escalas son confiables y
relativamente fáciles de elaborar, cada reactivo presenta cinco respuestas alternativas. Otro
método de elaboración de escalas que produce datos ordinales es el método de
comparaciones apareadas. A quienes responden la prueba se les presentan pares de estímulos
y se les pide que los comparen y seleccionen uno por medio de alguna regla. Otra forma de
derivar información ordinal por medio de un sistema de elaboración de escalas implica tareas
de clasificación. En estos enfoques se presentan tarjetas impresas, dibujos, fotografías, u otros
estímulos y se les pide a los evaluados que los clasifiquen desde las más hasta las menos
justificables o que los jerarquicen. Todos los métodos anteriores producen datos ordinales, el
método de intervalos aparentemente iguales de Thurstone es un método de elaboración de
escalas para obtener datos que se supone son de intervalo.

El método de elaboración de escalas particular empleado en la elaboración de un test


dependerá de las variables que se van a medir, el grupo para el que se pretende la prueba y las
preferencias del elaborador de la prueba.

REDACCIÓN DE ÍTEMS

Existen pautas convencionales para la redacción de ítems de prueba. Estas incluyen


recomendaciones tales como: redactar ítems congruentes con el objetivo de medición y evitar
los ítems demasiado largos de más de 20 vocablos, las oraciones complejas con ambigüedades
de sentido, las frases con dobles negaciones, el uso de expresiones extremas y utilizar el
lenguaje más apropiado al nivel de maduración y educativo de la población. Los dos errores
más comunes en la redacción de ítems son la ambigüedad y la trivialidad
Existen formatos de selección de respuesta y de construcción de respuesta, los primeros
facilitan la calificación automatizada y pueden aplicarse con facilidad a gran cantidad de
evaluados. El formato de selección de respuesta en presentar una elección de respuestas y
requerir la selección de una alternativa. Existen tres tipos: los ítems de opción múltiple, los
ítem de relación y los ítem de verdadero/falso. Un reactivo de opción múltiple consta de tres
elementos un enunciado o base del ítem, una alternativa u opción correcta o clave y varias
alternativas u opciones incorrectas llamadas distractores.

REVISIÓN DEL TEST POR EXPERTOS

La mayoría de los autores recomiendan que los ítems preliminares de un test sean revisados
por expertos en construcción de pruebas, en el dominio o rasgo a medir y en el nivel de
comprensión de la población a la cual se apunta con la prueba. Las tres características que los
expertos deben evaluar en cada ítem son:

a) Claridad semántica y corrección gramatical.


b) Adecuación de su dificultad al nivel educativo y evolutivo de las personas.
c) Congruencia con el rasgo o dominio medido.

A los jueces se les pide que evalúen la calidad y consistencia de los ítems y se descartan
aquellos con puntuaciones medias más bajas y con escaso grado de acuerdo. Se recomienda
que los ítems seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden. Es
útil también incluir preguntas que demanden información cualitativa sobre los ítems lo que
puede facilitar un mejoramiento en el fracaso de algunos de ellos.

ANÁLISIS Y SELECCIÓN DE ÍTEMS

Existen varios procedimientos de análisis de los ítems de una prueba preliminar. Todos se
ocupan de la distribución de los puntajes de cada ítem y la relación estadística entre el ítem y
la prueba total. El primer paso para obtener información psicométrica sobre los items de
pruebas homogéneas consiste en administrar los elementos preliminares a una muestra
amplia (superior a 300 sujetos) que sea representativa de la población que se quiere evaluar
en la prueba final. Para descartar los ítems que no funcionan bien debe contarse con una
cantidad de sujetos por lo menos cinco veces superior al número inicial de reactivos y
aproximadamente el doble de ítem de los que aparecerán en la versión definitiva de la medida.
La determinación del número muestral necesario para realizar análisis de ítem y los estudios
de validez y confiabilidad de un test es un punto conflictivo debido a las dificultades existentes
para seleccionar participantes en determinados contextos de aplicación de la psicología o con
determinadas poblaciones. El ideal ronda entre los 300 a 400 sujetos para estudios
correlacionales pero este número no es condición suficiente de buenos índices psicométricos.
Existen otros factores intervinientes como el entrenamiento de los evaluadores o la
heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad y validez y
compensar tamaños maestrales inferiores al estándar mencionado.

El procedimiento más empleado en el análisis inicial de reactivos es la correlación de cada uno


de ellos con el puntaje total de la prueba. Si el test consta de diversas subescalas, cada ítem
debe correlacionarse con el puntaje total de esa parte, no con el puntaje total de la prueba. El
estadístico usual es el producto momento de Pearson o correlación punto biserial si se trata de
ítem dicotómicos (si/no, verdadero/falso). Los ítems con correlaciones no significativas o bajas
(inferiores a .30) se eliminan o se revisan y se conservan los menos ambiguos, ni fáciles ni
dificultosos y más relacionados con el constructo. Cuando hay ítems con varias alternativas de
respuesta es aconsejable obtener las correlaciones de cada una de las alternativas con el
puntaje de la prueba total, sobre todo en aquellos de correlación baja o negativa. Los mejores
distractores serán aquellos que obtengan correlaciones negativas con los puntajes de la
prueba, es decir, que sean seleccionados por quienes tienen puntajes bajos en la prueba.

La proporción de acierto de un ítem es un estimador adecuado de la dificultad de un ítem. Sin


embargo, esta información hay que complementarla con la distribución de frecuencias en
todas las opciones de respuesta (en elecciones múltiples) y las estimaciones de proporción
para diferentes rangos de puntuación en la prueba total. En escalas con formatos tipo Likert,
los reactivos donde la mayoría de los evaluados responde con las máximas o mínimas
categorías (p.ej. 1 o 10) indican que tales ítems carecen de suficiente dificultad (atractivo) o
son excesivamente difíciles para los evaluados. Con la misma lógica deben eliminarse los
reactivos donde la mayoría de los sujetos de la muestra obtiene el mismo puntaje puesto que
tales elementos de prueba no discriminan entre los evaluados.

En las pruebas referidas a criterios se evalúan y seleccionan los ítems de una forma diferente a
las pruebas referidas a normas. El análisis se realiza comparando los resultados de un grupo
antes de aplicar un programa de aprendizaje y después del mismo, o comparando dos grupos
similares, uno de ellos, que recibió capacitación y el otro no. Al calcular el índice de dificultad
los resultados esperados son, items con alta dificultad para los grupos que no han pasado por
el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de
instrucción. En cuanto al índice de discriminación, obtenido por la comparación entre grupos,
se espera máxima discriminación entre los grupos y mínima entre los individuos de un mismo
grupo.

Una vez realizada la aplicación de la prueba piloto y habiendo obtenido resultados estadísticos
sobre el comportamiento de cada ítem se podrán tomar decisiones sobre cuáles de ellos
deben integrar la forma final del test y hacer estimaciones de su confiabilidad y validez
mediante algunos de los procedimientos ya conocidos.

La lógica de este proceso de análisis es obtener pruebas lo más homogéneas posibles,


información que se obtiene aplicando a los reactivos de una escala el coeficiente alfa de
Cronbach, por ejemplo. El conjunto de ítems seleccionados después de examinar la correlación
ítem-total de cada uno, es analizado con este procedimiento de homogeneidad (alfa o KR-20) y
debemos asegurarnos valores de.80 o superiores. Los ítems con correlaciones bajas con el
puntaje total se pueden remover para incrementar el valor del alfa. Si bien un coeficiente alfa
elevado es una condición necesaria de unidimensionalidad esta propiedad solo es garantizada
por el análisis factorial.

El paso decisivo para asegurar la unidimensionalidad de cualquier escala homogénea y el


primer paso en un conjunto inicial de ítem heterogéneos es el análisis factorial. Este es un
método para agrupar las variables que se correlacionan fuertemente entre sí y cuyas
correlaciones con las variables de otros agrupamientos es menor. Se trata de un método
estadístico en el cual las variaciones en los puntajes de un número de variables son explicadas
por un número más reducido de dimensiones o constructos (factores).

Una distinción inicial importante es la que debe realizarse entre análisis factorial exploratorio y
confirmatorio. En el primero se extraen factores sin una estructura teórica previa conjeturada
de modo explícito. En cambio, el enfoque confirmatorio, los factores son definidos a priori en
base a un modelo teórico y en este caso, el análisis intenta verificar qué tan bien se adaptan
los datos observables a ese modelo.
Antes de realizar un análisis factorial debe determinarse si los ítems están suficientemente
interrelacionados. Unas de las más empleadas son el test de esfericidad de Bartlett y la medida
de adecuación del muestreo de Kaiser-Mayer-Olikin que se interpreta de manera semejante al
coeficiente de confiabilidad, es decir, con un rango de 0 a 1 y considerando los valores
superiores a .80 como muy adecuados. Si es así, se puede aplicar el análisis factorial en sus
diferentes variantes.

Los principales métodos exploratorios para extraer factores son: Análisis de Componentes
Principales, Ejes Principales y el de Máxima Probabilidad. Este último muy usado por
representar un enfoque estadístico inferencial en psicometría. El método PC explica la mayor
cantidad de varianza posible en los datos observados y es por consiguiente un método más
descriptivo que inferencial. El método de ejes principales es análogo al anterior para los
mismos fines.

El análisis factorial debe realizarse sobre muestras extensas no inferiores a 300 sujetos para
obtener datos útiles. Además, se debe contar idealmente con 10 veces el número de sujetos
por variable o al menos 5 veces ese número. La selección del número correcto de factores es
una de las decisiones más dificultosas del análisis factorial. Luego de extraer los factores
iniciales, se realiza un procedimiento de rotación que permite eliminar los pesos negativos
importantes y reducir el número de cargas factoriales de cada variable en los diversos factores.
Las rotaciones colocan a las variables más cerca de los factores diseñados para explicarlas,
concentran la varianza de las variables en menos factores y, en general, proporcionan un
medio para facilitar la interpretación de la solución factorial obtenida. Los factores rotados
explican la misma varianza que el conjunto de los factores (no rotados) pero la estructura de
las cargas factoriales se modifica y son más simples de interpretar, debido al aumento de las
cargas positivas extremas (bajas y altas).

La tarea final del análisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrón de cargas factoriales bajas y altas de cada variable sobre los distintos
factores y mediante el conocimiento que se posea de las variables implicadas. Cuando los
factores obtenidos están correlacionados es posible someter sus correlaciones al mismo
análisis estadístico que utilizamos con las correlaciones entre ítems. Podemos realizar un
análisis factorial de los factores obtenidos por rotación oblicua y derivar factores de segundo
orden o superior, es el caso del 16 PF donde los factores iniciales son 16 pero un nuevo análisis
reduce el modelo a 5 factores de segundo orden asimilables al modelo de cinco grandes
factores del Inventario NEO-PIR.

En el enfoque psicométrico actual, el análisis factorial se utiliza más como estrategia


confirmatoria de un modelo teórico previo, en especial, dentro del marco metodológico del
Modelo de Ecuaciones Estructurales. De modo contrario se corre el riesgo de obtener
estructuras puramente empíricas dependientes de la muestra escogida y no replicables con
facilidad.

ADAPTACIÓN DE LOS TESTS

MÉTODOS DE ADAPTACIÓN DE LOS TESTS

La adaptación de un Test es un proceso mucho más complejo que la mera traducción de ese
test en un idioma diferente. Una adaptación implica considerar no sólo las palabras utilizadas
al traducir la prueba sino también las variables culturales. Van de Vijver y Leung (1997)
establecieron tres niveles de adaptación de las pruebas psicológicas. El primero corresponde al
de la aplicación, este es, la simple y llana traducción de un test de un idioma a otro. Sim
embargo, la sola traducción no nos indica ningún nivel de equivalencia entre ambas versiones.

La segunda es la adaptación. En este caso a la traducción se agrega la transformación, adición


o substracción de algunos ítems de la escala original. Los ítems que no existen en la versión
original del test pueden representar mejor al constructo en la población en la cual se
administrará la nueva versión.

Finalmente, la opción ensamble puede emerger al momento de adaptar un instrumento de


evaluación psicológica. En este caso el instrumento original ha sido modificado tan
profundamente que prácticamente se ha transformado en un nuevo instrumento original con
los nuevos elementos. Esto ocurre cuando muchos de los ítems del test original son
inadecuados para representar el constructo a medir. El ensamble también se da cuando el
constructo no está representado de forma adecuada por la versión original en la cultura a la
que se quiere adaptar la prueba

TÉCNICAS DE TRADUCCIÓN

El proceso de traducción es complejo e implica más que la traducción lineal de las palabras
escritas a un nuevo lenguaje. Existen dos métodos comunes: la traducción directa o forward
translation y la traducción inversa o backward translation. En el método de traducción directa
un traductor o grupo de traductores, traducen el test desde el idioma original al nuevo idioma.
Luego, otro grupo, juzga la equivalencia entre las dos versiones. De este modo pueden
realizarse las correcciones pertinentes. En el caso de la traducción inversa, el más utilizado, un
grupo de traductores realiza una traducción desde el idioma original al nuevo idioma; luego un
segundo grupo de traductores toma el test traducido y vuelve a traducirlo al idioma original.
Seguidamente se realizan las comparaciones entre la versión original y la versión retraducida al
idioma original para determinar su equivalencia.

MÉTODOS PARA ESTABLECER LA EQUIVALENCIA ENTRE TESTS

Una vez que se ha traducido es necesario realizar un estudio para establecer si ésta es
equivalente a la original. Para ello habrá de implementarse un diseño experimental y un
análisis de datos obtenidos a través de ese diseño. Hambleton señala que existen 3 métodos:

1) Administración de la prueba en el idioma original y de la prueba traducida a sujetos


bilingües: se le administrara ambas versiones a sujetos que hablan ambos idiomas. Este
método posee ventajas y desventajas. Entre las primeras se pueden mencionar que pueden
controlarse las diferencias de las características de los participantes en el test ya que ambas
pruebas son administradas a la misma persona. Entre las desventajas, este diseño está basado
en la premisa de que los sujetos son igualmente competentes en ambos idiomas, lo cual es
difícil de sostener. Es probable, entonces, que puedan observarse diferencias entre ambas
versiones debido a una menor capacidad de algunas personas para entender los ítems en
alguno de los dos idiomas. La segunda desventaja es que no puede asegurarse que los
bilingües posean el mismo nivel de competencia que la población general.

2) Administración de la versión original y su traducción inversa a monolingües en el idioma


original: se le administraría la versión original y la versión obtenida de la traducción inversa a
sujetos cuyo idioma natal es otro. La equivalencia de los ítems se determina comparando el
desempeño de cada sujeto en cada ítem de ambas versiones. Nuevamente, la ventaja está en
el control de las diferencias en las características de los participantes. La primera desventaja
está en que este diseño no permite obtener datos con la versión en el idioma meta del test. De
esta manera no es posible obtener puntajes de sujetos que hablen el idioma al que se intenta
traducir el test. La segunda desventaja reside en el hecho de la posible falta de independencia
entre los puntajes obtenidos ya que es probable que exista un efecto de aprendizaje luego de
la administración de la primera versión de la prueba. La administración al azar de una de las
versiones en el primer lugar puede reducir la importancia del efecto de aprendizaje.

3) Administración de la versión original a monolingües que hablan el idioma original y de la


versión traducida a monolingües que hablan el idioma al que ha sido traducida la prueba: se
administraría la versión en un idioma a evaluados cuyo idioma natal es otro. Una posible
dificultad reside en asumir que los sujetos de ambas muestras poseen una habilidad
comparable.

Una vez obtenidos los datos por medio de los diseños revisados existen varias posibilidades
estadísticas para su análisis. Básicamente el análisis estará destinado a identificar la existencia
de Funcionamiento Diferencial de ítems (FDI) es decir, ítem que se comportan en forma
diferente a través de las diversas muestras transculturales.

FUENTES DE SESGO

Si deseamos usar las pruebas para predecir resultados en alguna situación futura, necesitamos
instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse
en el desarrollo de las “pruebas libres de influencia cultural”. En un esfuerzo por incluir en esas
pruebas solo las funciones comunes a diferentes culturas o subculturas, puede elegirse un
contenido que tenga poca relevancia para el criterio que se pretenda predecir. Una mejor
solución es elegir un contenido relevante para el criterio e investigar luego las posibles
diferencias poblacionales de la efectividad de la prueba para el propósito pretendido.

Van de Vijver y Tanzer (1997) identificaron diferentes fuentes de sesgo:

a. Sesgo de constructo:

Cuando el constructo medido no es idéntico a través de los grupos culturales. La importancia


que cada cultura otorga a ciertas conductas se encuentra en esta categoría. Conductas de ética
y civismo que en algunas sociedades pueden ser normales en otras pueden constituir un
verdadero rasgo de rigidez y asemejarse a una conducta obsesivo compulsivo.

b. Sesgo metodológico:

Este sesgo reconoce cuatro formas.

1. El sesgo de muestra: las muestras son incomparables entre sí. La escolaridad, el nivel
sociocultural, la motivación, el género y edad son variables que pueden hacer
incomparables a dos muestras que pueden mostrar resultados muy diferentes en un
test determinado.
2. El sesgo en el instrumento: La familiaridad que los sujetos tienen con los estímulos
presentados tiene una gran importancia. Algunos estímulos utilizados en algunas
culturas no existen en otras o son irrelevantes. El idioma es otra fuente de sesgo de
instrumento. Los problemas son mayores cuantas más diferencias hay entre idiomas,
idiomas cuya lectura se realiza de izquierda a derecha a diferencia del de derecha a
izquierda. También la disposición del texto tiene importancia en el completamiento de
frases o de interpretación de textos, mayor es el problema cuando implican conectar
letras y números siguiendo un orden alfabético o numérico y los caracteres de idiomas
como el español, ruso, griego. También entre los idiomas occidentales existen
diferencias como que en ingles no existe la “ñ” que el alfabeto sueco contiene más
vocales, y en portugués existen distintos tipos de a. Los métodos de respuesta
constituyen otra fuente de sesgo del instrumento.
3. El sesgo de administración: incluye problemas tales como dificultades en la
comunicación, para que el entrevistado entienda las instrucciones del entrevistador ya
sea por la dificultad de las palabras utilizadas, el modo de explicación de las
instrucciones o un inadecuado manejo del idioma de alguna de las partes. También se
incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los
manuales incluyen instrucciones de administración que en muchos casos no son
adecuadas para la población a aplicar. Los administradores del Test entonces adaptan
esas instrucciones según su criterio personal. Otro punto importante es el uso de
cronómetros que produce serias alteraciones en los resultados.
4. Sesgo de ítem: cuando el mismo tiene diferentes significados en distintas culturas.
Ciertos grupos culturales pueden obtener puntajes significativamente distintos en un
ítem determinado a pesar de obtener un puntaje total similar. La deseabilidad social o
la relevancia cultural, entre otros factores, pueden producir el sesgo de ítem.

TERCERA PARTE

ADAPTACIÓN DE TESTS DE UNA CULTURA A OTRA

Directrices para la traducción – Adaptación de los Test

Adaptadas de la International Test Comisión (ITC)

CONTEXTO

C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos centrales
del estudio deberían minimizarse en la medida de lo posible.

C2. Debería de evaluarse la cuantía del solapamiento de los constructos en las poblaciones de
interés.

ADAPTACIÓN DE LOS TESTS

D1. Los constructores/ editores de tests deberían de asegurarse que el proceso de adaptación
tiene en cuenta las diferencias lingüísticas y culturales entre las poblaciones a las que se
dirigen las versiones adaptadas de los tests.

D. 2. Los constructores / editores de los tests deberían de proporcionar datos que garanticen
que el lenguaje utilizado en las instrucciones, en los propios ítems y en el manual del tests, son
apropiados para todas la poblaciones culturales e idiomáticas a las que va dirigido el tests.
D. 3. Los constructores / editores de tests deberían de aportar evidencia de que las técnicas de
evaluación elegidas, los formatos de los ítems, las reglas de los tests y los procedimientos son
familiares a todas las poblaciones a las que van dirigidos.

D. 4. Los constructores / editores de tests deberían de facilitar evidencia de que el contenido


de los ítems y los materiales de los estímulos son familiares a todas las poblaciones a las que
van dirigidos.

D. 5. Los constructores / editores de tests deberían de aportar una justificación racional


sistemática, tanto lingüística como psicológica, para mejorar la precisión del proceso de
adaptación, así como reunir datos acerca de la equivalencia de todas las versiones en los
distintos idiomas.

D.6. Los constructores / editores de tests deberían de asegurarse que el diseño de recogida de
datos permite el uso de técnicas estadísticas apropiadas para establecer la equivalencia entre
los ítems correspondientes a las diferentes versiones idiomáticas del test.

D. 7. Los constructores / editores de tests deberían aplicar técnicas estadísticas apropiadas


para 1) establecer la equivalencia entre las diferentes versiones de un test, y 2) identificar
componentes problemáticos o aspectos del test que puedan ser inadecuados para alguna de
las poblaciones a las que va destinado el test.

D. 8. Los constructores / editores de tests deberían de proporcional información sobre la


evaluación de la validez en todas las poblaciones objetivo a las que va dirigido el test
adaptado.

D. 9. Los constructores / editores de tests deberían de aportar datos estadísticos sobre la


equivalencia de los tests para todas las poblaciones a las que van dirigidos. D. 10. No deben
utilizarse preguntas no equivalentes en todas las versiones dirigidas a diferentes poblaciones
cuando se prepara una escala común, o cuando se comparan estas poblaciones. Sin embargo,
pueden ser útiles para reforzar la validez de contenido de las puntuaciones de cada población
por separado.

APLICACIÓN

A.1 Los constructores y los aplicadores de los tests deberían tratar de prever los tipos de
problemas que cabe esperar, y tomar las medidas oportunas para evitarlos mediante la
preparación de materiales e instrucciones adecuados.

A.2 Quienes aplican los tests deberían de ser sensibles a cierto número de Editores
relacionados con los materiales utilizados para los estímulos, los procedimientos de aplicación,
y las formas de respuesta, que pueden reducir la validez de las inferencias extraídas de las
puntuaciones.

A.3 Aquellos aspectos del entorno que influyen en la paliación del test deberían de
mantenerse lo más parecidos posibles para todas las poblaciones a las que va dirigido el test.

A.4 Las instrucciones para la aplicación del test en el idioma fuente y en el objetivo deben
minimizar la influencia de variación no deseada.
A.5 El manual del test debería de especificar todos los aspectos del test y de su aplicación que
han de revisarse al utilizarlo en un nuevo contexto cultural.

A.6 El aplicador no debe de interferir, debiendo minimizarse su influencia sobre los


examinados. Deben de seguirse al pie de la letra las reglas explicitas descritas en el manual del
test.

INTERPRETACIÓN DE LAS PUNTUACIONES

1. Cuando se adapta un test para utilizarlo en otra población, debe de facilitarse la


documentación sobre los cambios, así como los datos acerca de la equivalencia entre las
versiones.
2. Las diferencias entre las puntuaciones obtenidas por las muestras a las que se aplicó el
test no deben de tomarse sin más directamente. El investigador tiene la responsabilidad de
sustanciar las diferencias con otros datos empíricos.
3. Las comparaciones entre poblaciones solo pueden hacerse al nivel de la invarianza que
se haya establecido para la escala en la que se expresan las puntuaciones.
4. El constructor del test debería de proporcionar información específica acerca de las
distintas formas en las que los contextos socioculturales y ecológicos de las poblaciones
pueden afectar al rendimiento en el test, y debería sugerir procedimientos para tener en
cuenta estos efectos en la interpretación de los resultados.

CONCLUSIONES

La utilización de los tests psicológicos construidos en otros contextos culturales es una práctica
frecuente en todo el mundo. El uso de un test en un contexto cultural diferente produce
dificultades traducibles como fuentes de sesgo. La existencia de sesgo puede tener
consecuencias iatrogénicas al aplicar los tests y al obtener resultados totalmente erróneos. En
un ámbito clínico podemos asumir la existencia de un rasgo de personalidad patológico,
cuando este rasgo puede ser normal sí está dentro de un rango correctamente medido.

Además de ser muy necesario contar con instrumentos adecuados, la adaptación de


instrumentos responde a razones de índole científico y practico. La mayoría de las teorías
psicológicas actuales se han desarrollado en contextos de cultura occidental y la validación
empírica de las mismas se ha realizado con muestras de jóvenes universitarios de raza blanca.

Para poder evaluar si un determinado rasgo psicológico existe en culturas diferentes es


necesario contar con instrumentos equivalentes a través de diferentes culturas, es decir que
midan lo mismo en ambas culturas en donde va a ser aplicado.

También podría gustarte