Pruebas Psicológicas: Construcción y Evaluación
Pruebas Psicológicas: Construcción y Evaluación
MIKULIC, ISABEL
PRIMERA PARTE
En 1905 Alfred Binet y un colega publican una prueba que fue diseñada para ayudar a
colocar a los niños parisienses en edad escolar en clases apropiadas.
En Estados Unidos se estaba estudiando el uso de pruebas psicológicas por primera
vez en el ejército.
En la primera y segunda guerra mundial, las pruebas cumplieron con el objetivo de
examinar con rapidez grandes cantidades de reclutas en busca de problemas
intelectuales y emocionales.
El apogeo de las pruebas se dio en la década del ‘50 y principios de 1960. administrándose
pruebas en escuelas, en instituciones de salud mental, dependencias gubernamentales, etc.
“Prueba” era el término usado para referirse a todo, desde la administración de una prueba
hasta la interpretación de la evaluación de la misma. Sin embargo, durante la Segunda Guerra
Mundial comenzó a surgir una distinción entre “prueba” y “evaluación”. Para nuestros
objetivos definiremos:
Quienes elaboran las pruebas, brindan una amplia variedad de antecedentes y detalles
respecto del proceso de elaboración. Reconociendo que las pruebas y las decisiones tomadas
como resultado de su administración pueden tener un impacto significativo en las vidas de las
personas, varias organizaciones publicaron normas de comportamiento ético referidas a la
elaboración y uso responsable de pruebas. Las más conocidas son las Normas o Standards for
Educational and Psychological Testing elaboradas por la Asociación Estadounidense de
Investigación Educativa, la Asociación Psicológica Estadounidense y el Consejo Nacional sobre
Medición en Educación.
2. El que usa la prueba
Si bien las pruebas son usadas por una variedad de profesionales, todos deberán cumplir los
principios éticos correspondientes. La prueba debe guardarse para que su contenido específico
no sea dado a conocer con anticipación. Descripciones previas no son aconsejables pues
podrían comprometer los resultados. El que administra la prueba debe estar familiarizado con
los materiales y procedimientos y tener todos los materiales necesarios para administrarla en
forma apropiada. También debe asegurarse de que el salón en el que se realice la prueba sea
el adecuado, evitando condiciones distractoras. Es fundamental la empatía entre el evaluador
y el evaluado, sim embargo, esta empatía no debe alterar las condiciones de administración de
la prueba.
Las personas evaluadas enfocan una situación de evaluación de diferentes formas y los
administradores deben ser sensibles a la diversidad de respuestas posibles ante una situación
de prueba. El evaluado en situación de diagnóstico o evaluación puede variar en:
También el evaluado tiene derechos en situaciones de evaluación como por ejemplo a dar su
consentimiento para ser evaluado, a que los resultados sean confidenciales y a ser informado
de los resultados.
1) Contexto clínico: las pruebas y otros métodos de evaluación se usan en forma amplia
en escenarios clínicos como hospitales, consultorios y solo se usan con un individuo a
la vez, las pruebas colectivas solo se usan en el screening o casos que requieren una
mayor evaluación.
2) Contexto educativo: a menudo, para diagnosticar problemas de aprendizaje. Las
medidas de inteligencia y logro se usan con más frecuencia con propósitos de
diagnóstico. Existen otras pruebas que se administran a los aspirantes a un nuevo
ingreso. También se usan las pruebas en un contexto de orientación vocacional o de
counseling.
3) Contexto jurídico: como fuente de información para ayudar a responder si la persona
es competente para ser enjuiciada o para saber si un acusado distinguía el bien del mal
en el momento de cometer el delito.
4) Contexto organizacional: en particular en recursos humanos. Los psicólogos usan
pruebas y procedimientos de medición para evaluar conocimientos o habilidades en
las que necesite ser evaluado un empleado, un candidato, para tomar decisiones de
ascensos, transferencias, y elegibilidad para mayor capacitación.
Existen criterios técnicos que usan los profesionales al evaluar para estimar la solidez
psicométrica de los instrumentos. La Psicometría estudia la confiabilidad y la validez de las
pruebas.
CONFIABILIDAD
Una prueba es confiable cuando es consistente y precisa. Las pruebas psicológicas son
confiables en grados diversos. En las mediciones comportamentales, la variabilidad es mayor
dada las características del objeto epistémico y de los instrumentos de medición. Las
diferencias en el desempeño de un sujeto en sucesivas ocasiones pueden estar causadas por
diversas razones: distinta motivación, cansancio o ansiedad, estar más o menos familiarizado
con el contenido del test, etc.
VALIDEZ
Se refiere a lo que mide una prueba y no puede expresarse en general, sino que debe
consignarse el uso particular para el que se planea utilizar el instrumento. Todos los
procedimientos utilizados para determinar la validez se interesan en las relaciones entre
ejecución en las pruebas y otros factores observados independientemente de las
características de la conducta considerada.
VALIDEZ DE CONTENIDO
Los procedimientos de validación por la descripción del contenido comprenden el examen
sistemático del contenido de la prueba para determinar si cubre una muestra representativa
del área de conducta que debe medirse. El área de conducta por examinar debe analizarse
sistemáticamente para garantizar que los reactivos cubran todos los aspectos importantes y en
la proporción correcta. Se debe tener en cuenta no sobregeneralizar ni incluir factores
irrelevantes en los resultados. Básicamente se deben contestar dos preguntas: a)¿cubre la
prueba una muestra representativa de las habilidades y conocimientos especificados? b) ¿el
desempeño en la prueba está razonablemente libre de la influencia de variables irrelevantes?.
Con la validación concurrente, en cambio, la prueba se aplica a personas que ya cuentan con
datos de criterio. La distinción lógica entre la validez concurrente y la predictiva se basa en los
objetivos más que en el tiempo. La validación concurrente es adecuada para las pruebas que
se emplean para diagnosticar el estado actual más que para predecir resultados futuros.
VALIDEZ DE CONSTRUCTO
COEFICIENTE DE VALIDEZ
Algunos de los conceptos básicos de la teoría de la decisión han demostrado su utilidad para
replantear y aclarar algunos interrogantes sobre las pruebas. Una característica de la teoría de
la decisión es que las pruebas se evalúan en términos de su eficacia en una situación particular.
La evaluación no solo toma en consideración la validez de la prueba para predecir un criterio
particular, sino también otros parámetros como la tasa base y la razón de selección. Otro
parámetro importante es la relativa utilidad de los resultados esperados. Las decisiones
individuales deben considerar las preferencias y el sistema de valores del individuo. La teoría
de la decisión no introduce al proceso de decisión el problema de los valores, solamente lo
hace explícito. Los sistemas de valores siempre han estado presentes en las decisiones. La
teoría de la decisión ha permitido centrar la atención en la complejidad de los factores que
determinan la contribución de determinado instrumento a una situación particular. El
coeficiente de validez por sí mismo no puede indicar si se debe usar o no una prueba, ya que
es sólo uno de los factores por ser considerados al evaluar el impacto de la prueba sobre la
eficacia del proceso total de la toma de decisiones.
Para la predicción de criterios prácticos, a menudo se requieren varias pruebas. Los criterios
son, en su mayoría, complejos y la medida de criterio depende de varios rasgos diferentes. Si
se diseñara una prueba para medir este criterio tendría que ser muy heterogénea, pero es más
conveniente una prueba relativamente homogénea porque produce puntuaciones menos
ambiguas. Por ende, a menudo es preferible usar una combinación de pruebas relativamente
homogéneas, cada una de las cuales cubra un aspecto diferente del criterio, en lugar de aplicar
una sola con reactivos muy mezclados. El problema principal del uso de tales baterías tiene
que ver con la forma en que se combinan las puntuaciones de estos distintos instrumentos
para llegar a una decisión con respecto a cada individuo.
SEGUNDA PARTE
El objetivo de cualquier teoría de tests es realizar inferencias sobre el nivel en que los sujetos
poseen la característica o rasgo inobservable que mide el test, a partir de las respuestas que
éstos han dado a los elementos que forman el mismo.
Iniciada por Spearman, sostiene que la puntuación observable de una persona en un test es
una función de dos componentes: su puntaje verdadero (inobservable) y el error de medición
implícito en la prueba. Es un modelo de puntuación matemática y probabilística. Es un
conjunto de principios teóricos y métodos cuantitativos que fundamentan la construcción,
aplicación, validación e interpretación de tests y que permiten derivar escalas estandarizadas.
La primera etapa que Cattell (1986) denomina itemetría, se caracteriza por la construcción de
pruebas conformadas por reactivos cuyas propiedades estadísticas eran el centro de atención
principal. Entre sus contribuciones se encuentran varios conceptos sobre precisión de la
medida, las técnicas para el tratamiento del error y el uso generalizado del error estándar de la
medida como la medida básica del error. Además, dio lugar a contribuciones tales como las
fórmulas de Spearman-Brown, Kuder-Richardson, Alfa de Cronbach y a varios principios
básicos de escalamiento, así como al uso generalizado de la curva normal, el uso de las
correlaciones múltiples y la fórmula de atenuación, etc.
b) Teoría de la Generalizabilidad
Cronbach y Glaser postularon la Teoría de la Generalizabilidad (TG) que es una extensión del
modelo clásico en el que diversas mediciones del mismo individuo pueden variar tanto por
efecto de una variación en lo que se mide como por el error de medición. Las decisiones sobre
la bondad de un instrumento se basan en estudiar las fuentes y tipos de error, utilizando el
análisis de varianza. Cuando se mide una variable se trata de generalizar los resultados a un
dominio o universo confiable de observaciones. El puntaje del universo es semejante al
puntaje verdadero en el modelo clásico. La diferencia es que en la TCT se considera que la
varianza de error es de una sola clase y, la TG reconoce que existen otros universos de
generalización y por lo tanto muchos puntajes de universo posibles. Solo cuando el universo se
ha definido podemos afirmar cuáles son las fuentes de variación que producen error. Las
diferentes fuentes de error en esta teoría se denominan facetas, término que introdujo
Cronbach para designar cada una de las características de la situación de medición que pueden
cambiar de un momento a otro y, por tanto, hacer variar los resultados obtenidos.
Según esta teoría los puntajes observados solo poseen interés si son representativos de todos
los puntajes posibles de un mismo universo. Población es el conjunto de personas de las que
se extrae una muestra; y Universo es el conjunto de todos los ítems posibles de un constructo;
y Universo de Condiciones de Medición al conjunto de todas las facetas estudiadas. Las
distintas fuentes de variaciones asociadas a las facetas y a sus interacciones se estima que
contribuyen a la varianza de error y disminuyen la generalizabilidad de los puntajes observados
en las personas evaluadas.
Desarrollada para resolver varios de los problemas que presentaba la TCT y que no habían sido
resueltos:
Las principales características de la TRI como una alternativa a la teoría clásica de los tests son:
1) Las características de los reactivos no dependen del grupo del cual fueron obtenidos;
2) Los puntajes que describen la habilidad del examinado no dependen del test en su
conjunto;
3) El modelo se expresa a nivel del reactivo más que a nivel del test;
4) El modelo no requiere de pruebas paralelas para determinar el índice de confiabilidad; y
5) Provee una medida de la precisión de cada índice de habilidad.
La ejecución de un examinado en una prueba puede ser predichos por un conjunto de rasgos,
rasgos latentes y habilidades; y (2) la relación entre las respuestas de los examinados a los
reactivos y el conjunto de rasgos que subyacen a la respuesta ante el reactivo, pueden
describirse por una función monotónicamente incrementada llamada función característica del
reactivo o curva característica del ítem (CCI). Esta función especifica que a medida que el nivel
del rasgo incrementa, también incrementa la probabilidad de una respuesta correcta ante
ese reactivo."
1. La unidimensionalidad del rasgo latente: que las respuestas del examinado estén
determinadas por una única variable denominada Rasgo.
2. La independencia local: Las respuestas de un evaluado a cualquier par de ítem son
independientes y la probabilidad de responder correctamente a un ítem es independiente de
la probabilidad de responder correctamente cualquier otro ítem.
Sin embargo, la TRI no se encuentra libre de problemas y su aplicación contiene ciertos puntos
riesgosos debido a que el uso de criterios estadísticos para la selección de los reactivos no
asegura una prueba con contenidos completamente válidos. Deficiencias en los
procedimientos de selección de los contenidos pueden generar una prueba con un bajo nivel
de validez de contenido.
Otro problema de la TRI es que cuando se utilizan funciones de información de los reactivos
durante el desarrollo de una prueba, es probable que los valores sean sobrevalorados y por lo
tanto, la función de información podría sesgarse. Una prueba construida con ítems de valores
elevados puede ser que no corresponda a los de la prueba esperada. Como consecuencia, la
función de información de la prueba será sobrevalorada y por lo tanto, habrá que añadir varios
reactivos adicionales para compensar esta sobrevaloración.
Sin embargo, una de las ventajas de la construcción de los tests de acuerdo a los modelos de la
TRI es que se pueden elaborar tests individualizados, es decir, “a la medida” de los sujetos que
permiten inferir en cada uno de los evaluados un verdadero valor del rasgo de la manera más
precisa.
1. Definición del objetivo: Se establece cuál o cuáles serán los objetivos que se
evaluarán a través de la prueba.
2. Descripción del objetivo: Se define en términos de conductas observables el o
los objetivos a ser evaluados.
3. Especificación de las características de la situación de evaluación: se
especifican todos aquellos aspectos a tener en cuenta en la situación de
evaluación.
4. Características de la respuesta: Se especifica cuál es la respuesta que se
espera del sujeto.
La medición es la asignación numérica de acuerdo con reglas y las escalas son las reglas de
medición. Éstos son instrumentos usados para medir rasgos o atributos psicológicos.
Quienes elaboran las pruebas diseñan un método de medición en la forma que creen que se
adapta mejor a la manera en que han conceptualizado la medición del rasgo o rasgos que son
su objetivo. No hay un único método, el que una escala sea de naturaleza nominal, ordinal, de
intervalo o de razón dependerá de los objetivos de la escala y de la legitimidad matemática de
las manipulaciones y transformaciones de los datos resultantes.
REDACCIÓN DE ÍTEMS
La mayoría de los autores recomiendan que los ítems preliminares de un test sean revisados
por expertos en construcción de pruebas, en el dominio o rasgo a medir y en el nivel de
comprensión de la población a la cual se apunta con la prueba. Las tres características que los
expertos deben evaluar en cada ítem son:
A los jueces se les pide que evalúen la calidad y consistencia de los ítems y se descartan
aquellos con puntuaciones medias más bajas y con escaso grado de acuerdo. Se recomienda
que los ítems seleccionados sean aquellos en que, al menos, un 60% de los jueces coinciden. Es
útil también incluir preguntas que demanden información cualitativa sobre los ítems lo que
puede facilitar un mejoramiento en el fracaso de algunos de ellos.
Existen varios procedimientos de análisis de los ítems de una prueba preliminar. Todos se
ocupan de la distribución de los puntajes de cada ítem y la relación estadística entre el ítem y
la prueba total. El primer paso para obtener información psicométrica sobre los items de
pruebas homogéneas consiste en administrar los elementos preliminares a una muestra
amplia (superior a 300 sujetos) que sea representativa de la población que se quiere evaluar
en la prueba final. Para descartar los ítems que no funcionan bien debe contarse con una
cantidad de sujetos por lo menos cinco veces superior al número inicial de reactivos y
aproximadamente el doble de ítem de los que aparecerán en la versión definitiva de la medida.
La determinación del número muestral necesario para realizar análisis de ítem y los estudios
de validez y confiabilidad de un test es un punto conflictivo debido a las dificultades existentes
para seleccionar participantes en determinados contextos de aplicación de la psicología o con
determinadas poblaciones. El ideal ronda entre los 300 a 400 sujetos para estudios
correlacionales pero este número no es condición suficiente de buenos índices psicométricos.
Existen otros factores intervinientes como el entrenamiento de los evaluadores o la
heterogeneidad de la muestra que pueden incrementar los valores de confiabilidad y validez y
compensar tamaños maestrales inferiores al estándar mencionado.
En las pruebas referidas a criterios se evalúan y seleccionan los ítems de una forma diferente a
las pruebas referidas a normas. El análisis se realiza comparando los resultados de un grupo
antes de aplicar un programa de aprendizaje y después del mismo, o comparando dos grupos
similares, uno de ellos, que recibió capacitación y el otro no. Al calcular el índice de dificultad
los resultados esperados son, items con alta dificultad para los grupos que no han pasado por
el proceso de aprendizaje, y baja dificultad para los que han sido sometidos al proceso de
instrucción. En cuanto al índice de discriminación, obtenido por la comparación entre grupos,
se espera máxima discriminación entre los grupos y mínima entre los individuos de un mismo
grupo.
Una vez realizada la aplicación de la prueba piloto y habiendo obtenido resultados estadísticos
sobre el comportamiento de cada ítem se podrán tomar decisiones sobre cuáles de ellos
deben integrar la forma final del test y hacer estimaciones de su confiabilidad y validez
mediante algunos de los procedimientos ya conocidos.
Una distinción inicial importante es la que debe realizarse entre análisis factorial exploratorio y
confirmatorio. En el primero se extraen factores sin una estructura teórica previa conjeturada
de modo explícito. En cambio, el enfoque confirmatorio, los factores son definidos a priori en
base a un modelo teórico y en este caso, el análisis intenta verificar qué tan bien se adaptan
los datos observables a ese modelo.
Antes de realizar un análisis factorial debe determinarse si los ítems están suficientemente
interrelacionados. Unas de las más empleadas son el test de esfericidad de Bartlett y la medida
de adecuación del muestreo de Kaiser-Mayer-Olikin que se interpreta de manera semejante al
coeficiente de confiabilidad, es decir, con un rango de 0 a 1 y considerando los valores
superiores a .80 como muy adecuados. Si es así, se puede aplicar el análisis factorial en sus
diferentes variantes.
Los principales métodos exploratorios para extraer factores son: Análisis de Componentes
Principales, Ejes Principales y el de Máxima Probabilidad. Este último muy usado por
representar un enfoque estadístico inferencial en psicometría. El método PC explica la mayor
cantidad de varianza posible en los datos observados y es por consiguiente un método más
descriptivo que inferencial. El método de ejes principales es análogo al anterior para los
mismos fines.
El análisis factorial debe realizarse sobre muestras extensas no inferiores a 300 sujetos para
obtener datos útiles. Además, se debe contar idealmente con 10 veces el número de sujetos
por variable o al menos 5 veces ese número. La selección del número correcto de factores es
una de las decisiones más dificultosas del análisis factorial. Luego de extraer los factores
iniciales, se realiza un procedimiento de rotación que permite eliminar los pesos negativos
importantes y reducir el número de cargas factoriales de cada variable en los diversos factores.
Las rotaciones colocan a las variables más cerca de los factores diseñados para explicarlas,
concentran la varianza de las variables en menos factores y, en general, proporcionan un
medio para facilitar la interpretación de la solución factorial obtenida. Los factores rotados
explican la misma varianza que el conjunto de los factores (no rotados) pero la estructura de
las cargas factoriales se modifica y son más simples de interpretar, debido al aumento de las
cargas positivas extremas (bajas y altas).
La tarea final del análisis factorial es interpretar y nominar los factores. Esto se logra
inspeccionando el patrón de cargas factoriales bajas y altas de cada variable sobre los distintos
factores y mediante el conocimiento que se posea de las variables implicadas. Cuando los
factores obtenidos están correlacionados es posible someter sus correlaciones al mismo
análisis estadístico que utilizamos con las correlaciones entre ítems. Podemos realizar un
análisis factorial de los factores obtenidos por rotación oblicua y derivar factores de segundo
orden o superior, es el caso del 16 PF donde los factores iniciales son 16 pero un nuevo análisis
reduce el modelo a 5 factores de segundo orden asimilables al modelo de cinco grandes
factores del Inventario NEO-PIR.
La adaptación de un Test es un proceso mucho más complejo que la mera traducción de ese
test en un idioma diferente. Una adaptación implica considerar no sólo las palabras utilizadas
al traducir la prueba sino también las variables culturales. Van de Vijver y Leung (1997)
establecieron tres niveles de adaptación de las pruebas psicológicas. El primero corresponde al
de la aplicación, este es, la simple y llana traducción de un test de un idioma a otro. Sim
embargo, la sola traducción no nos indica ningún nivel de equivalencia entre ambas versiones.
TÉCNICAS DE TRADUCCIÓN
El proceso de traducción es complejo e implica más que la traducción lineal de las palabras
escritas a un nuevo lenguaje. Existen dos métodos comunes: la traducción directa o forward
translation y la traducción inversa o backward translation. En el método de traducción directa
un traductor o grupo de traductores, traducen el test desde el idioma original al nuevo idioma.
Luego, otro grupo, juzga la equivalencia entre las dos versiones. De este modo pueden
realizarse las correcciones pertinentes. En el caso de la traducción inversa, el más utilizado, un
grupo de traductores realiza una traducción desde el idioma original al nuevo idioma; luego un
segundo grupo de traductores toma el test traducido y vuelve a traducirlo al idioma original.
Seguidamente se realizan las comparaciones entre la versión original y la versión retraducida al
idioma original para determinar su equivalencia.
Una vez que se ha traducido es necesario realizar un estudio para establecer si ésta es
equivalente a la original. Para ello habrá de implementarse un diseño experimental y un
análisis de datos obtenidos a través de ese diseño. Hambleton señala que existen 3 métodos:
Una vez obtenidos los datos por medio de los diseños revisados existen varias posibilidades
estadísticas para su análisis. Básicamente el análisis estará destinado a identificar la existencia
de Funcionamiento Diferencial de ítems (FDI) es decir, ítem que se comportan en forma
diferente a través de las diversas muestras transculturales.
FUENTES DE SESGO
Si deseamos usar las pruebas para predecir resultados en alguna situación futura, necesitamos
instrumentos con alta validez predictiva del criterio particular. Este requisito suele descuidarse
en el desarrollo de las “pruebas libres de influencia cultural”. En un esfuerzo por incluir en esas
pruebas solo las funciones comunes a diferentes culturas o subculturas, puede elegirse un
contenido que tenga poca relevancia para el criterio que se pretenda predecir. Una mejor
solución es elegir un contenido relevante para el criterio e investigar luego las posibles
diferencias poblacionales de la efectividad de la prueba para el propósito pretendido.
a. Sesgo de constructo:
b. Sesgo metodológico:
1. El sesgo de muestra: las muestras son incomparables entre sí. La escolaridad, el nivel
sociocultural, la motivación, el género y edad son variables que pueden hacer
incomparables a dos muestras que pueden mostrar resultados muy diferentes en un
test determinado.
2. El sesgo en el instrumento: La familiaridad que los sujetos tienen con los estímulos
presentados tiene una gran importancia. Algunos estímulos utilizados en algunas
culturas no existen en otras o son irrelevantes. El idioma es otra fuente de sesgo de
instrumento. Los problemas son mayores cuantas más diferencias hay entre idiomas,
idiomas cuya lectura se realiza de izquierda a derecha a diferencia del de derecha a
izquierda. También la disposición del texto tiene importancia en el completamiento de
frases o de interpretación de textos, mayor es el problema cuando implican conectar
letras y números siguiendo un orden alfabético o numérico y los caracteres de idiomas
como el español, ruso, griego. También entre los idiomas occidentales existen
diferencias como que en ingles no existe la “ñ” que el alfabeto sueco contiene más
vocales, y en portugués existen distintos tipos de a. Los métodos de respuesta
constituyen otra fuente de sesgo del instrumento.
3. El sesgo de administración: incluye problemas tales como dificultades en la
comunicación, para que el entrevistado entienda las instrucciones del entrevistador ya
sea por la dificultad de las palabras utilizadas, el modo de explicación de las
instrucciones o un inadecuado manejo del idioma de alguna de las partes. También se
incluyen las alteraciones en la manera de administrar las pruebas. Normalmente los
manuales incluyen instrucciones de administración que en muchos casos no son
adecuadas para la población a aplicar. Los administradores del Test entonces adaptan
esas instrucciones según su criterio personal. Otro punto importante es el uso de
cronómetros que produce serias alteraciones en los resultados.
4. Sesgo de ítem: cuando el mismo tiene diferentes significados en distintas culturas.
Ciertos grupos culturales pueden obtener puntajes significativamente distintos en un
ítem determinado a pesar de obtener un puntaje total similar. La deseabilidad social o
la relevancia cultural, entre otros factores, pueden producir el sesgo de ítem.
TERCERA PARTE
CONTEXTO
C1. Los efectos de las diferencias culturales que no sean relevantes para los objetivos centrales
del estudio deberían minimizarse en la medida de lo posible.
C2. Debería de evaluarse la cuantía del solapamiento de los constructos en las poblaciones de
interés.
D1. Los constructores/ editores de tests deberían de asegurarse que el proceso de adaptación
tiene en cuenta las diferencias lingüísticas y culturales entre las poblaciones a las que se
dirigen las versiones adaptadas de los tests.
D. 2. Los constructores / editores de los tests deberían de proporcionar datos que garanticen
que el lenguaje utilizado en las instrucciones, en los propios ítems y en el manual del tests, son
apropiados para todas la poblaciones culturales e idiomáticas a las que va dirigido el tests.
D. 3. Los constructores / editores de tests deberían de aportar evidencia de que las técnicas de
evaluación elegidas, los formatos de los ítems, las reglas de los tests y los procedimientos son
familiares a todas las poblaciones a las que van dirigidos.
D.6. Los constructores / editores de tests deberían de asegurarse que el diseño de recogida de
datos permite el uso de técnicas estadísticas apropiadas para establecer la equivalencia entre
los ítems correspondientes a las diferentes versiones idiomáticas del test.
APLICACIÓN
A.1 Los constructores y los aplicadores de los tests deberían tratar de prever los tipos de
problemas que cabe esperar, y tomar las medidas oportunas para evitarlos mediante la
preparación de materiales e instrucciones adecuados.
A.2 Quienes aplican los tests deberían de ser sensibles a cierto número de Editores
relacionados con los materiales utilizados para los estímulos, los procedimientos de aplicación,
y las formas de respuesta, que pueden reducir la validez de las inferencias extraídas de las
puntuaciones.
A.3 Aquellos aspectos del entorno que influyen en la paliación del test deberían de
mantenerse lo más parecidos posibles para todas las poblaciones a las que va dirigido el test.
A.4 Las instrucciones para la aplicación del test en el idioma fuente y en el objetivo deben
minimizar la influencia de variación no deseada.
A.5 El manual del test debería de especificar todos los aspectos del test y de su aplicación que
han de revisarse al utilizarlo en un nuevo contexto cultural.
CONCLUSIONES
La utilización de los tests psicológicos construidos en otros contextos culturales es una práctica
frecuente en todo el mundo. El uso de un test en un contexto cultural diferente produce
dificultades traducibles como fuentes de sesgo. La existencia de sesgo puede tener
consecuencias iatrogénicas al aplicar los tests y al obtener resultados totalmente erróneos. En
un ámbito clínico podemos asumir la existencia de un rasgo de personalidad patológico,
cuando este rasgo puede ser normal sí está dentro de un rango correctamente medido.