Diseño de Pruebas Psicométricas
Diseño de Pruebas Psicométricas
studypsicho
1º Máster en Psicopedagogía
Facultad de Educación
Universidad Internacional de Valencia
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 1: Introducción a los conceptos básicos de la Psicometría
En el origen de la palabra psicometría, esta disciplina se ocupa de la medición (métrica) de la psique (psico),
se basa en el estudio y propuesta de instrumentos que permitan medir con garantías la mayoría de variables
psicológicas (capacidades, las aptitudes sociales, los rasgos de personalidad). Las variables psicológicas
son variables susceptibles de ser medidas en el ámbito de la psicología tanto científica como aplicada.
La psicometría actual se desarrolla entre dos grandes estructuras conceptuales:
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- las matemáticas y las estimaciones estadísticas permiten evaluar empíricamente algunas
propiedades de un determinado instrumento de medida.
- se ocupa de proponer nuevas técnicas para la generación de esos instrumentos de medida y nuevas
técnicas para su estudio que actualizan los límites de la medida psicológica.
Los fundamentos de la psicometría, pueden diferenciarse tres ámbitos o núcleos de interés propios de esta
disciplina.
1. Teorías de la medición
Para poder medir un constructo (variable no observable directamente, como la ansiedad, la depresión, o
algún rasgo psicológico) se deben asignar a esos fenómenos ciertas reglas o normas. Se necesitan tener
muchos indicadores de un mismo constructo para poder medirlo o evaluarlo. Este proceso de medir
consiste en clasificar o agrupar fenómenos según un cierto criterio predefinido que permitirá analizarlo de
forma más útil. Un buen instrumento permite conocer diferentes del constructo.
- Ejemplo: depresión, el instrumento debe identificar y discriminar entre las personas que tengan
diferente severidad de depresión y reconocer como iguales a las que tengan una severidad parecida.
Este criterio está definido por quien hace la medición y no siempre, o no necesariamente, refleja la cualidad
intrínseca del fenómeno objeto de la medición; es decir, quien realiza la medición es quien define qué
es lo que está evaluando. Los instrumentos psicológicos atribuyen valores a una escala arbitraria (por
ejemplo, de 0 a 100 o como los Cocientes Intelectuales) a los constructos (variables). Los mismos miden
de forma que, en general, los valores numéricos que se obtienen después de la administración de un test
psicológico no se pueden considerar valores exentos de error de lo que se pretendía medir.
2. Escalamiento
¿Cómo podemos ordenar cosas en una escala utilizando opiniones (juicios subjetivos)?
Psicofísica en el siglo XIX: Se pensaba en cómo a partir de estímulos físicos se generaban diferentes
niveles de atributos psicológicos. La medición se centraba en la evaluación de las sensaciones que
generaban distintos niveles de estimulación física, se usaban procedimientos y técnicas para asignar
números a la sensación reportada por una persona ante un determinado estímulo físico. Es la base de la
autoevaluación, es decir, la persona se valora y evalúa a sí misma, usando para ello el instrumento de medida
que la psicometría ofrezca. Estos procedimientos son los que recibieron el nombre de Escalamiento o
Scaling (en inglés) y fueron evolucionando pasando de los objetivos de la Psicofísica a la medición de
atributos estrictamente psicológicos sin considerar los efectos de los correlatos físicos.
Se diferencian dos aproximaciones principales, que coinciden con dos etapas históricas.
- “escalamiento unidimensional”: primera etapa se propusieron modelos y métodos para el
escalamiento sobre una sola dimensión.
- “escalamiento multidimensional”: segunda etapa donde se logró ampliar la propuesta original
unidimensional para posibilitar el escalamiento en múltiples dimensiones de forma simultánea.
Thurstone (1930): autor, del escalamiento unidimensional, mostró por primera vez que los métodos de
escalamiento psicofísico se podían adaptar a la medición de actitudes; se propuso escalar (ordenar)
estímulos que no eran de naturaleza física a partir de juicios también subjetivos. La preocupación de
Thurstone para medir los estímulos psicológicos le condujo a la creación de la conocida universalmente
como Ley del juicio comparativo: se basa en un sistema de ecuaciones que otorga valores cuantitativos a
un conjunto de estímulos, para diferenciar la intensidad de esos estímulos, se presentan a cada persona
evaluada todas las parejas posibles de estímulos considerados para que, de cada par, la persona seleccione
el más intenso, a partir de comparaciones realizadas pueden seleccionarse aquellos estímulos considerados
como más intensos: se basa en diferenciar la intensidad o gravedad de los estímulos.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
alcance y plantear mejoras e innovaciones. Restringir el escalamiento a una sola dimensión resultó la
limitación principal del método, de modo que la primera mejora supuso ampliar el número de dimensiones
a dos, tres o incluso cuatro.
Torgerson (1958): propuso un modelo (y un método) para resolver este problema, a partir de las
comparaciones por pares ya conocidas introdujo una variante; lo que hizo es requerir a los sujetos que
indicaran la semejanza percibida entre ambos objetos del par. Es el propio sujeto quien elige los criterios
que utiliza en sus juicios sin que se le de ningún tipo de indicio, si solo utiliza un criterio, seguiremos con
escalas unidimensionales, mientras que, si el sujeto utiliza más de un criterio, la mejor representación se
conseguirá en espacios bidimensionales, tridimensionales, etc.
El número de dimensiones en que se obtiene la solución se convierte, pues, en un problema importante en
la construcción de escalas multidimensionales, los psicómetras han propuesto diferentes abordajes a la
cuestión, desde el punto de vista más matemático para determinar el número de dimensiones hasta un punto
de vista de interpretación directa de las dimensiones en sí mismas, más centrado en la definición conceptual.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Tipos de test
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Un examen adecuado requiere que las preguntas incluidas sean una muestra adecuada de los
contenidos impartidos, de otro modo el examen contiene sesgo.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3: Fases del diseño de una prueba psicométrica
En la psicometría se realizan dos grandes tareas:
- Construir pruebas.
- Adaptar pruebas.
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Propósito del test
Para construir un test se debe tener bien identificado el constructo que se pretende evaluar, además de
clarificar los objetivos que se pretenden conseguir a través de su aplicación. Existen cuatro categorías que
recogerían los principales objetivos que persiguen los test psicométricos:
a. Medición de un constructo psicológico: test destinados a evaluar un rasgo psicológico concreto,
se construyen por un conjunto de ítems definidos a partir de la fundamentación teórica del atributo
que se pretende evaluar.
b. Evaluación académica o conductual: test que tienen como objetivo evaluar qué conocimientos
ha adquirido un alumno después de un período de aprendizaje y los que examinan conductas, por
ejemplo, la evaluación que un sujeto manifiesta antes y después de una terapia.
c. Selección de personal: test se elaboran con la finalidad de poder identificar sujetos que respondan
al perfil psicológico que se requiere para un empleo.
d. Clasificación diagnóstica: test que se encuentran en esta categoría responden a la necesidad de
asignar a los sujetos a una categoría diagnóstica
Al margen del propósito que se persiga en cada test, será necesario definir un dominio específico del test,
además de considerar otros aspectos relacionados a la aplicación del test.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
o Se prefiere la aplicación colectiva, donde se hagan los test a la vez, para así poder
acceder a muestras más grande.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
conjuntos de conceptos.
d. Cuantificación de las respuestas: una vez establecido el formato del ítem es necesario establecer
el formato de respuesta, es decir, definir como se cuantificarán las posibles opciones de los
resultados.
- En los test de rendimiento óptimo, se dará el valor 1 a las respuestas correctas y el valor 0 a las
incorrectas, la suma de las respuestas correctas será la puntuación directa del sujeto en ese test
determinado.
- En los test de rendimiento típico la lógica no se presenta de manera tan sencilla y requiere cierta
atención, se cuantifican las diferentes alternativas de respuesta, asumiendo que la opción que
presente mayor valor es la que indica mayor nivel de rasgo o aptitud.
No queremos ID muy cercanos a los extremos (0sy1s), ya que el ítem no discrimina entre niveles de
conocimiento (todos lo aciertan).
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Los ítems que contribuyen más a la consecución de la validez son aquellos que, siendo homogéneos en
cuanto a la varianza que presentan, tienen mayor correlación el criterio externo identificado.
- Valores cercanos a 1: la respuesta dada al ítem está muy relacionada con el resultado del test.
- Valores cercanos a 0: la respuesta dada al ítem está muy poco relacionada el resultado del test.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 4: Fiabilidad
La elaboración de test debe tener en cuenta dos propiedades esenciales que contribuyen a asegurar la
objetividad de la investigación: la validez y la fiabilidad.
- test válido: mide aquello para lo que se ha elaborado
- test fiable: ofrece resultados similares al manejarlo en situaciones similares
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Introducción
Cuando un profesional aplica un test a una persona, tras corregirlo con la plantilla correspondiente o a partir
de un software determinado, obtiene una cierta puntuación, conocida como puntuación empírica.
¿Cómo se puede estar seguro de que esa puntuación obtenida es la que verdaderamente le
corresponde a esa persona? ¿Cuánto error afecta a esa puntuación empírica?
Cuando se intenta responder a estas preguntas se hace referencia a la fiabilidad.
2. ¿Qué es la fiabilidad?
Las características de la fiabilidad:
- propiedad de los test: tener en diferentes momentos (después de hacer varios test) puntajes
similares.
- cantidad de error aleatorio al aplicar un test a un sujeto o grupo.
- grado en que un instrumento produce resultados consistentes y coherentes.
El objetivo central de los estudios de fiabilidad es la estimación de los errores cometidos al medir las
variables psicológicas.
3. Tipos de fiabilidad
3.2. Test-retest
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones, por los mismos sujetos y con el
mismo test.
- Es más económico que el de formas paralelas.
- Inconveniente: resulta difícil determinar cuál es el tiempo óptimo que debe transcurrir entre las
dos ocasiones en las que se administra el test.
- Si el test mide bien, las puntuaciones deberían ser muy similares las dos veces que se pasa el test.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
entendida ésta como intercorrelación entre los ítems.
- Su valor numérico resulta menor o igual que el coeficiente calculado mediante el método de las
formas paralelas.
o Oscila entre 0 y 1.
o Cuanto más cerca de 1 mejor fiabilidad.
o Punto de corte: >0,7 el test tiene buena fiabilidad.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Concepto de validez
Un test puede tener mucha fiabilidad (lo que mida medirlo muy bien), pero estar midiendo algo diferente
para lo que fue diseñado. La validez es medir realmente lo que se pretende medir.
- grado en que tanto los datos como la teoría apoyan la interpretación de las puntuaciones de un test
de acuerdo a su finalidad: que mida la variable que dice medir.
2. Tipos de validez
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 6: Baremación y Estandarización
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ítem, entre otros muchos ejemplos. Para que tenga sentido, una puntuación se debe referir al contenido
incluido en el test o al rendimiento de las restantes personas que componen el grupo normativo, utilizando
lo que llamamos normas o baremos.
- Grupo normativo: la muestra de personas a la que se ha aplicado el test para la obtención de los
baremos, proceso llamado frecuentemente baremación, es decir, grupo en el cual se realiza la
baremación.
- Baremar: construir un baremo.
o Los baremos asignan a cada posible puntuación directa un valor numérico que informa
de su posición en relación con las puntuaciones que obtienen las personas que integran
el grupo normativo. El valor y sentido dependerá de la calidad, tamaño y adecuación del
grupo normativo en el que se obtienen, los baremos son escalas de puntuaciones
obtenidas con un instrumento de medida que permiten la interpretación del mismo,
mediante la atribución a cada puntuación un determinado valor. Si no se tiene en claro
la escala, la puntuación no tienen ningún significado.
Pasos para la baremación:
1. Seleccionar de una población total una muestra representativa, controlando el género, la edad, el
lugar de residencia, el nivel socio económico, entre otras variables.
- No se trata solo de juntar un número, se deben controlar y balancear todas variables nombradas
anteriormente.
2. Administración de la escala (pasar el test).
3. Análisis de los datos recopilados.
2. Estrategias de Baremación
Existen múltiples estrategias de baremación, pero se destacan las siguientes: cronológicas, centiles y típicas
propiedades de los test: tener en diferentes momentos (después de hacer varios test) puntajes similares.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
y permiten la comparación del rendimiento de varias personas en la misma prueba y de una
persona en distintas pruebas.
- Para pasar de números a porcentajes se utilizan las puntuaciones Z.
- Los baremos centiles transformar las puntuaciones en porcentajes para que sea más fácil su
manejo.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151
Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- 5 preguntas de desarrollo breve: como mucho uno o dos renglones.
o “Defina el concepto de validez/fiabilidad”
o “Defina el tipo de fiabilidad test-retest”
o “Defina que es la baremación o los tipos de baremación”
o Uno o dos minutos por pregunta.
- Recomendación estratégica: siempre responder las preguntas de desarrollo
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151