0% encontró este documento útil (0 votos)
35 vistas19 páginas

Diseño de Pruebas Psicométricas

Este documento presenta una introducción a los conceptos básicos de la psicometría. Explica que la psicometría se ocupa de la medición de variables psicológicas y se basa en el desarrollo de instrumentos para medir constructos como las capacidades y rasgos de personalidad. Se dividen los fundamentos de la psicometría en tres áreas: teorías de la medición, escalamiento y evaluación de la calidad psicométrica de los instrumentos. Finalmente, se describen los métodos de escalamiento unidimensional y multidimensional

Cargado por

lagundav
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
35 vistas19 páginas

Diseño de Pruebas Psicométricas

Este documento presenta una introducción a los conceptos básicos de la psicometría. Explica que la psicometría se ocupa de la medición de variables psicológicas y se basa en el desarrollo de instrumentos para medir constructos como las capacidades y rasgos de personalidad. Se dividen los fundamentos de la psicometría en tres áreas: teorías de la medición, escalamiento y evaluación de la calidad psicométrica de los instrumentos. Finalmente, se describen los métodos de escalamiento unidimensional y multidimensional

Cargado por

lagundav
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

Temario-pruebas.

pdf

studypsicho

Diseño y Construcción de Pruebas Psicométricas

1º Máster en Psicopedagogía

Facultad de Educación
Universidad Internacional de Valencia

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
DISEÑO Y
CONSTRUCCIÓN DE
PRUEBAS
PSICOMÉTRICAS

Carmen María Martín Bueno


MÁSTER UNIVERSITARIO DE PSICOPEDAGOGÍA

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 1: Introducción a los conceptos básicos de la Psicometría
En el origen de la palabra psicometría, esta disciplina se ocupa de la medición (métrica) de la psique (psico),
se basa en el estudio y propuesta de instrumentos que permitan medir con garantías la mayoría de variables
psicológicas (capacidades, las aptitudes sociales, los rasgos de personalidad). Las variables psicológicas
son variables susceptibles de ser medidas en el ámbito de la psicología tanto científica como aplicada.
La psicometría actual se desarrolla entre dos grandes estructuras conceptuales:

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- las matemáticas y las estimaciones estadísticas permiten evaluar empíricamente algunas
propiedades de un determinado instrumento de medida.
- se ocupa de proponer nuevas técnicas para la generación de esos instrumentos de medida y nuevas
técnicas para su estudio que actualizan los límites de la medida psicológica.
Los fundamentos de la psicometría, pueden diferenciarse tres ámbitos o núcleos de interés propios de esta
disciplina.

1. Teorías de la medición
Para poder medir un constructo (variable no observable directamente, como la ansiedad, la depresión, o
algún rasgo psicológico) se deben asignar a esos fenómenos ciertas reglas o normas. Se necesitan tener
muchos indicadores de un mismo constructo para poder medirlo o evaluarlo. Este proceso de medir
consiste en clasificar o agrupar fenómenos según un cierto criterio predefinido que permitirá analizarlo de
forma más útil. Un buen instrumento permite conocer diferentes del constructo.
- Ejemplo: depresión, el instrumento debe identificar y discriminar entre las personas que tengan
diferente severidad de depresión y reconocer como iguales a las que tengan una severidad parecida.
Este criterio está definido por quien hace la medición y no siempre, o no necesariamente, refleja la cualidad
intrínseca del fenómeno objeto de la medición; es decir, quien realiza la medición es quien define qué
es lo que está evaluando. Los instrumentos psicológicos atribuyen valores a una escala arbitraria (por
ejemplo, de 0 a 100 o como los Cocientes Intelectuales) a los constructos (variables). Los mismos miden
de forma que, en general, los valores numéricos que se obtienen después de la administración de un test
psicológico no se pueden considerar valores exentos de error de lo que se pretendía medir.

2. Escalamiento
¿Cómo podemos ordenar cosas en una escala utilizando opiniones (juicios subjetivos)?
Psicofísica en el siglo XIX: Se pensaba en cómo a partir de estímulos físicos se generaban diferentes
niveles de atributos psicológicos. La medición se centraba en la evaluación de las sensaciones que
generaban distintos niveles de estimulación física, se usaban procedimientos y técnicas para asignar
números a la sensación reportada por una persona ante un determinado estímulo físico. Es la base de la
autoevaluación, es decir, la persona se valora y evalúa a sí misma, usando para ello el instrumento de medida
que la psicometría ofrezca. Estos procedimientos son los que recibieron el nombre de Escalamiento o
Scaling (en inglés) y fueron evolucionando pasando de los objetivos de la Psicofísica a la medición de
atributos estrictamente psicológicos sin considerar los efectos de los correlatos físicos.
Se diferencian dos aproximaciones principales, que coinciden con dos etapas históricas.
- “escalamiento unidimensional”: primera etapa se propusieron modelos y métodos para el
escalamiento sobre una sola dimensión.
- “escalamiento multidimensional”: segunda etapa donde se logró ampliar la propuesta original
unidimensional para posibilitar el escalamiento en múltiples dimensiones de forma simultánea.
Thurstone (1930): autor, del escalamiento unidimensional, mostró por primera vez que los métodos de
escalamiento psicofísico se podían adaptar a la medición de actitudes; se propuso escalar (ordenar)
estímulos que no eran de naturaleza física a partir de juicios también subjetivos. La preocupación de
Thurstone para medir los estímulos psicológicos le condujo a la creación de la conocida universalmente
como Ley del juicio comparativo: se basa en un sistema de ecuaciones que otorga valores cuantitativos a
un conjunto de estímulos, para diferenciar la intensidad de esos estímulos, se presentan a cada persona
evaluada todas las parejas posibles de estímulos considerados para que, de cada par, la persona seleccione
el más intenso, a partir de comparaciones realizadas pueden seleccionarse aquellos estímulos considerados
como más intensos: se basa en diferenciar la intensidad o gravedad de los estímulos.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


Diseño y Construcción de Pru...
Banco de apuntes de la
Este método para el escalamiento unidimensional tiene grandes posibilidades de aplicación, se necesita un
conjunto de objetos y una escala sobre la que deseemos ordenar dichos objetos, y los objetos pueden ser
una gran variedad de entidades, sin apenas restricciones. Esta ley está considerada como una de las mejores
contribuciones a la historia de la Psicología.
- El ejemplo clásico de la valoración de la gravedad de delitos: Thurstone generó una lista de 19
delitos de distintas gravedades.
A partir de los planteamientos de Thurstone, otros autores se inspiraron para ampliar notablemente su

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
alcance y plantear mejoras e innovaciones. Restringir el escalamiento a una sola dimensión resultó la
limitación principal del método, de modo que la primera mejora supuso ampliar el número de dimensiones
a dos, tres o incluso cuatro.
Torgerson (1958): propuso un modelo (y un método) para resolver este problema, a partir de las
comparaciones por pares ya conocidas introdujo una variante; lo que hizo es requerir a los sujetos que
indicaran la semejanza percibida entre ambos objetos del par. Es el propio sujeto quien elige los criterios
que utiliza en sus juicios sin que se le de ningún tipo de indicio, si solo utiliza un criterio, seguiremos con
escalas unidimensionales, mientras que, si el sujeto utiliza más de un criterio, la mejor representación se
conseguirá en espacios bidimensionales, tridimensionales, etc.
El número de dimensiones en que se obtiene la solución se convierte, pues, en un problema importante en
la construcción de escalas multidimensionales, los psicómetras han propuesto diferentes abordajes a la
cuestión, desde el punto de vista más matemático para determinar el número de dimensiones hasta un punto
de vista de interpretación directa de las dimensiones en sí mismas, más centrado en la definición conceptual.

3. Teoría de los test


¿Cómo se pueden medir los constructos psicológicos?
Uno de los instrumentos más usados para la medición de los atributos psicológicos son los test o escalas
psicológicas, muy presentes no exclusivamente en el ámbito psicológico y de la salud, sino también en el
educativo. Los test permiten examinar variables latentes no directamente observables (constructos), la
psicometría se ocupa de analizar la calidad de los test, concretamente en aquello que se refiere a sus
propiedades métricas. Las respuestas no son perfectos, sino que existe un margen de error.
Spearman comienzos del siglo XX: examinando las características de la métrica de los test destinados a la
evaluación de la inteligencia, observó que las puntuaciones que se obtenían se interpretaban como
verdaderos indicadores del nivel de capacidad de la persona evaluada, sin tener en consideración otras
variables que podrían condicionar estas puntuaciones. Propuso un modelo matemático sencillo para
identificar los errores de medida presentes en el uso de los test. Esta propuesta y los procedimientos para
estimar la fiabilidad de las puntuaciones y las relaciones entre la fiabilidad y la longitud del test,
constituyeron las bases de la Teoría Clásica de los Tests (TCT): explica qué es lo que le pasa a las personas
cuando responden un test, cuando se responde a los items y realmente responden al constructo evaluado, el
instrumento tiende a ser fiable (los items restan o aportan fiabilidad).
En las décadas posteriores, estos procedimientos fueron mejorados gracias a los aportes de Thurstone o
Cronbach y siguen siendo planteamientos vigentes en el ámbito de la medición. A pesar de la utilidad de
la Teoría Clásica de los Test, también han ido tomando fuerza nuevos modelos matemáticos surgidos en
los años 60, con la intención de resolver algunas limitaciones del modelo clásico. Estos modelos componen
la Teoría de la Respuesta al ítem (TRI) y se caracterizan por su énfasis en el estudio psicométrico de los
ítems (en lugar de los test).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


TEMA 2: Teoría Clásica de los Test
Los test son las herramientas por excelencia en el diseño de pruebas psicométricas y en todo lo
relacionado con la medición.
El modelo clásico hace referencia a los test que están basados en el estudio de la puntuación que obtienen
las personas evaluadas en una determinada distribución de puntuaciones, situar a esa persona en un continuo
entre el menor valor del rango medido hasta el mayor valor del mismo rango.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Tipos de test

1.1. Escalas de Norma de Grupo


La interpretación es relativa porque la interpretación de cada puntuación depende mucho del
contexto, por lo que es necesario conocer la “norma de grupo”.
Es la modalidad más usual y habitual de las que se conocen, se trata de establecer los parámetros de una
población de referencia y utilizar esos parámetros para identificar la posición que ocupa una determinada
puntuación (Xi) en esa distribución teórica. Implica que, para usar correctamente cada test generado bajo
este modelo, debe conocerse sobre qué población se ha estandarizado.
Es necesario disponer de una distribución de referencia (norma de grupo) es la clave en la que se basan
los test generados con la Teoría Clásica de los Test. Esta distribución se basa en un gran número de personas
que han tomado el test y se utiliza para establecer un rango de puntuaciones que representa el espectro
completo de resultados posibles en el test.
Ejemplo: Si le tomo a un niño un test de autocontrol y obtiene un puntaje de 15 ¿Es alto, medio, bajo?
Para saberlo se debe tener una baremación (es un proceso a través del cual se obtienen los puntajes
esperados en un test de una determinada población) de la variable.
Pasos para la baremación
1. Seleccionar de una población total una muestra representativa, controlando el género, la edad, el
lugar de residencia, el nivel socio económico, entre otras variables, no se trata solo de juntar un
número, se deben controlar y balancear todas variables nombradas anteriormente.
2. Administración de la escala (pasar el test).
3. Análisis de los datos recopilados.
- Una puntuación directa de 48 se aleja 1,5 desviaciones típicas de la media poblacional
- Equivale al percentil 93
- El 93% de la población tiene una puntuación igual o inferior a 48 en este test (solo el 7% de la
población tiene una puntuación más alta).

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


1.2. Test Referidos a Criterios
El objetivo de los Tests referidos a criterios es averiguar en qué grado las personas conocen el dominio de
interés, no se trata de test para comparar el rendimiento de unas personas con otras. Son ampliamente
utilizados en el ámbito educativo y escolar, se asemejan a los exámenes que elaboran la mayoría de
profesores para sus alumnos. No se trata de test para comparar el rendimiento de unas personas con otras.
Éstos suponen una visión opuesta a los test normativos más habituales en otros campos de la psicología,
tales como la evaluación de la personalidad o las aptitudes.

Un examen adecuado requiere que las preguntas incluidas sean una muestra adecuada de los
contenidos impartidos, de otro modo el examen contiene sesgo.

1.3. Test Adaptativos Computarizados


No están incluidos en la Teoría Clásica de los test porque aparecieron más tarde. Consisten en bancos
de test que tienen diferente dificultad o contenido y que van apareciendo en función de las respuestas
anteriores del individuo, dos individuos podrían recibir dos test diferentes porque las respuestas que han
dado anteriormente han variado. Son test completamente adaptados a cada persona y que permiten medir
las mismas variables y expresar los resultados en una métrica común.
La ventaja fundamental es que se consigue una mayor precisión de las mediciones con una cantidad mucho
menor de ítems y tiempo de lo que se hacía por el sistema clásico. Ello es así porque al ajustar la dificultad
de los ítems a la competencia de la persona, se prescinde de muchos ítems inútiles, bien porque son muy
fáciles o muy difíciles para la persona examinada y, por lo tanto, no aportan ninguna precisión a la medición
El test se adapta a la habilidad/capacidad del encuestado/participante en función de las respuestas
que va dando a los ítems.
Ventajas:
- Adaptados al usuario
- Resultados comunes
- Más precisión
- Menos ítems
- Menos tiempo
- Motivación: nivel de dificultad ajustado
Desventajas:
- No se puede volver atrás y cambiar las respuestas: falta de motivación.
- Requieren un mínimo de ítems a contestar.

1.4. Teoría de Respuesta al Ítem (TRI)


Estos tests se basan en las propiedades psicométricas de los ítems, no sólo se tiene en cuenta el número de
ítems respondidos, sino la dificultad de los mismos.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 3: Fases del diseño de una prueba psicométrica
En la psicometría se realizan dos grandes tareas:
- Construir pruebas.
- Adaptar pruebas.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Propósito del test
Para construir un test se debe tener bien identificado el constructo que se pretende evaluar, además de
clarificar los objetivos que se pretenden conseguir a través de su aplicación. Existen cuatro categorías que
recogerían los principales objetivos que persiguen los test psicométricos:
a. Medición de un constructo psicológico: test destinados a evaluar un rasgo psicológico concreto,
se construyen por un conjunto de ítems definidos a partir de la fundamentación teórica del atributo
que se pretende evaluar.
b. Evaluación académica o conductual: test que tienen como objetivo evaluar qué conocimientos
ha adquirido un alumno después de un período de aprendizaje y los que examinan conductas, por
ejemplo, la evaluación que un sujeto manifiesta antes y después de una terapia.
c. Selección de personal: test se elaboran con la finalidad de poder identificar sujetos que respondan
al perfil psicológico que se requiere para un empleo.
d. Clasificación diagnóstica: test que se encuentran en esta categoría responden a la necesidad de
asignar a los sujetos a una categoría diagnóstica
Al margen del propósito que se persiga en cada test, será necesario definir un dominio específico del test,
además de considerar otros aspectos relacionados a la aplicación del test.

2. Construcción provisional del test


Tener presente una serie de aspectos que condicionarán de manera determinante las características del test.
Los elementos se organizan en dos categorías que facilitan no dejar al margen algunos detalles relevantes:
- factores contextuales externos.
- atributos internos de la prueba.

2.1. Factores contextuales externos


- Características de la población: decidir qué perfil de la población pretendemos evaluar,
identificar bien a que edades va dirigido, el nivel educativo y cultural, la clase social, el entorno
de procedencia (urbano o rural), la lengua, entre otros.
- Restricciones temporales: limitaciones más importantes relacionadas con el tiempo de
aplicación del test. La intención de reducir el número de ítems para disminuir el tiempo de
administración puede perjudicar la fiabilidad del test. Debe procurarse un determinado equilibrio
entre la longitud del test y la fiabilidad:
o Demasiado corto: problemas de fiabilidad y validez.
o Demasiado largo: disminuye la capacidad de concentración.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


- Aplicación individual o colectiva: las instrucciones deben ser totalmente compresibles para el
sujeto. Si las instrucciones no son claras, se pone en riesgo que el sujeto entienda la tarea que
debe realizar y que responda a la demanda de esta.
o Aplicación individual requerimientos son indispensables, además de especificar otros
aspectos como qué tipo de ayudas puede recibir por parte del aplicador o bien, el número
de intentos que pueden darse para responder a los ítems, entre otros

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
o Se prefiere la aplicación colectiva, donde se hagan los test a la vez, para así poder
acceder a muestras más grande.

2.2. Atributos internos del test


Las características internas del test se refieren al dominio del test y el formato de los ítems.

Identificación del dominio


Identificar todos aquellos indicadores que servirán para representar el grado de los sujetos en relación al
constructo o atributo que se quiera evaluar, es decir, crear una puntuación aproximada de un
constructo.
a. Selección de los indicadores: se debe garantizar la representación del constructo que se mide, la
elaboración de los indicadores se lleva a cabo a partir de la revisión exhaustiva del modelo teórico
del constructo y de esta manera, se evita dejar por desapercibidas algunas facetas importantes. Las
recomendaciones que sirven de guía y ayudan a omitir errores en la definición del dominio:
- Análisis de contenido: categorización o agrupación de las respuestas que se obtienen de preguntas
abiertas que se plantean al sujeto.
- Revisión bibliográfica: una buena revisión de los test existentes servirán de base para identificar
los atributos o conductas más relevantes y pueden servir como referencia para una correcta
aproximación.
- Incidentes críticos: atributos o conductas que se sitúan en los extremos del constructo de interés
que se pretende medir.
- Observación natural: la observación directa de las situaciones en las que se presentan las
conductas relacionadas al constructo.
- Juicio de expertos: contribución destacable la opinión de personas que trabajen en el campo de
interés y que tengan una amplia experiencia.
- Objetivos de la instrucción: se solicita a expertos que revisen los contenidos de los programas e
identifiquen los objetivos que deberían evaluarse en el test.
b. Tipo de soporte: dependiendo de la población destinataria y el constructo a medir el soporte físico
del test puede estar condicionado.
- Pruebas orales: en población infantil.
- Test manipulativos: para evaluar aptitudes mecánicas.
- Lápiz y papel: han sido los más usados, pero con ellos no se puede hacer nivelaciones.
- Test informatizados: han ganado presencia de manera progresiva ya que permiten realizar una
nivelación automática.
c. Tipo de formato:
- Rendimiento típico: mide el rendimiento usual de determinado atributo, sin tener importancia el
rendimiento máximo, es decir, no hay puntuación de corte. Como pueden ser los test de
personalidad o de actitudes, e incluso de opinión.
- Rendimiento óptimo: pretende medir el máximo rendimiento de un sujeto en el constructo, como
por ejemplo las pruebas que evalúan la inteligencia o determinadas aptitudes. En los test de
rendimiento óptimo, los formatos más utilizados son:
o En los ítems de elección binaria se presentan dos opciones de respuesta y se escoge la
que se considera correcta.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


o En los de opción múltiple, se muestran tres o más opciones de respuesta y solamente una
es correcta.
o El formato de categorías ordenadas muestra un continuo ordinal de más de dos
categorías de respuesta, de esta manera se permite matizar la valoración del sujeto, la
escala tipo Likert es la más utilizada.
o En los ítems en formato de emparejamiento se pide encontrar las parejas entre dos

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
conjuntos de conceptos.
d. Cuantificación de las respuestas: una vez establecido el formato del ítem es necesario establecer
el formato de respuesta, es decir, definir como se cuantificarán las posibles opciones de los
resultados.
- En los test de rendimiento óptimo, se dará el valor 1 a las respuestas correctas y el valor 0 a las
incorrectas, la suma de las respuestas correctas será la puntuación directa del sujeto en ese test
determinado.
- En los test de rendimiento típico la lógica no se presenta de manera tan sencilla y requiere cierta
atención, se cuantifican las diferentes alternativas de respuesta, asumiendo que la opción que
presente mayor valor es la que indica mayor nivel de rasgo o aptitud.

3. Análisis de los ítems: prueba piloto


Los ítems que se han sido creados deben someterse a determinados procedimientos para conocer su calidad,
se identificarán cuáles son los ítems que responden a los objetivos que se pretende evaluar y éstos
constituirán el test definitivo. Se aplicará el test provisional a una muestra representativa, los expertos
proponen un tamaño de la muestra de al menos entre 5 y 10 veces más evaluados que ítems, se calcularán
el índice de dificultad, el índice de discriminación y el índice de validez.

3.1. Índice de dificultad


Se aplica a los ítems dicotómicos de los test de rendimiento óptimo y sirve para conocer el grado de
dificultad de cada ítem.

Proporción de aciertos en el ítem.


A = número de sujetos que han acertado la respuesta
N = total de sujetos que han respondido
A mayor ID el ítem es más fácil.

- ID=0,1(dificultad alta): solo el 10% de la muestra ha acertado el ítem


- ID = 0,5 (dificultad media): el 50% de la muestra ha acertado el ítem
- ID=0,9(dificultad baja): el 90% de la muestra ha acertado el ítem

No queremos ID muy cercanos a los extremos (0sy1s), ya que el ítem no discrimina entre niveles de
conocimiento (todos lo aciertan).

3.2. Índice de discriminación


Indica hasta qué punto un ítem discrimina los sujetos entre los que tienen altos y bajos niveles en relación
al constructo que se mide, sirve para Rendimiento óptimo y típico.
El procedimiento para obtener este índice, se basa en la correlación ítem-test, en examinar la correlación
de Pearson entre la puntuación en el ítem y el test, y se aplica a toda la muestra, es decir, tanto los que
obtiene altas y bajas puntuaciones.
Cómo se relacionan los ítems de un mismo test entre sí, a mayor
correlación mejor discriminación tiene el test.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


La información que se obtiene de la correlación de Pearson entre el ítem y el total del test indica si el ítem
mide lo mismo que el test de manera global, los índices con un valor próximo a 0 implican ítems que no
miden lo mismo que el test en general y, por lo tanto, debe valorarse su eliminación. Si se obtiene un índice
cerca de 1 nos indica que el ítem discrimina entre los sujetos que tienen altas o bajas puntuaciones en el
test. Debe prestarse atención en los casos que se obtiene un índice negativo y alto, probablemente el ítem
se ha tratado como directo siendo inverso, o viceversa.

3.3. Índice de validez


Este índice se obtiene de la correlación entre un ítem del test y un criterio externo, que evalúa el mismo
constructo o está muy relacionado con éste, los ítems muy correlacionados con el criterio externo son ítems
adecuado para la escala que se propone mientras que aquellos con bajos niveles de correlación son
candidatos a ser descartados de la escala definitiva; y sirve para Rendimiento óptimo y típico.
Los ítems que obtengan valores próximos a 0 no contribuyen a medir el constructo de interés y deberían
ser eliminados.

Correlación que existe entre dos test diferentes.

Los ítems que contribuyen más a la consecución de la validez son aquellos que, siendo homogéneos en
cuanto a la varianza que presentan, tienen mayor correlación el criterio externo identificado.
- Valores cercanos a 1: la respuesta dada al ítem está muy relacionada con el resultado del test.
- Valores cercanos a 0: la respuesta dada al ítem está muy poco relacionada el resultado del test.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 4: Fiabilidad
La elaboración de test debe tener en cuenta dos propiedades esenciales que contribuyen a asegurar la
objetividad de la investigación: la validez y la fiabilidad.
- test válido: mide aquello para lo que se ha elaborado
- test fiable: ofrece resultados similares al manejarlo en situaciones similares

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Introducción
Cuando un profesional aplica un test a una persona, tras corregirlo con la plantilla correspondiente o a partir
de un software determinado, obtiene una cierta puntuación, conocida como puntuación empírica.
¿Cómo se puede estar seguro de que esa puntuación obtenida es la que verdaderamente le
corresponde a esa persona? ¿Cuánto error afecta a esa puntuación empírica?
Cuando se intenta responder a estas preguntas se hace referencia a la fiabilidad.

2. ¿Qué es la fiabilidad?
Las características de la fiabilidad:
- propiedad de los test: tener en diferentes momentos (después de hacer varios test) puntajes
similares.
- cantidad de error aleatorio al aplicar un test a un sujeto o grupo.
- grado en que un instrumento produce resultados consistentes y coherentes.
El objetivo central de los estudios de fiabilidad es la estimación de los errores cometidos al medir las
variables psicológicas.

Puntuación obtenida en un test = Puntuación + Error (interno o externo) = Resultado

3. Tipos de fiabilidad

3.1. Formas paralelas


Consiste en correlacionar las puntuaciones obtenidas en una muestra para dos formas paralelas de
un test.
- Teóricamente es correcto y es el método que se deriva directamente del modelo, en la práctica
tiene el inconveniente.
- Inconveniente: obliga a crear dos test paralelos.
- Tiene costes muy elevados en recursos y muchas dificultades.

3.2. Test-retest
Consiste en correlacionar las puntuaciones obtenidas en dos ocasiones, por los mismos sujetos y con el
mismo test.
- Es más económico que el de formas paralelas.
- Inconveniente: resulta difícil determinar cuál es el tiempo óptimo que debe transcurrir entre las
dos ocasiones en las que se administra el test.
- Si el test mide bien, las puntuaciones deberían ser muy similares las dos veces que se pasa el test.

3.3. Dos mitades


En este método el test se aplica una sola vez, estimándose la fiabilidad al correlacionar las puntuaciones
obtenidas por los sujetos en cada una de las dos mitades que conforman el test.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


4. ¿Cómo se mide la fiabilidad?
Coeficiente α de Cronbach (1951): la vía elegida con más frecuencia para estimar el coeficiente de
fiabilidad de los test y las escalas.
- Consistencia interna.
- Media ponderada de la correlación entre todos los ítems de una escala.
- Se calcula aplicando el test una sola vez, y su valor depende de la consistencia interna del test,

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
entendida ésta como intercorrelación entre los ítems.
- Su valor numérico resulta menor o igual que el coeficiente calculado mediante el método de las
formas paralelas.
o Oscila entre 0 y 1.
o Cuanto más cerca de 1 mejor fiabilidad.
o Punto de corte: >0,7 el test tiene buena fiabilidad.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


TEMA 5: Validez
La elaboración de test debe tener en cuenta dos propiedades esenciales que contribuyen a asegurar la
objetividad de la investigación: la validez y la fiabilidad.
- test válido: mide aquello para lo que se ha elaborado
- test fiable: ofrece resultados similares al manejarlo en situaciones similares

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1. Concepto de validez
Un test puede tener mucha fiabilidad (lo que mida medirlo muy bien), pero estar midiendo algo diferente
para lo que fue diseñado. La validez es medir realmente lo que se pretende medir.
- grado en que tanto los datos como la teoría apoyan la interpretación de las puntuaciones de un test
de acuerdo a su finalidad: que mida la variable que dice medir.

2. Tipos de validez

2.1. Validez de contenido


Este método o aproximación surge a partir de la necesidad de examinar el contenido de los test como
primer paso para juzgar si un instrumento puede usarse para un propósito en particular o no.
La definición del dominio hace referencia a la definición operativa del contenido, encontrar esta definición
a partir de una tabla, en la cual las filas indicarían las áreas de contenido relevantes para el dominio en
cuestión y las columnas indicarían las operaciones o procesos implicados en la resolución de las tareas
planteadas.
La representación del dominio debe abarcar dos aspectos clave:
- representatividad: ecuación con que el contenido del test representa todas las facetas del dominio
definido.
- relevancia: examina el grado en que cada ítem del test mide el dominio que se ha definido.
Congruencia ítem-objetivo, jueces: ¿Es este ítem adecuado para medir este objetivo?
- Se presentan a los jueces dos listas, una con los ítems y otra con los objetivos.
- La tarea del juez consiste en indicar qué objetivo piensa que mida cada ítem.
- Estas clasificaciones se usarán posteriormente para obtener índices de congruencia ítem-objetivo
pero también índices de congruencia globales para cada área de contenido

2.2. Estructura interna del test


Las evidencias sobre la estructura interna del test nos permiten saber si la prueba mide realmente un
constructo coherente o si se trata de un conjunto de ítems no relacionados entre ellos. Para analizar la
estructura interna del test se realizan estudios sobre:
- dimensionalidad: para determinar la estructura del test y saber si hay una o varias dimensiones
que lo componen.
- funcionamiento diferencial de los ítems: para medir si la probabilidad que la respuesta a un ítem
es distinta en función de alguna característica del grupo de pertenencia previo.
Las técnicas estadísticas utilizadas son, en general, bastante complejas, entre las que destaca el análisis
factorial para examinar si las relaciones entre los ítems corresponden con las hipotetizadas para el
constructo que estamos midiendo. A partir del análisis factorial se obtienen las correlaciones entre los
ítems plasmados en una matriz factorial que expresa la relación entre ellos y los factores comunes o
dimensiones subyacentes.

2.3. Relación con otras variables


Se pretende determinar si las relaciones observadas entre las puntuaciones en el test y otras variables
externas relevantes son consistentes con la interpretación que se propone para las puntuaciones obtenidas.
- Evidencia convergente y discriminante: examinar las relaciones previsibles entre las
puntuaciones en un test y otros constructos, que pueden ser similares (en el caso de la evidencia
convergente) o diferentes (en el caso de la evidencia discriminante) a los que se pretende medir
con el test.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


3. ¿Cómo se mide la validez?
Evidencia Referida a un criterio: La evidencia referida a un criterio implica estudiar nuestra variable de
interés en relación a otra con la particularidad de que nuestra variable debe de pronosticar, estimar, cuál
será el resultado de un criterio.
- Cuando se pretende utilizar el test para pronosticar determinados criterios de rendimiento se
requiere que el test se relacione muy estrechamente con dichos criterios. Para llegar a este tipo de
validez se requiere, previamente, identificar un criterio y la manera adecuada de medirlo, elegir
una muestra apropiada, obtener en la muestra medidas en el test y en el criterio, y finalmente,
determinar el grado de relación entre ambos.
- El resultado es el coeficiente de validez, e indica el grado en que las puntuaciones en el test sirven
para pronosticar con precisión las puntuaciones en el criterio.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
TEMA 6: Baremación y Estandarización

1. ¿Qué son los baremos?


La puntuación directa obtenida en un test no es, por la general, interpretable en sí misma. Para poder
interpretarla debemos tener en cuenta algunos factores, como su dificultad, si se ha establecido un tiempo
límite para responder o no, de la edad de las personas que la han respondido, de cómo se ha puntuado cada

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ítem, entre otros muchos ejemplos. Para que tenga sentido, una puntuación se debe referir al contenido
incluido en el test o al rendimiento de las restantes personas que componen el grupo normativo, utilizando
lo que llamamos normas o baremos.
- Grupo normativo: la muestra de personas a la que se ha aplicado el test para la obtención de los
baremos, proceso llamado frecuentemente baremación, es decir, grupo en el cual se realiza la
baremación.
- Baremar: construir un baremo.
o Los baremos asignan a cada posible puntuación directa un valor numérico que informa
de su posición en relación con las puntuaciones que obtienen las personas que integran
el grupo normativo. El valor y sentido dependerá de la calidad, tamaño y adecuación del
grupo normativo en el que se obtienen, los baremos son escalas de puntuaciones
obtenidas con un instrumento de medida que permiten la interpretación del mismo,
mediante la atribución a cada puntuación un determinado valor. Si no se tiene en claro
la escala, la puntuación no tienen ningún significado.
Pasos para la baremación:
1. Seleccionar de una población total una muestra representativa, controlando el género, la edad, el
lugar de residencia, el nivel socio económico, entre otras variables.
- No se trata solo de juntar un número, se deben controlar y balancear todas variables nombradas
anteriormente.
2. Administración de la escala (pasar el test).
3. Análisis de los datos recopilados.

2. Estrategias de Baremación
Existen múltiples estrategias de baremación, pero se destacan las siguientes: cronológicas, centiles y típicas
propiedades de los test: tener en diferentes momentos (después de hacer varios test) puntajes similares.

2.1. Baremos cronológicos


En constructos que evolucionan con la edad, ni para bien ni para mal, simplemente cambian conforme
el sujeto va aumentando la edad.
- Cociente Intelectual (CI): que se estima a partir de los resultados del test.
- Test de Memoria: la memoria está vinculada al desarrollo del sujeto, por lo que evoluciona
con la edad.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


2.2. Baremos centiles
Este tipo de baremos asignan a cada puntuación del test su rango centil o percentil (centil= base cien)
que indica el porcentaje de personas del grupo normativo que obtienen puntuaciones inferiores a dicha
puntuación. Las personas manejamos rápidamente porcentajes mejor que número en contextos más
abstractos, por lo que los percentiles facilitan la comprensión.
- Los céntiles son los baremos más usados, son fáciles de entender, se aplican en muchos contextos,

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
y permiten la comparación del rendimiento de varias personas en la misma prueba y de una
persona en distintas pruebas.
- Para pasar de números a porcentajes se utilizan las puntuaciones Z.
- Los baremos centiles transformar las puntuaciones en porcentajes para que sea más fácil su
manejo.

La puntuación numérica debe estar dentro de


un percentil para conocer que nivel del
constructo se obtiene. Se debe buscar la
puntuación que se ha obtenido en el test y ver
a que percentil corresponde.

2.3. Baremos típicos


Las puntuaciones típicas pueden aplicarse en la utilización y creación de diferentes baremos, baremos
típicos. La puntuación típica de (Zi) puede ser positiva o negativa e indica el número de desviaciones
típicas que se aleja de la media la correspondiente puntuación obtenida (Xi). Si conocemos la puntuación
Xi obtenida en un test, podemos calcular la Zi e interpretarla a partir de su signo y su valor. Número de
desviaciones típicas que la puntuación obtenida en el test se aleja de la media del grupo normativo.
- Desviación típica: promedio de la diferencia entre los valores, es decir, los puntajes de los
participantes. Puntuación típica: distancia de esa puntuación de la media poblacional.
- Más ligados al mundo de la investigación.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito


RECOMENDACIONES Y SUGERENCIAS SOBRE EL EXAMEN
- 20 preguntas tipo test: 3 opciones respuesta:
o Suelen ser muy directas, no se necesita más de un minuto por pregunta.
o Una opción es “no sabe/ no contesta”.
o Si la duda es grande mejor dejar la pregunta en blanco para que no penalice.
o 3 preguntas mal restan una bien.

Reservados todos los derechos. No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
- 5 preguntas de desarrollo breve: como mucho uno o dos renglones.
o “Defina el concepto de validez/fiabilidad”
o “Defina el tipo de fiabilidad test-retest”
o “Defina que es la baremación o los tipos de baremación”
o Uno o dos minutos por pregunta.
- Recomendación estratégica: siempre responder las preguntas de desarrollo

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-7950151

si lees esto me debes un besito

También podría gustarte