Análisis de Items RACP
Análisis de Items RACP
Índice General
Unidad IV. Test Psicológicos.................................................................................................................................................... 3
Definición. ....................................................................................................................................................................... 3
Características ................................................................................................................................................................. 3
Clasificación de los test ................................................................................................................................................... 3
Test psicométrico ............................................................................................................................................................ 4
Test proyectivos .............................................................................................................................................................. 5
Propósito de medición .................................................................................................................................................... 5
Test de Rendimiento óptimo .......................................................................................................................................... 5
Test de Rendimiento típico ............................................................................................................................................. 6
Análisis de los Ítems/Reactivos/Preguntas. ........................................................................................................................ 7
Índice de dificultad .......................................................................................................................................................... 7
Índice de discriminación ............................................................................................................................................... 11
Índice de Homogeneidad .............................................................................................................................................. 14
Validez de Criterio ......................................................................................................................................................... 25
Análisis de opciones incorrectas de respuesta ............................................................................................................. 27
Corrección de los efectos del azar ................................................................................................................................ 28
Validez y confiabilidad .................................................................................................................................................. 29
Requisitos de un instrumento de medición .................................................................................................................. 29
Definiciones de confiabilidad ........................................................................................................................................ 29
Definiciones de validez.................................................................................................................................................. 30
1.- Evidencia relacionada con el contenido .................................................................................................................. 30
2. - Evidencia relacionada con el criterio (concurrente y predictiva) ........................................................................... 31
3. - Evidencia relacionada con el constructo (convergente y divergente) .................................................................... 33
Factores que pueden afectar la confiabilidad y validez ................................................................................................ 33
Cálculo de la confiabilidad ............................................................................................................................................ 34
1. Medida de estabilidad temporal (confiabilidad por test-retest). ......................................................................... 34
2. Método de formas alternativas, equivalentes o paralelas ................................................................................... 36
3. Método de mitades partidas (split-halves o split-half reliability). ........................................................................ 36
3.1.-Método de Spearman-Brown ................................................................................................................................ 38
3.2.-Método de Rulon (1939):....................................................................................................................................... 39
3.3.-Método de Guttman (1945) y Flanagan (1937) ..................................................................................................... 40
Psicometría Página 1
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Psicometría Página 2
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Definición.
instrumentos experimentales
objetivo: medir o evaluar una característica psicológica específica, o los rasgo, constructo, variable psicológicas generales de
la personalidad de un individuo
justificación teórica de la validez de una medición: mediante el uso de test psicológicos se argumenta que el comportamiento
individual frente a los reactivos de la prueba pueden ser valorados en comparación estadística o cualitativa con el de otros
individuos sometidos a la misma situación experimental, con lo que se da lugar a una determinada clasificación del sujeto.
construcción del test: debe procurar que el comportamiento específico ante determinado reactivo represente lo más fielmente
posible el funcionamiento del sujeto en situaciones cotidianas donde se pone en ejecución real la capacidad que el test
pretende evaluar.
Características
Objetivo
Estandarizado
Estos test son una medida objetiva y estandarizada de una conducta psicológica. Es objetiva porque el resultado es independiente
del propio sujeto evaluado y del psicólogo que realiza la evaluación. Es estandarizado porque cada prueba posee una metodología y
procedimientos reconocidos en la aplicación y calificación de la prueba realizada.
Test psicométricos
Psicometría Página 3
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Test proyectivos
Test psicométrico
El test psicométrico es un procedimiento estandarizado compuesto por ítemes seleccionados y organizados, concebidos para
provocar en el individuo ciertas reacciones registrables; reacciones de toda naturaleza en cuanto a su complejidad, duración, forma,
expresión y significado (Rey, 1973).
Los Psicométricos están inscritos desde una corriente cognitivo conductual que parten del supuesto de que las personas son
sinceras al responder un instrumento estadístico. Básicamente miden y asignan un valor a determinada cualidad o proceso
psicológico (inteligencia, memoria, atención, funcionamiento cognitivo, felicidad, optimismo, tristeza, daño cerebral, comprensión
verbal, etc.), y se dirigen a actividades de evaluación y selección, como también al diagnóstico clínico, su organización,
administración, corrección e interpretación suele estar más estandarizada.
Características:
El contenido y la dificultad de los ítems están sistemáticamente controlados (construcción del test).
La situación de aplicación del test: el ambiente en el cual se le administra, el material del test, la administración, debe estar
bien definida y estandarizada, y debe ser reproducida idénticamente para todos los sujetos examinados con el test.
El registro del comportamiento provocado en el sujeto examinado debe ser preciso y objetivo. Las condiciones de cómo hacer
este registro deben estar bien definidas y deben ser cumplidas rigurosamente.
Poseen confiabilidad y validez claramente expresados, tanto las cantidades como la metodología empleada en su
cuantificación.
Son aquellos cuyos resultados se encuentran estandarizados en baremos (o escalas). Esto significa que cuando una persona
completa el test, sus resultados se comparan con los de otras personas que ya han realizado el test y cuyos resultados se
consideran un parámetro para medir los nuevos resultados.
Un célebre test psicométrico es el Inventario MMPI, el Inventario Multifásico de Personalidad de Minnesota. Es uno de los
test más usados en el campo de la salud mental y la detección de psicopatologías que evalúa la personalidad de un sujeto
mediante las respuestas que éste da a un cuestionario de más de 400 preguntas. También se usan la Escala de Inteligencia
para Adultos de Wechsler (WAIS) y su contraparte para niños (WISC), otro test es el Test de Matrices Progresivas de Raven;
en personalidad, tests psicométricos son, el Cuestionario 16PF de Cattell y el Inventario de la Personalidad de Eysenck (EPI).
Fundamentalmente, las respuestas tienden a ser dicotómicas “si o no“, esto permite que haya una cantidad limitada de
respuestas y de resultados, podrás encontrar preguntas que en un principio pueden resultarte similares o muy diferentes pero
que buscan la respuesta real de tu personalidad, de la misma manera, que hay preguntas que miden si el sujeto está siendo
sincero o no, lo que también se conoce como si está respondiendo demasiado “favorablemente” por lo que puede invalidar el
test.
Las técnicas psicométricas son más sencillas de administrar y muchas veces hasta pueden ser auto administradas lo que permite
tomar muchos de estos test a la vez a muchos sujetos, por esta razón suelen ser las favoritas a la hora de experimentos o entrevistas
laborales que requieren evaluar mucha gente en poco tiempo. En cambio, la administración de técnicas psicométricas suele llevar más
tiempo y requerir más esfuerzo de interpretación.
Pruebas de inteligencia: las escalas de Wechsler como el WAIS (Wechsler Adult Intelligence Scale) y el WISC (Wechsler
Intelligence Scale for Children), que éste último siendo de niños no suele ser utilizado en la selección de personal o el test Dominó por
ejemplo, para medir el razonamiento no verbal. Un aspecto que tenemos que tener en cuenta a la hora de seleccionar un determinado
tipo de test, es que tiene que obtener información acerca de estas variables: test de información general, test de comprensión verbal,
test de memoria, razonamiento verbal y no verbal, etc.
Pruebas de aptitud: Nos permite pronosticar cuáles son las aptitudes del posible trabajador para un determinado puesto y ante una
tarea cualquiera. Puede ser el determinante idóneo para comprobar si este trabajador es lo que la empresa necesita. Por ejemplo, Test
de Mando de M. Bruce.
Pruebas de personalidad: En este caso nos centraremos sólo en las pruebas psicométricas, pues estamos en esta categoría, pero en el
siguiente apartado hablaremos de las proyectivas que cada vez son más utilizadas en recursos humanos. Hay personas que consideran
que pueden modificar su personalidad en función de las respuestas que den a los test, como mencionábamos anteriormente, esto no es
Psicometría Página 4
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
tan sencillo ya que todas estas posibilidades se han medido a la hora de diseñar el test. Algunos de los test de personalidad que son los
más conocidos son: 16PF Test de los Factores de Personalidad de Cattell, test de personalidad Enagrama o el Test Neo PI-R.
Los test proyectivos son aquellos que permiten llegar fácilmente al inconsciente, debido a que el sujeto desconoce qué aspecto de
su personalidad se está evaluando. Por lo tanto, no puede controlar conscientemente su respuesta. Están inscritos dentro de la corriente
dinámica de la Psicología. Su empleo parte de una hipótesis que pone a prueba la individualidad de la respuesta de cada persona para
así presumir rasgo, constructo, variable psicológicas de su personalidad. Por lo general se utilizan mucho en el área clínica y en la
educativa.
En este tipo de test se debe conocer muy bien la variable que se estudia y evalúa, por lo que se debe conocer la exactitud del
mismo (ver anexo al final de esta guía).
Test proyectivos
Las técnicas proyectivas, fundamentalmente, toman a una persona como un caso único, como una personalidad única. En las
técnicas proyectivas no existe la auto aplicación, sino que debe de estar el psicólogo tomando nota tanto de lo que dice el sujeto como
la forma en que dibuja, si el test es gráfico.
De las técnicas proyectivas posiblemente la más conocida por todos sea el Test de Rorscharch, un test de manchas que nos
permiten conocer mucho más de la persona a la que pasamos el test que lo que uno puede imaginar. La administración no es compleja
pero sí que lo es la corrección. Para que un psicólogo pueda aprender, aplicar, interpretar y corregir el Test de Rorscharch suelen ser
necesarios de dos o tres años de preparación en cursos especializados. A pesar de esto, cada vez son más psicólogos tanto clínicos
como de recursos humanos que utilizan este test para la selección de personal y el psicodiagnóstico por la cantidad de información que
se obtiene.
Otros test proyectivos que se suelen utilizar para conocer la personalidad del sujeto es el Test del Árbol de Koch, donde se
observa desde cómo dibuja el sujeto, por donde comienza, cómo es el trazo, si borra o no borra, y se analiza cada parte del dibujo
(tronco, raíces o no raíces, copa del árbol, frutos o no frutos), en qué lugar de la hoja lo ha dibujado, etc. (ver anexo al final de esta
guía).
Propósito de medición
Pretenden medir el rendimiento o capacidad máxima de una persona o al que llega una persona ante una serie de preguntas o tareas, en
las cuales hay desempeños o respuestas correctas e incorrectas. Este tipo de test permite evaluar algunos constructos como:
competencias, aptitudes, capacidad intelectual, capacidad de memoria y la velocidad de procesamiento de la información. Igualmente
este tipo de pruebas son muy útiles en la selección de personal en psicología organizacional; en procesos de orientación académica y
vocacional en psicología educativa; y en el diagnóstico de problemas de retardo mental o de capacidad intelectual superior.
Usualmente, las preguntas de este tipo de test se presentan en formatos de (Abad; Garrido; Olea; Ponsoda, 2006):
Opciones de respuestas:
a) Opción binaria: de dos alternativas, que elige la que considera correcta, por ejemplo, ante cualquier pregunta, la respuesta es;
SI NO.
b) Elección múltiple: entre más de dos alternativas de respuesta, se elige la que se considera correcta, por ejemplo: el primer
país que utilizó test para ocupar puestos militares fue: EEUU Gran Bretaña China
c) Emparejamiento: consiste en encontrar la pareja o respuesta correcta entre dos conjuntos de conceptos, ejemplo: emparejar el
país apropiado a cada una de las siguientes observaciones:
Psicometría Página 5
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
______ El primer país que utilizó test para seleccionar sujetos para ocupar puestos militares
______ el país que ideó un sistema de test militares en 1855
a) EEUU
b) Gran Bretaña
c) China
Estas preguntas deben seleccionarse con cuidado, ya que existen distintos tipos de test en esta categoría, ya que dentro de los test
de rendimiento óptimo tenemos los:
a) Test de habilidad
b) Test de capacidad
c) Test de aptitudes.
Tienen como objetivo medir o reflejar atributos del comportamiento ordinario de persona o personas, tales como: las opiniones,
actitudes, hábitos, los rasgo, constructo, variable psicológicas de personalidad. No hay respuestas correctas o incorrectas. Entre estos
test se encuentran los de personalidad, los de actitud y los de intereses. Además, estas pruebas tienen gran aplicabilidad en psicología
social para la identificación de las opciones y actitudes de las personas ante un evento particular; en psicología jurídica para levantar
perfiles de personalidad de criminales; en procesos de adopción, para determinar a través de pruebas de personalidad si los padres
adoptantes son aptos emocional y psíquicamente para ser padres; en psicología de la salud para estudiar los estilos de vida y hábitos
saludables de las personas; y en psicología clínica para detectar la presencia de síntomas asociados a patologías mentales o problemas
de adaptación psicosocial, mediante listas de chequeo, inventarios y cuestionarios estandarizados. El formato de preguntas de este tipo
de pruebas puede ser de (Abad; Garrido; Olea; Ponsoda, 2006):
Formato de respuesta:
a) Elección binaria: la persona se manifiesta si está de acuerdo o en desacuerdo con una afirmación que se le presenta en el test.
Ejemplo:
Supóngase que uno de los ítems de un cuestionario sobre la actitud de los padres hacia los profesores de sus hijos dice lo
siguiente:
Los profesores en el colegio hacen poco más que cuidar a nuestros hijos cuando nosotros trabajamos
( ) de acuerdo ( ) en desacuerdo
b) Categoría ordenada: establece categorías ordinales. Pueden estar formados por 5 o 7 opciones de respuestas. Este es un tipo
de formato de respuestas tipo Likert.
c) Adjetivos bipolares: es aquel formato de respuestas formado por pares de adjetivos opuestos o diferencial semántico,
ejemplo:
Alegre triste
Listo tonto
Feliz infeliz
Una vez establecido el formato de la respuesta, se determina la cuantificación de la misma, estableciendo una puntuación de las
distintas respuestas. Para los:
Cuantificación de la respuesta:
Psicometría Página 6
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Leyenda:
0 = incorrecto 1 = correcto - = no contesto
Parámetros a estudiar:
Índice de dificultad (según 3 definiciones o fuentes, solo aplicable a test de rendimiento óptimo)
Índice de discriminación (solo aplicable a test de rendimiento óptimo)
Índice de homogeneidad (corregido y sin corregir).
Criterio de validez
Análisis de opciones incorrectas de respuesta y corrección de los efectos del azar
Índice de dificultad
Sirve para identificar y establecer cuantitativamente el nivel o grado de dificultad de un ítem o pregunta. El índice de dificultad
de un ítem j se define como el cociente entre el nº de sujetos que lo han acertado (Aj) y el nº total de sujetos que lo han intentado
resolver (Nj).
Su cálculo solo tiene sentido en los test de rendimiento óptimo, ya que los mismos miden el rendimiento máximo al que llega cada
persona ante una serie de preguntas.
A medida que este índice se acerca a 0 (cero) significa que el reactivo o ítem es muy difícil para los sujetos evaluados, y que
ninguno acertó a responderlo correctamente, si en cambio se acerca a 1 (uno), indica que es muy fácil, ya que todos los sujetos lo
respondieron correctamente, si es 0,5, significa que posee un nivel de dificultad intermedio (ni fácil ni difícil). Es decir, el indicador se
mide y se interpreta en forma inversa a la dificultad de la pregunta. Lo ideal es que se encuentre en un grado de dificultad medio o
intermedio.
Formula:
Donde:
D = índice de dificultad
A = sujetos que han acertado en la respuesta adecuada.
Psicometría Página 7
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
N = número total de sujetos que han contestado el ítem, no deben contabilizarse los sujetos o individuos que no contestan.
Atendiendo a la disposición de datos en la matriz expuesta más arriba, el índice de dificultad de un ítem (columna) j será el
cociente entre el nº de unos y el total de unos y ceros que tiene la columna. Los sujetos que han omitido el ítem (no han contestado) no
se contabilizan en Nj.
Evaluación del test anterior:
1er ítems: D = 0/10 = 0 el reactivo o ítem es muy difícil para los sujetos evaluados
2do ítems: D = 5/10 = 0,5 el reactivo o ítem es intermedio o medianamente difícil para los sujetos evaluados
3er ítems: D = 2/7 = 0,28 el reactivo o ítem es difícil para los sujetos evaluados
4to ítems: D = 3/4 = 0,75 el reactivo o ítem es fácil para los sujetos evaluados.
5to ítems: D = 3/7 = 0,42 el reactivo o ítem es difícil para los sujetos evaluados
6to ítems: D = 9/9 = 1 el reactivo o ítem es muy fácil para los sujetos evaluados
Dj está relacionado con la varianza de los ítems: Si Dj es 0 ó 1, la varianza es igual a cero; a medida que los valores de Dj
incrementan y se acercan a 0,5, la varianza del ítem aumenta hasta un máximo de 0,25. Posteriormente, a medida que los valores de Dj
aumentan y se acercan a 1,0, la varianza del ítem disminuye hasta un máximo de 0,0. De nada sirve un ítem con Dj = 0 o Dj = 1, ya
que no discriminaría entre los diferentes sujetos (todos aciertan o todos fallan el ítem o pregunta).
Al diseñar un cuestionario de rendimiento óptimo, al inicio se sitúan los ítems más fáciles (con mayor Dj); en la parte central, los
de dificultad media (entre 0,30 y 0,70); y al final, los más difíciles (con menor Dj). El número de ítems de cada categoría de dificultad
que deben incluirse en el test depende de los objetivos que quiera conseguir la persona que diseña el cuestionario. En general, la
mayor parte de los ítems deben ser de dificultad media.
Calcular el índice de dificultad de los resultados de la siguiente prueba:
Ítems/reactivo
Sujetos
1 2 3
1 1 0 -
2 1 1 0
3 1 1 0
4 1 0 0
5 0 1 1
1er ítems: D = 4/5 = 0,8 el reactivo o ítem es fácil para los sujetos evaluados
2do ítems: D = 3/5 = 0,6 el reactivo o ítem es medianamente difícil para los sujetos evaluados
3er ítems: D = 1/4 = 0,25 el reactivo o ítem es difícil para los sujetos evaluados
Otra definición (2) del índice de dificultad, según ACP, sería:
Donde:
PR0 = Pregunta contestada incorrectamente. PR1 = Pregunta contestada correctamente.
En otras palabras, el índice expresa el número respuestas correctamente contestadas de una pregunta respecto del número total de
respuestas (correcta e incorrectamente contestadas) de la pregunta. Ahora bien, el índice de dificultad, que cae entre los límite 0 y 1,
califica a la pregunta de acuerdo al valor y su ubicación en una escala de intervalo desarrollado. Los intervalos de calificación y
clasificación de la pregunta son los siguientes:
Valor Clasificación
<= 0,2499999 Extremadamente difícil
0,25 – 0,449999 Difícil
0,45 – 0,549999 Intermedio
0,55 – 0,749999 Fácil
>= 0,75 Extremadamente fácil
Psicometría Página 8
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Otra definición (3) del índice de dificultad, según Kaplan; Saccuzzo, 2006, sería:
El análisis de los elementos se hace con la finalidad de averiguar las características de estos en lo que se refiere a: su dificultad
(Kaplan; Saccuzzo, 2006). El conocimiento del índice de dificultad de un ítem es de utilidad para: a) identificar los ítems que sirven o
no y el grado de dificultad de cada uno, b) para escoger sólo aquellos ítems que presentan el mismo grado de dificultad, c) para elegir
una serie que nos permita ordenarlos en función de su progresiva dificultad p; el valor del índice p puede ser de 0 a 1. Los pasos para
sacar la el índice de dificultad de una prueba son:
a. Sacar el puntaje bruto de cada sujeto. Esto es calificar el total de los ítems correctos en cada hoja de respuestas y anotar la
puntuación en la misma.
b. Ordenar los puntajes obtenidos por los sujetos de mayor a menor o viceversa.
c. Identificar el 27% del total de sujetos que respondieron el test.
d. Separar el 27 % de los puntaje altos que se llamaran el grupo de los altos o (Up) y el otro 27% de los puntajes bajos, que se
llamarán (Lp). Estos se designan como grupo de los altos (GA o Up) y grupo de los bajos (GB o Lp), respectivamente. Se trabaja
con los puntajes extremos. Con el 54% de la población, que corresponde al 27 % de los puntajes mayores (grupo de los altos) y el
27% de los puntajes inferiores (grupo de los bajos). Los puntajes que se encuentran en el área normal, es decir, el 46% se desechan
porque no permiten diferencias significativas.
e. Encontrar en cada ítem, cuantas personas del grupo de los altos (GA) contestaron correctamente el ítem 1. Cuantas personas del
grupo de los bajos (GB) contestaron correctamente el ítem 1. Luego, continuar con todos los ítems. Cada uno visto en el grupo de
los altos y de los bajos. Es posible contar sólo las respuestas correctas, pero resulta interesante saber también el número de
selecciones de alternativas erróneas, por lo que generalmente se cuentan todas las respuestas.
f. Una vez que se tienen los valores de Up y Lp de cada ítem se puede identificar el análisis de dificultad así: p = (Up + Lp) / (U + L).
Donde p es el nivel de dificultad, Up número de personas del grupo de los altos que contestó correctamente el ítem, Lp el número
de personas del grupo de los bajos que contestó correctamente el ítem, U el total de evaluados del grupo superior y L el total de
evaluados del grupo inferior. Con el índice de dificultad se establece la proporción de examinados que contestaron correctamente
el ítem según los criterios que se muestran en la siguiente tabla:
Psicometría Página 9
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Para ejemplificar el cálculo de este índice, supongamos que 50 personas presentan una prueba. Entonces los grupos superior e
inferior pueden formarse con el 27% de los 50 sujetos de la prueba (0,27*50 ~14), o sea con las calificaciones de los 14 sujetos del
grupo superior y las de los 14 del grupo inferior, totalizando 28 sujetos entre los dos grupos. Si 12 de las personas del grupo superior y
7 de las personas del grupo inferior aprueban o pasan el reactivo 4, entonces:
Esto quiere decir que solo el 68% de las personas o integrantes de los grupos superior e inferior respondieron correctamente el
ítem/reactivo estudiado. Según la tabla de calificación de la dificultad de los reactivos vista anteriormente, este ítem tendría una
dificultad de nivel óptimo, por lo que sería muy recomendable conservar este ítem/reactivo en cualquier cuestionario, prueba o test.
Nota: algunos autores se refieren al índice de dificultad como el índice de facilidad, del cual, según ellos, permite identificar la
facilidad o dificultad de las preguntas/ítems/reactivos/afirmaciones y se identifica con IF, además, su uso solo tiene sentido en test
psicométricos de rendimiento óptimo/máximo o pruebas de rendimiento y su fórmula sería:
Estas no son las únicas escalas o métodos de evaluación de la magnitud del índice de dificultad, existen otras que usted puede
consultar para ampliar su conocimiento.
Psicometría Página 10
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Índice de discriminación
En cuanto al índice de discriminación de una prueba, se define como una propiedad asociada con los test psicométricos de
rendimiento óptimo/máximo o pruebas de rendimiento y permite determinar qué sujetos tienen la capacidad/habilidad/competencia
evaluada por la prueba y cuáles no (Kaplan; Saccuzzo, 2006). La medición de la discriminación, se encuentra mediante el índice de
discriminación D cuya fórmula es: D = (Up - Lp) / U. Donde, U es el total de evaluados del grupo superior, Up es el número de
personas del grupo de los altos que contestó correctamente el ítem, L es el total de evaluados del grupo inferior (se asume que U y L
son iguales), y Lp es número de personas del grupo de los bajos que contestó correctamente el ítem. Ejemplo:
Ítem
Sujet
Total
o
1 2 3 4 5 6 7 8 9 10 11 12 13 14
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 14
2 1 1 1 1 1 1 1 1 0 1 0 1 1 1 12
3 1 0 1 1 1 1 1 1 1 0 0 1 0 1 10
4 1 1 1 0 1 1 0 1 1 0 0 1 1 1 10
5 1 1 1 1 1 0 0 0 1 0 0 1 0 1 8
6 1 1 1 1 0 0 1 0 0 0 0 1 1 1 8
7 0 1 1 0 1 1 1 1 0 0 0 0 0 1 7
8 1 1 1 1 1 0 0 0 0 0 0 1 1 0 7
9 0 1 0 1 1 0 0 0 0 1 0 0 1 0 5
10 1 0 0 1 0 1 0 0 0 0 0 1 1 0 5
11 1 1 1 0 0 0 0 0 0 0 0 1 1 0 5
12 1 0 0 1 0 0 0 0 0 0 0 1 0 0 3
13 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
14 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
15 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
El proceso es el siguiente:
1.- Se ordenan los sujetos de mayor a menor (más a menos) según su puntuación total en la prueba (según el número de respuestas
correctas o sumatoria de las codificaciones 1 como respuesta correcta), no por las notas que se les asignen) y se seleccionan el 25 %
con puntuación total más alta (grupo superior) y el 25 % con puntuación total más baja (grupo inferior). También se escogen a veces el
27% o el 33% con totales más altos y más bajos, pero el 25% es un porcentaje cómodo y suficiente.
Psicometría Página 11
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
2.- Se tabulan las respuestas de estos dos grupos en cada ítem, de manera que se pueda ver cuántos de cada grupo, superior e
inferior, han escogido la opción correcta y se contabiliza en una tabla, como la anterior.
3.- Se restan las diferencias entre estos dos valores (G.Sup. – G.Inf.) y se divide entre el número de integrantes del grupo superior
(o del inferior, no importa, ya que ambos números son iguales) y ese es el índice de discriminación.
Este índice es la diferencia entre dos proporciones, los acertantes del grupo superior menos los acertantes del grupo inferior:
(AS/N)-(AI/N); como los denominadores son iguales (idéntico número de sujetos en cada grupo) la fórmula queda simplificada.
Si los ítems tienen un índice de discriminación D =>0.30 entonces se dice que discriminan adecuadamente aquellos sujetos que
tienen la capacidad evaluada de los que no la tienen, pero si D es inferior a 0,30 entonces esto quiere decir que el ítem está mal
elaborado.
Clasificación de la discriminación de las preguntas
ELIMINAR <0
La discriminación de un ítem es muy alta si su valor está entre 0.4 y 1. La discriminación del ítem es muy baja si su valor está
entre 0 y 0.19. Si los valores son negativos la pregunta debe eliminarse.
Es el índice probablemente más utilizado consiste en la diferencia entre dos proporciones: proporción de aciertos en el grupo
superior (AS/N) menos proporción de aciertos en el grupo inferior (AI/N). Expresa por lo tanto hasta qué punto la pregunta
discrimina, establece diferencias, contribuye a situar a un sujeto en el grupo superior o inferior. A mayor diferencia en número de
acertantes entre los grupos superior e inferior, el ítem es más discriminante, contribuye más a situar a un sujeto entre los primeros o
entre los últimos.
Los valores extremos que puede alcanzar este índice son 0 y más/menos ±1.
Si todos responden correctamente (pregunta muy fácil) el ID vale 0 (ID = (N-N)/N = 0).
Si todos se equivocan (pregunta muy difícil) el ID también vale 0 (ID = (0-0)/N = 0).
Es decir, las preguntas muy fáciles o muy difíciles no discriminan, no establecen diferencias; nos dicen que todos saben o no saben
una pregunta, pero no quién sabe más y quién sabe menos. Estas preguntas no contribuyen a la fiabilidad, pero eso no quiere decir
necesariamente que sean malas preguntas (son malas para discriminar…).
Si todos y solos los del grupo superior aciertan la pregunta, tendremos que el ID vale 1 (ID = (N-0)/N = 1).
Si acertaran solamente los del grupo inferior tendríamos que el ID vale -1 (ID = (0-N)/N = -1).
Por lo tanto 1 y -1 son los valores máximos de este índice. Las preguntas con discriminación negativa favorecen al grupo inferior y
en principio deberían ser revisadas (posibilidades: preguntas mal formuladas, ambiguas, error en la clave de corrección, etc.).
Las preguntas que discriminan mucho (diferencian bien a los que saben más de los que saben menos) no son muy difíciles; tienden
a ser de dificultad media (responde bien la mitad de los sujetos analizados). En este caso, la discriminación máxima ocurre porque
aciertan sólo y todos los del grupo superior y ninguno del grupo inferior. Así tendríamos que el índice de dificultad sería:
IDf = (N + 0)/(N + N) = 0,5
Una limitación de este índice está en que el valor máximo de 1 sólo se alcanza cuando aciertan todos los del grupo superior y se
equivocan todos los del grupo inferior. Puede haber preguntas que discriminan bien pero que son difíciles (y fallan algunos del grupo
Psicometría Página 12
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
superior) o son fáciles (y las aciertan algunos el grupo inferior). Por estas razones algunos prefieren otros índices de discriminación
que se expondrán posteriormente, aunque se pueden programar y utilizar varios al mismo tiempo en Excel.
Ya que la mayoría de los ítems tienen un índice de discriminación D =>0.30 puede afirmarse que los mismos discriminan
adecuadamente aquellos sujetos que tienen la capacidad evaluada de los que no la tienen, pero el ítem 11 tiene un D inferior a 0,30
entonces esto quiere decir que el ítem está mal elaborado y debe revisarse. Estas no son las únicas escalas o métodos de evaluación de
la magnitud del índice de discriminación, existen otras que usted puede consultar para ampliar su conocimiento.
Este índice no se calcula con toda la muestra sino, como en el caso anterior, con el 25% con una puntuación total más alta en todo
el test y con el 25% con una puntuación total más baja; también suelen hacerse a veces con otras proporciones (como el 21%, 27%,
30%) pero el 25% es suficiente. El número de sujetos en ambos grupos es por lo tanto el mismo; sólo se analizan las respuestas del
50% de los alumnos, (se prescinde del 50% central).
Cuando el índice de discriminación se aplica una prueba o test psicométrico de rendimiento típico en las que se emplean escalas
de actitud, se comparan las medias de los dos grupos (superior e inferior) mediante métodos como la t de Student, a fin de establecer si
existe diferencia estadísticamente significativa.
También puede emplearse el índice de discriminación clásico (Croker y Algina, 1986), cuya fórmula es:
donde:
Ps es la proporción de sujetos del grupo superior en el criterio que responden correctamente al ítem. y
Pi es la proporción de sujetos del grupo inferior que responden correctamente al ítem.
Existen otros métodos para establecer el índice de discriminación, buscar y estudiar en la bibliografía especializada.
Psicometría Página 13
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Índice de Homogeneidad
Consiste en calcular la correlación entre cada ítem y la puntuación total en el cuestionario o test (es decir, la suma de todos los ítems).
Esta correlación es conocida en el marco de la Teoría Clásica de los Tests (TCT) como índice de homogeneidad (H o IH). Si el ítem
analizado mide lo mismo que el resto de ítems, el índice de homogeneidad será elevado, de manera que los sujetos que puntúan alto en
el ítem, también tenderán a puntuar alto en el cuestionario, y los sujetos que puntúan bajo en el ítem, tenderán a puntuar bajo en el
cuestionario. Si el índice de homogeneidad es bajo o cercano a cero, entonces el ítem analizado no mide lo que mide el resto de ítems.
Likert denominó a los ítems con un índice de homogeneidad bajo como ítems indiferenciadores (Likert, 1932).
Los ítems indiferenciadores aportan escasa o ninguna información útil sobre la actitud que se está midiendo, por ello no tiene
sentido combinarlos con el resto de ítems para obtener una puntuación total (McIver y Carmines, 1981). Además, como demuestra la
Teoría Clásica de los Tests, su uso puede perjudicar a la fiabilidad y a la validez del test. Por todo ello, los ítems indiferenciadores
deben eliminarse.
El índice de homogeneidad, llamado a veces índice de discriminación, de un ítem/reactivo/pregunta (Hj), se define como la
correlación de Pearson entre las puntuaciones X en el total del test y las puntuaciones de los N sujetos en el ítem j. Puede
considerare a la sumatoria de las X como el constructo de referencia contra el cual deben contrastarse las puntuaciones de cada ítem.
Veamos el siguiente ejemplo.
Hj= rjx
Según la disposición de la matriz de datos, para obtener los Hj de los ítems, debemos calcular la correlación entre las columnas j y
la columna X de puntuaciones directas en la prueba.
Ejemplo: Supongamos un test formado por 3 ítems con formato de respuesta de categorías ordenadas, que se valoran entre 0 y 5.
Después de aplicarse a un grupo de 5 sujetos se obtienen los siguientes datos o matriz de resultados:
Ítems (j)
Sujetos ΣXi
1 2 3
1 2 3 5 10
2 3 1 0 4
3 5 4 5 14
4 0 1 0 1
5 4 3 0 7
ΣX total de las puntuaciones en el test.
Formula de correlación de Pearson:
Donde:
rxy es el coeficiente de correlación de Pearson X = variable (independiente)
Y = variable (dependiente) Σ = sumatoria total
N es el número de datos
En esta fórmula:
Psicometría Página 14
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Para el ítems 2:
Para el ítems 3:
Sujeto X(ΣXi)* Y(j)** X*Y X2 Y2
1 10 5 50 100 25
2 4 0 0 16 0
3 14 5 70 196 25
4 1 0 0 1 0
5 7 0 0 49 0
ΣX=36 ΣY=10 ΣXY=120 ΣX2=362 Σ Y2=50
*Sumatoria datos totales ** datos parciales por reactivo
Formula de correlación de Pearson:
refleja que un ítem está midiendo la variable o constructo que la prueba en general quiere medir o evaluar.
Psicometría Página 15
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Es el grado en que dicho ítem está midiendo lo mismo (el constructo) que la prueba globalmente
el grado de semejanza, de relación entre las respuestas de un ítem y el resto de los ítems del test, que representan el constructo.
permite identificar el grado en que el ítem mide la misma variable que los demás ítems
grado o nivel en que un ítem contribuye a la homogeneidad o consistencia interna del test.
informa del grado en que dicho ítem está midiendo lo mismo que la globalidad del test; es decir, del grado en que es
consistente, homogéneo con el total de la prueba.
la correlación existente entre las puntuaciones obtenidas por los sujetos en un determinado ítem y la puntuación total de esos
mismos sujetos en el test completo.
Dado que el índice de homogeneidad de un ítem es un indicador del grado en que ese ítem mide lo mismo que la prueba completa,
es “coherente” con el total de la prueba, habrá que eliminarlo si su Hj. está muy próximo a 0 ya que esto indicará que ítem y prueba
completa tienen muy poca relación entre sí; es decir, miden cosas completamente diferentes. Dicho de otro modo, los ítems con bajos
índices de homogeneidad miden algo diferente a lo que refleja la prueba en su conjunto o lo que se quiere medir en la prueba. Si con el
test se pretende evaluar un rasgo, constructo, variable psicológica o constructo unitario, deberían eliminarse los que tienen un Hj
próximo a cero.
Por el contrario, los ítems cuya correlación con la puntuación total sea cercana a 1 serán muy homogéneos, muy consistentes entre
sí y medirán todos lo mismo (como en el caso de los tres ítems utilizados en el ejemplo).
En ocasiones, un test está formado por diferentes subtests con contenidos distintos. En este caso, los Hj deben obtenerse con
relación a las puntuaciones directas del subtest concreto.
Cuando un Hj es negativo y alto, debemos cuestionar el sistema de cuantificación de las respuestas que se ha seguido en ese ítem.
Si un ítem obtiene una correlación negativa y alta con el total de la prueba, seguramente es debido a que se ha cuantificado
erróneamente el ítem (se ha tomado como directo siendo inverso, o viceversa).
El cálculo del índice de homogeneidad como la correlación entre la puntuación en el ítem y la puntuación en el test (en adelante,
correlación ítem-test) tiene el siguiente inconveniente: la puntuación total en el test incluye al ítem como componente, es decir, el ítem
analizado aparece en las dos variables que se correlacionan, y esto aumentará artificialmente el coeficiente de correlación que se
obtenga. Para evitar este efecto, lo que se hace es calcular la correlación entre el ítem y el test una vez que se ha eliminado de este
último la contribución del ítem. Esta correlación recibe el nombre de índice de homogeneidad corregido (Hc o IHc), y se indica
mediante la expresión (rj,x-j) o ri(T-i). Por lo general, al hacer la corrección, el valor de la correlación corregida o el índice de
homogeneidad corregido disminuye o es menor que el valor de la correlación no corregida, ya que en el índice de homogeneidad sin
corregir lo que se correlaciona es la puntuación del ítem con la puntuación total, entonces dentro de la puntuación total ya se encuentra
incluida la propia puntuación del ítem, por lo que, al correlacionar la puntuación del ítem con la puntuación total, ya de por sí existirá
una correlación, entonces esa correlación tiene un sesgo o error de sobre-estimación, incremento o repetición de datos que debe ser
corregido. Una vez hecha la corrección, lo que se obtiene es la correlación sin incluir la propia puntuación del ítem en estudio.
Esta operación se realiza específicamente cuando un test tiene un número pequeño de ítems. Existen 2 métodos para realizar este
cálculo. El primero consiste en correlacionar las puntuaciones en un ítem con las puntuaciones en el total del test después de restar de
este total las puntuaciones del ítem cuyo índice queremos obtener. Método 1 o de las diferencias test – ítem.
∑X-Y
Sujeto ∑X Y Xd Y Xd*Y Xd² Y²
1 10 2 8 2 16 64 4
2 4 3 1 3 3 1 9
3 14 5 9 5 45 81 25
4 1 0 1 0 0 1 0
5 7 4 3 4 12 9 16
∑ 22 14 76 156 54
n= 5
Psicometría Página 16
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
En el ejemplo precedente, el índice de homogeneidad corregido para el ítem 1 será 0.49, resultado de restar las puntuaciones
generales de los test (10, 4, 14, 1, 7) con las puntuaciones del ítem 1 (2, 3, 5, 0, 4) obteniéndose una la columna con los siguientes
resultados (10-2 = 8, 4-3 = 1, 14-5 = 9, 1-0 = 1, 7-4 = 3). Posteriormente, esta nueva columna, denominada Xd, se correlaciona con las
calificaciones del ítem 1. Análogamente, los índices de homogeneidad corregidos para los ítems 2 y 3 son, respectivamente, 0.89 y
0.54.
El segundo método sería aplicar la fórmula para calcular el índice de homogeneidad corregido (Peters y Van Vorhis, 1940):
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el ítem, y ST es la desviación típica
que presentan las puntuaciones en test.
Para interpretar el índice de homogeneidad corregido suele tomarse como valor de referencia 0.20. De manera que todos los ítems
que presentan ri(T-i) con valores inferiores a 0.20 son eliminados del banco de ítems por ser indiferenciadores.
Ejemplo de cálculo.
Supongamos que 16 sujetos han contestado a los cuatro ítems del cuestionario de un test psicométrico de rendimiento típico que
mide actitudes hacia una universidad. Después de transformar los ítems invertidos, se han calculado las puntuaciones en el test. Las
puntuaciones en los ítems después de realizar las transformaciones y en el test aparecen en la tabla que se muestra a continuación.
Vamos a ilustrar cómo calcularíamos el índice de homogeneidad corregido (IHc) del ítem 1.
Para el ítem 1:
Sujeto X(ΣXi)* Y(j)** X*Y X2 Y2
1 18 4 72 324 16
Psicometría Página 17
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Aplicando la fórmula para calcular el índice de homogeneidad corregido según Peters y Van Vorhis, (1940):
donde, riT es la correlación ítem-test, Si es la desviación típica que muestran las puntuaciones en el ítem, y S T es la desviación típica
que presentan las puntuaciones en test.
El resultado obtenido indica que el ítem está muy relacionado con el resto de ítems que componen el test, debido a que miden la
misma actitud. Como cabía esperar, el Hjc o IHjc de un ítem suele ser inferior a su Hj o HI sin corregir y la diferencia es apreciable
debido a la pequeña longitud del test o el escaso número de ítems: tan sólo 4 ítems. En este caso un 25% del test (es decir, 1 ítem de 4)
es parte de las dos variables que correlacionamos cuando calculamos el IH. Este porcentaje se reduce a medida que aumenta la
longitud del test (cuando la longitud del test es 5, el porcentaje es del 20%; cuando 6, el 17%; cuando 7, el 14%, ...). Por ello, cuanto
mayor sea la longitud del test menor será la diferencia entre el IH y el IHc. Cuando trabajamos con tests muy largos la diferencia es
muy pequeña.
Si realizamos el cálculo del índice de homogeneidad corregido por el método de las diferencias test – ítem al primer ítem del
ejemplo de los 16 sujetos que contestaron los cuatro ítems del cuestionario de un test psicométrico de rendimiento típico que mide
actitudes hacia una universidad, obtendremos similares resultados.
Psicometría Página 18
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Como resulta lógico suponer, el Hj corregido de un ítem suele ser inferior a su Hj sin corregir.
Veamos un ejemplo: se aplicó un test de 60 ítems dicotómicos a 200 sujetos. La media y la varianza de las puntuaciones empíricas
del test fueron de 25 y 14 respectivamente. El ítem 7 presentó una varianza de 0,21 y la correlación biserial puntual sin corregir entre
ese ítem y el test fue de 0,42. Calcular el valor del índice de homogeneidad corregido mediante el segundo método:
El índice de homogeneidad corregido es la correlación entre el ítem y la puntuación total corregida, la cual es la puntuación total
del test menos la puntuación del ítem j (X' = X – j). Por lo tanto, se representaría como rj(x-j) siendo j=7.
Aplicando y substituyendo los valores en la fórmula para calcular el índice de homogeneidad corregido según Peters y Van Vorhis,
(1940):
donde, riT es la correlación ítem-test, ST es la desviación típica que presentan las puntuaciones en test, como en este caso lo que
tenemos es la varianza del test que es 14, empleamos la raíz de 14 ( ) y Si es la desviación típica que muestran las puntuaciones en
el ítem, como en este caso lo que tenemos es la varianza del ítem que es 0,21, empleamos la raíz de 0,21 ( ). Debido a que
tenemos las varianzas de ítem y del test, en el denominador no tenemos que elevar estos términos al cuadrado ( ).
Esta correlación recibe el nombre de índice de homogeneidad corregido, y se indica mediante la expresión (rj,x-j) o ri(T-i). Por lo
general, al hacer la corrección, el valor de la correlación corregida o el índice de homogeneidad corregido disminuye o es menor que
el valor de la correlación no corregida, ya que en el índice de homogeneidad sin corregir lo que se correlaciona es la puntuación del
ítem con la puntuación total, entonces dentro de la puntuación total ya se encuentra incluida la propia puntuación del ítem, por lo que,
al correlacionar la puntuación del ítem con la puntuación total, ya de por sí existirá una correlación extra o incorporada, entonces esa
correlación tiene un sesgo o error de sobre-estimación, incremento o repetición de datos que debe ser corregido. Una vez hecha la
corrección, lo que se obtiene es la correlación del ítem y la puntuación total sin incluir la propia puntuación del ítem en estudio.
En algunos manuales se afirma que el índice de homogeneidad de referencia, si lo que se quiere es que el test tenga una buena
consistencia interna, es que esa correlación debe ser mayor o igual a 0,30 (García, J.M., 2013). Ya que este índice de homogeneidad
está por encima de 0,30, puede afirmarse que este ítem es homogéneo con respecto al resto de los ítems del test (rj(i-j) > 0,30). Si
tuviésemos que tomar una decisión con respecto a este ítem, en el contexto de querer mejorar la consistencia interna del test, pues lo
que haríamos es mantenerlo dentro de la prueba, porque lo más probable es que aportaría consistencia interna a la globalidad de la
prueba.
Psicometría Página 19
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Cuanta más alta sea esa correlación y sea positiva, significa que el ítem es más homogéneo con el resto de los ítems que componen
el test y viceversa si la correlación tiende a cero (0). Si el índice de homogeneidad diera un valor negativo, significaría que hay una
correlación negativa entre la codificación del test y el conjunto total de los test. Esto pudiera deberse a un fallo o codificación inversa
del ítem (la primera opción de respuesta del ítem es 5 y la última es 1). Para corregirlo, se hace una recodificación del ítem, donde se
invierten los valores de las codificaciones (si la primera opción de respuesta del ítem era 5, ahora será 1 y si la última era 1, ahora será
5). Así, el ítem pasaría de tener una correlación negativa a una correlación positiva.
Hasta ahora se ha estudiado el índice de homogeneidad para preguntas/ítem/reactivos cuyo formato de respuesta es politómico,
cuyo ejemplo típico es la escala de Likert. En una prueba objetiva, ya sea un test un examen o algún instrumento de este tipo, pueden
emplearse ítem cuya respuesta tenga un formato dicotómico, cuyo empleo sería SI/NO, ALTO/BAJO, BLANCO/NEGRO, etc., de
manera que hay dos posibles respuestas que son de carácter mutuamente excluyente.
Como consecuencia de lo anterior podría definirse el índice de homogeneidad como la correlación entre las puntuaciones de los
sujetos en el ítem y sus puntuaciones en el test (puntuación total), en la dimensión o el indicador a estudiar. La correlación a utilizar
dependerá de los formatos de ítems y test y teniendo en cuenta que ha de descontarse la contribución que hace el ítem al test total ya
que si no se estaría elevando impropia y espuriamente la estimación. Veamos los 4 casos más importantes:
1.-Biserial-puntual. Muy empleado en test psicométricos de rendimiento óptimo/máximo o pruebas de rendimiento las cuales
emplean ítems dicotómicos y el test es cuantitativo continuo o discreto.
La fórmula del Coeficiente de Correlación biserial puntual (r bp) es:
Donde:
p proporción de aciertos o proporción de sujetos que aciertan el q proporción de errores o proporción de sujetos que no
ítem, siendo q = 1-p. aciertan/fallan respondiendo el ítem.
p media de los sujetos que han acertado el ítem. t media del total o media del test
σt desviación típica/estándar del test
2.-Biserial. Ítem dicotomizado a partir de una variable continua normal y el test es cuantitativo continuo (i.e. ítems que admiten
gradación de Respuesta pero se dicotomizan).
3.-Coeficiente PHI. Ítem y test son casos dicotómicos. Es una mera aplicación de Pearson, luego se puede estimar con dicha
fórmula.
4.-Tetracórica. Si las 2 están dicotomizadas a partir de variables continuas y según un modelo de la Normal. También es una
aplicación de Pearson y su cálculo es complejo, luego se puede usar Pearson como aproximación.
Basado en Pearson. Si tanto el ítem como el total son variables continuas.
Veamos un primer ejemplo aplicado de uno de los tipos de correlación más empleados, la correlación biserial puntual.
En un estudio sobre distribución bidimensional de frecuencias, se quiere analizar si existe correlación lineal entre las variables: a)
ocupación laboral (donde no existe jerarquía u orden, por lo que la variable es categórica nominal dicotómica), con dos niveles de
respuesta (empleado, desempleado) y b) nivel o grado de ansiedad (variable cuantitativa discreta intervalar). A fin de establecer si
existe correlación lineal entre las variables mencionadas, se obtendrá el coeficiente de correlación biserial puntual entre ocupación
laboral y nivel de ansiedad.
En la siguiente tabla se presentan los datos obtenidos:
Variable ansiedad
Variable ocupación laboral Recodificación de la variable ocupación laboral (0
N° (cuantitativa discreta
(categórica nominal dicotómica) substituye a desempleado y 1 substituye empleado)
intervalar).
1 Empleado 1 20
2 Empleado 1 25
Psicometría Página 20
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Variable ansiedad
Variable ocupación laboral Recodificación de la variable ocupación laboral (0
N° (cuantitativa discreta
(categórica nominal dicotómica) substituye a desempleado y 1 substituye empleado)
intervalar).
3 Desempleado 0 35
4 Empleado 1 32
5 Desempleado 0 34
6 Desempleado 0 41
7 Empleado 1 31
8 Desempleado 0 30
9 Empleado 1 24
10 Desempleado 0 38
Debido a que las variables son a) categórica nominal dicotómica y b) cuantitativa discreta intervalar, se empleará un caso especial de
la correlación de Pearson, el coeficiente de correlación biserial puntual (rbp) cuya fórmula (versión 1) es:
Ecuación Ecuación equivalente
Donde:
( p o 1 expresa la media de los datos de la variable (X) ansiedad pero solo para los sujetos que tienen el código 1, de allí el
subíndice 1 de 1).
t expresa la media de todos los datos de la variable (X) σt expresa la desviación típica de todos los datos de la variable
ansiedad. (X) ansiedad
p proporción de aciertos o proporción de sujetos que tienen el q proporción de errores o proporción de sujetos que tienen el
subíndice 1, siendo q = 1-p. subíndice 0.
la variable X se corresponde con la variable ansiedad (cuantitativa discreta intervalar) y los valores de p y q corresponden a la variable
ocupación laboral (categórica nominal dicotómica), cuyos valores se recodificarán mediante dos números, el 0 substituirá al
desempleado y el 1 substituirá a empleado.
Inicialmente calcularemos p, la cual representa la media de los valores de ansiedad que presentan los sujetos empleados
(código1), la cual es: p=(20+25+32+31+24)/5= 26,4. A continuación se calcula el valor de la media de todos los datos de la
variable ansiedad, cuya fórmula es: t=∑xi/n. Si la desarrollamos obtendremos: t= (20+25+35+32+34+41+31+30+24+38)/10=
310/10= 31,0.
Del término de la derecha se obtiene la desviación típica σt, cuya fórmula y cómputo requieren el cálculo de ∑X², el cual sería ∑X²
= (20²+25²+35²+32²+34²+41²+31²+30²+24²+38²) = 9992. Substituyendo estos datos en la ecuación obtenemos:
Posteriormente realizaremos el cálculo del estadístico p, el cual consiste en el número de valores de la variable ansiedad (X) que
tienen un código 1 (empleado) dividido entre el número total de valores. Si se observa, de los 10 datos presentados en la anterior, solo
hay 5 sujetos empleados en dicha tabla. Por esto, p sería p=5/10=0,5. Por último, se calcula el estadístico q, el cual consiste en el
número de valores de X que tienen un código 0 (desempleado) dividido entre el número total de valores. Como ya se mencionó, de los
10 datos presentados en la tabla, hay 5 sujetos desempleados, por lo que q sería q = 5/10 =0,5. Como ya se tienen todos los valores
requeridos para calcular rbp, se substituyen estos datos en la ecuación de la correlación biserial puntual:
Debe notarse que la interpretación del coeficiente biserial puntual se suele hacer en valor absoluto, ya que en este caso el signo es
relativamente irrelevante, por lo que podríamos decir que el valor del coeficiente de relación biserial puntual sería de 0,744. Es signo
Psicometría Página 21
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
es irrelevante porque la variable dicotómica ocupación laboral está en una escala nominal, en la cual el orden o jerarquización no
tienen ningún sentido. Por tanto, si nosotros aquí hubiésemos codificado desempleado con 1 y empleado con 0, el valor de la
correlación tendría un signo positivo y el significado sería el mismo.
Debido al elevado valor de magnitud de la correlación, ya que se acerca mucho al máximo valor de relación de 1, podemos decir
que existe cierta correlación lineal entre las variables involucradas, ya que se ve claramente que las puntuaciones más altas en
ansiedad se asocian con la categoría desempleado (o categoría 0), mientras que las puntuaciones más bajas en ansiedad tienden a
relacionarse con la categoría empleado (o categoría 1).
Series1
Ocupación laboral
Psicometría Página 22
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Donde:
( p o 1 expresa la media de las respuestas correctas (X) de los sujetos que aciertan el ítem y tienen el código 1, de allí el subíndice
1 de 1).
t expresa la media de las puntuaciones totales de los ítems σt expresa la desviación típica de las puntuaciones totales de
todos los ítems
p proporción de aciertos o proporción de sujetos que aciertan y q proporción de errores o proporción de sujetos que fallan y
tienen el subíndice 1, siendo q = 1-p. tienen el subíndice 0.
En este caso, estableceremos la correlación entre los ítems y la puntuación total corregida, la cual se obtienen restando a cada
puntaje total la calificación de ese ítem en particular o la diferencia entre la puntuación total y la calificación de un ítem determinado.
Por ejemplo, la puntuación corregida para el ítem 1 sería la puntuación total de ese ítem (valor 7, ver en la tabla anterior) menos la
puntuación del ítem 1 (valor 1), cuyo resultado sería seis (6) y constituiría la puntuación total corregida para el ítem 1 y el sujeto 1.
Eso se aplica a todos los casos ítems y sujeto (ver la tabla anterior).
A continuación calcularemos p o 1, t, σt, p y q para el ítem 1. Para obtener p o 1 debemos seleccionar aquellos sujetos que
acertaron o respondieron correctamente el ítem 1, o sea los sujetos 1, 2, 5 y 6; cuyas puntuaciones totales corregidas son 6, 8, 3 y 4;
por lo que: p=(6+8+3+4)/4= 5,25. A continuación se calcula el valor de la media de todas las puntuaciones corregidas para el ítem
1, cuya fórmula es: t-I1=∑xi/n. Si la desarrollamos obtendremos: t= (6+8+6+2+3+4)/6= 29/6= 4,8333.
Del término de la derecha se obtiene la desviación típica σt, cuya fórmula y cómputo requieren el cálculo de ∑X², el cual sería ∑X²
= (6²+8²+6²+2²+3²+4²) = 165. Substituyendo estos datos en la ecuación obtenemos:
Posteriormente realizaremos el cálculo del estadístico p, el cual consiste en el número de sujetos que acertaron el ítem 1 y que
tienen un código 1 dividido entre el número total de valores. Si se observa, de los 6 sujetos solo 4 respondieron correctamente, por
esto, p sería p=4/6=0,6667. Por último, se calcula el estadístico q, el cual consiste en el número de sujetos que fallaron el ítem 1 y que
tienen un código 0 dividido entre el número total de valores. Si se observa, de los 6 sujetos solo 2 respondieron incorrectamente, por
esto, p sería p=2/6=0,3333, también puede calcularse mediante la siguiente fórmula: q=1-p, la cual daría q= 1 - 0.6667 = 0,3333.
Como ya se tienen todos los valores requeridos para calcular rbp para el ítem 1, se substituyen estos datos en la ecuación de la
correlación biserial puntual:
Esto representaría el grado de correlación entre el ítem 1 y la puntuación corregida para ese ítem. Esto representa el índice de
homogeneidad corregido para el ítem 1. Normalmente se considera un ítem como aceptable si presenta un índice de homogeneidad de
0,30, y se considera que mide homogéneamente el constructo que se evalúa o cuantifica en el test. Ya que el ítem 1 tiene un valor muy
cercano a 0,30 se considera adecuado.
A continuación, estableceremos la correlación entre el ítem 2 y la puntuación total corregida para ese ítem, la cual se obtienen
restando a cada puntaje total la calificación de ese ítem en particular o la diferencia entre la puntuación total del ítem 2 y la
calificación de ese ítem para los 6 sujetos. Por ejemplo, la puntuación corregida para el ítem 2 sería la puntuación total de ese ítem
(valor 7, ver en la tabla anterior) menos la puntuación del ítem 2 (valor 0), cuyo resultado sería seis (7) y constituiría la puntuación
total corregida para el ítem 2 y el sujeto 1. Eso se aplica a todos los casos del ítem 2 y cada sujeto (ver la tabla anterior).
Seguidamente, calcularemos p o 1, t, σt, p y q para el ítem 2. Para obtener p o 1 debemos seleccionar aquellos sujetos que
acertaron o respondieron correctamente el ítem 2, o sea los sujetos 2 y 3; cuyas puntuaciones totales corregidas son 8 y 5; por lo que:
Psicometría Página 23
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
p=(8+5)/2= 6,5. A continuación se calcula el valor de la media de todas las puntuaciones corregidas para el ítem 1, cuya fórmula es:
t-I1=∑xi/n. Si la desarrollamos obtendremos: t= (7+8+5+2+4+5)/6= 31/6= 5,1667.
Del término de la derecha se obtiene la desviación típica σt, cuya fórmula y cómputo requieren el cálculo de ∑X², el cual sería ∑X²
= (7²+8²+5²+2²+4²+5²) = 183. Substituyendo estos datos en la ecuación obtenemos:
Posteriormente realizaremos el cálculo del estadístico p, el cual consiste en el número de sujetos que acertaron el ítem 2 y que
tienen un código 1 dividido entre el número total de valores. Si se observa, de los 6 sujetos solo 2 respondieron correctamente, por
esto, p sería p=2/6=0,3333. Por último, se calcula el estadístico q, el cual consiste en el número de sujetos que fallaron el ítem 2 y que
tienen un código 0 dividido entre el número total de valores. Si se observa, de los 6 sujetos, 4 respondieron incorrectamente, por esto,
p sería p=4/6=0,6667, también puede calcularse mediante la siguiente fórmula: q=1-p, la cual daría q= 1 - 0.3333 = 0,6667. Como ya
tenemos todos los valores necesarios para obtener rbp para el ítem 2, se substituyen estos datos en la ecuación de la correlación biserial
puntual:
Esto representaría el grado de correlación entre el ítem 2 y la puntuación corregida para ese ítem. Esto representa el índice de
homogeneidad corregido para el ítem 2. Normalmente se considera un ítem como aceptable si presenta un índice de homogeneidad de
0,30, y se considera que mide homogéneamente el constructo que se evalúa o cuantifica en el test. Ya que el ítem 2 tiene un valor
superior a 0,30 se considera homogéneo.
Nota: recuérdese que la interpretación del coeficiente biserial puntual se suele hacer en valor absoluto, aunque para este caso es
irrelevante, ya que la correlación, en este caso y para estos 2 ítems, tiene signo positivo.
Psicometría Página 24
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Validez de Criterio
Es una medida diferente de test para reflejar el mismo rasgo, constructo, variable psicológica u otro muy relacionado. Establece la
validez de un instrumento de medición comparándola con algún criterio externo. Entre más se relacionen los resultados del
instrumento con el criterio externo, mayor será su validez (Silva; 2009). Para ampliar estos conocimientos sobre validez, leer el anexo
1 de esta guía.
La fórmula general del coeficiente de validez es: (Coeficiente de Correlación de Pearson):
donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones obtenidas en la variable
criterio. Este coeficiente se emplea principalmente en test psicométricos de rendimiento típico para ítems/reactivos politómicos o de
varias opciones de respuesta que emplean fundamentalmente la escala Likert.
Pretende expresar el grado en que un ítem es capaz de predecir (pronosticar) el rendimiento de un sujeto medido a través de una
variable externa elegida como indicadora del mismo; por lo tanto, el índice de validez se calculará mediante la correlación entre las
puntuaciones de un grupo de sujetos en ese ítem y las puntuaciones de esos mismos sujetos en la variable o criterio externo elegido
como criterio de validación o referencia.
También conocida como «validez criterial», «validez relativa al criterio» o «validez de pronóstico», se refiere al grado de eficacia
con que se puede predecir o pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test. Es frecuente que en
los procesos de selección de personal se utilicen instrumentos que pretendan determinar o predecir el rendimiento futuro de los
candidatos al puesto de trabajo basándose en las respuestas obtenidas. Para ello es necesario que se haya obtenido una evidencia
empírica de que los resultados obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el puesto de trabajo.
Así pues, la operacionalización del concepto se realiza a partir del denominado coeficiente de validez, que es la correlación entre
el test y el criterio. A mayor correlación, mayor capacidad predictiva del test. Existen distintos enfoques o definiciones aplicables a los
diferentes diseños experimentales que permiten determinar esta correlación. La elección de una definición/diseño u otro dependerá de
las necesidades y circunstancias específicas de cada caso:
Validez concurrente o simultánea: El test y el criterio se miden al mismo tiempo (concurrentemente). Puede utilizarse para
validar un nuevo test por comparación con otro ya validado previamente.
Validez de predictiva o pronóstico: El criterio se mide pasado un periodo de tiempo tras la aplicación del test. Es el tipo
más habitual en los procesos de selección de personal, en los que se pretende predecir el rendimiento futuro de los sujetos.
Un criterio para validar un test de inteligencia verbal puede ser un test que incluya ítems verbales. Ejemplos: un criterio para
validar un test de motivación laboral puede ser un test de motivación personal o un criterio para validar un test de satisfacción laboral
puede ser un test de satisfacción personal o satisfacción vital.
Ejemplo:
Ítems
1 2 3 ΣY(C.Ext.)
1 2 3 5 5
2 3 1 0 3
Sujetos 3 5 4 5 6
4 0 1 0 0
5 4 3 0 6
ΣX total de las puntuaciones en el test.
Psicometría Página 25
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
La ΣY corresponde a los resultados de otro test, que son los empleados para establecer el criterio de validación.
Nota: en criterio de validación los datos de la X pasan a ser el ítem Y, y este pasa a ser el valor dado por el profesor.
Para correlacionar con el criterio establecido: ítem 1.
Sujeto X* Y** ΣY(C.Ext.) X*Y X2 Y2
1 2 5 10 4 25
2 3 3 9 9 9
3 5 6 30 25 36
4 0 0 0 0 0
5 4 6 24 16 36
Σ14 Σ20 Σ73 Σ54 Σ106
* Datos parciales por reactivo **Sumatoria datos totales de otro test.
Fórmula de correlación de Pearson:
Psicometría Página 26
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Los elementos que tengan una correlación con el criterio próxima a cero deberían eliminarse de la prueba, en la medida que no
contribuyen ni a evaluar el rasgo, constructo, variable psicológica que se pretende medir ni contribuye demasiado a que la prueba
global cumpla el objetivo para el cual ha sido diseñada; es decir, no es un ítem “válido”.
Si lo que se pretende es seleccionar los ítems que más contribuyen a la validez del cuestionario, de entre los ítems de igual
varianza, serían preferibles los que tienen alto Vj.
A fin de evaluar la validez de criterio de un reactivo en un test psicométricos de rendimiento óptimo/máximo para ítems/reactivos
dicotómicos o de dos (2) opciones de respuesta (Si/No, 0 para los errores y 1 para los aciertos), se emplean distintos tipos de
coeficientes de correlación para este fin, el más común es el coeficiente biserial puntual que se discutió en la sección anterior. A fin de
diversificar nuestro conocimiento sobre este tipo de correlación, se realizará el cálculo mediante una fórmula equivalente (Aiken,
1996) que se presenta a continuación:
Donde nt es la cantidad total de examinados, np es la cantidad de examinados que resuelven correctamente el reactivo, p es la
media de las calificaciones de criterio de quienes pasan el reactivo, es la media de todas las calificaciones de criterio y St es la
desviación estándar de todas las calificaciones de criterio.
Si la prueba se elabora para predecir el desempeño en un trabajo o en la escuela, entonces un criterio apropiado consiste en la
medida del desempeño laboral (digamos, las escalas para medir desempeño en el trabajo elaboradas o empleadas por el jefe) o del
aprovechamiento escolar (por ejemplo, notas asignadas por el maestro). La validez de un reactivo para predecir una posición con base
en un criterio externo puede determinarse al correlacionar las calificaciones de un reactivo (0 para errores y 1 para aciertos) con las
calificaciones de la medida de criterio. Se insiste en que el criterio debe ser externo (productividad en el trabajo o grados de un curso)
o incluso calificaciones totales de la propia prueba.
Para ilustrar el cálculo del coeficiente biserial puntual, supongamos que la media y la desviación estándar del total de las
calificaciones de un grupo de 30 personas son 75 y 10, respectivamente. Ahora bien, si la calificación media de 17 examinados que
aciertan en determinado ítem/reactivo es 80, la sustitución de estos valores en la fórmula anterior dan los siguientes resultados:
Cuanto más elevada sea la correlación entre el reactivo y el criterio, más preciso será el ítem/reactivo como predictor del criterio.
El que un reactivo se conserve o deseche depende del tamaño de este coeficiente. Aunque reactivos con un coeficiente tan bajo como
0,20 pueden contribuir a predecir el criterio, se prefieren coeficientes más elevados. Un reactivo con una correlación cercana o menor
a 0,00 con el criterio debe, sin duda, revisarse o descartarse. Son mejores los reactivos que tienen correlaciones elevadas con el
criterio, pero bajas con otros reactivos, porque representan una contribución más independiente a la predicción de calificaciones de
criterio.
Muy en relación con el análisis de ítems se encuentra el tema del estudio de los patrones de respuesta que se han dado a las diferentes
alternativas de cada ítem. Para un ítem concreto de una prueba de rendimiento óptimo, lo ideal es que la alternativa seleccionada en
mayor medida sea la correcta; cada una de las alternativas incorrectas del ítem debe también ser seleccionada por un número de
personas que, aun siendo inferior al que selecciona la alternativa correcta, ratifique como adecuadas (como bien planteadas) dichas
alternativas incorrectas. Observemos los siguientes porcentajes de respuesta obtenidos en las diferentes opciones de tres ítems de un
determinado test:
Psicometría Página 27
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Opción
Ítem Porcentaje obtenido de las distintas opciones de respuesta
correcta
A B C D E
1 B 16 40 15 14 15
2 C 35 15 21 17 12
3 A 60 1 21 18 0
El patrón de respuestas obtenido para el ítem 1 es adecuado (ver gráfica inferior), pues la mayor parte de la muestra selecciona la
alternativa correcta, mientras que las incorrectas son seleccionadas por un porcentaje parecido de personas. El ítem 2 seguramente no
es muy adecuado, pues la muestra de sujetos selecciona en mayor grado una alternativa incorrecta como la buena; al menos, habría
que reformular esa alternativa incorrecta. Para el ítem 3, los problemas se refieren a dos alternativas incorrectas que apenas si son
seleccionadas por la muestra; también habría que reformular esas dos opciones de respuesta.
En otro orden de cosas, y volviendo al caso de haber estado diseñando un test de rendimiento óptimo, no deberíamos conformarnos
con calcular los índices de “calidad” que acabamos de describir para todos los ítems que lo constituyen, sino que también deberíamos
asegurarnos de que los sujetos que los han respondido de forma correcta no lo han hecho por pura casualidad, por “azar”, sino porque
realmente disponen del conocimiento o “aptitud” que les permite dar las respuestas acertadas. En este sentido, debemos proceder a
corregir los efectos que el azar pueda estar teniendo sobre esas puntuaciones. Vamos a verlo:
20 16 17
% 15 14 15 15
)
12
10
1 0
0
1 2 3
Items
Psicometría Página 28
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Si asumimos que, cuando no se conoce la respuesta correcta a un ítem, todas las alternativas de respuesta son equiprobables, la
probabilidad de acertar al azar ese ítem se puede establecer como:
P (Aa) = 1/n
P(E) = 1 - (1/n)
Llamemos Ra el nº de respuestas aleatorias que proporciona (es decir, el número de ítems que ha contestado sin saber la solución). De
las Ra, algunas serán aciertos aleatorios (Aa) y otras serán errores (E). Nuestro objetivo es estimar los Aa para descontarlos del
número total de aciertos que ha tenido en realidad la persona. Lo haremos de la siguiente forma:
La ecuación para estimar Aa es la siguiente:
Esta va a ser la fórmula para estimar Aa, a partir de los errores cometidos ( E ) y del número de alternativas que tienen los ítems (n).
Podemos observar que cada error se pondera por la expresión 1/(n-1), lo que significa que por cada error hay que descontar el
resultado de ese cociente: en tests de 2 alternativas de respuesta, hay que descontar 1 punto por cada error; en tests de 3 alternativas,
hay que descontar 0,5 por cada error; en tests de 4 alternativas, hay que descontar 0,33 puntos por cada error; y así sucesivamente.
La puntuación directa corregida de una persona en el test se obtiene entonces haciendo:
Xc = A – Aa
Xc = A -
Ejemplo: Un test de conocimientos del idioma inglés está formado por 140 ítems con 5 opciones de respuesta cada uno. A
continuación se detallan el nº de aciertos (A), errores (E) y
omisiones (O) que obtuvieron 3 personas:
Persona A E O
1 112 28 0
2 110 12 18
3 109 0 31
Si atendemos únicamente al número de aciertos obtenidos, parece claro que quien más inglés sabe es la persona 1, seguida de la 2
y en último lugar la persona 3. Sin embargo, corrigiendo los efectos del azar, obtenemos las puntuaciones directas corregidas
siguientes:
Podemos comprobar que la corrección afecta sensiblemente al orden que establecemos respecto al dominio del idioma inglés.
Además, si nos fijamos en la corrección hecha para la persona 3, vemos que no se le ha descontado nada; esto es debido a que no
cometió ningún error.
Validez y confiabilidad
Definiciones de confiabilidad
Psicometría Página 29
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
a) al grado en que su aplicación repetida al mismo sujeto u objeto produce iguales resultados según Hernández, Fernández y
Baptista (2010) (p.200), además de Silva (2009).
b) a la consistencia temporal de los resultados. En el análisis de la confiabilidad se busca que los resultados de un cuestionario
concuerden con los resultados del cuestionario en otra ocasión, según Menéndez (2006).
c) la fiabilidad (también llamada técnicamente confiabilidad) es una propiedad psicométrica que hace referencia a la ausencia
de errores de medida, o lo que es lo mismo, al grado de consistencia y estabilidad de las puntuaciones obtenidas a lo largo
de sucesivos procesos de medición con un mismo instrumento (Col. Wikipedia, 2016).
d) grado en el que las mediciones están libres de la desviación producida por los errores causales, dicho de otra forma, es la
ausencia de error aleatorio en un instrumento de recolección de datos (Palella y Martins, 2012).
La confiabilidad significa precisión, consistencia, estabilidad en repeticiones. Una definición conceptual bastante ilustrativa indica
que un instrumento es confiable si aplicado en las mismas condiciones a los mismos sujetos produce los mismos resultados (Nunnally
& Bernstein, 1995). Esto implica que los resultados obtenidos de los test psicológicos serán constantes y estables, por esto, todos los
psicólogos los interpretarán de la misma manera.
Ejemplo, lecturas seriadas repetidas de un termómetro ambiental que indican: 22 0C, 5ºC, 400C. Ese termómetro no sería confiable
(su aplicación repetida produce resultados distintos). Igualmente, si una prueba sensorial de un mismo producto se aplica hoy a un
grupo de personas y proporciona ciertos valores, se aplica una semana después y proporciona valores diferentes, al igual que en
subsecuentes mediciones, tal prueba no es confiable. Si un test psicométrico sobre inteligencia se aplica hoy a un grupo de personas
arrojando determinados resultados, se aplica un tres días después y proporciona equivalentes valores, al igual que en subsecuentes
mediciones, tal prueba se considera confiable. La confiabilidad/fiabilidad está asociada con la precisión de una medida, implica
ausencia de variabilidad y estabilidad temporal en la cuantificación. Este concepto está relacionado con las definiciones de precisión,
reproducibilidad, estabilidad, predictibilidad y por lo tanto consistencia temporal interna y homogeneidad.
Definiciones de validez
La validez se refiere al grado en que un instrumento realmente mide la variable que pretende medir según Hernández, Fernández
y Baptista (1998) (p.21). Según Ruiz (2003) es la exactitud con que pueden hacerse mediciones significativas y adecuadas con un
instrumento, en el sentido que mide realmente el rasgo, constructo, variable psicológica que pretende medir. También incluye la
ausencia de sesgos. Representa la relación entre lo que se mide y aquello que realmente se quiere medir (Palella y Martins; 2006).
Ejemplo, un instrumento para medir pH debe medir pH y no milivoltios. Un instrumento que mida válidamente la inteligencia debe
medir inteligencia y no memoria, una prueba sobre conocimientos de anatomía debe medir eso y no conocimientos de Biología. No es
tan simple cuando se trata de variables como el sabor, la calidad de servicio a los clientes, la actitud hacia un candidato político, déficit
de atención, hiperactividad y agresividad, inteligencia intrapersonal, interpersonal y alexitimia, afrontamiento, optimismo y
resiliencia, etc. Dicho de otra forma, no es fácil desarrollar ítems y test que midan la variable psicológica o el constructo que se desea
medir y no otro, sobre todo si estos constructos tienen similares definiciones conceptuales y operacionales.
Según Samuel Messick (1989) la validez es el grado de propiedad de las inferencias e interpretaciones derivadas de los puntajes de
los tests, incluyendo las consecuencias sociales que se derivan de la aplicación del instrumento (Padilla et al, 2006).
Así, en vez de hablar de diferentes tipos de validez, Messick indica que la idea es recolectar diferentes tipos de evidencias, de
acuerdo con los propósitos y usos de los instrumentos, entre ellas evidencias de contenido, predictivas y de constructo, pero
concibiendo todas esas evidencias como contribuyentes a la validez de constructo.
La validez es un concepto del cual pueden tenerse diferentes tipos de evidencia: a) evidencia relacionada con el contenido, b) con
el criterio y c) evidencia relacionada con el constructo.
Definiciones: se refiere:
al grado en que un instrumento refleja un dominio específico de contenido de lo que se mide según Hernández, Fernández y
Baptista (1998).
el grado en que la medición representa al concepto medido (Bohrnstedt, 1976).
cuán representativo es el contenido elegido como muestra del universo de información que se intenta representar (Regalado,
2014).
Psicometría Página 30
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
También determina hasta donde los items de un instrumento son representativos de las variables que se desea medir (grado
de representatividad) (Palella y Martins; 2006).
Si una prueba o test constituye una muestra adecuada y representativa de los contenidos y alcance del constructo o dimensión
a evaluar (Col. Wikipedia).
El dominio de contenido de una variable normalmente está definido o establecido por la literatura especializada en el tema (teoría
y estudios antecedentes). En los casos en los que la materia objeto de medición se puede precisar con facilidad, la población de
contenidos que se pretende evaluar está bien definida, por lo que la selección de los ítems del test no ofrece mayores dificultades,
pudiéndose recurrir a métodos estadísticos de muestreo aleatorio para obtener una muestra representativa de ítems. No obstante, en el
campo de la psicología no siempre es posible disponer de poblaciones de contenidos bien definidas (por ejemplo, si se pretenden
medir variables psicológicas clásicas, como la introversión, la extraversión, la inteligencia, el liderazgo, la resiliencia, la empatía, la
alexitimia, déficit de atención, fobias, etc.). En estos casos suele recurrirse a un análisis racional de ítems, consistente en la evaluación
de los contenidos del test por parte de un grupo de expertos en el área a tratar. La validez de contenido es esencial a la hora de realizar
inferencias o generalizaciones a partir de los resultados del test.
La pregunta que se responde con la validez de contenido es: ¿el instrumento mide adecuadamente las principales dimensiones de
la variable en cuestión? En un cuestionario, por ejemplo, cabría interrogar: ¿las preguntas qué tan bien representan a todas las
preguntas que pudieran hacerse?
Ejemplo, una prueba sensorial debe incluir todos los aspectos sensoriales y no solo gusto. Una prueba de operaciones aritméticas
básicas no tendrá validez de contenido si incluye solo ítems de resta y excluye preguntas sobre suma, multiplicación y división. Un
instrumento de medición debe contener representados a todos los ítems del dominio de contenido de las variables a medir. Una técnica
muy usada para establecer la validez de contenido es el Juicio de Expertos en el tema en estudio, en el cual estos realizan un análisis
racional de ítems, consistente en la evaluación y ponderación de los contenidos del test, los cuales deben constituir una muestra
adecuada y representativa de los contenidos y alcance del constructo o dimensión a evaluar (ver adelante la sección cálculo de la
validez).
Establece la validez de un instrumento de medición comparándola con algún criterio externo. Entre más se relacionen los
resultados del instrumento con el criterio externo, mayor será su validez (Silva; 2009). Con este tipo de validez se desea predecir la
actuación de una persona/sujeto a partir de su ejecución en la prueba a la que se sometió. Este criterio es un estándar con el que se
juzga la validez del instrumento. Entre más se relacionen los resultados del instrumento de medición con el criterio, la validez del
criterio será mayor. Ejemplo, un investigador valida un examen sobre manejo de aviones, mostrando la exactitud con que el examen
predice qué tan bien un grupo de pilotos puede operar un aeroplano. De igual manera se puede extrapolar este punto a los test que
tratan de predecir nuestro desempeño futuro como conductores de automóviles.
Si el criterio se fija en el presente de manera paralela, se habla de validez concurrente (inspectiva, concomitante o simultánea)
(los resultados del instrumento se correlacionan con el criterio en el mismo momento o punto de tiempo).
Esto se debe a que generalmente resulta demasiado costoso someter a prueba la validez predictiva; suele estar fuera de las
posibilidades prácticas del psicólogo. Por ello, con frecuencia se recurre al método de la validez inspectiva, concomitante o
concurrente en el cual el criterio se miden en el mismo periodo concomitante o concurrentemente ya que el test y el criterio se miden
al mismo tiempo (concurrentemente). Puede utilizarse para validar un nuevo test por comparación con otro ya validado previamente.
Ejemplos:
Cuando Wechsler desarrolló su WAIS (test de inteligencia para adultos), obtuvo la validez de criterio concurrente respecto al test
de inteligencia de Stanford-Binet (aprox. 0,90).
Núñez (2001) desarrolló una herramienta para medir el sentido de vida de acuerdo con la visión de Viktor Frankl, el test Celaya.
Para aportar evidencia de validez en relación con su instrumento, lo aplicó y a su vez administró otros instrumentos que miden
conceptos parecidos, tal como el PIL (Prueba de Propósito Vital) de Crumbaugh y Maholick (1969) y el Logo Test de Lukas (1996).
Posteriormente comparó las puntuaciones de los participantes en las tres pruebas, demostró que las correlaciones entre las
puntuaciones eran significativamente elevadas, de esta manera fue como aportó validez concurrente para su instrumento.
Psicometría Página 31
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Si el criterio se fija en el futuro, se habla de validez predictiva (prospectiva o de pronóstico). La misma se refiere al grado de
eficacia con que se puede predecir o pronosticar una variable de interés (criterio) a partir de las puntuaciones en un test. Es frecuente
que en los procesos de selección de personal se utilicen instrumentos que pretendan determinar o predecir el rendimiento futuro de los
candidatos al puesto de trabajo basándose en las respuestas obtenidas. Para ello es necesario que se haya obtenido una evidencia
empírica de que los resultados obtenidos en la prueba correlacionen efectivamente con el rendimiento futuro en el puesto de trabajo.
Por ejemplo, una prueba para determinar la capacidad gerencial de candidatos a ocupar altos puestos ejecutivos se validaría
comparando sus resultados con el desempeño posterior de los ejecutivos en su trabajo regular. Un cuestionario para detectar las
preferencias del electorado por los distintos partidos contendientes y por sus candidatos en la época de las campañas, puede validarse
comparando sus resultados con los resultados finales y definitivos de la elección.
Dicho de otra forma, este tipo de validez es la que se comprueba mediante la correlación entre el test y un criterio medido
ulteriormente o “a posteriori”.
Por ejemplo, si tenemos muchos aspirantes a pilotos y queremos seleccionar a los que tengan más probabilidad de convertirse,
pasados los estudios y prácticas, en buenos pilotos. Podemos aplicarles ciertos tests que aprecien los requisitos de ser buen piloto, y
admitir a todos los aspirantes. Después de los estudios y las prácticas oportunas, mediremos a los sujetos en el criterio que garantice
ser un buen piloto. Si los tests contestados por los sujetos en el momento de la admisión tienen una alta correlación con la pericia
como piloto, medida después del aprendizaje, a lo mejor años después, se puede afirmar que estos tests tienen alta validez
predictiva/prospectiva. Esta validez se ha llamado validez prospectiva, predictiva y de pronóstico, ya que permite pronosticar o
predecir convenientemente los resultados de los sujetos en el criterio, sirve para seleccionar a los aspirantes que con más probabilidad
van a ser buenos pilotos.
El principio de la validez de criterio es sencillo: si diferentes instrumentos o criterios miden el mismo concepto o variable, deben
arrojar resultados similares. Bostwick y Kyte (2005) lo expresan de la siguiente forma:
Si hay validez de criterio, las puntuaciones obtenidas por ciertos individuos en un instrumento deben estar correlacionadas y
predecir las puntuaciones de estas mismas personas logradas en otro criterio.
La pregunta que se responde con la validez de criterio es: ¿en qué grado el instrumento comparado con otros criterios externos
mide lo mismo?, o ¿qué tan cercanamente
El método empleado es el análisis correlacional mediante el Coeficiente de Correlación (Pho de Spearman o rxy de Pearson)
entre X e Y (datos del instrumento de medición con los del criterio externo). La fórmula general del coeficiente de validez es:
:
donde "x" hace referencia a las puntuaciones obtenidas en el test, e "y" hace referencia a las puntuaciones obtenidas en la variable
criterio.
Psicometría Página 32
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Se refiere al grado en que una medición se relaciona consistentemente con otras mediciones de carácter similar de acuerdo con
hipótesis derivadas teóricamente y que conciernen a los conceptos (o constructos) que están siendo medidos. Por ejemplo: a)
síndrome de déficit de atención e hiperactividad, b) alexitimia con inteligencia intra e interpersonal, etc. son constructos relacionados
con apoyo teórico. Un constructo es una variable medida y que tiene lugar dentro de una teoría o esquema teórico. Respondería a las
preguntas ¿qué significado tiene el comportamiento registrado por el instrumento con respecto a los atributos del individuo que son
de interés para la medición? y ¿Hasta qué punto un instrumento mide realmente un determinado rasgo, constructo, variable psicológica
latente, cualidad, rasgo, constructo, variable psicológica o una característica de las personas?, ¿Con cuanta eficacia lo hace? (Ruiz;
2003). Este tipo de validez permite verificar que el instrumento contenga todas las variables, dimensiones e indicadores que se
reflejan en la operacionalización de variables. (Palella y Matins; 2006).
Por ejemplo, supongamos que un investigador desea evaluar la validez de constructo de una escala de motivación hacia una cátedra.
Se afirma que el nivel de motivación hacia esa materia está relacionado positivamente con el índice de rendimiento académico
(ejemplo, los empleados con mayor motivación son los que suelen tener mayor IRA). La predicción es que a mayor IRA, mayor
motivación tendrá el alumno. El investigador administra dicho cuestionario de motivación intrínseca a un grupo de alumnos y los
relaciona con su IRA. Ambas mediciones son correlacionadas. Si la correlación es positiva y sustancial, se aporta evidencia para la
validez de constructo del cuestionario.
La validez de constructo incluye tres etapas:
1. Se establece y específica la relación teórica entre los conceptos.
2. Se correlacionan ambos conceptos y se analizo cuidadosamente la correlación.
3. Se interpreto la evidencia empírica de acuerdo con el nivel en que clasificó la validez de constructo de una medición en particular
(Hernández, Fernández y Baptista (1998)).
Otras técnicas utilizadas para la obtención de datos referentes a la validez de constructos psicológicos han sido el análisis factorial
y la matriz multirrasgo-multimétodo. Ambos sistemas son indicadores respectivos de las denominadas "validez factorial" y "validez
convergente-discriminante", los cuales permiten comprobar que las dimensiones incluidas en el instrumento tengan soporte empírico
en los datos obtenidos.
El proceso de validación de un constructo está vinculado con la teoría. No es posible llevar a cabo la validación de constructo, a
menos que exista un marco teórico que soporte a la variable en relación con otras variables Desde luego, no es necesaria una teoría
sumamente desarrollada, pero sí investigaciones que hayan demostrado que los conceptos están relacionados. Entre más elaborado y
comprobado se encuentre el marco teórico que apoya la hipótesis, la validación de constructo puede arrojar mayor luz sobre la validez
de un instrumento de medición. Y mayor confianza tenemos en la validez de constructo de una medición, cuando sus resultados se
correlacionan significativamente con un mayor número de mediciones de variables que teóricamente y de acuerdo con estudios
antecedentes están relacionadas.
Validez total = validez de contenido + validez de criterio + validez de constructo
Así, la validez de un instrumento de medición se evalúa sobre la base de tres tipos de evidencia. Entre mayor evidencia de validez
de contenido, validez de criterio y validez de constructo tenga un instrumento de medición; éste se acerca más a representar la variable
o variables que pretende medir.
Para ampliar estos conceptos, consultar los siguientes links (entre otros):
https://explorable.com/es/tipos-de-validez
http://www.academia.edu/1982369/Validez_y_Fiabilidad_con_SPSS
http://es.slideshare.net/melgarejomiguel/validez-y-confiabilidad-37403200
http://es.slideshare.net/maule/validez-y-confiabilidad-de-instrumentos-en-la-investigacin-cuantitativa?from_action=save
http://es.slideshare.net/Dexi-25-Bastidas/validez-y-confiabilidad-37407908
http://es.wikipedia.org/wiki/Validez_(psicometr%C3%ADa)
Improvisación. Aun a los investigadores experimentados les toma cierto tiempo desarrollar un instrumento de medición. Es por ello
que los construyen con cuidado y frecuentemente están desarrollándolos, para que cuando los necesiten con premura se encuentren
preparados para aplicarlos. Además, para poder construir un instrumento de medición se requiere conocer muy bien la variable que
Psicometría Página 33
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
se pretende medir y la teoría que la sustenta. Por ejemplo, generar o simplemente seleccionar un instrumento para medir diferencias
en sabor o textura; o que mida la inteligencia, la personalidad, requiere amplios conocimientos y actualización en la materia.
Instrumentos extranjeros que no han sido validados a nuestro contexto: cultura y tiempo. Traducir un instrumento, adaptarlo a
nuestro lenguaje actual y lo contextualicemos, no es validarlo.
Características intrínsecas y extrínsecas como el nivel sociocultural, utilizar un lenguaje muy elevado para el encuestado, no tomar
en cuenta diferencias en cuanto a sexo, edad, conocimientos, capacidad de respuesta, memoria, nivel ocupacional y educativo,
motivación para responder y otras diferencias en los entrevistados, son errores que pueden afectar la validez y confiabilidad del
instrumento de medición.
Condiciones en las que se aplica el instrumento de medición. El ruido, el frío (por ejemplo en una encuesta de casa en casa), un
instrumento demasiado largo o tedioso, son factores que afectan negativamente la validez y la confiabilidad.
Cálculo de la confiabilidad
En donde:
rxy, es el coeficiente de correlación entre las dos administraciones de la prueba.
N = número de sujetos
∑xy= resultado de sumar el producto de cada valor de X por su correspondiente valor en Y.
∑x= suma total de los valores de X (primera aplicación).
∑y= suma total de los valores de Y (segunda aplicación).
∑x2= resultado de sumar los valores de X que ya estaban elevados al cuadrado.
∑y2= resultado de sumar los valores de Y que ya estaban elevados al cuadrado.
(∑x)2= suma total de los valores de X, elevada al cuadrado.
(∑y)2= suma total de los valores de Y, elevada al cuadrado.
Psicometría Página 34
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Esta fórmula emplea datos que se obtienen de tablas donde la primera columna izquierda son los sujetos/personas/participantes.
En la subsiguiente columna se colocan: a) la sumatoria de los ítems/preguntas de la primera aplicación (columna de datos X), b) la
sumatoria de los ítems/ preguntas de la segunda aplicación (columna de datos Y). De las últimas dos columnas se obtienen los
datos para la correlación de Pearson (∑x, ∑y, ∑xy, ∑x2 y ∑y2).
Ya que este método mide la confiabilidad como estabilidad temporal de las medidas que proporciona, si disponemos de las
puntuaciones de N personas en un test y, después de transcurrido un tiempo, volvemos a medir a las mismas personas en el mismo
test, cabe suponer que siendo el test altamente fiable, deberíamos obtener una correlación de Pearson elevada entre ambos
mediciones. Dicha correlación entre la evaluación test y la evaluación retest (rxx) se denomina coeficiente de fiabilidad test-
retest, e indicará tanta mayor estabilidad temporal de la prueba cuanto más cercano a uno sea.
Este modo de operar se desprende directamente del modelo lineal clásico, según el cual se define la fiabilidad como la
correlación entre las puntuaciones empíricas en dos formas paralelas, ya que no existe mayor grado de paralelismo entre dos tests
que cuando en realidad es uno aplicado dos veces.
Ejemplo: A una muestra de 5 estudiantes se le aplica un cuestionario de hábitos de estudio. Transcurridos dos meses, se vuelve
a aplicar el mismo test a las mismas personas bajo las mismas condiciones. Sus puntuaciones directas en las dos aplicaciones
fueron las siguientes:
Coeficiente de correlación:
Puede observarse que el nivel ce correlación es muy bajo y no es confiable. De aplicarse este test a un mayor número de
personas, este resultado puede alterarse. Veamos:
El test anterior se aplicó a 10 personas. Para obtener el coeficiente de fiabilidad test-retest basta con correlacionar los datos de
las dos primeras columnas de datos:
Psicometría Página 35
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Puede observarse que el nivel de correlación es alto, confiable y aceptable. En este caso se obtiene una elevada estabilidad de
las puntuaciones. Si los niveles de rasgo, constructo, variable psicológica (hábitos de estudio) de las personas no han variado a lo
largo de los dos meses transcurridos entre las dos aplicaciones, podemos decir que el test proporciona bastantes garantías respecto
a la precisión con la que mide, dado que una persona concreta obtiene puntuaciones muy parecidas (o similares) en las dos
aplicaciones.
Más concretamente, y haciendo uso del teorema demostrado en el tema anterior, podemos interpretar que el 87 % de la
varianza empírica se debe a la variabilidad de las personas a nivel de puntuaciones verdaderas.
Otro ejemplo del método test-retest, puede ser el siguiente: primero, se toma una prueba de aptitud matemática a un grupo de
alumnos (test), y luego, al día siguiente, se vuelve a tomar la misma prueba aunque con diferentes contenidos (retest). Cuanto más
iguales sean los puntajes obtenidos por cada alumno, más confiable es la prueba. Se observa que entre el primer y segundo día
segundo día las condiciones pudieron haber cambiado de tal manera que marcaran cierta incidencia sobre los resultados de la
segunda prueba. Por ejemplo un alumno recibió una mala noticia y no pudo concentrarse en la segunda evaluación, sacando un
puntaje mucho menor. Otros factores influyentes pueden ser variaciones climáticas, ruidos repentinos o incluso la incorporación de
nuevos conocimientos si la segunda prueba tuvo el carácter de un examen recuperatorio.
En general, cuanto más tiempo transcurra entre la primera y la segunda administración de la prueba, más factores pueden
influir sobre los puntajes de la segunda; estos serán diferentes con respecto a los de la primera y, por tanto, restarán confiabilidad a
la prueba. Se sugiere que el intervalo entre la repetición de las pruebas (test-retest) para todas las edades no sea mayor de seis
meses. Este procedimiento permite hablar de la estabilidad de las mediciones obtenidas administrando una técnica como
coeficiente de correlación de Pearson.
Este coeficiente se obtiene, sobre todo, en pruebas cuyo objetivo de medida es un rasgo, constructo, variable psicológica
estable (pruebas de inteligencia general, aptitudes, rasgo, constructo, variable psicológicas de personalidad, etc.) dado que, de lo
contrario, no se podría discernir entre la inestabilidad debida al rasgo, constructo, variable psicológica de la causada por el
instrumento de medición. Es aconsejable dejar periodos relativamente largos entre la evaluación test y la retest solo cuando los
ítems y las respuestas pueden memorizarse con facilidad; de lo contrario, los sujetos podrían emitir pautas de respuesta similares
en las dos aplicaciones del test únicamente por efectos del recuerdo y del deseo de responder de manera congruente, con lo que
coeficiente de correlación (rxy) se incrementaría debido a factores ajenos a la fiabilidad de la prueba. Debe tenerse en cuenta, sin
embargo, que cuanto mayor es el intervalo temporal que se deja entre ambas aplicaciones, mayor es la posibilidad de que las
puntuaciones de los sujetos oscilen diferencialmente debido a factores de tipo madurativo y, por lo tanto, esto tiene un efecto
concreto en el decremento de la correlación entre las puntuaciones del test y del retest.
2. Método de formas alternativas, equivalentes o paralelas. En este procedimiento no se administra el mismo instrumento de
medición, sino dos o más versiones equivalentes de éste. Las versiones son similares en contenido, instrucciones, duración y otras
características. Las versiones (generalmente dos) son administradas a un mismo grupo de personas dentro de un periodo de tiempo
relativamente corto. El instrumento es confiable si la correlación entre los resultados de ambas administraciones es
significativamente positiva. Los patrones de respuesta deben variar poco entre las aplicaciones. Método: Coeficiente de
Correlación rxy de Pearson. Mide la Estabilidad Temporal, la consistencia de las respuestas.
Hasta el momento, el modelo clásico de puntuación verdadera y el planteamiento de la confiabilidad como correlación entre
formas paralelas, se han establecido en términos paramétricos; es decir, suponiendo conocidos los datos de la población de
referencia. Lo real es que en la práctica vamos a disponer de datos obtenidos en una muestra o grupo normativo concreto. Esto
significa que, de modo directo, únicamente vamos a disponer de las puntuaciones empíricas de dicha muestra, a partir de las cuales
podemos obtener los estadísticos que sean oportunos.
3. Método de mitades partidas (split-halves o split-half reliability). Los procedimientos anteriores (medida de estabilidad y
método de formas alternas), requieren cuando menos dos administraciones de la medición en el mismo grupo de individuos. En
cambio, el método de mitades-partidas requiere sólo una aplicación de la medición. Específicamente, el test y su conjunto total de
ítems (o componentes) es dividido en dos mitades equivalentes (normalmente una con los elementos pares y otra con los impares,
pero pueden existir variantes como dividir el test en 2 partes, etc., como se muestra en los posteriores esquemas anexos) y los
ítem/reactivos se emparejan según su contenido y nivel de dificultad. Si el instrumento es confiable, las puntuaciones de ambas
mitades deben estar fuertemente correlacionadas. En individuo con baja puntuación en una mitad, tenderá a mostrar también una
baja puntuación en la otra mitad.
Psicometría Página 36
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Para un mismo individuo (ver esquema del procedimiento de mitades partidas) se obtiene la puntuación directa en ambas
mitades. Disponemos entonces de dos variables (P e I), cuya correlación de Pearson (rPI) indica su grado de relación.
Posteriormente, las puntuaciones o resultados de ambas son comparados.
Si la mitad par e impar fueran entre sí formas paralelas (ya sabemos cómo comprobarlo estadísticamente), la correlación entre
ambas sería una medida de la fiabilidad de cada una de ellas. Ahora bien, cuando hemos deducido la fórmula general de Spearman-
Brown (la confiabilidad varía de acuerdo con el número de ítems que incluye el instrumento de medición, cuantos más ítems
mayor es al valor de la confiabilidad) hemos visto que los tests más largos (con más ítems) suelen ser más fiables (entendiendo
como confiabilidad el grado de estabilidad, precisión o consistencia que manifiesta el test como instrumento de medición de un
rasgo, constructo, variable psicológica determinado), por lo que rPI estará subestimando el coeficiente de fiabilidad del test total en
la medida que P e I son variables extraídas de la mitad de ítems que tiene el test.
Esta variabilidad puede entenderse mediante un simple ejemplo. Si un herrero mide varias veces con una cinta métrica la
longitud de una barra de hierro, siempre obtendrá la misma medición, debido a que tanto la cinta métrica como la barra
permanecen invariantes. Ahora bien, cuando empleamos un test para medir un rasgo, constructo o variable psicológica
determinada como resiliencia, autoestima, motivación laboral, etc., puede ocurrir que ni uno ni otro permanezcan invariantes de
una situación a otra; análogamente, sería como disponer de una cinta métrica elástica y de una barra de hierro sometida a diferentes
temperaturas (y, por lo tanto, más o menos dilatada). Es labor de la psicometría establecer en cada caso el grado de estabilidad del
instrumento de medición.
En el siguiente esquema se observa la operacionalización de la variable que genera un test de 12 ítems, con 6 parejas de reactivos
equivalentes entre sí, el cual es aplicado a un conjunto de sujetos. Una vez respondido, el test es dividido en dos secciones de ítems
equivalentes y las respuestas de estas dos secciones son evaluadas y relacionadas.
Psicometría Página 37
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Ítem 8
Ítem 9
Indicador 5 5 Ítem 9 R9 Ítem 10 R10
Ítem 10
Dimensión 3
Ítem 11
Indicador 6 6 Ítem 11 R11 Ítem 12 R12
Ítem 12
Si el instrumento es confiable, las puntuaciones de ambas mitades deben estar fuertemente correlacionadas. Un individuo con
baja puntuación en una mitad, tenderá a mostrar también una baja puntuación en la otra mitad. La confiabilidad varía de acuerdo
con el número de ítems que incluye el instrumento de medición. Cuantos más ítems, mayor es la confiabilidad. Esto resulta lógico,
veámoslo con un ejemplo cotidiano: Si se desea probar qué tan confiable o consistente es la lealtad de un amigo hacia nuestra
persona, cuantas más pruebas le pongamos, su confiabilidad será mayor Claro está que demasiados ítems provocarán cansancio en
el respondiente.
Método: Coeficiente de Correlación rxy de Pearson, Pho de Spearman-Brown, coeficiente de Rulón y el coeficiente de
Guttman. Miden la Homogeneidad de los items al medir el constructo.
Formula de correlación de Pearson:
Este tipo de datos (politómicos, números enteros como respuesta de opciones o escala de Likert) se obtiene de tablas donde la
columna izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las
respuestas de cada sujeto para cada ítem (casilla: sujeto/ítem) y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria
de los ítems/preguntas pares (columna de datos X), b) la sumatoria de los ítems/ preguntas impares (columna de datos Y). De las
últimas dos columnas se obtienen los datos para la correlación de Pearson (∑x, ∑y, ∑xy, ∑x2 y ∑y2).
r pi =coeficiente de correlación de Pearson entre las dos mitades (las preguntas pares y las preguntas impares)
Para obtener el coeficiente de fiabilidad del test completo, debemos aplicar la fórmula de Spearman-Brown, considerando ahora
que estamos trabajando con datos muestrales, y haciendo n = 2 ya que el test completo tiene el doble de ítems que cualquiera de sus
mitades. En este tipo de cálculo de confiabilidad, se procede como en el caso anterior, obteniendo la correlación de Pearson para las
preguntas pares e impares. Posteriormente, este valor se introduce en la fórmula de Spearman-Brown para obtener el valor del
coeficiente .
A partir de esta fórmula podemos comprobar que el coeficiente de confiabilidad, entendido como la expresión de la consistencia
entre dos mitades, es mayor que la correlación de Pearson entre ambas mitades.
Ejemplo: Supongamos que la siguiente tabla refleja los resultados de una muestra de 10 personas que responden a un cuestionario
psicométrico/rendimiento óptimo de 6 ítems valorados de forma dicotómica:
Ítems Ítems pareados
Sujeto 1 2 3 4 5 6 Pares Impares Total
1 1 0 1 0 1 0 0 3 3
2 0 1 1 1 0 1 3 1 4
3 0 0 1 0 0 0 0 1 1
4 0 1 1 1 0 0 2 1 3
5 0 0 0 1 0 0 1 0 1
6 1 1 1 1 1 1 3 3 6
7 1 1 1 1 1 1 3 3 6
8 0 1 1 1 0 1 3 1 4
9 0 1 0 0 0 0 1 0 1
10 0 0 0 0 0 0 0 0 0
Tabla con los datos para el cálculo de correlación:
Psicometría Página 38
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
= 0,51
De nuevo el tope de rxy lo tenemos en 1, con lo que podemos decir que las dos mitades del test no son muy consistentes entre sí.
Únicamente un 51 % de la varianza de las puntuaciones empíricas se debe a la varianza de las puntuaciones verdaderas. No podríamos
afirmar con suficiente certeza que ambas mitades miden con precisión el rasgo, constructo, variable psicológica de interés.
La razón de dividir el test en la mitad par y la impar es garantizar su equivalencia. Los tests de rendimiento óptimo suelen tener
ítems ordenados en dificultad, de tal forma que se comienza a responder los ítems más fáciles hasta llegar a los situados al final del
test, que son los más difíciles. Si realizásemos la partición en dos mitades atendiendo a su disposición en la prueba (la primera mitad
formada por los primeros n/2 ítems, la segunda por los n/2 ítems últimos) difícilmente podría cumplirse que ambas tuvieran la misma
media. Esta fórmula se empleará más adelante a fin de estimar la confiabilidad de un test basado en su longitud o número de ítems.
d = diferencia entre las puntuaciones pares e impares S2d = varianza de las diferencias entre las puntuaciones pares e impares.
S2x = varianza de las puntuaciones empíricas de los sujetos, también llamada varianza total.
Este tipo de datos (politómicos, números enteros como respuesta de opciones Likert) se obtiene de tablas donde la columna
izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas
sujeto/ítem y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria de los ítems/preguntas pares, b) la sumatoria
de los ítems/ preguntas impares, c) la diferencia par-impar o se restan los datos de las columnas pares e impares y d) la sumatoria
total de estas respuestas. De las últimas dos columnas se obtienen la varianza S2dpi (diferencia ítem par-impar), y de la total la S2T.
La varianza puede obtenerse mediante las siguientes fórmulas:
Siendo:
Psicometría Página 39
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
S 2p y S 2i son las varianzas de las puntuaciones de los ítems pares e impares respectivamente.
S 2x es la varianza de las puntuaciones empíricas de los sujetos estudiados.
Este tipo de datos (politómicos, números enteros como respuesta de opciones Likert) se obtiene de tablas donde la columna
izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada casilla se colocan las respuestas
sujeto/ítem y en las columnas de la derecha se colocan la sumatoria de: a) sumatoria de los ítems/preguntas pares, b) la sumatoria
de los ítems/ preguntas impares y c) la sumatoria total de estas respuestas. De cada columna se obtiene la varianza S2ip (ítem pares),
S2iI (ítem impares) y de la total la S2T.
Se desarrolló un coeficiente para estimar la confiabilidad de una sola medición, su interpretación es la misma que la del coeficiente
alfa. En Psicometría, la fórmula Kuder – Richardson 20 (KR-20) fue publicada por primera vez en 1937 y representa una medida de
confiabilidad de consistencia interna. Este coeficiente se aplica en instrumentos cuyas respuestas son dicotómicas; por ejemplo: sí – no
o también 0 - 1. Un ejemplo de este tipo de prueba sería el Inventario de Personalidad de Eysenck forma B para adultos, o el test de
Autoestima de Coopersmith (ambos de respuestas dicotómicas tipo si – no), o un test de inteligencia, cuyas respuestas tienen el
formato 0 – 1, 0 para respuestas incorrectas y 1 para respuestas correctas. Debe aclararse que en el inventario o en el test de autoestima
de Coopersmith, las respuestas afirmativas de los ítems directos se consideran acertadas y las respuestas negativas de estos mismos
reactivos se consideran erradas o incorrectas. Por ende y consecuencia, en este mismo test, las respuestas afirmativas de los ítems
inversos o indirectos se consideran erróneas y las respuestas negativas de estos mismos reactivos se consideran correctas o acertadas.
Este coeficiente hace referencia al grado en que diferentes partes del test miden un rasgo, constructo, variable psicológica de
manera consistente. Es análogo al indicador α de Cronbach, excepto que α de Cronbach también se utiliza para medidas no
dicotómicas o politómicas (continuas) basadas en escalas como Likert. A menudo se afirma que un valor alto del coeficiente KR-20
(por ejemplo 0,90) se asocia con una prueba homogénea. Esto realmente es una suposición, no una conclusión, basado en estos
coeficientes de confiabilidad. Este coeficiente mide la fiabilidad como consistencia interna para ítems dicotómicos.
Para emplear este coeficiente, es deseable que los ítems/reactivos tengan un índice de dificultad homogéneo y no un índice de
dificultad creciente.
La fórmula para KR-20 para una test o prueba con K ítems/reactivos numerados de 1 a K es:
Donde:
Psicometría Página 40
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Donde n es el tamaño total de la muestra o el número de sujetos que responden la prueba o test.
Los valores de KR20 pueden variar desde 0 a 1 (a veces expresada como porcentaje), con altos valores indicando que el examen es
probable que se correlacionen con formas alternas (una característica deseable). El KR-20 puede verse afectada por la dificultad de la
prueba, la propagación en las puntuaciones y la longitud del examen.
Para emplear este coeficiente, es deseable que los ítems/reactivos tengan un índice de dificultad homogéneo y no un índice de
dificultad creciente.
Desde α de Cronbach fuera publicado en 1951, no ha habido ninguna ventaja conocida a KR-20 sobre Cronbach. KR-20 es visto
como un derivado de la fórmula de Cronbach, con la ventaja de Cronbach que puede manejar tanto variables dicotómicas como
politómicas. No puede utilizarse la fórmula de KR-20 cuando hay preguntas de opción múltiple, debe usarse solo para variables de
respuesta dicotómica.
Ejemplo: se está desarrollando un test psicométrico/rendimiento óptimo de 4 ítems para selección de personal y se desea estudiar la
confiabilidad de este test de respuestas dicotómicas. Para ello se administra a un grupo de 6 sujetos. Los datos se muestran a
continuación:
Ítem o reactivo
Sujetos ∑xi ∑xi2
1 2 3 4
1 1 1 1 0 3 9
2 1 1 1 0 3 9
3 0 0 0 0 0 0
4 1 1 0 0 2 4
5 0 0 0 0 0 0
N=6 1 0 1 0 2 4
∑ 10 26
n 6
1,667
P (a/n) 0,6667 0,5 0,5 0
Q (e/n) 0,3333 0,5 0,5 1
P*q 0,2222 0,2500 0,2500 0 ∑P*q = 0,7222
1 respuesta correcta al ítem. 0 respuesta incorrecta al ítem.
Cálculo de la varianza total del test:
Este es el valor de la confiabilidad o consistencia interna de los datos obtenidos empíricamente. También pudiera decirse que el
71,4% de la varianza de las puntuaciones empíricas se debe al grado de la covariación entre los ítems/reactivos del test con respuestas
dicotómicas. El restante se deba a los errores de la medida ocurridos durante la realización del test.
En los casos de la medición de constructos a través de escalas, en los que no existen respuestas correctas ni incorrectas, sino que
cada sujeto marca el valor de la escala que mejor representa su respuesta, Cronbach (1951) derivó, a partir del modelo de Kuder-
Psicometría Página 41
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Richardson (1937), una variante que permite estimar la confiabilidad de consistencia interna de un test o prueba psicométrica de
rendimiento típico.
Este coeficiente desarrollado por J. L. Cronbach requiere una sola administración del instrumento de medición y produce valores
que oscilan entre 0 y 1. Su ventaja reside en que no es necesario dividir en dos mitades a los ítems del instrumento de medición,
simplemente se aplica la medición y se calcula el coeficiente. Mide la homogeneidad de los ítems con escala tipo Likert. La fórmula
más empleada para este tipo de coeficiente es:
Donde:
k es el número de preguntas o ítems. S2i es la varianza del ítem i, S2t es la varianza de los valores totales
observados
Observe que las dos fórmulas de Kuder y Richardson y la de Cronbach son básicamente iguales. Lo único que varía es la forma de
representar la varianza individual de los ítemes en cada caso.
Este tipo de datos (dicotómicos, tipo 0 error y 1 acierto o no dicotómicos, números enteros como respuesta de opciones Likert) se
obtiene de tablas donde la columna izquierda son los sujetos/personas/participantes y la fila superior son los ítems/preguntas, en cada
casilla se colocan las respuestas sujeto/ítem y en la columna derecha se coloca la sumatoria total de estas respuestas. De cada columna
se obtiene la varianza S2i (ítem) y de la total la S2T.
Este coeficiente es un índice de la consistencia interna o fiabilidad de un test. Este coeficiente hace referencia al grado en que
diferentes partes del test miden un mimo rasgo, constructo, variable psicológica de manera consistente. Desarrollado por J. L.
Cronbach, requiere de una sola administración del instrumento de medición y produce valores que oscilan entre 0 y 1, los valores más
bajos de este índice nos indican mayor consistencia. Si su valor supera el 0,8, podemos hablar de fiabilidad.
Su ventaja reside en que no es necesario dividir en dos mitades a los ítems del instrumento de medición, simplemente se aplica la
medición y se calcula el coeficiente. Existen dos métodos para calcular este índice, el primero es el cálculo de la varianza de los
ítems/reactivos y el segundo se denomina matriz de correlación.
El primer método o la fórmula más empleada para calcular este tipo de coeficiente es el cálculo de la varianza de los ítems:
Donde:
El segundo método para calcular este coeficiente es la matriz de correlación de los ítems:
Permite establecer el grado en que los diferentes ítems están midiendo una única dimensión o rasgo, constructo, variable de tipo
psicológico. Podemos observar en la última expresión que α tendrá un valor alto (cercano a 1) cuando los ítems covarían fuertemente
Psicometría Página 42
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
entre sí; asumirá valores cercanos a cero si los ítems son linealmente independientes (si covarían de forma escasa). Se puede
interpretar como una medida de unidimensionalidad.
Para la confiabilidad de un instrumento utilizando el coeficiente alfa de Cronbach se requieren conocimientos y experiencia en
estadísticas. No obstante, con un conocimiento mínimo básico y algo de audacia, se puede calcular la confiabilidad de un instrumento
mediante este estadístico utilizando software del área como el SPSS, uno de los más conocidos y empleados para estas cuestiones. La
información que debe ingresar es por lo menos cuántos ítemes tiene el instrumento y las respuestas obtenidas de una muestra de
sujetos.
Si no se dispone del software y se cuenta con cierto conocimiento estadístico, la fórmula para calcular el alfa de Cronbach tiene
como numerador el número de ítemes de la escala y como denominador, el producto de ese número menos 1, multiplicado por el
cociente entre la sumatoria de varianzas de los ítems y la varianza de toda la escala. Si en una investigación se está usando un test ya
estandarizado, no hay necesidad de calcular el coeficiente de Cronbach, pues se supone que dicho test es lo suficientemente válido y
confiable.
Ejemplo: a una muestra de 6 sujetos de experimentación se les aplica, mediante una prueba piloto, un instrumento de recolección
de datos (test psicométrico de rendimiento óptimo/máximo) compuesto por 4 ítems para medir un rasgo, constructo o variable
psicológica. En la siguiente tabla se presentan los datos obtenidos:
Ítem/Reactivo
Sujeto ΣX
1 2 3 4
1 0 0 0 1 1
2 1 0 0 0 1
3 1 0 0 0 1
4 1 1 1 1 4
5 1 1 0 1 3
6 1 1 0 0 2
A estos datos se les aplican los conceptos del cálculo de la varianza en cada uno de los ítems y del cálculo de la varianza total del test,
como se muestra a continuación:
Ítem/Reactivo
Sujeto 1 2 3 4 ΣX ∑X- (∑X- ²
1 0 0 0 1 1 2,00 -1,00 1,00
2 1 0 0 0 1 2,00 -1,00 1,00
3 1 0 0 0 1 2,00 -1,00 1,00
4 1 1 1 1 4 2,00 2,00 4,00
5 1 1 0 1 3 2,00 1,00 1,00
6 1 1 0 0 2 2,00 0,00 0,00
∑X 5 3 1 3 12 ∑ 8,00
n= 6 6 6 6 6 n= 6,00
0,83 0,50 0,17 0,50 2,00 S²x= 1,333
∑X² 5 3 1 3 32
∑X²/N 0,8333 0,5 0,1667 0,5 5,3333
² 0,69 0,25 0,03 0,25 4,00
(∑X²/N)- ² 0,139 0,250 0,139 0,250 1,333
S²i 0,139 0,250 0,139 0,250 1,333
S²i(Excel) 0,139 0,250 0,139 0,250 1,333
Varianza 0,13889 0,25 0,13889 0,25 1,33333
Según el método del cálculo de la varianza de los ítems: para calcular la varianza del ítem 1:
Psicometría Página 43
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
= 0,55
El coeficiente Cronbach se utiliza para evaluar la confiabilidad a partir de la consistencia interna de los ítemes, y sus valores
oscilan entre 0 y 1 (0 es ausencia total de consistencia y 1 es consistencia perfecta), esto es debido a que este coeficiente mide la
confiabilidad a partir de la consistencia interna de los ítemes, entendiendo por tal el grado en que los ítemes de una escala se
correlacionan entre sí. Por esto, el segundo método para cuantificar la confiabilidad según Cronbach se basa en la matriz de
correlación entre los reactivos.
Según el método del cálculo de la matriz de correlación de los ítems:
Matriz de correlaciones (hemimatriz superior: coeficientes de correlación lineal de Pearson (casillas en azul), hemimatriz inferior
(casillas en rojo): niveles de significancia o valores P).
Esta tabla muestra en la hemimatriz superior, las correlaciones lineales producto momento de Pearson, entre cada par de ítems. El
rango de estos coeficientes de correlación va de -1 a +1, y miden la fuerza de la relación lineal entre las variables. En la hemimatriz
inferior se muestran los valores-P que prueba la significancia estadística de las correlaciones estimadas para cada par de ítems.
Valores-P numéricamente menores (0,04/0,03/0,02/0,01/0,005, etc.) que el valor 0,05 indican correlaciones relevantes o
significativamente diferentes de cero, con un nivel de confianza del 95,0%. Valores-P numéricamente superiores
(0,06/0,07/0,08/0,1/0,9, etc.) que el valor 0,05 indican correlaciones no relevantes o no significativamente diferentes de cero, con un
nivel de confianza del 95,0%. Como puede observarse, las correlaciones arrojan valores medianos a bajos y los niveles de
significancia indican la no existencia de relaciones relevantes entre los ítems.
= 0,55
A continuación, se presenta la escala con los criterios de decisión para la confiabilidad de un instrumento.
Muy Baja* Baja* Media o regular* Aceptable o alta Muy alta o elevada
Entre 0,21 y 0,40 Entre 0,41 y 0,60 Entre 0,81 y 1,00
Entre 0 y 0,20 Entre 0,61 y 0,80
Medición con pocos Medición con algo de Medición sin errores
Medición con error Medición sin errores
errores error Test fiable.
* Se sugiere repetir la validación del instrumento puesto que es recomendable que el resultado sea mayor o igual a 0,61.
Distintos factores afectan el resultado de este método, entre otros: el signo de las correlaciones entre los ítems siempre debieran
deben ser positivas, por lo que debe analizar si el test incluye ítems invertidos o negativos, de ser así, se debe invertir su escala (por
ejemplo, si es Likert, transformar el 1 en 5, el 2 en 4, el 4 en 2 y el 5 en 1, el 3 permanece como 3) y volver a realizar el cálculo.
En este caso, el coeficiente α obtenido en ambos métodos representa un valor medio, que nos indica que no existe un elevado
grado de covariación entre los ítems. No podemos afirmar con rotundidad que este test mide un rasgo, constructo, variable psicológica
en forma unitaria.
Es importante mencionar que puede ocurrir que un instrumento tenga distintos alfa de Cronbach. Por lo regular, esto significa que
él está midiendo una variable compleja, multidimensional y entonces se ha establecido un alfa para cada dimensión. Por ende, el
coeficiente α puede obtenerse también entre diferentes grupos de ítems (subtests). En ese caso, k será el número de subtests y ΣS2j la
suma de las varianzas de los subtests. Un coeficiente α bajo indicará que los diferentes subtests miden rasgo, constructo, variable
Psicometría Página 44
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
psicológica o constructo diferentes. No obstante, aún en estos casos, puede obtenerse un alfa único para toda la variable. Para una
información más detallada sobre el cálculo del Cronbach, se puede consultar Hernández, Fernández y Baptista (2000).
Para complementar este punto, ver los siguientes documentos:
http://es.slideshare.net/cmassuh/alpha-de-cronbach
http://es.slideshare.net/ViancaFatima_1990/alfa-de-cronbach-para-los-test?related=1
http://es.slideshare.net/maestriacvhuacho/validacion-instrumentos-alfadecrombach?related=2
A continuación, se presenta la escala con los criterios de decisión para la confiabilidad de un instrumento.
Muy Baja* Baja* Media o regular* Aceptable o alta Muy alta o elevada
Entre 0,21 y 0,40 Entre 0,41 y 0,60
Entre 0 y 0,20 Entre 0,61 y 0,80 Entre 0,81 y 1,00
Medición con pocos Medición con algo de
Medición con error Medición sin errores Medición sin errores
errores error
* Se sugiere repetir la validación del instrumento puesto que es recomendable que el resultado sea mayor o igual a 0,61.
En este caso, el coeficiente KR20 obtenido representa un valor aceptable, que nos indica que existe un moderado grado de
covariación entre los ítems. Podemos afirmar con aceptable seguridad que este test mide un rasgo, constructo, variable psicológica de
forma unitaria.
Si el ejemplo tratado anteriormente fuese una prueba piloto, debe tenerse en cuanta que, en la medida en que el resultado se
aproxime a 1, se puede asegurar que existe una alta confiabilidad, por lo que este conjunto de ítems que permitirá elaborar el
instrumento final para ser aplicado a la población elegida o a cualquiera de sus subconjuntos.
A continuación se presenta un cuadro resumen de los métodos, técnica y propósito para medir confiabilidad:
Psicometría Página 45
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Cálculo de la validez
Resulta complejo obtener la validez de contenido. Primero, es necesario revisar cómo ha sido utilizada la variable por otros
investigadores. Y con base en dicha revisión elaborar un universo de ítems posibles para medir la variable v sus dimensiones (el
universo debe ser lo más exhaustivo que sea factible. Posteriormente, se consulta con investigadores familiarizados con la variable
para ver si el universo es exhaustivo Se seleccionan los ítems bajo una cuidadosa evaluación. Y si la variable está compuesta por
diversas dimensiones o facetas, se extrae una muestra probabilística de ítems, ya sea al azar o estratificada (cada dimensión
constituiría un estrato). Se administran los ítems, se correlacionan las puntuaciones de los ítems entre sí (debe haber correlaciones
altas, especialmente entre ítems que miden una misma dimensión), y se hacen estimaciones estadísticas para ver si la muestra es
representativa. Para calcular la validez de contenido son necesarios varios coeficientes.
La validez de criterio es más sencilla de estimar, lo único que hace el investigador es correlacionar su medición con el criterio, y
este coeficiente se toma como coeficiente de validez.
La validez de constructo se determina mediante el procedimiento denominado "análisis de factores". Su aplicación requiere de
estadística y de programas de computadora que evalúen las variables según las pruebas.
Todas estas medidas son características de un test estandarizado, el cual es una prueba que ha sido normalizada o normalizada; es
decir que ésta ha sido probada en una población con distribución normal para la característica a estudiar, ya sea el cociente intelectual,
un ensayo químico como la determinación de la glucosa en la sangre, conocimientos de historia, etc., puesto que un test estandarizado
es una herramienta empleada por diversas áreas de estudio, como algunas que pertenecen por ejemplo a las ciencias de la salud.
En el proceso de estandarización se determinan las normas para su aplicación e interpretación de resultados, es así que para la
aplicación de una prueba debe hacerse bajo ciertas condiciones, las cuales deben cumplir, tanto quienes la aplican, como a quienes
se les aplica.
Esta estandarización persigue que los resultados sean útiles para la toma de decisiones, si se realiza una prueba para decidir si una
persona es o no aceptada en determinada disciplina, la prueba debe garantizar lo mejor posible, que aquellos que se aceptan llenan los
requisitos requeridos y aquellos que se rechazan, verdaderamente no los cumplen.
Un ejemplo de test estandarizado es el WAIS (Escala Wechsler de Inteligencia para Adultos), el cual fue desarrollado por primera
vez en 1939 por David Wechsler y fue llamada entonces el Wechsler-Bellevue Intelligence Test.
Las escalas de Wechsler introdujeron muchos conceptos novedosos e innovaciones al movimiento de los tests de inteligencia.
Primero, Wechsler se deshizo de las puntuaciones de cociente de tests más viejos, (la C en "CI"). En lugar de eso, asignó un valor
arbitrario de cien a la inteligencia media y agregó o sustrajo otros 15 puntos por cada desviación estándar arriba o abajo de a
media en la que se encontraba el sujeto. Rechazando un concepto de inteligencia global (como el propuesto por Spearman), dividió el
concepto de inteligencia en dos áreas principales: área verbal y área de ejecución (no-verbal), cada una subdividida y evaluada con
diferentes subtests. Estas conceptualizaciones aun se reflejan en las versiones más recientes de las escalas de Wechsler.
Estos tests están todavía basados en su filosofía de que la inteligencia es "la capacidad global de actuar intencionalmente, de
pensar racionalmente, y de interactuar efectivamente con el ambiente" (citado en Kaplan & Saccuzzo, p. 256). (Ver anexo al final de
esta guía).
Antes de aplicar un instrumento de recolección de datos basado en una variable psicológica, deben tenerse en cuenta un punto
importante.
a) Si el instrumento que se aplicará ya está diseñado, revisado y estandarizado por los expertos, entonces se está en condiciones
de comenzar a emplearlo y administrarlo, pues los autores reportaron tanto la confiabilidad como la validez de dicho test.
b) Si el instrumento se ha diseñado por primera vez, es importante recordar que no se ha demostrado la eficacia, confiabilidad ni
la validez del instrumento en condiciones reales.
Psicometría Página 46
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Por ello, antes de iniciar el trabajo de campo, es imprescindible probar el instrumento sobre un pequeño grupo de la población.
Esta prueba piloto ha de garantizar las mismas condiciones de realización que el trabajo de campo real. Su misión radica en contrastar
hasta qué punto funciona el instrumento como se pretendía en un primer momento y verificar si las preguntas estimulan, inducen o
provocan la reacción deseada. Por ello, si es necesario, se han de eliminar ambigüedades y preguntas superfluas (con inadecuados
índices de dificultad, homogeneidad, criterio de validez, etc.), añadir preguntas relevantes o cambiar el orden de éstas para agilizar el
flujo de repuestas. Es frecuente hacer una primera prueba piloto con algunas preguntas abiertas para tratar de obtener las respuestas
más frecuentes y construir preguntas cerradas en el instrumento definitivo. En este caso, más que de una prueba piloto. Se habla de un
sondeo previo. Este tipo de técnica es muy recomendable en los casos en los que hay un gran desconocimiento de las posibles
respuestas y se intenta cerrar la mayor cantidad posible de preguntas del instrumento .La prueba piloto habrá de valorar los siguientes
aspectos:
Verificación de si el instrumento responde a los objetivos del estudio.
Comprobación de la fluidez del instrumento. Es decir, si posee lógica y consistencia interna.
Comprensión de las preguntas y aceptabilidad por parte del encuestado e idoneidad en la secuencia.
Idoneidad de las respuestas cerradas preestablecidas.
Discriminación de las preguntas.
Valoración de los casos en que los investigados no respondan el instrumento.
Idoneidad de todos los aspectos del protocolo de procedimientos.
Aspectos logísticos: disponibilidad, recogida y entrada de instrumentos, la propia supervisión, entre otros.
En resumen, un instrumento es confiable cuando, aplicado al mismo sujeto en diferentes circunstancias, los resultados o puntajes
obtenidos son aproximadamente los mismos. Existen tres aspectos importantes en esta definición: el mismo sujeto, las diferentes
circunstancias y los resultados aproximadamente iguales.
Con respecto al primero, es obvio y hasta esperable que si se administra un instrumento a diferentes personas se obtengan puntajes
diferentes. También es factible que cuando se le administre el instrumento a una persona en diferentes circunstancias, se obtenga,
aproximadamente, el mismo puntaje. En caso contrario la prueba no es confiable, por lo que entonces la confiabilidad se determina
aplicando el instrumento a la misma persona, no a personas diferentes.
En cuanto al segundo aspecto, las diferentes circunstancias en que se aplica el instrumento a la misma persona, pueden ser varias:
en diferentes circunstancias de tiempo, con distintos administradores del instrumento, con diferentes evaluadores de los resultados; en
variados ambientes físicos, entre otros. Si, a pesar de todas estas diferentes condiciones, un mismo sujeto obtiene más o menos el
mismo puntaje, el instrumento resulta altamente confiable. No obstante ello, los instrumentos incluyen siempre elementos que intentan
asegurar su confiabilidad, como por ejemplo la consigna que prescribe que el administrador deberá hacer determinada pregunta y no
otra, que deberá responder a preguntas del sujeto de determinada manera y no de otra, que deberá aplicar el instrumento en un
ambiente sin ruidos, entre otros. Todo ello para que la forma peculiar de administrar el instrumento no influya sobre el puntaje.
Con respecto al tercer aspecto, no se puede esperar que los resultados sean exactamente los mismos, es decir, siempre habrá una
varianza, es decir, una variación en los resultados. El problema consiste en decidir si esa variación es lo suficientemente pequeña
como para afirmar que el instrumento es confiable o si, por el contrario, refleja un problema de confiabilidad, es decir, si es lo
suficientemente grande como para declarar al instrumento como no confiable. En otras palabras, toda medida de confiabilidad de un
instrumento de medición denota qué proporción de la varianza total en los puntajes es varianza de error (Palella y Martins, 2012).
Psicometría Página 47
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Tercero, usar condiciones estándares y bien controladas para administrar la prueba. Los factores internos (referidos al sujeto que
toma la prueba) como los externos (asociados a las condiciones bajos las cuales se toma la prueba, contribuyen a aumentar el error de
medición.
Cuarto, tomar en cuenta la homogeneidad del grupo normativo al cual se le aplicó el test. La confiabilidad es una propiedad del
cuestionario para un grupo particular de sujetos. Por lo tanto el coeficiente de confiabilidad se afecta por la variabilidad entre los
sujetos. Por esto, mientras mayor es la dispersión de las puntuaciones o mayor es la varianza debida a las diferencias individuales,
mayor es la confiabilidad. Esto ocurre pues es difícil que las personas cambien de posición en rangos cuando las distancias en
puntuación entre ellos es grande. Por lo tanto es posible que un cuestionario que se haya construido con una población heterogénea
muestre un coeficiente de confiabilidad mucho menor cuando se aplica a una población más homogénea y por lo tanto menos variable.
Es importante, cuando se adquiere un instrumento construid para otra población asegurarse que el coeficiente de confiabilidad se
obtuvo con una población semejante a la que va a utilizar el instrumento.
Quinto: para incrementar la confiabilidad o el valor de alfa de Cronbach en un instrumento de recolección de datos psicológicos, se
debe identificar los ítems invertidos mediante una matriz de correlación que relacione todos los ítems del test con la sumatoria total de
todos los ítems de esa prueba. Si se detectan una o varias correlaciones negativas, eso indica que ese ítem esta invertido y debe
reconvertirse a positivo. Por ejemplo, si el ítem tiene una escala de Likert con respuestas del 1 al 5, se obtiene el valor contrario de
cada respuesta invirtiendo el valor obtenido en ese ítem, de la siguiente forma:
Respuesta invertida obtenida: 1 2 3 4 5
Respuesta transformada en escala normal: 5 4 3 2 1
Se substituye la respuesta invertida por los valores de la respuesta transformada en una escala normal positiva o no invertida y
debe observarse que el nivel de la correlación con los valores de la sumatoria total de todos los ítems de esa prueba debe cambiar de
signo negativo a positivo e incrementar el valor o la magnitud.
Otro factor que disminuye el valor de alfa de Cronbach es la presencia de ítems no discriminantes o poco discriminantes, en la que
las respuestas obtenidas tienden a ser neutras o indiferentes, centradas en el valor 3 de la escala de Likert o en los valores centrales, o
aquellas que presentan poca variación en sus valores. Ya que el alfa de Cronbach tiende a ser un índice tanto de confiabilidad como de
discriminación, deben evitarse los ítems no discriminantes o que no son capaces de discriminar o separar al grupo analizado en
aquellos sujetos que no poseen el rasgo, habilidad o destreza buscada de aquellos que si lo poseen. Por esto, el ítem debe modificarse o
cambiarse mediante una consulta tanto con la literatura especializada (buscando banco de ítems estandarizados) como con expertos o
especialistas en el área de redacción de ítems.
Por ejemplo, si un ítem pregunta sobre la opinión del sujeto con respecto a un producto de calidad aceptable pero que no
notoriamente alta ni especialmente baja, la respuesta esperada deben ser valores intermedios, con tendencia a concentrarse en los
valores 2, 3 y 4 de la escala. Pero si modificamos el reactivo y le damos un referente de calidad, como comparar el producto con otro
similar, entonces las respuestas cambiarán hacia una más diferenciada o diversificada, cuyos valores impliquen una mayor
variabilidad. Otro caso pudiera ser un ítem en el que se pregunta sobre un aspecto en el que todas las personas están en contra o
presentan una misma opinión, como por ejemplo la caza de animales salvajes en África. Pero si se pregunta sobre la caza controlada y
supervisada por expertos para mantener la población estable y saludable, las opiniones pueden variar o diferenciarse entre sí y se
transformara en un ítem más discriminante, ya que se observarían valores extremos, como 1, 2 o 4 y 5. Esto cambio o modificación
del ítem permitiría incrementar el valor de alfa de Cronbach.
Importancia de la Confiabilidad
Para que los resultados de un instrumento puedan ser interpretables; es decir, para que tengan significado y valor heurísticos, es
necesario que los mismos sean confiables. No es posible determinar la relación entre dos o más variables si los instrumentos utilizados
para medirlas son poco confiables. Este tipo de instrumentos, a menudo, inducen al investigador a interpretaciones erradas de sus
resultados. Por ejemplo, un experimento educativo, en el cual se ha evaluado el efecto de una nueva estrategia instruccional, pudiera
parecer poco efectivo, aun habiendo tenido un impacto altamente significativo en el aprendizaje de los alumnos, simplemente porque
los instrumentos utilizados para medir las variables dependientes eran poco confiables.
La confiabilidad, aun cuando no es la característica más importante de un instrumento de medición, requiere se le preste toda la
atención que sea necesaria.
Ciertamente, una alta confiabilidad, por si sola, no garantiza “buenos” resultados científicos. Pero, no puede haber “buenos”
resultados científicos sin instrumentos confiables. En síntesis, la confiabilidad es una condición necesaria, pero no suficiente para
obtener resultados de investigación que sean científicamente valiosos y socialmente útiles.
Psicometría Página 48
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Hay dos factores que afectan al grado de fiabilidad de un test: la variabilidad y la longitud.
Fiabilidad y variabilidad: como se mencionó anteriormente, el tipo, las características y el tamaño de la muestra de sujetos que
se haya escogido para calcular la fiabilidad de un test puede influir en el resultado obtenido. Esto significa que la fiabilidad ya no
depende únicamente de las características del test, sino también de la muestra de sujetos a los que se aplique, por lo que no se
puede decir que un mismo test tenga un coeficiente de fiabilidad fijo. En suma, puede afirmarse que la fiabilidad de un test será
mayor cuanta mayor variabilidad exista en la muestra de sujetos seleccionada. Dicho de otra forma, mientras más homogéneas
sean las muestras habrá menos variabilidad y, por tanto, la confiabilidad será menor. En cambio, si las muestras son más
heterogéneas, la confiabilidad será mayor.
Por esto, debemos conocer que un mismo test tiene diferentes niveles de confiabilidad con diferentes grupos normativos
(muestras de personas donde se obtiene el coeficiente). Más concretamente, un mismo test suele obtener una confiabilidad mayor
en un grupo heterogéneo que en otro menos heterogéneo (de menor varianza). Por ejemplo, resulta normal que un test de
Inteligencia obtenga una confiabilidad mayor en una muestra de la población general que una muestra de universitarios o en otra
de personas con deficiencias cognitivas (estas últimas más homogéneas). La razón es simple: el coeficiente de fiabilidad,
obtenido por el método que sea, se fundamenta estadísticamente en una correlación de Pearson que, como es sabido, se
incrementa a medida que lo hacen las varianzas de las variables que se correlacionan.
Fiabilidad y longitud: En términos generales, puede decirse que la fiabilidad de un test aumenta a medida que aumenta su
longitud, es decir, su número de ítems. Para obtener una adecuada fiabilidad, debe asegurarse que se cuenta con un test integrado
por múltiples preguntas relacionadas con cada una de las dimensiones o categorías que se están midiendo Ello no significa que
resulte recomendable alargar innecesariamente un test en pro de aumentar su fiabilidad, ni que cualquier test pueda convertirse en
un instrumento fiable por el único medio de aumentar indefinidamente su longitud. La fórmula de Spearman-Brown modificada
permite pronosticar el aumento de fiabilidad obtenida tras el incremento de la longitud de un test, siempre y cuando los ítems
añadidos sean paralelos/equivalentes a los ya existentes.
En el tema precedente vimos que si los k ítems de un test fueran paralelos, el coeficiente de fiabilidad del test podría
obtenerse aplicando la fórmula general de Spearman-Brown:
siendo k el nº de ítems del test y ρjl la correlación de Pearson entre cualquier par de ítems.
Expresada la fórmula anterior para datos muestrales, quedaría como:
Esta fórmula reproduce el coeficiente de fiabilidad del test si todos los ítems son paralelos y equivalentes. En la práctica, es
muy difícil que esto se produzca pero, sin embargo, tiene sentido su aplicación para establecer el grado en que los diferentes
ítems están midiendo una única dimensión o rasgo.
Por otra parte, si los ítems están bien formulados, son paralelos, equivalentes y resultan discriminativos, un test incrementará
su nivel de confiabilidad a medida que incrementa su longitud (número de ítems), aunque no lo hace de manera lineal. La
siguiente gráfica muestra el coeficiente de fiabilidad de un test alargado N veces (N: 1, 2, 3, .. 50), cuando el coeficiente de
fiabilidad del test de partida es 0.1, 0.4 y 0.7:
Psicometría Página 49
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
La gráfica anterior indica que el incremento de la confiabilidad es más significativo cuando el test inicial tiene un número
pequeño de ítems y bajo coeficiente de fiabilidad, que cuando el test de partida tiene ya un coeficiente de fiabilidad considerable.
La fórmula general de Spearman-Brown, adaptada ahora a los datos obtenidos en una muestra concreta, permite estimar cuál
será el coeficiente de fiabilidad (Rxx) de un test que se forma con “n” versiones paralelas de un test inicial que tiene un
coeficiente de fiabilidad denominado rxx:
Siendo n el número de veces que se debería incrementar la cantidad de ítems del test
Como ya se dijo, las n formas o ítems añadidos deben ser formas paralelas equivalentes al test inicial; de lo contrario, la
fórmula anterior no tiene significado alguno.
Por ejemplo, supongamos que una prueba de atención de 25 ítems obtiene en un grupo normativo un nivel de confiabilidad de
rxx= 0,6. Si se añadieran 75 ítems (tres formas paralelas) al test inicial, el test alargado tendría 100 ítems (4 veces el inicial), y su
fiabilidad sería:
Si las 3 formas añadidas fuesen auténticamente paralelas a la original al pasar de 25 a 100 ítems el coeficiente de fiabilidad
pasa de 0.6 a 0.86.
Imagínese ahora que el test de atención de 25 ítems tiene un rxx = 0,92. Si se añaden 75 ítems más paralelos, el test alargado
tendría de coeficiente de fiabilidad:
Psicometría Página 50
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
En el primer caso, el incremento que se produce al multiplicar por 4 la longitud inicial del test de atención es de 0.26,
mientras que en el segundo caso, el incremento es únicamente de 0.06.
Esto se debe a que el coeficiente de fiabilidad del test inicial es mayor en el segundo caso que en el primero.
Podemos observar que cuando n = 2 (cuando se duplica la longitud del test original), la fórmula se convierte en la que hemos
aplicado para estimar el coeficiente de fiabilidad por el método de las dos mitades. Efectivamente, ahora podemos entender
mejor que rPI sería el coeficiente de fiabilidad de un test mitad (con la mitad de los elementos que tiene el test entero) y que el
resultado de esa correlación hay que corregirlo, haciendo n = 2 en la fórmula de Spearman-Brown, para obtener el coeficiente de
fiabilidad del test completo.
Estas relaciones entre fiabilidad y longitud de un test pueden ayudarnos a estimar el coeficiente de fiabilidad alargando “n”
veces o, planteado inversamente, el número de veces que debemos multiplicar la longitud inicial de un test para alcanzar un Rxx
determinado. En la práctica, puede resultar eficaz diseñar un test inicial corto y estimar cuál debería ser su longitud para alcanzar
un coeficiente de fiabilidad determinado, y así comprobar si merece la pena continuar con ítems paralelos o reformar los ya
generados. Para ello, si despejamos “n” de la fórmula general de Spearman-Brown, obtenemos la siguiente expresión:
Donde N representaría el número de veces que sería necesario incrementar el número de ítems necesarios para obtener o
lograr la confiabilidad deseada, rxx representaría la confiabilidad del test inicial (CTI) y Rxx representaría la confiabilidad
deseada (CD).
Ejemplo: Supongamos que un test inicial de 25 ítems obtiene un coeficiente de fiabilidad de 0.6 (rxx o CTI), considerado
bajo para los objetivos que se pretenden conseguir con su aplicación. Una manera de incrementar su precisión es alargarlo con
ítems paralelos a los iniciales. Al constructor de la prueba le interesa que el test tenga, al menos, un coeficiente de fiabilidad de
0.86 (Rxx o CD), y se pregunta con cuántos ítems lo conseguiría.
Aplicando la fórmula precedente, obtenemos:
Esto significa que si multiplicamos por 4 la longitud inicial del test, es decir, con un test de 100 ítems, conseguiremos la
precisión deseada. Por tanto, a los 25 ítems que tiene el test inicial habría que añadir 75 ítems paralelos (3 formas) para conseguir
la fiabilidad de 0.86.
Por ejemplo, si el instrumento posee baja confiabilidad, ésta puede incrementarse agregando ítemes de igual tipo y calidad. A
continuación se presenta ejemplos de cómo incrementar la confiabilidad aumentando el número de ítemes:
¿Cuántos ítemes deben agregarse a un instrumento para alcanzar la confiabilidad deseada?. La fórmula sería:
Donde n sería el número de veces que debe incrementarse el número de ítemes para lograr la confiabilidad deseada, CTI sería
la Confiabilidad del test inicial y CD sería la Confiabilidad deseada o a obtener.
Veamos algunos ejemplos
Si la confiabilidad de un instrumento de 10 ítems es 0.46, ¿cuántos ítems deben agregarse para alcanzar una confiabilidad de
0.81?.
El resultado es que el test debería ser 5 veces más largo, es decir, necesita 50 ítemes para lograr la confiabilidad deseada.
Si la confiabilidad de un instrumento de 30 ítems es 0.05, ¿cuántos ítems deben agregarse para alcanzar una confiabilidad de
0.90?.
Psicometría Página 51
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
El resultado es que el test debería ser 171 veces más largo, es decir, necesita 5130 ítemes para lograr la confiabilidad deseada.
Si la confiabilidad de un instrumento de 30 ítems es 0.55, ¿cuántos ítems deben agregarse para alcanzar una confiabilidad de
0.61?.
El resultado es que el test debería ser 1,28 veces más largo, es decir, necesita 38 ítemes para lograr la confiabilidad deseada.
Otros factores que pueden afectar la confiabilidad serían: la confiabilidad varía según:
1) el método de estimación de la fiabilidad que se utilice, por ejemplo, se obtienen distintos resultados cuando se cuantifica
confiabilidad por alfa (α) de Cronbach cuando se emplea el método basado en la varianza de los ítems que en la matriz de correlación
de los ítems, especialmente al incrementar tanto el número de ítems como el de respondientes.
2) el número de sujetos a los que se les aplicó el test, ya que la confiabilidad tiende a incrementar cuando aumenta el número de
sujetos a los que se les aplicó la prueba,
3) la estructura del test psicológico: son todas las características del test que podemos percibir, como los elementos físicos que lo
componen, tales como el cuaderno, el manual del test, las figuras coloreadas, la maleta, los formatos (en caso de tenerlos, etc.) y
4) la administración del test psicológico: son las circunstancias y actores bajo las cuales se aplica el test: lo integran el (A)
participante o paciente, (B) el material necesario y las condiciones ambientales/infraestructura demás de (C) el psicólogo (rapport,
instrucciones o consignas transmitidas y entendidas por el sujeto). Además, las condiciones concretas seleccionadas para aplicar el
método influyen en su resultado: la fiabilidad variará en función del lapso de tiempo elegido o del número de formas paralelas que
apliquemos sobre una muestra.
Para ampliar conocimientos, puede consultar la bibliografía especializada del curso, además de:
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160.
Cortina, J. M., (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal of Applied
Psychology, 78(1), 98–104.
Psicometría Página 52
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Bibliografía
Abad, F; Garrido, J; Olea, J; Ponsoda, V. (2006). Introducción a la Psicometría, Teoría Clásica de los Tests y Teoría de Respuesta al
Ítem. Universidad Autónoma de Madrid. Recuperado de la página web:
http://www.uam.es/personal_pdi/psicologia/fjabad/PSICOMETRIA/MATERIALES/IntPs_5.pdf
Abad, F; Garrido, J; Olea, J; Ponsoda, V. (2006). Introducción a la Psicometría, Teoría Clásica de los Tests y Teoría de Respuesta al
Ítem. Tema V. Baremación de un test. Universidad Autónoma de Madrid. Recuperado de la página web:
http://www.uam.es/personal_pdi/psicologia/cadalso/Docencia/Psicometria/Apuntes/tema5TyP_4.pdf
Aiken, L (1996). Test psicológicos y Evaluación. Octava edición. México: Prentice Hall.
Aiken, L. (1985). Psychological testing and assessment. Sexta edición. Boston: Allyn and Bacon, Inc.
Aliaga Tovar, Jaime. «Psicometría: Tests psicométricos, confiabilidad y validez». p. 11. Consultado el 16 de febrero de 2011.
American Psychological Association. Recuperado de la pagina web: http://www.apa.org/
Anastasi, A. (1961). Psychological test: Uses and abuses. Teacher College Record, 62, 389-393.
Anastasi, A. (1976). Psychological testing. New York: MacMillan Publishing Co.
Anastasi, A. (1982). Psychological Testing. Fifth Edition. United States of America: Mcmillan Publishing Co., Inc.
Anastasi, A. (1986). Evolving concepts of test validation. New Cork: Mcmillan Publishing Co., Inc.
Anastasi, A., Urbina, S. (1998). Tests psicológicos. México: Prentice Hall.
Andujar, C, Martínez. (1996). Análisis psicométrico de la escala Lodhal y Kejner mediante las teorías clásica y moderna de la
medición. Revista Latinoamericana de Psicología. Vol. 28 (1).
Arias, F. (1981). Los test. México: Trillas.
Bandura, A. (1986). Social foundations of thought and action: A social-cognitive theory. Englewood Cliffs, NJ: Prentice Hall.
Barnette, L. (1968). Readings in Psychological Tests and Measurement. United States of America: The Dorsey press.
Baumann, N., Kaschel, R., Kuhl, J. (2007). Affect sensitivity and affect regulation in dealing with positive and negative affect. Journal
of Research in Personality. June 2007. Germany.
Baumert, J., Klieme, E., Neubrand, M., Prenzel, M., Schiefele, U., Schneider, W., Tillman, K., Weib, M. (1993). Self-Regulated
Learning as a Cross-Curricular Competence. OECD PISA DEUTSCHLAND. Berlin.
Boekarts, M., Cascallar, E., Costigan, T. (2006). Assessment in the Evaluation of Self-Regulation as a Process. Educ. Psycol Rev.
Bohrnstedt, G.W. (1976) Evaluación de la confiabilidad y validez en la medición de actitudes. En G.F. Summers (comp). Medición de
actitudes. México, D.F.: Trillas.
Bostwick, G. J., y N. S. Kyte, (2005). Measurement Social Work: Research and Evaluation Quantitative and Qua-litative Approach.
7a. ed. New York: Oxford University Press.
Brown, F. G. (1980). Principios de la medición en psicología y educación. México: El Manual Moderno.
Cabrera, V. (2004). Clima organizacional y compromiso organizacional. Estudio de un caso. Memoria para optar al Título de
Licenciatura en Psicología. Departamento de Psicología, Universidad de las Américas.
Calvo, I.R. y Cortés, S.R. (2006). Pruebas de terreno en psicología del deporte. Revista Digital - Buenos Aires - Año 11 - N° 103 -
Diciembre de 2006. Consultado: 28/06/16. Disponible en: http://www.efdeportes.com/efd103/psicologia-del-deporte.htm.
Canet, M; Zapata, G (2008). Propuesta metodológica para la construcción de escalas de medición a partir de una aplicación
empírica, 8(2). 1-26 Recuperado de la pagina web:http://revista.inie.ucr.ac.cr/articulos/2-2008/archivos/escalas.pdf
Carmines, Edward y Zeller, Richard. (1979). Reliability and Validity Assessment. SAGE Publications. USA.
Carrasco, J. (2000).Cómo aprender mejor. Tercera edición. Madrid: Rialp.
Castro, L. (1984). Diseño experimental sin estadística. México: Trillas.
Centro Virtual Cervantes. «Validez». Diccionario de términos clave. Consultado el 16 de febrero de 2006.
Psicometría Página 53
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Cortina, J. M., (1993). What Is Coefficient Alpha? An Examination of Theory and Applications. Journal of Applied Psychology,
78(1), 98–104.
Cronbach, L. (1971). Essentials of psychological testing. New York: Harper International editions.
Cronbach, L. J. (1951). Coefficient alpha and the internal structure of the test. Psychometrika, 16, 297-334.
Cronbach, L., Quirk. (1976). Test validity. New York: McGraw-Hill.
Crumbaugh, J. y Maholick, L. (1969). Manual of instructions for the purpose in life test. Saratoga: Viktor Frankl Institute.
Elosua, P. (2003). Sobre la validez de los tests. Psicothema, 15(2). 315-321. recuperado de la pagina web:
http://redalyc.uaemex.mx/redalyc/pdf/727/72715225.pdf
Embretson, S.(1985). Test design: developments inpsychology and psychometrics New Cork: Academia Press Inc.
Flanagan, J.C. (1937). A note on calculating the standard error of measurement and reliability coefficients with the test scoring
machine. Journal of Applied Psychology, 23, 529.
Gallagher, L. (2000). Thesaurus: of psychological index terms. Washington, D. C.: The American Psychological Association. Tenth
Edition.
García, T., McCann, E., Turner, J., Roska, L. (1998). Modeling the Mediating Role of Volition in the Learning Process.
CONTEMPORARY EDUCATIONAL PSYCHOLOGY Vol. 23. Pag. 392–418. NO. EP980982. Austin.
Guttman, L. (1945). A basis for analyzing test-retest reliability, Psychometrika 10, 255-282.
Heise, D. R., Bohrnstedt, G.W. (1971). Validity, invalidity and reliability. En: Borgatta E. F., Bohrnstedt (eds.) Sociological
methodology. Jossey – Bass. San Francisco. pp. 104-129.
Helmstadter, G. C. (1964). Principles of psychological measurement. New York: Appleton.
Hernández, Fernández y Baptista (1998) Metodología de la Investigación. McGrawHill Interamericana Editores, S.A (p.21).
Hernández, Fernández y Baptista (2010) Metodología de la Investigación. McGrawHill Interamericana Editores, S.A (p.200).
Hernández, R; Fernández, C; Baptista, P. (2003) Metodología de la Investigación. McGrawHill Interamericana Editores, S.A. Tercera
Edición. Capitulo 9. pp 343-491.
Hoyt, C. (1941). Test reliability obtained by analysis of variance. Psychometrika, 6, 153-160.
Husman, J., Schallert, D., Turner, J. (2002). The Importance of Students’ Goals in Their Emotional Experience. Educational
Psychologist .
Kaplan, R; Saccuzzo, D. (2006). Pruebas psicológicas, principios y aplicaciones. México: Thompson Editores. Capitulos 4, 5 y 6. 99-
183.
Kerlinger, F. N. (2002). Investigación del comportamiento. (2da. ed). México: MacGraw-Hill
Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2(3), 151–160.
Kuhl, j., Kázen, M., Koole, L. (2006). Putting Self-Regulation Theory into Practice:A User’s Manual. APPLIED PSYCHOLOGY:
AN INTERNATIONAL REVIEW, 2006,55 (3), 408–418. Amsterdam
Lenon, R. (1956). Assumptions underlying the use of content validity. United States of America: McGraw Hill.
Psicometría Página 54
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Likert, R. (1932). A technique for the measurement of attitudes. Archives of Psychology, 140, 1-50. (Traducción al castellano en C. H.
Wainerman (Comp.) (1976), Escalas de medición en ciencias sociales, pp-199-260. Buenos Aires: Nueva visión.
Lima, D. (2012). Psicología deportiva. La psicometría y el deporte de alto rendimiento. Publicado: miércoles, 18 de julio de 2012.
Consultado: 29/09/16. Disponible: http://trabajospsicologiavii.blogspot.com/2012/07/la-psicometria-y-el-deporte-de-alto.html
Loevinger, J. A. (1947). A systematic approach to the construction and evaluation of test of ability. Psychological Monographs, 61(4).
Lukas, E.S. (1996). Logotest. Buenos aires: Ed. Almagesto.
Magnusson, D. (1982). Teoría de los tests. México: Trillas.
Mahía Casado, Ramón. «Análisis factorial». Consultado 17 de abril de 2016.
Maule, A. (2013). Validez y Confiabilidad de instrumentos en la investigación cuantitativa. Consultado: 10/01/2016. Disponible en:
http://es.slideshare.net/maule/validez-y-confiabilidad-de-instrumentos-en-la-investigacin-cuantitativa.
McCann & Garcia, 2000. The Academic Volitional Strategy Inventory (AVSI)
Mccann, E., García, T. (1999).Maintaining motivation and regulating emotion: measuring individual differences in academic
volitional strategies. VOLUME 11, NUMBER 3,. Texas.
McCann, E., Turner, J. (2004). Increasing Student Learning Through Volitional Control.Volume 106, Number 09. Columbia
University.
McIver, J. P. y Carmines, E. G. (1981). Unidimensional scaling. Beverly Hills, CA: Sage.
Menéndez, A. (2006, enero 24). Taller CES (Consejo de Educación Superior de Puerto Rico). Validez, confiabilidad y utilidad.
[documento en línea]. Disponible: http://www.gobierno.pr/nr/rdonlyres/5cF112bb-5811-4a9a-8d1e-
1ba213c5eeF7/0/14Validez.pdf
Messick, S. (1989). Validity. In R.L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-103). New York: Macmillan.
Morales Vallejo, Pedro (2007). Estadística aplicada a las ciencias sociales. La fiabilidad de los tests y escalas. Madrid: Universidad
Pontificia Comillas. p. 8. Consultado el 18 de febrero de 2011.
Moreno, R; Martínez, J; Muñiz, J. (2004) “Directrices para la construcción de ítems de elección múltiple” de, que se encuentra en el
link: http://www.psicothema.com/pdf/3023.pdf
Muñiz, José (1998). «Fiabilidad». Teoría clásica de los tests (5ª edición). Madrid: Pirámide. ISBN 843681262X. Consultado el 18 de
febrero de 2011.
Muñiz, José (1998). «Validez». Teoría clásica de los tests (5ª edición). Madrid: Pirámide. ISBN 843681262X. Consultado el 16 de
febrero de 2011.
Muñiz, José (2010). «Las teorías de los tests: Teoría clásica y teoría de respuesta a los ítems». Papeles del psicólogo (España: Consejo
General de Colegios Oficiales de Psicólogos) 31 (1): 57-66. ISSN 0214-7823. Consultado el 18 de febrero de 2011.
Novick. (1984). Importance of professional standars for fair and appropriate test use. San Francisco: Jossey-Bass.
Nunnally, C. (1991). Teoría psicométrica. México: Paidós.
Nunnally, J. C., Bernstein I. H. (1995). Teoría psicométrica (3a. ed). México : McGraw-Hill.
Núñez, M. C. (2001). Exploración del sentido de la vida a través del diseño de un instrumento cuantitativo. Tesis de maestría no
publicada. Universidad de Celaya. Guanajuato. México.
Oort, F., Vrugt, A., Zeeberg, C. (2002). Goal orientations, perceived self-efficacy and study results amongst beginners and advanced
students. British Journal of Educational Psychology (2002), Vol. 72, Pages. 385–397. England.
Palella, S. y Martins, P. (2012). Metodología de la investigación cuantitativa. 1ra reimpresión. FEDUPEL. Caracas. Venezuela.
Pereira, L. (2005). La autorregulación como proceso complejo en el aprendizaje del individuo peninsular. Polis revista de la
Universidad Bolivariana,año/vol. 4, número 011. Santiago, Chile.
Pérez-Gil, José Antonio; Chacón Moscoso, Salvador; Moreno Rodríguez, Rafael (2000). «Validez de constructo: El uso del análisis
factorial exploratorio-confirmatorio para obtener evidencias de validez». Psicothema 12 (Suplem. 2): 442-446. ISSN 0214-9915.
Consultado el 16 de febrero de 2011.
Psicometría Página 55
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Peters, C. C. y Van Vorhis, W. R. (1940). Statistical procedures and their mathematical bases. New York: McGraw-Hill.
Pintrich, P. (1999). The role of motivation in promoting and sustaining self-regulated learning. International Journal of Educational
Research. (1999) Vol. 31. Pages. 459-470. United States of America.
Pintrich, P. (2000). Multiple Goals, Multiple Pathways:The Role of Goal Orientation in Learning and Achievement. Journal of
Educational Psychology 2000, Vol. 92, No. 3. 544-555. United Status of America.
Prieto, Gerardo; Delgado, Ana R. (2010). «Fiabilidad y validez». Papeles del psicólogo (España: Consejo General de Colegios
Oficiales de Psicólogos) 31 (1): 67-74. ISSN 0214-7823. Consultado el 18 de febrero de 2011.
Prieto, Gerardo; Delgado, Ana R. (2010). «Fiabilidad y validez». Papeles del psicólogo (España: Consejo General de Colegios
Oficiales de Psicólogos) 31 (1): 67-74. ISSN 0214-7823. Consultado el 16 de febrero de 2011.
Raju, N. S. (1977) “A generalization of coefficient alpha”, Psychometrika, 42, 549-565.
Revista Diversitas de la Universidad Santo Tomás (http://www.usta.edu.co/diversitas/revistas.html).
Revista Psicothema de la Universidad de Oviedo. Recuperado de la pagina web: http://www.psicothema.com/busquedas.asp
Revista Universitas Psychologica de la Universidad Javeriana. Recuperado de la pagina web:
http://sparta.javeriana.edu.co/psicologia/publicaciones/publicaciones.php?len=ES
Rey, W.B. M. y B. F. (1973). Integration of structural and developmental concepts in the theory on fluid and crystallized intelligence.
Rivero, M., Prada, A. (2005). Aprendizaje autodirigido y desempeño académico. Tiempo de educar, enero-junio, año/vol. 6, número
011. Toluca, México.
Ruiz Bolívar, C. (2002). Instrumentos de Investigación Educativa. Venezuela: FEDUPEL.
Ruiz Bolívar, Carlos. «Validez». Programa Interinstitucional Doctorado en Educación. p. 2. Consultado el 24 de noviembre 2015.
Rulon, P. J. (1939). A simplified procedure for determinig the reliability of a test by splithalves. Harvard Educational Review, 9, 99-
103.
Rulon, P. J. (1939). A simplified procedure for determining the reliability of a test by split-halves. Harvard Educational Review, 9, 99-
103.
Shavelson, R. (1981). Statistical Reasoning for that behavioral sciences. Boston: Library of Congress Cataloging in publication data.
Silva, F. (1989). Evaluación conductual y criterios psicométricos. Madrid: Pirámide.
Silva, F. (2009). Validez y Confiabilidad de los Instrumentos de Recolección de Datos. Disponible en:
http://es.slideshare.net/rosilfer/validez-confiabilidad.
Thorndike, R. (1986).Test y técnicas de medición en psicología y educación. México: Editorial Trillas.
Thorndike, R. L. (1989). Psicometría aplicada. México: Limusa.
Tomás, José M.; Oliver, Amparo; Hontangas, Pedro M. (2000). «Análisis factorial confirmatorio de segundo orden y matrices
multirrasgo-multimétodo». Psicothema 12 (Suplem. 2): 534-539. ISSN 0214-9915. Consultado el 17 de febrero de 2011.
Universidad Nacional de Educación a Distancia. «Validez». España.
Validez de contenido. Consultado el 16 de febrero de 2011. Disponible en: http://personal.us.es/jclares/de/3-1/Enf_tracicional_14.htm
Vernon, P. (1964). The concept of validity in personality studies. Londres: McGraw-Hill.
Psicometría Página 56
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Clasificación
Clasificación general
Psicometría Página 57
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
2. Test Proyectivos: inscritos dentro de la corriente dinámica de la Psicología, parten de una hipótesis que pone a prueba la
individualidad de la respuesta de cada persona para así presumir rasgo, constructo, variable psicológicas de su personalidad,
la actividad proyectiva puede ser gráfica (Bender, DFH Machover, Koppitz, HTP), o narrativa (T.A.T, Symonds,
CAT, Rorschach), su uso suele ser más en el ámbito clínico, forense e infantil.
Se clasifican en 5 grupos:
1. Técnicas estructurales. Material visual de poca estructuración, que el examinado ha de organizar, diciendo lo que ve o
aquello a lo que se puede parecer. Entre los más destacados se pueden mencionar los siguientes:
Test de Rorschach. La constituyen diez láminas con manchas de tinta, susceptibles de diversas interpretaciones.
Autor: H. Rorschach y H. Zulliger.
Administración: Individual.
Duración: Flexible.
Aplicación: Jóvenes y adultos.
Significación: Evaluación de diversos aspectos de la personalidad profunda.
Material: 10 láminas.
Técnica de manchas de tinta de Holtzman. Se utilizan dos series paralelas de 15 tarjetas cada una, al examinado se le
permite sólo una respuesta para cada diseño y la puntuación es predominantemente más objetiva que subjetiva.
Autor: Wayne H. Holtzman.
2. Técnicas Temáticas. Material visual con varios grados de estructuración formal de contenido humano, con el cual el
examinado deberá narrar una historia.
Test de percepción temática - CAT (CAT-H y CAT-A). Se utilizan tarjetas con dibujos que evocan fantasías
relacionadas con problemas de alimentación y otras actividades orales, como la relación con los padres y hermanos,
el entrenamiento de intereses y la agresión verbal. Se aplica a niños de 3 a 10 años de edad.
Autor: H. A Murray y L. Bellak .
Administración: Individual .
Duración: Flexible .
Aplicación: Niños y adultos .
Significación: Evaluación a diversos aspectos de la personalidad (impulsos, emociones, sentimientos, complejos, etc.) .
Materiales: Láminas.
Test de Rosenzweig de imágenes frustrantes. Presenta una serie de caricaturas en las que una persona frustra a otra.
En un espacio en blanco, el individuo escribe lo que la persona frustrada podría contestar, las respuestas se clasifican
de acuerdo con el tipo y la dirección. Se encuentra en formatos para adultos, adolescentes y niños.
3. Técnicas Expresivas. Se indica al examinado que describa verbalmente o dibuje una o varias figuras.
Test de la Figura Humana de Karen Machover. El dibujo de la figura humana sirve como vehículo hacia aspectos de
la personalidad del sujeto en relación a su auto concepto y a su imagen corporal. Aceptación o no de su etapa vital,
Identificación y asunción del propio sexo y El grado de estabilidad y dominio de sí mismo.
Autor: Karen Machover .
Psicometría Página 58
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Administración: Individua l.
Duración: Flexible .
Aplicación: Jóvenes y adultos.
Significación: Proyectan toda una gama de rasgo, constructo, variable psicológicas significativos y útiles .
Material: Papel, lápiz.
Test del dibujo de la familia. Con ella se pueden conocer las dificultades de adaptación al medio familiar, incluidos los
conflictos de rivalidad fraterna. En esta prueba se ponen en evidencia, de manera más resaltada, los aspectos
emocionales.
Autor: J. M. Lluis.
Administración: Individual .
Duración: Variable .
Aplicación: A partir de los 5 años .
Significación: de la afectividad infantil que facilita la exploración de las vivencias conflictivas del niño.
Material: Papel y lápiz.
El test del árbol. Es un test los contenidos que se analizan son el tronco, la copa, las ramas, el suelo y otros elementos
accesorios que a veces aparecen. Y tiene como finalidad identificar problemas de adaptación en diversos rasgo,
constructo, variable psicológicas de personalidad.
Autor: R. Stora.
Administración: Individual.
Duración: Libre.
Aplicación: A partir de 5 años.
Significación: Apreciación proyectiva de problemas de evolución y adaptación.
H-T-P (casa, árbol y persona). Con la elaboración de estos tres dibujos se pretende obtener una autoimagen del
examinado, así como sus mecanismos de defensa, su situación familiar y un concepto más profundo del Yo del
examinado.
Autor: John N. Buck y W.L. Warren .
Administración: Individual .
Duración: Entre 30 y 90 minutos .
Aplicación: Niños, adolescentes y adultos.
Significación: Evaluación de las funciones del ego, conflictos de personalidad, autoimagen, percepción familiar.
Material: El Manual.
4. Técnicas Constructivas. Material específico y concreto, que el examinado ha de organizar partiendo de varias
consignas.
Test del pueblo. El examinado deberá organizar una serie de piezas en una estructura determinada que le
sea asignada.
Psicometría Página 59
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
5. Técnicas asociativas. Se indica al examinado que indique verbalmente sus asociaciones ante palabras, frases
o breves historias.
Las Fábulas de Düss. Su plataforma es el psicoanálisis y tiene como objetivo detectar las estructuras
ocultas e inconscientes que explican conductas anormales manifiestas.
Autor: L. Düss .
Administración: Individual .
Duración: No tienen tiempo prefijado.
Aplicación: A partir de los 3 años .
Significación: Diagnóstico de complejos inconscientes y conflictos de comportamiento.
Material: Cartillas y hoja de anotación .
Tradicionalmente el uso de los test está reservado para los psicólogos, y la mayoría de las legislaciones nacionales e
internacionales con respecto al ejercicio de la Psicología lo contemplan de esta manera, no obstante existe una clasificación dirigida a
regular este particular:
Tests de Nivel I: pueden ser aplicados, corregidos y administrados por profesionales no psicólogos luego del entrenamiento
debido por parte de un psicólogo (educadores, psicopedagogos, médicos, etc.), quizás el exponente más obvio de los Test Nivel I
son las pruebas y exámenes de evaluación de conocimientos y de selección e ingreso a instituciones educativas.
Test de Nivel II: pueden ser aplicados por profesionales no psicólogos pero su corrección e interpretación debe ser realizada por
un psicólogo, como por ejemplo los dibujos de la figura humana, de la familia que realizan los niños en su cotidianidad dentro de
la escuela.
Test de Nivel III: son de la exclusiva administración, corrección e interpretación de un psicólogo capacitado, suelen ser los test
más relevantes y complejos de su área así como los de más difícil interpretación y análisis, entre ellos se encuentran las Escalas
de Wechsler (WAIS, WISC y WPPSI), el Test de Bender, el MMPI 2 y A, el T.A.T., el Rorschach y las baterías
neuropsicológicas (Luria, Halstead-Reitan, K-ABC, etc.).
Áreas de aplicación
El uso de test para la evaluación puede ser de diversos tipos, así encontramos que existen test meramente clínicos, así como otros
que si bien pueden ser usados clínicamente también se aplican en otros contextos psicológicos, como la selección de personal, la
orientación vocacional y la investigación pura y aplicada, así la evaluación psicológica por medio de test no se limita a la corrección
impersonal de los resultados, sino que exige del psicólogo una debida integración de todos sus conocimientos y una suficiente aptitud
y actitud profesional para elaborar a partir de los resultados un perfil válido, sustentable y coherente con respecto al funcionamiento de
una persona en determinada área, así cómo sacar el mayor provecho posible de cada prueba para realizar de forma eficaz y eficiente la
labor que es de su competencia. Entre las de las áreas de aplicación se encuentran:
Psicología clínica: quizás la más popularmente relacionada con el uso de tests, ya sea para la práctica privada o institucional,
los tests le permiten al clínico tener una mayor cantidad de información del individuo en un menor tiempo así como acceder a
elementos difícilmente alcanzables por otros métodos, así como también proporcionan un paneo con respecto a la forma de
funcionamiento predominante en el paciente en determinadas áreas lo que contribuye tanto al proceso de diagnóstico y
despistaje, como al momento de planificar determinada intervención, remisión a otros profesionales o incluso al inicio de un
proceso de psicoterapia.
Psicometría Página 60
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Psicología educativa y orientación vocacional: en esta área permite evaluar de una forma estandarizada, relativamente
sencilla y muy enriquecedora, los procesos de niños, adolescentes o adultos relacionados con el aprendizaje y las posibles
dificultades que se puedan presentar en éste, también es fundamental en las asesorías de elección vocacional, pues permiten
visualizar las capacidades, aptitudes y preferencias que la persona posee pero que realmente no es capaz aún de identificar y
de elaborar por sí mismo.
Psicología organizacional y laboral: al igual que en las áreas anteriores, permite acceder a una gran cantidad de información
en un tiempo mínimo, permite despistar trastornos mentales mayores, identificar actitudes, potencialidades y debilidades y
aplicar este perfil en el proceso de selección de personal para un cargo determinado.
Psicología deportiva: su aplicación en esta área se ha incrementado en los últimos años, como lo evidencian los siguientes
artículos:
A lo largo de las últimas décadas, el interés por obtener un mayor conocimiento acerca de los factores que inciden en la obtención
del alto rendimiento deportivo ha ido, sin lugar dudas, aumentando. Este hecho ha provocado que cualquier profesional relacionado
con las Ciencias de la Actividad Física y del Deporte, se haya visto en la necesidad de formularse preguntas del tipo: ¿cómo influye el
estado de ánimo de nuestros deportistas para que obtenga un rendimiento adecuado en la competición?, ¿y su personalidad?, ¿qué
variables psicológicas determinan que, en un momento competitivo puntual, la actuación sea buena o mala?, ¿cómo se puede regular
la ansiedad competitiva?. Cada una de estas cuestiones, así como otras muchas que se suscitan diariamente en la “cabeza” de los
entrenadores y demás componentes del cuerpo técnico que trabaja en un deporte determinado, aquí entra a tallar la importancia de la
relación con la Psicología del Deporte.
Aquí el psicólogo deportivo mediante pruebas o evaluaciones para la medición del comportamiento (conductas, actitudes y
aptitudes) de individuos o equipos en interacciones específicas deportivas, logra descubrir, clasificar, predecir y explicar la conducta
del deportista (o demás personas del contexto deportivo). Teniendo como objetivo la evaluación mediante pruebas psicométricas o
proyectivas para:
- Identificación del comportamiento del deportista.
- Establecimiento de metas que se lograrán con la intervención directa (psicólogo) e indirecta (entrenamiento).
- Como actividad orientadora en la selección de técnicas que nos lleven a una adecuada intervención, de la aplicación del programa
de intervención, que permitirá valorar los resultados de ese programa y su futuro seguimiento.
La cantidad de pruebas que se pueden aplicar en psicología del deporte es muy extensa. Es posible encontrar pruebas de tipo
proyectivas y psicométricas que deben aplicarse de acuerdo a las necesidades propias del deporte, la caracterización del mismo y la
experticia del profesional en la aplicación, análisis y devolución de resultados. Las pruebas o instrumentos de evaluación deben ser
específicos, breves y prácticos, de tal forma que se puedan aplicar en el campo de entrenamiento. Para reconocer el estado del
desarrollo de las destrezas psicológicas que tiene un deportista, es conveniente aplicar un cuestionario que permita construir un perfil
con escalas directamente asociadas al alto rendimiento. En ese grupo de pruebas se destacan la prueba de rasgos psicológicos en
deporte PAR-P1 y el IRP. Otra variable relevante es conocida como la reactivación psicofisiológica, cuyo control es una cualidad
necesaria antes, durante y después de un entrenamiento o participación deportiva.
Para evaluar la ansiedad como estado se definió el uso de la prueba STAI, aunque se están haciendo avances sobre la
estandarización del SCAT, prueba que evalúa la ansiedad de manera específica para el deporte.
La prueba de perfil de estados emocionales (POMS) evalúa el estado emocional con una selección de seis escalas que permiten
verificar la tendencia y magnitud del estado emocional vivido en lapsos de tiempo específicos.
A continuación se presenta una breve reseña de algunas de las pruebas que constituyen la batería de instrumentos usados por los
autores en el procedimiento de evaluación deportiva.
1.- Prueba de rasgos psicológicos para el deporte (PAR-P1). Es una prueba de rápida y sencilla aplicación, estandarizada con
deportistas y con buenos índices de confiabilidad y validez estadísticos, en la cual el deportista indica la frecuencia con que en él se
manifiestan una serie de respuestas o conductas psicológicas ante diferentes situaciones de desempeño deportivo. A partir de sus
respuestas se obtienen puntuaciones en siete escalas: confianza, motivación, atención, sensibilidad emocional, imaginación, actitud
positiva y reto. Se obtiene un perfil individual con el que se compara con el ideal. La prueba consta de 39 afirmaciones que tardan en
responderse 15 minutos aproximadamente. Su calificación puede hacerse de manera manual o sistematizada.
2.- Cuestionario de ansiedad Estado-Rasgo, STAI (C.D. Spielberger, R.L. Gorsuch y R.E. Lushene, 1997). La ansiedad como
rasgo o como estado puede tener un efecto negativo que causa detrimento de la ejecución deportiva. Con este test se mide la ansiedad
Psicometría Página 61
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
de estado (A/E), entendida como un estado o condición emocional transitoria del organismo humano que se caracteriza por
sentimientos subjetivos, conscientes y percibidos de tensión y aprehensión así como por una hiperactividad del sistema nervioso
autónomo. Además permite medir el rasgo (A/R) entendido como una propensión relativamente estable en la tendencia a percibir las
situaciones como amenazadoras que conducen a elevar la ansiedad del estado (A/E). es de rápida aplicación, consta de dos partes y se
puede aplicar de forma individual o colectiva.
3.- Perfil de estados emocionales (POMS). Consta de 65 items que describen adjetivos (furioso, agitado, enérgico entre otros) que
expresan un estado emocional frente al cual el deportista debe responder como se siente en ese momento. La escala varía entre 0 y 4 (0
= nada, 1 = poco, 2 = moderadamente, 3 = bastante, 4 = muchísimo), con esta prueba se obtiene un perfil conformado por las
siguientes sub escalas: tensión, depresión, hostilidad, vigor, confusión y fatiga. Los resultados obtenidos en ellas se contrastan con un
perfil ideal o esperado.
4.- Rejilla de concentración. Esta prueba está constituida por una rejilla de bloques de 10 x 10. Cada bloque contiene un numero de
dos dígitos en una escala que varía entre 00 y 99, localizados de forma aleatoria. La tarea consiste en escrutar la rejilla durante un
minuto para hacer una marca de manera secuencial en tantos números como sea posible, comenzando por el 00. La principal variable
que evalúa es la capacidad de concentración. Según Harris y Harris (1986), se deben realizar entre quince y dieciocho aciertos en 60
segundos.
5.- Tolouse – Pieron. Esta prueba es muy utilizada en el campo de la psicología del deporte. Su objetivo es medir la estabilidad de
la atención del deportista. Para tal fin se evalúan dos variables fundamentales: el coeficiente de trabajo y el índice de la intensidad de
la atención o trabajo productivo. Consta de una grafica de 460 elementos categorizados en cuatro clases de figuras. Se establecen unas
figuras a encontrar y el deportista tiene 90 segundos para localizar las figuras previamente definidas.
6.- Perfil e inventario de personalidad de Gordon (P-IPG). Es un test de personalidad que en dos instrumentos separados mide un
perfil personal (PPG) y un inventario personal (IPG). El PPG mide cuatro aspectos de la personalidad que resultan significativos en la
vida cotidiana: ascendencia (asc), responsabilidad (res), estabilidad (est) y sociabilidad (soc). adicionalmente se puede obtener una
medida conjunta de autoestima (aut), como resultado de la suma de las puntuaciones en los cuatro rangos anteriores. Puede ser
realizado en forma individual y colectiva.
Resumen
El presente trabajo pretende brindar una panorámica sobre las pruebas de terreno más utilizadas en nuestro departamento de
Psicología, destacando su valor práctico para el psicodiagnóstico en el deporte y las condiciones que deben tenerse presente para la
realización de las mismas. Ofrecemos además una clasificación de estas pruebas en función de los objetivos que persigue el test al
aplicarse en el terreno y se exponen algunos resultados derivados de su aplicación.
Palabras clave: Psicodiagnóstico. Terreno. Evaluación
Introducción
Las pruebas de terreno forman parte del psicodiagnóstico en el deporte y constituyen el medio fundamental para el control
psicológico del proceso de entrenamiento deportivo. A través de ellas podemos precisar el desarrollo de las cualidades volitivas
requeridas en el deporte; el nivel de desarrollo de los componentes psicológicos que se encuentran en la base de la regulación de las
diferentes acciones deportivas (saque por zona en voleibol, tiro al aro en baloncesto, etc.); el nivel de eficiencia que posee el deportista
en sus percepciones especializadas, sensaciones motoras, etc.
Tienen cono característica común su forma breve y fácil de aplicación y evaluación. Como su nombre indica, son test que se
aplican en la propia instalación donde se realiza la actividad deportiva (tatami, ring, colchón de lucha; cancha de baloncesto, tenis,
pista de atletismo, piscina, etc.) antes, durante y/o después de la sesión de entrenamiento o competencia.
Durante el proceso de preparación deportiva el entrenador se guía por los resultados que obtiene en los test pedagógicos que
efectúa para controlar la efectividad de sus métodos y medios de enseñanza, así como el grado de desarrollo de capacidades motrices,
dominio técnico táctico y otros valores concretos de rendimiento. Las pruebas de terreno pueden aportar otras valoraciones que
inciden en el aumento o decrecimiento del nivel de preparación deportiva ya que las mismas permiten al entrenador y al propio
deportista determinar los niveles de desarrollo que poseen las capacidades psicológicas, la forma en que se asimilan las cargas e
informar sobre las deficiencias encontradas y que se requieren superar para mejorar el rendimiento.
Psicometría Página 62
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
posición requerida para iniciar la acción hasta el momento en que realiza el primer movimiento para ejecutar la misma. Deben
realizarse no menos de 30 mediciones para determinar el tiempo óptimo de concentración de la atención.
González, l. G. ha registrado el tiempo de concentración en saltadores y considera que la mayor aproximación al promedio típico y
la disminuida variabilidad intersaltos (bajo coeficiente de variación) constituyen indicadores favorables de forma deportiva, mientras
tiempos prolongados muy cortos y/o variables de un salto a otro, expresan dificultades en la preparación.
De cualquier manera, debe tenerse presente que el tiempo de concentración de la atención es individual y que existen deportistas
de clavados y pesas que tienen tiempos de concentración cortos o prolongados y realizan exitosamente sus ejecuciones por lo que lo
más importante es determinar el tiempo óptimo de concentración de la atención, que sería aquel con el que se desempeña exitosamente
en la realización de las acciones correspondientes a su deporte.
III. Pruebas de terreno para evaluar las capacidades coordinativas
Generalmente se utilizan los llamados test deportivos motores.
Test de Balance estático: Parado sobre una pierna, con los ojos cerrados y los brazos a la altura de los hombros, debe mantenerse
en esa posición durante 60". Se alterna con ambas piernas y se detiene la prueba si el deportista pierde el equilibrio. Se tiene en cuenta
el tiempo que se mantuvo en esa posición.
Test de Balance Dinámico: Se dan 5 giros hacia la derecha e izquierda, después caminar sobre una línea recte de 2 metros con los
ojos cerrados. Se toman en cuenta las desviaciones durante el recorrido.
Tapping Test: Existen varias versiones de esta prueba (con seis, cinco y cuatro áreas). Se utiliza para estudiar la capacidad del
deportista para imponer un ritmo de ejecución sobre la base de la fuerza de sus procesos de excitación e inhibición. En la versión
utilizada por nosotros (5 áreas) el deportista debe golpear con un estilete sobre un cuadrante durante 10" a diferentes ritmos.: ritmo
normal- ritmo rápido- ritmo normal- ritmo lento-ritmo normal.
Se cuentan la cantidad de golpes dados en cada ritmo y se analizan las diferencias entre los mismos.
Un ritmo cómodo que se encuentre por debajo o por encima de los valores obtenidos en situaciones similares pudiera ser un
indicador de posibles alteraciones que amenacen el óptimo de excitación para el desempeño. Pasar del ritmo cómodo al rápido
requiere explosividad y disposición energética. González, L. G. ha encontrado incrementos medios de 40 puntos de los hombres
asociados a potenciales de excitación elevados y de 35 puntos en mujeres en eventos de salto. Nosotros hemos encontrado un
incremento de 30 puntos en mujeres de Gimnasia Artística. De cualquier manera el ritmo de incremento no debe ser inferior al doble
de los puntos alcanzados con el ritmo cómodo y debe tenerse siempre en cuenta que estos valores son muy individuales, y lo más
importante es comparar al sujeto consigo mismo en diferentes ejecuciones y teniendo en cuenta las etapas de preparación deportiva. El
ritmo lento debe ser alrededor de la mitad del primer ritmo cómodo, con un error admisible de tres puntos por exceso o por defecto.
Diferencias mayores pueden estar asociadas a dificultades para regular la excitación debido a potenciales de inhibición insuficientes.
Generalmente en la medida en que el sujeto se acerca a su forma deportiva, la diferencia entre los tres ritmos cómodos se acerca a 0.
Prueba de percepción de los esfuerzos musculares: mediante un dinamómetro manual se le pide al deportista la realización del
máximo esfuerzo con su mano dominante y luego se le solicita la ejecución de la mitad de ese esfuerzo. Se aplica antes y después de la
sesión de entrenamiento. De las desviaciones pueden inferirse tendencias a la sobreexcitación (errores en sentido positivo) o a la
excitación disminuida (errores en sentido negativo).
Prueba de tiempo de reacción ante la arrancada: (para eventos de velocidad en atletismo): Mediante un rudimentario
dispositivo acoplado al bloque y al revólver de arrancada se puede estimar los tiempos promedios de las reacciones y sus oscilaciones
y conjuntamente con entrevistas y observaciones se puede determinar el foco de atención del velocista a la hora del disparo.
Prueba para valorar la capacidad de reacción compleja en deportes de combate: Se seleccionan tres movimientos técnicos de
judo, lucha, o boxeo y tres colores diferentes (rojo, amarillo, azul). Ante la presentación de cada color el deportista debe realizar el
movimiento técnico seleccionado para el mismo. Se mide el tiempo de reacción entre la aparición del color y el inicio de la acción. Se
realizan alrededor de 15 aplicaciones en forma aleatoria. Se aplica al inicio de la sesión de entrenamiento.
Prueba de estimación del tiempo:La percepción del tiempo se ve comúnmente influida por los estados interiores del deportista
por lo que muchos autores la han empleado para conocer el nivel de autocontrol y de estados situacionales de ansiedad. Se aplica antes
de la competencia o de la sesión de entrenamiento para determinar estos estados. También puede realizarse después de la sesión de
entrenamiento para valorar los efectos de la carga recibida sobre esta percepción.
Prueba de percepción de la distancia central y periférica: En lugar de utilizar el cajón de profundidad manual de Gober o el
campímetro, se llevan a cabo mediciones en el terreno con sujetos de referencia con camisetas deportivas de diferentes colores que se
sitúan en diferentes puntos del terreno. Se anotan las diferencias entre la posición en que el examinado percibe al sujeto y aquella en
que se encuentra en realidad. Resultan de gran utilidad en equipos deportivos como baloncesto, fútbol, balonmano donde el deportista
enfrenta durante el juego a contrarios con camisetas de diferentes colores. Investigaciones realizadas por Sáenz, N. encontraron que la
diferencia de color de la camiseta introducía cambios en los resultados de las pruebas.
Psicometría Página 64
Prof. René Castro Test Psicológicos. Análisis de ítems UBA
Psicometría Página 65