Psicometría
Psicometría
La Psicometra no tiene un campo de actuacin especfico, abarca todos los campos de la Psicologa y
se ubica en el rea denominada Metodologa de las Ciencias del Comportamiento. La Metodologa
estudia las estrategias y procedimientos que, de una forma ms o menos estructurada, se utilizan para
la obtencin de los conocimientos que configuran una disciplina cientfica. Por otra parte, las Ciencias
del Comportamiento son aquellas que estudian la conducta mediante la utilizacin del mtodo
cientfico, con el fin de encontrar estructuras generales o leyes. Dentro del marco de la Metodologa de
las Ciencias del Comportamiento se pueden considerar tres bloques:
Los Diseos de Investigacin se refieren fundamentalmente a la operativizacin de las variables
incluidas en la hiptesis y la elaboracin de un plan de trabajo, o procedimiento para la recogida
de datos, que sea coherente con la mencionada hiptesis.
El Anlisis de datos, se refiere a las tcnicas necesarias para llevar a cabo el tratamiento
estadstico de los mismos; el anlisis abarca desde la simple descripcin o representacin grfica,
a procedimientos ms complejos de ajuste de modelos o contrastes de hiptesis.
La Psicometra, incluye todo lo referente a la medicin. Proporciona las reglas que van a permitir
llevar a cabo el proceso de operativizacin de las variables que se quieren medir. Una vez
obtenidas las medidas mediante la asignacin de nmeros, los modelos psicomtricos facilitarn
un anlisis del error que les afecta (fiabilidad de las medidas) y, a su vez, los estudios de
validacin permitirn hacer inferencias acerca de las relaciones entre los datos empricos
obtenidos (medidas) y el constructo o variable psicolgica que se quiere medir.
De acuerdo con Coombs, Dawes y Tversky (1981) se considera que uno de los papeles
fundamentales asignados a la Ciencia es la descripcin, explicacin y prediccin de los fenmenos
observables por medio de unas cuantas leyes generales que expresen las relaciones entre las
propiedades de los objetos investigados. En las ciencias ms avanzadas las leyes expresan relaciones
cuantitativas, lo cual indica que las propiedades de los objetos se pueden representar por medio de
nmeros mediante un proceso de medicin.
Actualmente la medicin se considera como la asignacin de nmeros a entidades o eventos con
el fin de representar sus propiedades y sus relaciones. La medicin de las caractersticas psicolgicas
es difcil, se trata de conceptos abstractos, constructos tericos (o variables latentes) cuya medida no
puede llevarse a cabo de forma directa sino que debe inferirse a travs de una serie de conductas
representativas de dicho constructo. As, para Zeller y Carmines el proceso de medir enlaza
conceptos abstractos (los constructos inobservables directamente) con indicadores empricos
observables directamente (las conductas). Este tipo de medicin se llama medicin por indicadores.
A la hora de interpretar las puntuaciones obtenidas por los sujetos hay dos formas de afrontar el
problema de las unidades de medida::
La Norma (forma ms habitual): consiste en comparar los resultados obtenidos por el sujeto con
los obtenidos por un grupo de sujetos que forman el grupo normativo de la misma poblacin.
El Criterio (se interpreta en relacin a un criterio establecido previamente). Los resultados
obtenidos se comparan con dicho criterio (un punto crtico) y la superacin o no del mismo es lo
que va a dar significado a las puntuaciones obtenidas.
La medicin psicolgica tiene una serie de objetivos comunes sea cual sea el campo de estudio:
Estimar los errores aleatorios que conlleva toda medicin (fiabilidad de las medidas)
Garantizar que la medida no es algo intil, sino que sirve para explicar y predecir los fenmenos
de inters (validez de las medidas)
El propsito del escalamiento de estmulos es determinar las caractersticas que los sujetos perciben
en ellos y, por tanto, la respuesta del sujeto (o sujetos) es una respuesta subjetiva que nos va a
permitir diferenciarlos y escalarlos; es decir, asignar un valor numrico a cada uno de los estmulos.
En este caso los estmulos se sitan a lo largo del continuo y los sujetos, que han emitido juicios sobre
los estmulos, actan como instrumento de medida.
Cuando el objeto a escalar son los sujetos se utiliza una muestra extrada de forma aleatoria de la
poblacin y todos los sujetos responden al mismo conjunto de estmulos (un test). Las respuestas
emitidas por los sujetos proporcionan una puntuacin numrica para cada sujeto de la muestra (las
diferencias entre puntuaciones reflejan la diferencia entre sujetos respecto al atributo o caracterstica
que se est midiendo).
En este caso los sujetos se sitan a lo largo del continuo y los estmulos actan como instrumento de
medida.
Hay casos que interesa situar en el continuo sobre el que vara el atributo que se est estudiando tanto
a los estmulos como a los sujetos. La posicin de cada sujeto respecto del atributo que se est
analizando (su actitud, aptitud, sentimientos, etc.) es un factor que determina su respuesta
(Torgerson: aproximacin centrada en la respuesta)
En sus orgenes el escalamiento estuvo asociado a las escalas de estmulos (proceso de construccin
de escalas para la cuantificacin de estmulos). Todo lo referente a la cuantificacin de los sujetos para
apreciar de forma sistemtica las diferencias individuales (escalar a los sujetos) lo estudiaremos en el
marco de la Teora de los Test.
En la actualidad esta distincin est superada (se mantiene por cuestiones didcticas)
Constante de WEBER A partir del trmino acuado por Herbart umbral mnimo que alude a la
mnima intensidad que debe tener un estmulo para que se pueda percibir; Weber comienza a
desarrollar los mtodos psicofsicos, que le iban a permitir el clculo de los umbrales y enunciar su ley.
Para medir la relacin entre estmulos y sensaciones Fechner introdujo los conceptos de Umbral
Absoluto (magnitud fsica del estmulo que se requiere para que se produzca una sensacin) y
Umbral Diferencial (incremento mnimo, en la magnitud fsica del estmulo, que se requiere para que
el sujeto perciba un cambio de sensacin). La ley de Fechner establece que cuando la magnitud fsica
del estmulo est en el umbral absoluto la sensacin es nula, y que si se aumenta la estimulacin en
proporcin geomtrica las sensaciones aumentarn aritmticamente. Es decir, que cada vez se
necesitar un mayor incremento en la estimulacin fsica para que se perciba un cambio en la
sensacin.
A la ley se le critica que los estmulos de muy alta intensidad o muy baja intensidad no se ajustan bien
a ella y que tampoco lo hacen todos los sistemas sensoriales (Fechner inicia la Psicologa cuantitativa)
Funcin potencial de STEVENS Desarroll los mtodos directos de escalamiento. Stevens trata
de encontrar una funcin que relacione estmulos y respuestas. Esta funcin es una funcin potencial.
Emparejamiento de magnitudes: por modalidad cruzada (dos continuos fsicos diferentes que
el sujeto debe emparejar segn su magnitud); por estimacin de magnitudes (a partir de un
estmulo estndar, que se toma como referencia, el sujeto va asignando valores al resto de los
estmulos); por produccin de magnitudes (se presentan al sujeto una serie de nmeros, de uno
en uno y de forma aleatoria, la tarea consiste en modificar la magnitud de los estmulos en funcin
de los nmeros presentados)
Emparejamiento de razones: se presentan dos estmulos que guardan una determinada
proporcin y se pide al sujeto que ajuste otros dos segn esa proporcin (modalidad cruzada); se
asignan razones numricas a las razones entre las magnitudes de los estmulos (estimacin de
razones) y producir otro estmulo que guarde con un estndar una proporcin igual a la que se
sugiere (produccin de magnitudes)
Emparejamiento de intervalos: emparejar intervalos entre los estmulos de dos continuos
(modalidad cruzada); mediante nmeros estimar las diferencias (estimacin de razones) y
encontrar estmulos intermedios entre otros dados (produccin de magnitudes)
Escalas de categoras o clasificacin: asignar estmulos a categoras predeterminadas y
averiguar sus valores escalares.
Los mtodos desarrollados por Stevens estn centrados en medir la capacidad de los sujetos para
hacer estimaciones subjetivas acerca de la magnitud de los estmulos y comprobar hasta qu punto
los juicios emitidos se ajustan a los datos reales (magnitud real de los estmulos)
A partir de las ideas de Fechner (sin recurrir a medidas de tipo fsico) se desarrollan las escalas
psicolgicas o subjetivas. Thurstone ha sido la figura que ms contribuy a su desarrollo, aportando
un modelo basado en la variabilidad perceptual de los sujetos, e incluso de un mismo sujeto cuando se
le presentan los mismos estmulos en distintas ocasiones, y en la limitacin que tienen los sujetos para
percibir las diferencias de magnitud entre dos estmulos cuando estas son muy pequeas. Las
ecuaciones de su modelo matemtico se denominan:
Ley de juicio comparativo (mtodo de las comparaciones binarias)
Ley de juicio categrico (mtodo de intervalos sucesivos, aparentemente iguales y de
ordenacin de rangos)
Estos modelos y sus mtodos asociados se desarrollaron, en principio, para la construccin de escalas
unidimensionales (permitieran ordenar un conjunto de estmulos y/o sujetos respecto a un nico
atributo o caracterstica). Ms tarde, se desarrollaron mtodos de escalamiento multidimensional
El intento por apreciar de forma sistemtica las diferencias individuales (escalar a los sujetos) llev al
desarrollo del Mtodo de los Tests y de las distintas Teoras de los Tests.
Un Test es un instrumento de medicin diseado especialmente para estudiar de un modo objetivo y
sistemtico el nivel de los sujetos respecto a algn atributo, caracterstica o dominio de conocimientos
(a partir de las puntuaciones de los sujetos en el test, se analizan las diferencias existentes entre ellos)
Hay tres factores que se pueden considerar decisivos en el desarrollo de los test:
La apertura del laboratorio antropomtrico de Galton en Londres (recurri a la correlacin como
medida de asociacin y fue el primero en aplicar el concepto estadstico de distribucin normal, de
media, de mediana, varianza y correlacin a datos psicolgicos)
El desarrollo de la correlacin de Pearson
La interpretacin de Spearman (considerando que la correlacin entre dos variables indica que
ambas tienen un factor comn)
Los primeros Tests mentales: Para Cattell (primer autor en utilizar el trmino), los test constituan un
sistema uniforme que permita comparar y combinar, en lugares y momentos diferentes, la medida de
las funciones mentales. Comparta con Galton la creencia de que se poda medir el funcionamiento
intelectual de las personas mediante test de discriminacin sensorial y midiendo el tiempo de reaccin
(no medan inteligencia)
Los primeros Test de inteligencia: el primero en destacar la importancia de los procesos mentales
superiores para estudiar las diferencias individuales fue Binet. Binet y Simon (1905) publicaron la
primera escala de inteligencia (ya no se ocupaba de las funciones sensoriales o motoras, se centraba
en la capacidad de razonamiento y comprensin de los nios). Terman adapt el test (Stanford-Binet),
introdujo el concepto de edad mental (equivale a la edad cronolgica de los nios intelectualmente
normales) y defini la inteligencia como la habilidad para llevar a cabo razonamientos abstractos. Para
medir la inteligencia utiliza el concepto, acuado por Stern:
Cociente intelectual CI = (Edad Mental / Edad Cronolgica) x 100
Los test colectivos: comienzan a utilizarse con la entrada de EEUU en la Primera Guerra Mundial
(seleccionar y clasificar a las personas disponibles para el ejrcito segn sus posibilidades). Yerkes
sera el encargado de investigar nuevos procedimientos que posibilitaran la administracin de Tests en
el ejrcito. As, se crearon:
Test Alpha: diseado para la poblacin general.
Test Beta: para los reclutas analfabetos o aquellos que no dominaban el ingls.
Una vez finalizada la guerra el uso de test se extendi a la industria y al resto de instituciones. En 1922
Cattell fund la primera empresa dedicada a la publicacin masiva de test, y a partir de ah empezaron
a utilizarse como instrumento de seleccin en la administracin americana. En 1938 apareci el Test
de Weschler-Bellevue para la medicin de la inteligencia en adultos y en 1949 una versin para nios
conocida como WISC. En 1955 apareci una revisin de la escala anterior conocida como Weschler
Adult Intelligence Scale (WAIS). La aparicin de estas escalas supuso un avance en el desarrollo de
los Test (debido a la falta de efectividad que tena el test de Stanford-Binet aplicado a adultos)
La influencia del anlisis factorial respecto a los test de inteligencia fue doble:
Facilit una fundamentacin terica, mostrando que en la mayor parte de las funciones
cognoscitivas interviene un factor general g comn a todas ellas.
Los resultados del anlisis factorial subrayan la importancia de estudiar otras aptitudes ms
especficas en el campo de la inteligencia.
Las bateras de aptitud mltiple: facilitan una medida de posicin de cada sujeto en un cierto nmero
de rasgos (en lugar de un CI, se obtiene una puntuacin por separado de cada rasgo). Un ejemplo
destacado es la Batera de Aptitudes Mentales Primarias (Thurstone) que incluye pruebas para la
medida de los componentes fundamentales del comportamiento inteligente (comprensin verbal,
fluidez verbal, aptitud numrica, aptitud espacial, memoria, rapidez perceptiva y razonamiento general)
Durante la primera mitad siglo XX aparecen los Test Proyectivos (Rorschach dise el primer test que
pretenda dar una visin global y comprensiva de la personalidad, se conocido como el Test de las
manchas de tinta). La mayora se asocian con la psicologa clnica y, en especial, con el Psicoanlisis.
En 1926 aparece el test de Dibujo de la Figura Humana de Machover y en 1938 el Test de Apercepcin
Temtica (TAT). En general son de escasa utilizacin.
Medicin de intereses y actitudes: Entre los instrumentos clsicos para la medida de los intereses
destacan el Cuestionario de Intereses Vocacionales de Strong (SVIB) y la Escala de Preferencias de
Kuder en 1934. En cuanto a la medida de las actitudes, creencias y opiniones destaca Thurstone y
sus dos leyes ya mencionadas (Ley del Juicio Comparativo y Ley del Juicio Categrico).
Ms tarde se desarroll la Tcnica de Likert (basada en los mismos principios que los test de
aptitudes) intentaba paliar alguno de los inconvenientes de las escalas de Thurstone (entre otros, la
prueba de jueces). Con el fin de medir el significado connotativo, afectivo o subjetivo, que
determinados estmulos tienen para los sujetos, Osgood cre una escala de clasificacin, el
Diferencial Semntico.
LOS TESTS REFERIDOS A CRITERIO (TRC) FRENTE LOS REFERIDOS A NORMAS (TRN)
Glaser distingui dos aproximaciones a la medicin del rendimiento (referida al criterio y referida a la
norma). Las diferencias entre TRC y TRN aluden a cinco aspectos fundamentales:
Glaser Los TRC son aquellos en los que los resultados dependen del estatus absoluto de calidad
del estudiante, frente a los TRN que dependen del estatus del grupo. Permiten a psiclogos y
educadores la evaluacin de los estudiantes en funcin de su conocimiento o no de una materia
determinada (TRC) en lugar de hacerlo slo en relacin a otros estudiantes (TRN)
Los Test Adaptativos Informatizados (TAIs): se denominan as porque la seleccin de los tems se
va haciendo a lo largo del proceso de administracin (se utiliza el ordenador para hacer la seleccin),
de manera que los tems se pueden adaptar al nivel de cada sujeto para que no le resulten ni
demasiado fciles ni demasiado difciles.
Es necesaria para desarrollar un marco terico que sirva de fundamento a las puntuaciones
obtenidas por los sujetos, que posibilite la validacin de las interpretaciones e inferencias realizadas a
partir de ellas y que permita la estimacin de los errores de medida. En definitiva, medir hasta qu
punto las puntuaciones obtenidas por los sujetos en un test (variable observable) equivalen a sus
puntuaciones verdaderas o habilidades que se estn midiendo (variable inobservable) y cul es la
cuanta del error de medida que les afecta (fiabilidad de las puntuaciones) y la validez de las
inferencias o conclusiones que se pueden sacar a partir de las mismas (Validez)
Teora Clsica de los Tests (TCT) Se desarrolla, fundamentalmente, a partir de las aportaciones
de Galton, Pearson y Spearman, y gira en torno a tres conceptos bsicos:
(X) Puntuaciones empricas y observadas (obtenidas por los sujetos cuando se les aplica un test)
(V) Puntuaciones verdaderas (las que realmente tienen los sujetos en el rasgo o constructo
medido y coinciden con las empricas cuando no existen errores de medida)
(E) Puntuaciones debidas al error: asociado al sujeto (fatiga, estado emocional, etc.), al propio test
(formato) a las condiciones ambientales, a los aplicadores, etc.
Para establecer la relacin funcional entre estos conceptos Modelo lineal (Spearman)
Teora de Respuesta al tem (TRI) surge de la crtica a la TCT (las puntuaciones de los sujetos
estaban en funcin de que los tems fueran ms fciles o difciles y las estadsticas de los tems,
ndices de dificultad y discriminacin, dependan de la muestra de sujetos utilizada para su clculo)
Gulliksen y Lord se interesaron en el desarrollo de teoras y modelos que permitieran describir los
niveles de habilidad de los sujetos con independencia de la muestra de tems o de tareas utilizados
para su evaluacin, y el clculo de los estadsticos de los tems con independencia de la muestra de
sujetos utilizada La solucin TRI.
Curva Caracterstica del tem se deriva de la relacin funcional entre los valores de la variable que
miden los tems (nivel de habilidad de los sujetos) y la probabilidad de que los sujetos, en funcin de
DIFERENCIACIN TERMINOLGICA
ESCALA: hace referencia a los instrumentos elaborados para medir variables no cognitivas
(preferencias, opiniones, etc.) y se caracteriza porque los sujetos han de responder eligiendo, sobre
una escala de categoras graduada y ordenada, aquella categora que mejor represente su posicin;
no hay respuestas correctas o incorrectas, y la puntuacin total en la escala ser la suma de las
puntuaciones asignadas a las categoras elegidas por los sujetos.
Ej. Escala: Debera estar prohibido fumar en todos los restaurantes?: a) Completamente de acuerdo;
b) De acuerdo; c) Indiferente; d) En desacuerdo; e) Completamente en desacuerdo.
CUESTIONARIOS: formados por tems o elementos que no estn necesariamente relacionados unos
con otros, cuyas opciones de respuesta no estn ordenadas ni graduadas, que pueden ser puntuados
e interpretados individualmente y en los que tampoco hay respuestas correctas e incorrectas. Se
utilizan para obtener una mayor informacin del sujeto y de su entorno (edad, profesin, estudios, etc.).
Son tpicos en las investigaciones mediante encuestas.
INVENTARIO: vinculado a los instrumentos elaborados para medir variables de personalidad. Las
respuestas no son correctas o incorrectas, lo nico que demuestran es la conformidad o no con los
enunciados de los tems.
Ej. Inventario: A menudo me siento como si los dems me ignoraran (V F) // El problema de mucha
gente es que no toma las cosas en serio (V F)
El objetivo del test es el paso previo que va a condicionar las siguientes etapas
Como paso previo para la construccin del test, es necesario tener claro su objetivo (lo que se quiere
medir, a quien se quiere medir y para qu se quiere medir):
Constructo (variable objeto de estudio) Variable psicolgica no observable de forma directa
(se manifiesta a travs de conductas que s son observables de forma directa y son las que se
miden). Es decir, que para construir un test, lo primero que hay que hacer es definir el/los
constructo/s que lo forman y as determinar mejor las conductas que los representan.
Poblacin a la que va dirigido Segn el tipo de poblacin al que va dirigido (infantil, adultos,
etc.), variar el contenido de los tems, su redaccin, la longitud del test, las instrucciones, etc.
Utilizacin prevista: Decisiones que se van a tomar (para qu se va a utilizar)
Si tenemos en cuenta que un test es una herramienta que permite obtener datos para la medicin y
evaluacin de alguna caracterstica o atributo psicolgico (constructo), la medicin no ser vlida a
menos que el test se adecue a su objetivo.
Usos ms frecuentes y decisiones que se suelen tomar a partir de las puntuaciones obtenidas
mbito educativo: alumnos aptos / no aptos.
Seleccin mbito profesional: seleccin de aspirantes.
Clasificacin / Colocacin En cualquier mbito
Diagnstico En cualquier mbito, para detectar problemas de aprendizaje, etc.
Certificacin Para acreditar diversas cualificaciones o competencias, tanto en el
mbito profesional como acadmico.
Orientacin / Consejo Detectar las capacidades e intereses de las personas para, examinando
las distintas opciones, elegir aquella/s que mejor se adecuen a su perfil.
Descripcin / Informacin Describir el rendimiento acadmico tanto a nivel individual como
colectivo. Obtener informacin acerca de la opinin pblica.
Para desarrollar las especificaciones del test hay que tener en cuenta cuatro aspectos fundamentales:
Cada casilla de la matriz representa la interaccin entre un rea de contenido y un proceso, esto
facilita la redaccin de tems que cubran todos los aspectos que se consideran relevantes. El nmero
de tems y los porcentajes reflejan la ponderacin de la importancia que se les conceden. Una vez
asignadas las ponderaciones, la versin piloto debe contar como mnimo con el doble o el triple de los
tems de la versin final del test.
Es importante que estn representadas todas las reas de la Psicometra para que tenga validez y que
en cada una de ellas haya nmero suficiente de tems para asegurar la fiabilidad.
tems de eleccin: Son tems de respuesta cerrada, donde el sujeto elige una o varias alternativas de
entre las propuestas. Entre los formatos ms comunes destacan:
Dos alternativas (se elige entre V F; Si No; Correcto Incorrecto). Se utilizan para medir
variables de tipo cognitivo (habilidades, aptitudes y sobre todo para la construccin de test de
conocimiento y rendimiento). Ventaja: es rpido y fcil de usar. Inconveniente: los sujetos que
responden al azar tienen un 50% de posibilidad de elegir la respuesta correcta.
Eleccin mltiple (se elige entre alternativas u opciones de respuesta de las cuales una es la
correcta y las otras son incorrectas (distractores). Se utiliza para medir variables cognitivas y sobre
todo en test de conocimiento y rendimiento. Ventaja: son fciles de administrar, corregir y puntuar.
Inconveniente: son ms difciles de construir que los de dos alternativas.
Emparejamiento (el sujeto debe emparejar los elementos de dos columnas de acuerdo a las
instrucciones dadas en el enunciado). Se utilizan para medir variables de tipo cognitivo.
Formato Cloze o incompleto (frase con espacio en blanco para rellenar con palabra de una lista)
Los formatos anteriores se utilizan para la medida de habilidades, aptitudes y conocimientos (de
antemano se decide la respuesta correcta). Los test con este tipo de tems Tests objetivos.
Escalas de clasificacin (rating scales): Las alternativas de respuesta estn ordenadas de forma
gradual en una serie de categoras a lo largo de un continuo (totalmente de acuerdo; de acuerdo;
indiferente; etc.). Tambin se las denomina escalas valorativas (los sujetos tienen que emitir
juicios de valor). Ventaja: los sujetos expresan su postura de una manera ms precisa.
Inconveniente: el significado de las opciones de respuesta no es el mismo para todos los sujetos,
aparecen sesgos en las respuestas (opciones extremas, categoras centrales, etc.)
Listados (checklists): Tambin es una escala valorativa en la que los sujetos han de mostrar su
opinin sobre algn hecho. Las opciones son independientes entre s ( escalas clasificacin); y
no hay respuestas correctas o incorrectas. El nmero de respuestas suele ser grande y es posible
elegir varias opciones. Es un formato tpico de los cuestionarios.
Las escalas de clasificacin y los listados se utilizan para la medida de variables de personalidad,
actitudes, opiniones, etc. Variables no cognitivas. No hay respuestas correctas o incorrectas.
De respuesta corta (el sujeto elige una palabra o frase sin que se le presente en ninguna lista)
De respuesta extensa o de ensayo (se pide a los sujetos que desarrollen un tema): se da la
oportunidad de expresarse con sus propias palabras (se puede evaluar el nivel de conocimientos,
la forma de estructurarlos, las habilidades cognitivas de orden superior, los procesos cognitivos
que ponen en marcha a la hora de solucionar un problema, opiniones, afectos, etc.)
Inconvenientes: las respuestas son difciles de analizar y valorar pues el investigador tiene que
codificarlas en una serie de categoras antes de comenzar el anlisis. Cuando la poblacin es pequea
se utilizan tests con tems de respuesta corta.
C.- Longitud del test: no hay un nmero de tems adecuado, depende de cada caso. Son muchos los
factores que hay que tener en cuenta (la poblacin a la que va dirigido, el tiempo del que se dispone,
los objetivos del test, etc.). En todos los casos se recomienda que el nmero de tems de la prueba
piloto sea mayor que el de la versin final.
Nivel de dificultad Un tem es fcil o difcil, para una determinada poblacin, en funcin de la
probabilidad que tengan de responder a l correctamente. Podemos distinguir tres tipos de tests:
Test de velocidad: los tems deben ser fciles de resolver. La dificultad est en el tiempo limitado
de ejecucin.
Test de ejecucin mxima (Test de potencia): se utiliza para la evaluacin del rendimiento
acadmico y para la medida de las aptitudes y destrezas. Aqu los tems tienen diferentes grados
de dificultad (de muy fciles a muy difciles); y el tiempo de ejecucin no es un factor importante.
Test de ejecucin tpica: son los test de personalidad, actitudes, intereses, etc. Como no hay
respuestas correctas e incorrectas, no se puede hablar de dificultad de los tems
Homogeneidad En relacin con los dems tems (un tem tendr un alto grado de homogeneidad
con el resto de tems que forman el test cuando mida lo mismo que ellos). Si el constructo a medir es
unidimensional, los tems han de ser ms homogneos que si el constructo es multidimensional.
Capacidad de discriminacin Un tem tendr poder discriminativo en la medida en que sirva para
diferenciar entre sujetos que han obtenido en el test puntuaciones extremas. Depende de la poblacin
a la que va dirigida el test.
Recomendaciones generales:
Evitar la ambigedad de los enunciados (enunciados cortos y directos)
Evitar enunciados que provoquen respuestas sesgadas (aquella que es ms probable que elijan
los sujetos independientemente de su opinin)
Expresar una nica idea en el enunciado.
Evitar las dobles negaciones en los enunciados (hacen que los sujetos no sepan cul es la
respuesta que representa su opinin)
Dos alternativas: Verdadero-Falso: (1.- Estar completamente seguro de que el tem es verdadero o
falso. 2.- No utilizar frases que sean universalmente verdaderas o falsas. 3.- Evitar poner en el
enunciado palabras que puedan inducir la respuestas correcta (como siempre, todo, nada, nunca, a
veces, en general, etc.). 4.- Evitar patrones de respuesta, colocando a lo largo del test, de forma
aleatoria, los tems cuyo enunciado sea correcto.
Eleccin mltiple: 1.- Asegurarse de que el enunciado del tem formula el problema con claridad. 2.-
Incluir la mayor parte del texto en el enunciado para evitar repeticiones innecesarias en las opciones
de respuesta. 3.- Incluir distintas opciones de respuesta al final del enunciado. 4.- Asegurarse de que
los distractores, son plausibles. 5.- Evitar opciones de respuesta como: ninguna de las anteriores o
todas las anteriores. 6.- Que slo haya una opcin correcta, a no ser que se indique lo contrario
claramente en las instrucciones. 7.- Tratar de que todas las alternativas de respuesta tengan una
longitud aproximada igual y con una construccin gramatical parecida. 8.- Aleatorizar la ubicacin de la
alternativa correcta. 9.- Hacer que todas las alternativas le parezcan igualmente atractivas a una
persona no informada del problema al que alude el enunciado. 10.- Asegurarse de que cada alternativa
concuerda gramaticalmente con el enunciado del tem. Si el enunciado est en singular, asegurarse de
que cada alternativa est en singular.
Emparejamiento: 1.- Asegurarse de que tanto las premisas como las opciones de respuesta que hay
que emparejar son homogneas. 2.- Utilizar el formato adecuado (las premisas se deben presentar de
forma aleatoria en una columna a la izquierda y en una columna paralela, situada a la derecha, se
deben presentar las distintas alternativas de respuesta) 3.- El enunciado del tem debe reflejar
claramente la tarea que se espera del sujeto y la forma en que hay que llevar a cabo el
emparejamiento.
Formato Cloze o incompleto: Necesario que en el enunciado del tem haya tantos espacios en blanco
como alternativas de respuesta; si no es as, debe constar en las instrucciones.
Escalas de Clasificacin: 1.- Evitar expresiones coloquiales, por si alguien no las conoce. 2.- Incluir
en el test completo aproximadamente el mismo nmero de tems formulados de manera positiva y
negativa. 3.- Asignar las etiquetas lingsticas (al menos en los extremos de la escala deben aparecer
las etiquetas lingsticas para facilitar la respuesta de los sujetos). Tambin es conveniente introducir
una categora central que represente el punto medio o neutral (no s, indiferente, ni de acuerdo ni en
desacuerdo) pues refleja la actitud u opinin de muchas personas.
tems de respuesta corta: 1.- Asegurarse de que el enunciado puede ser contestado con una nica
frase o palabra y que hay una nica respuesta correcta. 2.- Los espacios en blanco para las respuestas
han de ser de la misma longitud. 3.- Evitar dar pistas de la respuesta correcta, (por ejemplo con el
artculo de antes de la palabra etc.). 4.- Indicar el grado de precisin exigido, (por ejemplo el nmero de
decimales). 5.- Evitar determinantes especficos como Todo o Nada y ambiguos como Frecuentemente
o Algunas veces.
tems de respuesta extensa o de ensayo: 1.- Asegurarse de que el problema est bien enfocado,
con palabras que definan claramente la tarea (Compare, Contraste, etc.). 2.- No permitir a los sujetos
que elijan entre varias preguntas de ensayo. 3.- Decidir de antemano cmo se van a puntuar las
preguntas de ensayo. 4.- Redactar las preguntas referidas a cuestiones controvertidas de manera que
los sujetos que las deben responder sean evaluados en relacin a la evidencia que presentan, no a su
posicin personal respecto al tema.
Los sesgos de respuesta: Este tipo de respuestas suelen aparecer en tests construidos para la
medida de aspectos afectivos. Principales sesgos:
Aquiescencia: tendencia a responder sistemticamente que se est de acuerdo (o en
desacuerdo) con el enunciado del tem, con independencia de su contenido.
Deseabilidad social: responder de manera socialmente aceptada.
Indecisin o tendencia a seleccionar la alternativa central o neutra: no se, ni acuerdo ni
desacuerdo, indiferencia.
Respuesta extrema o tendencia a elegir como respuesta las categoras de los extremos con
independencia del contenido del tem.
Una vez redactados los tems y antes de dar forma a la prueba piloto, es conveniente que sean
revisados por un grupo de personas que no hayan intervenido en su elaboracin (expertos que
analicen todos aquellos aspectos que contribuyen a la calidad del tem). Una vez revisados, se
puede construir la versin preliminar del test (prueba piloto), con aquellos tems que han pasado este
primer control de calidad.
Instrucciones de administracin:
Evitar un leguaje ampuloso y/o amenazante.
En los test de ejecucin mxima se debe explicar que hay algunos tems que resultarn muy
difciles para todos los sujetos (la prueba est pensada para que haya ejercicios que no puedan
resolver). Si se incluye esta observacin se reducir la ansiedad de los sujetos.
En los test de velocidad, avisar que el tiempo est limitado y muy pocos llegarn al final; tambin,
hay que explicitarlo en las instrucciones.
Las instrucciones deben proporcionar uno o ms tems de ejemplo.
Las instrucciones deben informar acerca de cmo distribuir el tiempo y qu hacer cuando no se
conoce la respuesta de un tem.
Las instrucciones deben animar al sujeto a responder a todas las preguntas y favorecer as su
rendimiento (tiende a bajar considerablemente cuando se dejan muchas respuestas en blanco)
Las instrucciones deben explicitar claramente la forma de responder.
Formato de presentacin y de registro de las respuestas: Una vez elaboradas las instrucciones hay
que organizar y ordenar los tems seleccionados para su posterior presentacin a los sujetos y decidir
el formato de registro de respuesta.
El formato debe ser claro y perfectamente legible.
Debe solicitar al comienzo la identificacin del sujeto.
Presentar las instrucciones
Presentar los tems (para medir variables cognitivas es importante que se coloquen ordenados en
funcin del nivel de dificultad, de menos a ms para evitar desmotivar al sujeto y que deje de
responder. En pruebas no cognitivas las preguntas embarazosas deben aparecer al final de lo
contrario el sujeto podra dejar de contestar)
Los formatos diferentes deben aparecer agrupados para evitar el desconcierto.
Hay que tratar de que los tems sigan una ordenacin lgica.
Una vez construida la prueba es necesario hacer un estudio piloto para su evaluacin psicomtrica (ver
si cumple los requisitos necesarios para considerarla un instrumento cientfico de medicin).
Formas de controlar la subjetividad: Siempre que se emite un juicio de algo es inevitable un cierto
grado de subjetividad que hay que tratar de eliminar o, al menos, controlar.
En los test formados por tems de eleccin (respuesta cerrada): el examinador no debe realizar
ninguna valoracin de las respuestas emitidas por los sujetos, eliminndose la posibilidad de introducir
subjetividad en las puntuaciones asignadas.
A.- Pruebas cognitivas: Se conoce de antemano cual es la respuesta correcta, solo hay que
comprobar si coincide. Un inconveniente grave es la posibilidad de que un sujeto, desconociendo la
respuesta, elija por azar la correcta (la puntuacin final no se corresponde con su verdadero nivel).
Para evitarlo se utiliza una frmula de correccin (penalizando errores o bonificando las omisiones)
Xi Puntuacin Total
i= 1
La puntuacin en un test con cuatro alternativas de respuesta , corrigiendo los efectos del azar, que
le corresponde a un sujeto que ha contestado 150 elementos y de esos ha acertado 120:
B.- Pruebas no cognitivas: No hay respuestas correctas ni incorrectas, los tems llevan asignado un
valor para cada alternativa de respuesta, lo que implica un escalamiento previo de los tems en
funcin del grado de atributos que manifiesten. La forma de corregir es sumando los valores
numricos asignados a las alternativas o categoras de repuesta elegidas por el sujeto.
Cuando se utiliza un formato de escalas de categoras o clasificaciones hay que tener muy claro cul
es la direccin del continuo de la variable que se est midiendo.
En los test formados por tems de construccin: Cuando se trata de que el sujeto construya la
respuesta correcta con una palabra o frase corta (tems de respuesta corta) es fcil la asignar una
puntuacin. El problema aparece en las respuestas ms abiertas y extensas, en las que es ms difcil
corregir eliminando la subjetividad.
Mtodo de la puntuacin Analtica (Requiere): Definir de forma inequvoca y aislar las dimensiones
que se consideran importantes para la realizacin de la tarea a evaluar. Establecer las formas de
evaluarlas, definiendo claramente lo que se considera una respuesta adecuada o correcta en cada
dimensin y estableciendo el nmero de respuestas correctas que se necesitan, en cada una de ellas,
para poder decir que la tarea ha sido correctamente realizada. Las pruebas pueden ser corregidas por
personas que no sean expertas en la materia a evaluar, ya que no habr dificultad en decidir si la
respuesta es correcta o no. La puntuacin final viene expresada por dos nicos valores: correcta /
incorrecta, apto / no apto; pero se obtiene informacin de cada una de las dimensiones.
Mtodo de la puntuacin Holstica: Evala de una manera global u holstica la forma en que los
sujetos han realizado la prueba (la puntuacin asignada podr tomar distintos valores dentro de los
lmites establecidos). Requiere que la correccin de las pruebas sea hecha por expertos, entrenados
para alcanzar un acuerdo entre ellos y eliminar la subjetividad.
INTRODUCCIN
Las tcnicas que se van a exponer, aunque se centran en la construccin de escalas para la
medicin de actitudes, se pueden adaptar para su utilizacin en la medicin de intereses y valores.
La variabilidad perceptual de los sujetos (en las diferencias que hay entre los sujetos a la hora
de percibir los estmulos, e incluso en las diferencias perceptivas producidas en un mismo sujeto
cuando se le presentan los estmulos en distintas ocasiones)
La limitacin que tienen los sujetos para percibir la diferencia de magnitud entre dos
estmulos (ya que dada una serie de estmulos, ordenados respecto a un determinado atributo o
caracterstica psicolgica a lo largo de un continuo, siempre es posible encontrar dos de ellos
cuya diferencia sea tan pequea que no pueda ser percibida por el observador)
A la muestra de los sujetos utilizada para asignar valores escalares a los estmulos se le conoce
como muestra de jueces o expertos.
Tanto en la Ley del Juicio Comparativo como del Categrico, los sujetos que evalan los tems
deben emitir un juicio objetivo acerca del grado de atributo que consideran que contiene cada
uno de ellos, y no mostrar su actitud personal; es decir, se les pide juicios de hecho y no
juicios de valor (Prueba de los Jueces)
Utiliza como mtodo experimental para obtener los datos las comparaciones binarias. La tarea
de los sujetos consiste en comparar directamente cada uno de los estmulos que se presentan con
todos los dems y decir, ante cada uno de los pares formados, cual es el estmulo preferido o el
dominante en la direccin del atributo que se est midiendo. Ej: medir la actitud de los espaoles
ante la poltica. Se realizan combinaciones binarias entre los tems disponibles y se presentan a un
grupo de jueces o expertos. Ante cada par sealan qu tem es, a su juicio, el que indica una
actitud ms positiva hacia la poltica.
Diferencia discriminante (al comparar dos estmulos y tener que emitir un juicio acerca de cul
es el dominante, se produce en cada uno de los jueces un proceso discriminante mediante el cual
asignan un valor subjetivo a cada uno de los estmulos y, al compararlos, se produce una
diferencia entre los valores subjetivos asignados a cada uno de ellos a travs de los
correspondientes procesos discriminantes. Esta diferencia discriminante no siempre ser la misma
para los distintos jueces. Los resultados de los juicios se ordenan en una serie de matrices, de
frecuencias, de proporciones y de puntuaciones tpicas.
La media de las puntuaciones tpicas asignadas por los jueces a cada estmulo, a travs de los
procesos discriminantes, es la mejor estimacin de su valor escalar.
Problema ejemplo: Se quiso saber la preferencia de los universitarios espaoles por los seis
siguientes deportes: ftbol, baloncesto, balonmano, tenis, natacin y artes marciales. Para ello se
eligi aleatoriamente una muestra de 5000 estudiantes a los que se les aplic una escala
construida segn el modelo de la ley del juicio comparativo. Las respuestas de los
universitarios se recogen en la matriz adjunta. Cada casilla indica el nmero de sujetos que prefiri
el deporte de la fila al de la columna. Escalar las preferencias respecto a estos deportes en este
grupo.
Cuntos pares de estmulos habra que hacer para construir una escala utilizando el mtodo de
las combinaciones binarias? C.B. = 6 (6 1) / 2 30 / 2 = 15
Solucin: Teniendo en cuenta los totales, se aprecia que el judo es el menos preferido por los
jueces y el ftbol el ms preferido. Ordenamos los deportes (de a + preferencia) y obtenemos la
matriz de proporciones Ejemplo: Balonmano en la 1 columna tenemos 4300 (estudiantes que
prefirieron Balonmano a Judo) que dividido entre 5000 (total de estudiantes) = 086 y (1 086 = 0
14) que se colocan en la diagonal. Ftbol en la 1 columna tenemos 4750 / 5000 = 095. Etc.
Las Z (medias) se obtienen dividiendo los sumatorios por seis (n de estmulos) Permiten
obtener los valores escalares de los seis estmulos considerados. Para evitar n negativos, se da
el valor cero al menor y para averiguar el resto se suma una constante (k = 117) a los valores
escalares que tenan (-043 + 117 = 074 // 016 + 117 = 133; etc.)
En este modelo, adems de los supuestos generales, tambin hay que asumir que el continuo
psicolgico de cada sujeto, puede ser dividido en una serie de categoras ordenadas (la tarea del
sujeto consiste en asignar cada uno de los estmulos que se presentan a una categora en funcin
del grado de atributo que considere que tiene el estmulo). Ej: actitud ante el matrimonio (el sujeto
evala cada uno de los tems y los asigna a una determinada categora en funcin de la actitud
ms o menos favorable que, a su juicio, presenten)
Para la obtencin de los datos utiliza el mtodo de los intervalos aparentemente iguales (el
ms utilizado en la elaboracin de escalas de actitudes)
Procedimiento: Despus de la redaccin de un conjunto de tems, es necesario que sean
juzgados por un grupo de personas (100 ms). Cada juez es instruido para que imagine un
espacio dividido en, por ejemplo, 11 categoras ordenadas, una escala imaginaria dividida en 11
categoras o intervalos aparentemente iguales (de negativa a positiva, pasando por un punto
neutral). Los jueces, que no tienen por qu ser expertos, deben clasificar cada uno de los
estmulos en una de las categoras en funcin del grado y la direccin del atributo que manifiesten.
Dado que se conocen los valores escalares asociados a cada categora (del 1 al 11), as como los
correspondientes a sus lmites (de 0,5 hasta 11,5), slo necesitaremos calcular los valores
escalares de los estmulos; para ello se calcula la mediana de la distribucin de frecuencias de
los juicios emitidos por los jueces y se ordenan los resultados en una matriz (en las columnas las
categoras de la escala y en las filas los tems que han sido evaluados por los jueces; cada uno de
los elementos de la matriz indica el nmero de veces que cada estmulo ha sido asignado a cada
categora)
Para averiguar el valor escalar de los estmulos, hemos de calcular la mediana de sus
distribuciones. Para ello se calculan las frecuencias acumuladas para cada tem.
Problema ejemplo: Se quiere construir una escala de tipo Thurstone para medir una determinada
actitud. La escala utilizada ha sido de 7 puntos. De entre todos los elementos empleados en la
prueba de jueces, hemos elegido uno de ellos para analizar. El resultado de la evaluacin de 100
jueces al elemento fue el siguiente:
Escala del elemento 1 2 3 4 5 6 7
N de jueces 2 5 8 1 2 4 10
0 5 0
Frecuencias acumuladas 2 7 1 2 5 9 10
5 5 0 0 0
A.- Averiguar el valor escalar del elemento utilizando para ello la mediana.
Solucin: La mediana est en el intervalo (5-6) P50 = 45 + (50 -25 / 25) 1 P50 = 55
Las actitudes sociales se agrupan en pautas. Partiendo de la actitud de un sujeto frente a algn
aspecto de un problema planteado, se podra predecir la actitud que manifestara dicho sujeto
respecto a otros aspectos del mismo problema.
Desde el punto de vista de la medicin, los sujetos son ordenados en la escala en funcin de su
posicin respecto a la actitud medida (en un nivel de medida ordinal). La escala es sumativa; es
decir, est en funcin de las puntuaciones obtenidas en cada uno de los tems que la componen.
Esto implica dos supuestos adicionales:
Que la suma de las curvas caractersticas de los tems sea una funcin monotnica y
aproximadamente lineal respecto a la actitud medida.
Que todos los elementos que componen la escala estn midiendo una nica dimensin
(escala unidimensional)
La asignacin de valores numricos a los tems y puntuaciones de los sujetos se deja al arbitrio del
investigador. Debe hacerse de forma que se mantenga la coherencia interna en el sentido de la
actitud medida (valor + alto indica actitud ms +, y al revs).
Punto de partida: la actitud que muestra una persona hacia un objeto depende del significado
evaluativo que dicho objeto tienen para la persona. Para Visauta (1989) el Diferencial Semntico
se basa en que la gran diversidad de significados es reducible a unas determinadas variaciones en
un nmero limitado de dimensiones.
Los conceptos: estmulos u objetos que ha de evaluar el sujeto. Pueden ser conceptos
verbales (Dios, madre, etc.) o no verbales (cuadros, esculturas, etc.); por lo que primero hay
que definir claramente el problema a investigar, y luego elegir los conceptos ms adecuados.
Los conceptos tienen que aparecer encabezando el formulario, seguidos del conjunto de
escalas bipolares que se utilizarn. Como no se puede cubrir a base de conceptos toda el
rea a investigar, es necesario hacer un muestreo de todo el universo de conceptos que la
definen, para extraer los ms relevantes. A veces el investigador tiende a elegir aquellos
conceptos: que discriminen bien entre los sujetos, ya que de esta manera se obtiene una
mayor informacin; que tengan un significado claro y nico para el sujeto, de manera que
cuando se le presenten sepa lo que est juzgando y que sean familiares a todos los sujetos
para que la respuesta sea real y no est sesgada (Osgood: cuando los sujetos no estn
familiarizados con el concepto, se produce una regresin hacia el punto medio en la escala de
evaluacin)
Las escalas bipolares: Se utilizan para evaluar el significado de los conceptos. Estas escalas
bipolares representan una reaccin de tipo afectivo hacia el objeto, con el fin de poder obtener
una media del significado afectivo que cada objeto (estmulo) tiene para los sujetos. Estas
escalas estn ancladas en sus extremos por dos adjetivos antnimos, que describen un
aspecto del continuo semntico (fuerte-dbil; etc.) a lo largo del cual se situar el concepto
evaluado. El continuo est dividido en categoras (normalmente 7)
Factor Valorativo o Evaluativo (Bueno Malo; Bonito Feo; Sincero Falso; etc.)
Factor de Potencia (Fuerte Dbil; Duro Blando; Masculino Femenino; etc.)
Factor de Actividad (Activo Pasivo; Rpido Lento; Dinmico Esttico; etc.)
No hay un criterio estricto sobre el nmero de escalas a utilizar para valorar de forma adecuada
cada una de las dimensiones del espacio semntico, aunque se estima que seis son suficientes.
Procedimiento: elaborada la lista de conceptos a evaluar, se pide a una muestra de sujetos que
califique cada uno de los conceptos por medio de un adjetivo. Se seleccionan los adjetivos ms
utilizados (criterio de mxima frecuencia). Se buscan palabras con significado opuesto al de los
adjetivos para formar las escalas bipolares. Por ltimo, se organizar los conceptos y las escalas
DS 1 2 3 4 5 6 7
Dbil - Fuerte 8 9 0 32 51 65 35
Frgil - Ptreo 6 9 1 33 51 60 40
Duro - Blando 8 1 14 34 43 40 60
B.- Indicar la actitud ante la amistad en la dimensin potencia de un sujeto que respondi 4, 3 y 2
respectivamente a cada una de las escalas bipolares.
Conocida como Escalograma de Guttman, est diseada de tal forma que se puede conseguir la
ordenacin de los sujetos y de los estmulos en un continuo respecto a una dimensin
determinada. Se incluye en los mtodos centrados en las respuestas; tanto los sujetos como los
estmulos pueden representarse, a lo largo de un continuo, formando una escala tambin
denominada de entrelazamiento. En esta escala, cada sujeto estar situado entre dos estmulos,
el sujeto habr contestado correctamente a todas las preguntas que quedan representadas en la
escala por debajo de l, pero habr fallado todas las que estn representadas por encima). Si
consideramos la matriz triangular (Sujetos: 1, 2, 3, 4 y 5 // Estmulos: A, B, C, D):
:
5 A 4 B 3 C 2 D 1
Escala de entrelazamiento |------------------------------------------------------|
Evaluacin del error en el modelo Este modelo no lleva implcita ninguna teora del error. Se
define el error como la desviacin del patrn de respuestas observadas respecto al patrn de
respuestas ideal requerido por el modelo (procedimiento de Goodenough y Edwards). Ejemplo de
patrn correspondiente a una escala perfecta (Sujetos: 1, 2, 3, 4 y 5 // Estmulos: A, B, C, D):
Problema ejemplo: A un grupo de cinco sujetos le hemos aplicado un cuestionario para evaluar
su actitud ante el racismo. Las respuestas dadas por los sujetos, que aparecen a continuacin,
podan representar una actitud favorable (1) o desfavorable (0). Construir el escalograma
correspondiente y hallar el coeficiente de reproductividad.
1.- Se averigua para cada sujeto y para cada tem el n de respuestas correctas:
2.- Se reordenan las columnas correspondientes a los estmulos de manera que queden
ordenados desde el estmulo mayor al menor (ordenacin de columnas):
3.- Se reordenan las filas correspondientes a los sujetos de manera que queden ordenados desde
el que obtuvo una mayor puntuacin hasta el que la tuvo ms baja (ordenacin de filas):
Si la matriz de datos obtenida se ajustara a una escala acumulativa perfecta, el resultado habra
sido una matriz triangular (la diagonal hubiera quedado marcada de forma correcta). Como no ha
sido nuestro caso, se debe hacer el recuento de los errores para comprobar el grado de ajuste de
los datos obtenidos al modelo de Guttman. Como en la prctica es muy difcil encontrar este tipo
de escalas, debemos optar por la tcnica denominada coeficiente de reproductividad (grado de
ajuste entre los datos obtenidos empricamente y el modelo terico)
CR es un ndice numrico que seala el grado en el que una escala, obtenida a partir de unos
datos empricos, se ajusta al modelo ideal del Escalograma de Guttman o escala acumulativa
perfecta. Los datos empricos se ajustan al modelo de Guttman si el coeficiente de reproductividad
es igual o mayor que 0,90.
El Diferencial Semntico se distingue en el formato de los tems, ya que estos consisten en una
serie de conceptos a evaluar mediante respuestas a una serie de escalas ancladas por adjetivos
bipolares. (En las otras tcnicas, los tems estn formados por enunciados, no por adjetivos)
Para ver las diferencias en las escalas de Thurstone, Likert y Guttman, hay que considerar
que: a) la actitud existe a lo largo de un continuo subyacente; b) que el punto medio del continuo
indica un cambio en la direccin de la actitud y c) que la distancia desde el punto medio en una u
otra direccin indica la intensidad de la misma:
En la escala de Likert, los enunciados de los tems se sitan en los dos extremos del
continuo (actitud + o -) y se excluyen los tems cuyos enunciados puedan ser interpretados
como representantes de los puntos del continuo situados alrededor del punto medio. (En la de
Thurstone y Guttman, se deben incluir tems que cubran todo el continuo de la actitud)
La escala de Guttman es acumulativa ( Thurstone). Una respuesta + a un tem implica
una respuesta + a todos los tems que estn situados a la izquierda del tem. El supuesto que
asume es que las respuestas + a los tems deben estar reunidas todas alrededor de un punto
concreto del continuo.
La escala de Thurstone asume un nivel de medida de intervalos (las otras dan lugar a
escalas ordinales). La seleccin de los tems definitivos se basa en los valores asignados por
los jueces a cada uno de los tems (en las otras tcnicas se aplica la escala a un muestra
representativa)
1.- INTRODUCCIN
3 Supuesto La correlacin entre los errores de medida (re1 re2) que afectan a las puntuaciones
re1 re2 = 0 de los sujetos en dos test diferentes (X1 y X2) es = 0
Cov (X,V) = Sv
La covarianza entre las Punt. Empricas y Verdaderas = La Var de las Punt. Verdaderas
r xe = Se / Sx
La correlacin entre las Punt. Empricas y los errores = cociente entre la Desv. Tpica de los errores
y la Desv. Tpica de las Punt. Empricas.
Si a una misma muestra se aplican dos test (X y X) podemos considerar que son paralelos s adems
de los supuestos anteriores se cumplen las (condiciones de paralelismo):
1 Supuesto
X = V + E // X= V + E Las puntuaciones verdaderas de los sujetos son iguales en ambos test
2 Supuesto
S2e = S2e La varianza de los errores de medida es la misma en ambos test
De estas dos condiciones de paralelismo se obtienen las siguientes deducciones:
X =V+ E=V X =V X = V+ E= V X =V
La media de las puntuaciones de dos test paralelos es la misma
rX1 X 2 = rX1 X 3 = rX 2 X 3 = .... = rX j X k En dos o ms test paralelos las intercorrelaciones entre cada dos
de ellos son iguales.
S e2 Se
rXX = 1 = 1 rxe2 rxe = rxe = 1 rxx
SX2
SX
Es decir, la correlacin entre las puntuaciones empricas y los errores de medida (r XE) se puede
obtener a partir de la correlacin entre las puntuaciones obtenidas por los sujetos en las dos
formas paralelas del test.
En Psicometra el error de medida se define como la diferencia entre la puntuacin emprica obtenida
por un sujeto en un test y su puntuacin verdadera (entendiendo por test cualquier instrumento de
medicin psicolgica). Al aplicar n veces un test a un sujeto sus puntuaciones sern muy parecidas
pero no iguales (es conveniente construir pruebas que den lugar al mnimo error de medida posible)
No siempre los errores son debidos al instrumento de medicin, tambin se deben a cambios que se
producen en el sujeto y que pueden atribuirse a diversas razones: motivacin, condiciones fsicas o el
mero azar; se trata de errores aleatorios e impredecibles con los que hay que contar y que hay que
tratar de controlar para que no interfieran en las predicciones que podemos hacer sobre la capacidad
del sujeto.
Ecuacin de Spearman-Brown (se refiere al caso en que se quiere aumentar la longitud del test
inicial n veces):
CASO GENERAL
Relaciona la fiabilidad y la longitud cuando RXX = coeficiente de fiabilidad del test alargado
los tems a aadir son paralelos o acortado.
n rXX n rXX n = nmero de veces que se aumenta o
RXX = ---------------------- = --------------------- disminuye la longitud del test.
1+ n rXX - rXX 1 + (n 1) rXX rXX = coeficiente de fiabilidad del test inicial.
N X1 X 2 X1 X 2 X1 y X2: Puntuaciones
rxx ' = rx1x2 = obtenidas en cada una
2 2
N X2 ( X 1 ) N X 22 ( X 2 )
1
de las formas.
MTODO TEST-RETEST
N X1 X 2 X X 1 2 X1 y X2: Puntuaciones
rX X = rx1x2 = obtenidas en cada
1 1 2 2
N X2 ( X ) N X (
2
X 2 )
1
aplicacin.
1 2
El coeficiente de fiabilidad as obtenido se llama coeficiente de estabilidad.
El clculo es idntico en las dos formas. La nica diferencia es que en lugar de aplicar dos formas, en
el test retest emplea la misma en dos momentos diferentes.
A veces slo se puede aplicar una vez el test, por lo que no es posible utilizar los mtodos anteriores.
Los siguientes mtodos se utilizan para estimar la fiabilidad de un test (slo requieren una aplicacin y
aportan un ndice de la consistencia interna de las respuestas de los sujetos):
Procedimiento: Se aplica el test a una muestra y se divide el test en dos mitades, calculando la
correlacin entre ellas y aplicando una frmula de correccin. Las divisiones deben ser similares en
dificultad y contenido para que la correlacin se aproxime al valor mximo posible.
Cuando se utiliza el mtodo de la divisin del test en dos mitades, la fiabilidad se puede estimar
mediante las siguientes frmulas: Spearman-Brown, Rulon, Guttman-Flanagan.
Frmula de Rulon: Se usa cuando, no siendo las dos mitades estrictamente paralelas, podemos
considerarlas -equivalentes (segn Lord y Novick son los test en los que las puntuaciones
verdaderas son iguales para un grupo de sujetos en ambas formas, pero las varianzas de error
no tienen por qu ser iguales). Asimismo, los test esencialmente -equivalentes son aquellos
en los que la puntuacin verdadera de cada sujeto en uno de los tests es igual a la del otro ms
una constante. En ambos casos se supone la igualdad de las varianzas verdaderas de ambas
mitades.
S2d S2p-i
rXX = 1 - ------- = 1 - -------- d = diferencias entre puntuaciones pares e impares de cada
S2X S2 X sujeto.
S2d = S2p-I = varianza de la diferencia entre las puntuaciones pares
2 2 2
S d = [d / N (d / N) ] e impares.
S2X = varianza de las puntuaciones empricas de los sujetos.
S2d = S2p-I = S2p + S2i 2rpi Sp Si rpi = correlacin entre las puntuaciones de las dos mitades.
S p2 + Si2 S2p y S2i = varianza de las puntuaciones en los tems pares e impares.
Rxx = 2 1
S 2 S2X = varianza emprica del test total.
x rpi = correlacin entre las puntuaciones
n
cov ( jk ) 2 2
n j k n n ( r1 ) n Sx S j n S 2j
= = = = 1
n 1 2
Sx n 1 1 + ( n 1) r1
n 1 2
Sx n 1 S x2
Inferencias sobre De los problemas de las inferencias de alpha se desarroll la teora muestral
para el coeficiente alpha. Kristof y Feldt derivaron un estadstico de contraste del coeficiente alpha que
se distribuye segn una F de Snedecor, para determinar el intervalo confidencial de en la poblacin.
Inferencias para un solo valor de Para F se distribuye son N-1 y (n-1) (N-1) gl.
saber si toma un determinado valor en la = valor propuesto en la hiptesis para la poblacin.
poblacin o para saber entre que valores se
= Valor alfa obtenido en la muestra.
encuentra en la poblacin usamos: N = n de sujetos // n =n de tems.
1 Se trata de comprobar si F emprica se encuentra
F=
1 entre los valores F tericos obtenidos con los gl
y el nivel de confianza.
Inferencias (muestras independientes)
W se distribuye segn la F con (N1 - 1) y (N2 -1) g.l.
Dos muestras: W (comprueba H0: 1 = 2)
1 y 2 = valores del coeficiente en cada muestra.
N1 y N2 = n de sujetos de cada muestra.
1 1
W =
1 2
UX1= distribucin 2 con n-1 gl.
K = n muestras.
K Muestras: UX1 )
2
i = Valor del coeficiente para cada muestra.
n
) 1
( 1 i ) 3 u u = Media de los coeficientes transformados.
1 i
1/ 3
UX 1 =
S 2
u=
n ( )
i= 1 n
S = Media aritmtica de las varianzas de cada
n
S2 ~ N (n )
2
muestra. S = i Ni = i i 1
i= 1 n ni + 1
2 2 Ni = n de sujetos en cada muestra
Siendo Si = ~ ni = n de tems en cada test.
9( N 1)(1 i ) 2 / 3
Inferencias (muestras dependientes) En
algunos diseos se pueden administrar distintas t = Distribucin t de Student (N-2) gl.
pruebas a la misma muestra, con lo que los
coeficientes son dependientes y debemos emplear
1 y 2 = valores del coeficiente alfa
otro tipo de contrastes: N = nmero de sujetos de la muestra.
rx21x2 = Correlacin de puntuaciones en los 2 test.
Dos muestras: (N n 1000)
2
( 1 2 ) ( N 2) UX2 = Distribucin con (k-1) gl.
t= K = n de tests // N = n sujetos.
[4(1 )(1 )(1 rx21x 2 ) ]
1 2 i = Valor de los coeficientes .
S2 y u = Medias de los coeficientes transformados y
K Muestras:
las varianzas de cada muestra
u =
n
[1] n
Si2
k
) 13
2
n(1 ) 1/ 3 S2 =
( 1 i ) u i=1 i
i= 1 n
i= 1
UX 2 =
S2 C 2 2
Donde Si = ~
9( N 1)(1 i ) 2 / 3
Donde C = Media de las covarianza Sij. n
~ N (n~ 1 ) =
2rij2 N = y
n
1
C= ~ n~ + 1
( )
9 N 1 (1 i ) (1 j )
1/ 3 1/ 3
i= 1 ni
ni = n de tems de cada test.
n 1 Coeficientes Omega
Coeficientes Theta = (1 ) n n
n 1 1 S 2j S 2j h 2j
2
= 1 j= 1 j= 1 n h j
n = n de tems del test. n n = 1
n + 2 r h
1 = primer auto valor de la matriz factorial cov( X j , X h ) j
k k = n de subtests.
S x2 S 2j S x2 = Varianza del test.
j= 1
=
2 S 2j = Varianza de cada subtest.
k
nj
S x2 1 j = 1 n nj = n de tems de cada subtest.
n = n de tems del test.
1.- Estimacin mediante la desigualdad de Chebychev (cuando no se hace ningn supuesto sobre la
distribucin de las puntuaciones empricas o de los errores)
1
1 = Nivel de confianza utilizado
K2
1
K {
P XV }
K ( Se ) 1 K2
Se = error tpico de medida.
2.- Estimacin basada en la distribucin normal de los errores: Asume una distribucin normal de
los errores de medida (con media 0 y varianza S 2e) y de las puntuaciones empricas condicionadas a un
determinado valor de V. Pasos para determinar el intervalo:
3.- Estimacin basada en el modelo de regresin: mientras que la correlacin entre las puntuaciones
verdaderas y los errores de medida es igual a cero (rVE = 0); la correlacin entre las puntuaciones
empricas y los errores de medida se ve afectada por los errores rxe = 1 rxx 0
Valor mximo cuando la fiabilidad del test es nula (rXX = 0) Puntuaciones empricas = Errores
Valor mnimo cuando la fiabilidad del test es perfecta (rXX = 1) Punt. Empricas = Punt. Verdaderas
El intervalo de confianza se hace sobre la puntuacin verdadera estimada por regresin lineal:
Considerando el mbito de los tests de maestra, un test se considera fiable, si tras su aplicacin
a los mismos sujetos en distintas ocasiones, o la aplicacin de dos formas paralelas, siempre se
clasifica a los sujetos en la misma categora. Por esto, los mtodos para calcular la fiabilidad de
los tests referidos a criterio (TRC) se pueden dividir en dos grupos:
A. Los que requieren dos aplicaciones del test (Coeficiente de Hambleton y Novick,
Coeficiente Kappa de Cohen e ndice de Crocker y Algina)
B. Los que requieren una sola aplicacin del test (Mtodo de Huynh, Mtodo de Subkoviak y
Coeficiente de Livingston)
Los distintos mtodos para el clculo de la fiabilidad de los TRC se utilizan para establecer un
punto de corte que nos permite clasificar al sujeto en dos categoras: la de los sujetos que dominan
el criterio evaluado y la de aquellos que no lo dominan (el criterio es el punto de corte para
evaluar a los sujetos) Las decisiones que se toman en funcin del punto de corte son muy
importantes para los sujetos aprobar o suspender, acceder a unos u otros estudios, etc. La
determinacin del punto de corte es subjetiva (lo establecen los expertos)
Apunte histrico
Los TRC tienen su origen en los trabajos de Flanagan y Nedelsky (introdujeron el concepto de
estndar absoluto y relativo respecto a las puntuaciones). La denominacin TRC se debe a Ebel y
Glaser fue quien estableci la diferencia con los tests normativos. Segn Hambleton, las
principales causas que generan su aparicin son: conocer la eficacia de los programas educativos,
evaluar habilidades bsicas, etc.
En los aos 60, se intenta establecer el estatus de un sujeto respecto al dominio definido. En los
aos 80, aparecen nuevos enfoques (medicin autntica o evaluacin de la ejecucin son
trminos alternativos de la medicin referida a criterio)
La definicin ms consensuada sobre los TRC se debe a Popham Un test referido a criterio se
utiliza para evaluar el status absoluto del sujeto con respecto a algn dominio de conductas bien
definido.
2.- DIFERENCIAS ENTRE LOS TESTS REFERIDOS NORMAS (TRN) Y CRITERIO (TRC)
Se pueden considerar dos maneras de reducir el nmero de errores sin aumentar la longitud del
test: Modelos bayesianos y tests computarizados.
Modelo de MIllman Modelo binomial. Considera la proporcin esperada de tems que un sujeto
puede contestar correctamente para ser considerado apto y el error mximo a tolerar.
Ecuacin para averiguar la longitud del test supuesta una proporcin de aciertos
NDICES DE ACUERDO CON UNA SOLA APLICACIN DEL TEST (CLCULO FIABILIDAD):
Mtodo de Huynh
PASOS
Un solo test y una sola aplicacin: Calcular la media, la varianza, el
procedimiento matemtico sofisticado para coeficiente de correlacin KR21 y
estimar la consistencia de clasificacin. especificar el valor del punto de corte (c).
Mtodo de Subkoviak
PASOS
Coeficiente de Livingston
Se suelen considerar dos tipos de puntos de corte (Muiz, 1998): Puntos de corte relativos (se
establecen en funcin del grupo de sujetos evaluados) y Puntos de corte absolutos (se establecen
en funcin del constructo o materia objeto de estudio)
Mtodo Nedelsky: se utiliza para fijar el punto de corte en los test de competencia mnima. Se
utiliza en el mbito acadmico con test compuestos por tems de eleccin mltiple. Los jueces
determinan las alternativas que un sujeto competente considerara errneas (ejemplo: 2 de 5) y
para ese tem La unidad dividida por el n de alternativas que supone que el sujeto no ha
rechazado como errneas, en nuestro caso, 1/3 = 033 (la media de todos los valores esperados
en cada tem = Punto de corte)
Mtodo Angoff: variante del mtodo Nedelsky, se puede aplicar a toda clase de tems (no slo a
los de eleccin mltiple). Los jueces evalan globalmente los tems (probabilidad de que un sujeto
con competencia mnima responda correctamente a cada tem del test)
Para calcular el punto de corte se suman los valores de las probabilidades establecidas por cada
uno de los jueces y se calcula la media.
Mtodo Ebel: similar al mtodo de Angoff. Los jueces evalan globalmente desde una doble
perspectiva: la dificultad del tem (fcil, medio y difcil) y su relevancia (esencial, importante,
aceptable y dudoso). Se articula una matriz con 12 categoras en las que se ubican todos los tems
del test los jueces establecen el porcentaje de tems que debera contestar un sujeto
mnimamente competente.
Mtodo Jaeger: otra variante del mtodo de Angoff. Para determinar el punto de corte se precisan
tres sesiones: 1 cada juez en cada uno de los tems afirma (SI / NO) ser contestado
correctamente por los sujetos mnimamente competentes; 2 se calcula el nmero de tems a los
que cada juez respondi con un SI y se facilita a los jueces; se repite el proceso inicial y cada juez
puede o no cambiar de opinin; 3 se repite el proceso de la 2 sesin.
Punto de corte Mediana ms baja de los diferentes grupos de jueces.
Mtodo del grupo lmite (Zieky y Livingstone): los jueces, por acuerdo, definen tres niveles de
competencia (competente, lmite y no competente). Despus los jueces seleccionan a los sujetos
lmite y se les aplica el test.
Punto de corte Media o Mediana de las puntuaciones que han obtenido en el test los sujetos
lmite competentes (la mediana es mejor porque no tiene en cuenta puntuaciones extremas)
Mtodo de los grupos de contraste: los jueces clasifican a los sujetos en dos grupos (los que
son competentes y los que no lo son) y se les administra el test.
COMPETENTES NO COMPETENTES
Punto de corte
Interseccin de las distribuciones de
puntuaciones de ambos grupos
(Curvas Normales)
PUNTO DE CORTE
Mtodo de Beuk: los jueces tienen en cuenta las puntuaciones de los sujetos en el test en el que
estamos interesados en establecer un punto de corte y las respuestas a dos preguntas: 1
porcentaje mnimo de tems que los jueces creen que un sujeto debera contestar correctamente
para superar el test y 2 porcentaje de sujetos que estiman que obtendrn la puntuacin mnima
para superar el test.
Mtodo de Hofstee: Los jueces recogen informacin sobre cuatro puntos: el punto de corte que
los jueces consideran adecuado (porcentaje de tem que los sujetos deben superar), el punto de
corte que los jueces consideran inadecuado (porcentaje mximo admisible de sujetos que fallan en
el test), el porcentaje mnimo admisible de sujetos que fallan en el test y la distribucin de
resultados obtenidos en el test.
El concepto de validez hace referencia al grado en que el test mide aquello que pretende medir.
En la medida en que la relacin entre el test y el constructo que pretende medir sea ms estrecha,
el test ser ms vlido.
La relacin entre el test y el constructo alude a la relacin entre las puntuaciones obtenidas por
los sujetos en el test y la medida obtenida en el indicador o indicadores del constructo. Hasta los
aos 50 del siglo pasado, la forma de operativizar la relacin entre el test y el criterio era
mediante un coeficiente de correlacin.
Evolucin histrica
1974 Se afirma por primera vez que la validez se refiere a la adecuacin de las inferencias que
se realizan a partir de las puntuaciones de los test u otras formas de medida. Se mantiene la
distincin de los tres tipos de validez y se consideran formas independientes de interpretar las
inferencias realizadas.
1999 (concepcin unitaria de validez) La validez hace referencia al grado en que la evidencia
emprica obtenida y los conocimientos aportados por las teoras apoyan las inferencias que se
hagan a partir de las puntuaciones obtenidas en el test cuando ste se utiliza para un objetivo
concreto.
La validacin de los tests es un proceso continuo que permite obtener distintos tipos de
evidencia emprica, y un proceso de validacin ideal debe incluir los tipos de evidencia implicados
en los tres tipos tradicionales de validez: la de constructo, la de contenido y la relativa al criterio.
As, se considera la validez como un concepto unitario y el proceso de validacin como un
proceso continuo que permitir recoger la evidencia necesaria para poder interpretar las
puntuaciones al aplicar los tests para un determinado objetivo.
Objetivo Analizar hasta qu punto los elementos o tems que componen un test son una
muestra relevante y representativa (implica la necesidad de una clara y exhaustiva especificacin
de todas las posibles conductas observables que son representativas del constructo a medir). Para
un estudio de validacin de un test es necesario analizar hasta qu punto los elementos que lo
componen son una muestra representativa de la clase de problemas o situaciones sobre las que
van a hacer inferencias y extraer conclusiones.
En los TRC y tests de rendimiento acadmico, las puntuaciones se suelen utilizar para hacer
inferencias sobre el grado en que los sujetos dominan un campo de conocimientos (dominio), no
para hacer inferencias sobre conductas externas al test o sobre el constructo medido. En estos
tests las puntuaciones se suelen utilizar para dar cuenta de si los sujetos han alcanzado un nivel
mnimo de competencia en una determinada materia. El dominio de contenidos se suele hacer
ms en referencia a objetivos educativos que al constructo.
Para evaluar la relevancia de los tems en relacin con el dominio hay varios procedimientos: uno
de ellos (Hambleton 1980) consiste en presentar a los expertos una serie de fichas cada una de
las cuales contiene un tem. Cada experto expresar en una escala de 5 puntos el grado de ajuste
de cada tem, de manera que el 1 indique un mal ajuste y el 5 un ajuste muy bueno. Hecho esto,
se calcula la media o la mediana de los valores asignados por cada uno de los expertos a cada
tem y el valor obtenido ser el que indique el grado de relevancia del tem. Se podrn seleccionar
los que muestren un alto grado de ajuste y eliminar los que no.
La representatividad: grado en que se han cubierto las especificaciones del dominio, en cuanto a
contenidos y a objetivos propuestos. En la medida en que el dominio este ms y mejor
representado, las inferencias sern ms precisas. Lo ideal sera poder contar con un banco de
tems referidos al dominio de inters y a partir de este extraer una muestra aleatoria de tems.
Proceso que permitir obtener evidencia acerca de la capacidad del test para medir el
constructo (evidencia de que las conductas observables que se han elegido como indicadores del
constructo, realmente lo son). Trata de garantizar cientficamente que la variable que el test
pretende medir es una variable aceptable y consistente en el mbito terico de la psicologa
(descansa en suficientes comprobaciones experimentales que lo verifican)
As, es necesario estudiar las relaciones entre: el constructo y las conductas observables
representativas del constructo. El constructo y otros constructos y las conductas tomadas
como indicadores del constructo y las puntuaciones obtenidas por los sujetos en el test.
A.- Matriz Multimtodo-Multirrasgo (propuesto por Campbell y Fiske 1959, permite el anlisis
de la estructura externa del test) Se intenta medir un mismo constructo mediante distintos
procedimientos y distintos constructos mediante el mismo procedimiento. Una vez obtenidas todas
las medidas, calcular las intercorrelaciones entre ellas:
Si las correlaciones entre las medidas del mismo constructo a travs de distintos
procedimientos son altas, el constructo quedar validado (existe validez convergente)
Si estas correlaciones son significativamente ms altas que las obtenidas al correlacionar
las medidas de distintos constructos con el mismo procedimiento (existe validez
discriminante)
B.- Anlisis Factorial (la tcnica ms utilizada para poner a prueba las hiptesis planteadas a
cerca de la estructura externa del constructo y las relaciones del mismo con otras variables) Se
puede utilizar con dos enfoques: el exploratorio (no se establecen hiptesis previas acerca del
nmero de dimensiones, es la propia tcnica la que nos aportar esta informacin) y
confirmatorio (se establecen a priori hiptesis, y mediante las tcnicas oportunas se comprueba
si se pueden aceptar las hiptesis propuestas).
Para llevar a cabo un anlisis factorial se parte de un conjunto de n medidas tomadas a la misma
muestra de sujetos en un conjunto de variables observables, a partir de ellas se obtiene una
matriz (n x n) con las intercorrelaciones entre todas ellas. Mediante Anlisis Factorial, se intenta
identificar un nmero ms reducido de variables latentes llamadas factores.
Cuando en un mismo factor se agrupan mltiples indicadores del constructo (validez
convergente) y Cuando en el anlisis se han obtenido medidas de otros constructos y estas
aparecen agrupadas en distintos factores (validez discriminante)
Objetivo principal evaluar la hiptesis de relacin entre test y criterio. Se utilizan dos tipos de
ndices para describir la capacidad de un test o conjunto de tests para predecir un criterio:
Medidas correlacionales (coeficiente de validez, de determinacin, de alineacin, etc.
Medidas de error en la prediccin (errores de estimacin).
Estos estudios se suelen realizar desde dos perspectivas diferentes dependiendo del uso que se
vaya a dar al test y del tipo de inferencia:
Validez predictiva (los tests se van a utilizar para la seleccin, clasificacin o colocacin de
personas en determinados puestos). Se trata de analizar la capacidad de los test para
pronosticar el posterior rendimiento de los sujetos en un trabajo, a partir de las puntuaciones
obtenidas en el test. La medida del criterio se obtiene con posterioridad a la del test.
Validez concurrente (utilizar los test para hacer un diagnstico. La medida del criterio se
obtiene a la vez que la del test)
La teora no juega el papel principal, se acenta el inters en el aspecto emprico del proceso ms
que en el terico. Un estudio de validacin de constructo del criterio ayudar a determinar las
dimensiones a medir, cmo se medir cada una de ellas y si se desea, cmo combinarlas.
Problema de seleccin y medicin del criterio Los test de seleccin los utilizamos tratando
de seleccionar aquellas personas que vayan a tener una mayor probabilidad de realizar un trabajo
o aprovechar el programa con xito. El concepto de xito tiene muchas facetas, y es muy difcil de
definir de forma precisa. Hemos de tener en cuenta que todos los indicadores son parciales y
no ofrecen una comprensin completa del criterio. En esta lnea Thorndike y Hagen (1989)
consideran que los indicadores deben cumplir una serie de requisitos:
Que sean relevantes (un indicador es relevante en la medida en que se corresponde con
el criterio). Para apreciar la relevancia es necesario tener en cuenta consideraciones
racionales y apoyarse en los juicios de expertos.
Que estn libres de sesgos (que las medidas criterio representen la verdadera
competencia de los sujetos y no estn determinadas por factores que acten de manera
diferencial en determinados grupos)
Que sean fiables (las medidas criterio de los indicadores han de ser estables)
Que sean accesibles (tener en cuenta las limitaciones econmicas y de tiempo)
EL COEFICIENTE DE VALIDEZ Correlacin entre las puntuaciones obtenidas por los sujetos
en el test predictor y las obtenidas en el criterio. A partir de las puntuaciones de los sujetos, se
podrn obtener tantos coeficientes de validez como indicadores de criterio se elijan para su
validacin.
INDICADOR TEST (X)
CRITERIO (Y)
Continua Dicotomizada Dicotmica
Continua Pearson Biserial Biserial puntual
Dicotomizada Biserial Tetracrica biserial
Dicotmica Biserial puntual biserial
cb ad
Test (X) dicotmica; Criterio (Y) dicotmica =
COEFICIENTE ( a + b) ( c + d ) ( a + c) ( b + d )
a, b, c y d representan el nmero de personas
de la muestra cuyas puntuaciones en X y en Y son X
respectivamente (0,1), (1,1), (0,0), (1,0). 0 1
p y q = proporcin de personas con 1 0 en Y 1 a b
y = Ordenada que divide el rea en dos partes Y 0 c d
CORRELACIN TETRACRICA Tanto X como Y son variables continuas que se han dicotomizado
artificialmente. Clculo muy laborioso. Se han ofrecido algunas aproximaciones ms utilizada calcular
la razn bc/ad y consultar la tabla correspondiente. Si la razn es menor que la unidad se debe usar la
recproca ad/bc y consultar la tabla, en este caso ser negativa.
Mediante el modelo de regresin se intenta buscar una ecuacin lineal que haga mnimos los
errores de pronstico Y= a + bX
rXY = Coeficiente de validez // SX = Desv tpica (punt en el test) // SY = Des tpica (punt en el criterio)
Error de estimacin (Y- Y) diferencia entre las puntuaciones que ha obtenido un sujeto en el
criterio y la que se le pronostica mediante la ecuacin de regresin
Propiedades fundamentales
INTERVALO CONFIDENCIAL
S2y = S2y + S2y. x A partir de esta ecuacin se puede averiguar la proporcin de la varianza de las
puntuaciones de los sujetos en el criterio (varianza de la VD), que se puede explicar a partir de las
varianza de las puntuaciones pronosticadas y que proporcin no se puede explicar y corresponde
a los residuos.
2
COEFICIENTE DE DETERMINACIN C.D. = rXY
SY X 2
COEFICIENTE DE ALIENACIN C. A. = K = = 1 rXY
SY
Alude a la inseguridad o el azar que afecta a los pronsticos // Representa la proporcin de la
varianza de las puntuaciones de los sujetos en el criterio (VD) que no se puede predecir a partir
del test (VI). Es decir, la proporcin de varianza error que hay en la varianza de las puntuaciones
de los sujetos en el criterio // El coeficiente de alineacin al cuadrado es el complementario del
coeficiente de determinacin.
Consideraciones Cuanto menor sea el error tpico en relacin con la desviacin tpica del
criterio, menor ser el coeficiente K (oscila entre 0 y 1, ser mximo cuando el coeficiente de
validez sea 0 y mnimo cuando el coeficiente de validez sea 1)
El coeficiente de alineacin al cuadrado es el complementario del coeficiente de determinacin.
2
COEFICIENTE DE VALOR PREDICTIVO C.V .P. = 1 1 rXY
Es el complementario del coeficiente de alineacin // Se trata de otra forma de expresar la
capacidad del test para pronosticar el criterio // Representa la proporcin de seguridad en los
pronsticos (o el porcentaje si se multiplica por 100)
PROBLEMA EJEMPLO
Se quiere comprobar hasta qu punto se puede utilizar para hacer una seleccin de controladores
areos un test construido para medir rapidez perceptiva (estudio de validacin). Para ello se
seleccionan 5 controladores los cuales se les aplica el test (X) y, a la vez, se pide a sus jefes
directos que los evalen (Y).Los resultados obtenidos son los que figuran en la tabla adjunta
X1 X2 X3 X4 Y X XY X2 Y2 Y (Y-Y) (Y-Y)2
1 1 0 0 1 5 2 10 4 25 10,56 -5,56 30,91
2 1 1 1 0 15 3 45 9 225 12,59 2,41 5,81
3 1 1 0 1 13 3 39 9 169 12,59 0,41 0,17
4 1 0 0 0 8 1 8 1 64 8,53 -0,53 0,28
5 1 0 0 0 12 1 12 1 144 8,53 3,47 12,04
Sumatorios 53 10 114 24 627 49,21
1.- Averiguar el coeficiente de validez Tanto el test como la variable criterio son variables
cuantitativas; por tanto, el ndice ms adecuado para obtener el coeficiente de validez es el de
Pearson.
N XY X Y 5 * 114 10 * 53
rxy = = = 0.50
[N X2 ( X ) ][N Y ( Y )
2 2 2
] 5 * 24 100 5 * 627 53 2
Dado que el valor mximo del coeficiente de validez es 1, se puede considerar que el test tiene
una capacidad predictiva media (discreta)
2.- Ecuaciones de regresin Se utilizan para predecir las puntuaciones que obtendrn otros
sujetos de similares caractersticas en el criterio, a partir de sus puntuaciones en el test.
Medias Y =10,6 y X = 2
X2 24
Varianzas 2
SX = X 2= 2 2 = 0,8; S X = 0.8 = 0,89
Desviaciones N 5
Tpicas
S Y2 =
Y 2 Y 2 = 627 10.6 2 = 13.04; S Y = 13.04 = 3,61
N 5
Constantes SY
regresin (a y b) b = rxy b = 05 (3,61 / 0,89) = 2,028
SX
a = Y (b X) a = 10,6 ( 4,056) = 6,544
3.- Error tpico de estimacin Comprobamos que la varianza de las puntuaciones de los
sujetos en el criterio es igual a la varianza de las puntuaciones pronosticadas ms la varianza de
los errores.
Error tpico de Estimacin S yx = S y 1 rxy2 = 3.61 1 0.5 2 = 3.61 0.75 = 3,13
Error mximo: (Zc) (Sy. x) (1,96 3,13) = 6,13 (Punt directas y diferenciales)
5.- Coeficientes
2
COEFICIENTE DE DETERMINACIN C.D. = rXY CD 0,52 = 0,25
25% de la varianza de las puntuaciones de los sujetos en el criterio (VD) que se puede
pronosticar a partir del test (VI) 25% de varianza comn entre el test y el criterio.
SY X 2
COEFICIENTE DE ALIENACIN C. A. = K = = 1 rXY K = 3,13 / 3,61 = 0,87
SY
87% de inseguridad en los pronsticos 0.872 = (75%) de la varianza de las
puntuaciones en el criterio (VD) que no se puede pronosticar a partir del test (VI)
2
COEFICIENTE DE VALOR PREDICTIVO C.V .P. = 1 1 rXY 0,13
13% de seguridad en los pronsticos.
Para eliminar el efecto de las variables que no aportan informacin relevante se utilizan la
correlacin parcial y la correlacin semiparcial:
El coeficiente de validez mltiple Correlacin Mltiple entre las puntuaciones obtenidas por
la muestra en la variable criterio y las obtenidas en el conjunto de las variables predictoras.
Correlacin mltiple:
Grado de asociacin entre la VD (criterio) y rYX2 1 + rYX2 2 2rYX 1 rYX 2 rX 1 X 2
RY . X 1 X 2 =
el conjunto de variables predictoras X 1 yX 2 1 rX21 X 2
Ecuaciones de regresin
Z Y' = b1 Z X 1 + b2 Z X 2
Donde y ' = b1 x1 + b2 x 2 Y ' = a + b1 X 1 + b2 X 2
rYX 1 rYX 2 rX 1 X 2
b1 =
1 rX21 X 2 Donde Donde
r r r SY SY
a = Y b1 X 1 b2 X 2
b2 = YX 2 YX2 1 X 1 X 2 b1 = b1 ; b2 = b2
1 rX 1 X 2 S X1 SX2
Los coeficientes b de regresin
rYX1 y rYX2 = correlaciones entre son iguales en puntuaciones
la variable criterio VD y cada a = 0 pasa por el origen de directas y diferenciales.
una de las var predictoras VI coordenadas.
rYX1X2 correlacin entre las dos
variables predictoras
a = 0 pasa por el origen de
coordenadas.
Puntuaciones tpicas Puntuaciones diferenciales Puntuaciones directas
El coeficiente de validez mltiple RY. X1X2 indica la eficacia de las variables predictoras para estimar
el criterio. Cuanto ms alto sea el coeficiente de validez, ms exacta es la estimacin. Pero el
coeficiente de validez no es perfecto y est afectada por el error de estimacin.
2 (Y Y ' ) 2
S YX 1 X 2 = Varianza residual o varianza de error
N
2
(Y Y ' ) 2 S ZyX 1 X 2 = 1 RYX
S YX 1 X 2 =
// S YX 1 X 2 = S Y 1 RYX2 1 X 2
1X 2
N
Error tpico de estimacin mltiple
Puntuaciones directas y diferenciales Puntuaciones tpicas
Intervalos de confianza
La distribucin de los errores de estimacin se ajusta a una distribucin normal, cuya desviacin
tpica viene dada por el error tpico de estimacin mltiple. Se establece un intervalo
confidencial en torno a la puntuacin pronosticada. Pasos:
Determinar un nivel de confianza y buscar su puntuacin tpica (NC Zc asociada)
Calcular el error tpico (S2y. x1x2)
Calcular el error mximo Emax = Zc (Sy. x1x2)
Aplicar la ecuacin de regresin y obtener la puntuacin pronosticada
Establecer el intervalo de confianza Y Emax
PROBLEMA EJEMPLO
X1 X2 Y X21 X22 Y2 X1 X2 X1 Y X2 Y
1 4 4 1 16 16 4 4 16
1,5 3,75 6 2,25 14,0625 36 5,625 9 22,5
2 3 7 4 9 49 6 14 21
2,5 2 9 6,25 4 81 5 22,5 18
3 1,5 10 9 2,25 100 4,5 30 15
= 10 = 14,25 = 36 = 22,5 = 45,31 = 282 = 25,12 = 79,5 = 92,5
_ _ _
X1 = 2 X2 = 2,85 Y = 7,2 S2x1 = 05 S2x2 = 094 S2Y = 456
B1 = 1071 (213 / 07) = 323 1 = 0993 [(- 0976) (- 0985)] / 00298 = 1071
_ _ _
B0 = Y - B1 X1 - B2 X2 B0 = 72 3235 (2) 0174 (285) = 0234
N XY X
Y
rxy =
1.- Intercorrelaciones entre las variables N 2 2
2
X ( X ) N 2
Y ( Y )
5 79,5 10 36 37,5
rYX1 = ---------------------------------------- = ------------------- = 0,993
[5 282 362] [5 22,5 102] 10,677 3,535
2 2
rYX 1 + rYX 2 2 rYX 1 rYX 2 rX 1 X 2
2.- Correlacin mltiple RY . X 1 X 2 =
1 rX21 X 2
___________________________
RY. 12 = (0,986 + 0,952 - 191) / (0,0298) = 0,993
rYX1 rYX 2 rX 1 X 2
3.-Correlaciones parciales RYX1 X 2 =
(1 rYX 2 )(1 rX21 X 2 )
RYX1 X 2 =
YX1 YX 2 X1 X 2
(1 rYX1 )(1 rX21 X 2 )
Correlacin entre la variable criterio (Y) y2la (X 1), habiendo eliminado de esta correlacin el
(1 rYX 2 )(de
efecto de la variable (X2). Antes
1 eliminar
rX 1 Xesta
2
) variable la correlacin era = 0,947 (vemos
que el valor disminuye, luego X2 est influyendo positivamente)
rYX 2 rYX1 rX 1 X 2
RYX 2 X 1 =
(1 rYX1 )(1 rX21 X 2 )
Correlacin entre la variable criterio (Y) y la (X 2), habiendo eliminado de esta correlacin el
efecto de la variable (X1). Antes de eliminar esta variable la correlacin era = - 0,975 (vemos
que el valor disminuye, luego X1 est influyendo positivamente)
Cuando se elimina la influencia que una variable predictora tiene sobre la otra, la
correlacin obtenida vara de forma importante (la correlacin entre las variables
predictoras era muy alta (- 0,987). Hay que evitar esta circunstancia porque as disminuye
el % de varianza que explican del criterio.
8.- Intervalo confidencial para los pronsticos. Pronosticar el peso que perder en dos meses
un hombre que hace un promedio de 1,75 horas de ejercicio diarias (X 1) y consume 2,2 Kcal / da
(X2). Ecuacin de regresin mltiple Y = 0234 + (3235) X1 + (0174) X2
Pronstico Y = 0,234 + (3,235) (1,75) + (0,174) (2,2) 6,278
(La prdida en peso pronosticada para esa persona ser de 6, 278 Kilos)
_____________
Coeficiente de alienacin mltiple 1 - R2Y. 12 0,114. Indica que todava hay,
aproximadamente, un 11,4% de inseguridad en los pronsticos. Elevado al cuadrado 0,114 2
(0,013) 1,3% representa el porcentaje de varianza del criterio que no se puede explicar a
partir de las variables predictoras.
_________
Coeficiente de valor predictivo mltiple 1 - 1 - R2Y. 12 1 0,114 = 0,886. Es el
complementario del coeficiente de alienacin y representa el porcentaje de seguridad en los
pronsticos.
PROBLEMA EJEMPLO
En una salida de ordenador encontramos los siguientes datos se trata de un problema que
aporta 8 variables independientes (X18) de tipo cuantitativo para explicar una conducta (Y)
tambin de tipo cuantitativo. Se recaba informacin de 70 sujetos.
Decisin
La F es significativa; por tanto, rechazamos la H0 (1 = 2 == 8) La regresin es significativa.
De las ocho VVII slo dos aportan coeficientes de la regresin significativos (hemos eliminado el
resto porque no son estadsticamente relevantes). Considerando el coeficiente de determinacin
(R2 = 0, 764) podemos afirmar que entre todas las variables independientes explican el 76,4% de la
VD. Teniendo en cuenta la significacin casi toda la varianza la explican dos variables (1 y 2); que,
a su vez, son las que presentan un coeficiente de correlacin parcial ms alto con la VD.
Estadsticos de cambio
Modelo R R2 R2 Cambi Cambio Gl 1 Gl 2 Significac.
Corregida o En F Cambio F
En R2
2 .709 .502 .495 .502 68,645 1 68 .000
1 .864 .747 .740 .245 64,908 1 67 .000
Mtodo de eliminacin hacia atrs (Backward) Se introducen todas las variables predictoras
y se sacan una a una hasta quedarse con las que realmente estiman significativamente la VD. Se
procede de modo similar pero eliminando hacia atrs.
Se trata de procedimientos que analizan la validez de las decisiones a partir de las puntuaciones
en uno o varios tests en relacin a un criterio dicotmico. La puntuaciones se dicotomizan a
partir de un punto de corte (PC); es decir, se asignan en dos categoras (aptos no aptos;
admitidos rechazados, etc.). Este tipo de procedimientos se utilizan generalmente en los test
referidos a criterio (TRC)
En un estudio de validacin se aplica una prueba a todos los sujetos y se fija un punto de corte
(PC) Todos que lo superen se consideran Aptos y los que no l superen No aptos. Despus de
cierto tiempo se comprueba cul ha sido el rendimiento de ambas categoras.
ndices de validez
ndices de seleccin
el test)
PROBLEMA EJEMPLO
ndices de validez
NDICE KAPPA K = Fc Fa / N Fa ndice Kappa (validez media):
Fc = aciertos (8 + 10 = 18)
K = (18 12) / (24 -12) 0,5 Fa = (10 12) / 24 = 5 y Fa = (12 14) / 24 =7
(validez media) Fa = 5 + 7 = 12
ndices de seleccin
RI = NAC / N = 12 / 24 = 0,5 Razn de idoneidad: prop sujetos que rinden bien en criterio.
En teora debera situarse en el valor donde se cometan menos errores. Dado que la validez de
las decisiones depende de dnde se situ el PC, es necesario analizar las consecuencias ya
que no tiene la misma importancia cometer un error u otro (falsos negativos o positivos). En
trminos de decisin estadstica, el PC se debe situar teniendo en cuenta la matriz que refleja
las prdidas y ganancias derivadas de las decisiones:
MTODOS DE SELECCIN
Para realizar de modo adecuado la seleccin hay que combinar la informacin disponible
mediante los siguientes modelos:
Modelo Compensatorio (aditivo): a cada sujeto se le asigna una nica puntuacin global
(los sujetos pueden compensar las bajas puntuaciones). La forma adecuada de otorgar una
puntuacin global es mediante el modelo de regresin
Modelo conjuntivo: se fijan de antemano unos mnimos en cada una de las pruebas. Slo
se seleccionan los sujetos que hayan superado esos mnimos en todas las pruebas.
Modelo disyuntivo: slo se exige superar un determinado nivel de competencia en algn de
los predictores.
Modelo conjuntivo compensatorio: se aplica el modelo conjuntivo y se seleccionan los
sujetos que superan los mnimos en cada uno de los predictores. A continuacin se les aplica
el modelo compensatorio de forma que queden ordenados segn su puntuacin global. Para
efectuar la seleccin, se puede elegir a los mejores o establecer un PC.
Modelo disyuntivo compensatorio (despus de aplicar el modelo disyuntivo se aplica el
compensatorio)
Situaciones:
1) No hay nmero limitado de plazas y se seleccionan todos los sujetos que superan una
determinada puntuacin en el o los predictores.
2) Hay un nmero limitado de plazas y se seleccionan a los que hayan obtenido mejores
resultados en el o los predictores.
PROBLEMA EJEMPLO
300 aspirantes a controlador areo realizaron un test de rapidez perceptiva, de los que fueron
admitidos los 15 mejores. Las puntuaciones en el test se distribuyen segn la curva normal con
media 5 y desviacin tpica 3. El coeficiente de validez del test es de 0,90 respecto a un criterio
con una varianza de 9 puntos y una media de 6. Para que un aspirante haya sido seleccionado
SY 3
Y ' = rxy ( X X ) + Y = 0.9 (9.92 5) + 6 = 10.43
SX 3
LONGITUD DEL TEST: La mejora del coeficiente de fiabilidad, al aumentar la longitud del test,
tambin repercute en la mejora del coeficiente de validez.
La relacin del coeficiente de validez con la fiabilidad y la longitud del
test viene dada por la expresin adjunta:
RXY coeficiente de validez final (estimado al modificar longitud del test) rxy n
R XY =
rxy coeficiente de validez inicial del test (antes de modificar la longitud) 1 + (n 1) rxx'
n = n de veces que se aumenta o disminuye la longitud del test
rxx coeficiente de fiabilidad inicial del test.
Cuando se quiere saber el n de veces que hay que aumentar o 2
R XY (1 rxx' )
disminuir la longitud del test para conseguir un determinado valor del n= 2 2
coeficiente de validez, se aplica la frmula rxy R XY rxx'
Para saber cuntos tems deben aadirse, segn la longitud EF
n= EF = n * EI
EI
1.- Cul sera el valor del coeficiente de validez si tanto las puntuaciones del test como del
criterio estuviesen libres de errores de medida?:
2.- Cul sera el valor del coeficiente de validez si slo el test tuviera una fiabilidad perfecta?
3.- Cul sera el valor del coeficiente de validez si slo el criterio tuviera una fiabilidad perfecta?
4.- Cul sera el valor del coeficiente de validez mejorando la fiabilidad del test (0,90), del criterio
(0,70) de ambos?:
5.- Si un test tiene un coeficiente de fiabilidad de 0,64, cul sera el valor mximo del coeficiente
de validez que se podra alcanzar?
2
R XY (1 rxx ' ) 0.80 2 (1 0.60)
n= = = 2.4150 Se debe aumentar la longitud del
rxy2 R XY
2
rxx ' 0.70 2 0.80 2 * 0.60 test 2,415 veces.
EF El aumento supone un nmero de
n= EF = n * EI = 2.4150 * 30 = 72.4 tems
EI EF EI = 74,45 30 =42,45 42
INTRODUCCIN
El anlisis de los tems pretende obtener evidencias sobre su calidad con objeto de identificar
los que se han de descartar, reformular los que puedan ser mejorados y conservar los que
presenten buenas propiedades psicomtricas (conociendo la calidad de cada uno de los tems,
podramos deducir la calidad psicomtrica del test)
Una vez analizada la calidad psicomtrica de los tems de un test se procede a estudiar la calidad
global del test mediante la fiabilidad y la validez.
Los tems pueden adoptar distintos formatos y evaluar variables cognitivas (aptitudes,
rendimiento, etc.) en las que hay respuestas correctas e incorrectas y no cognitivas (actitudes,
intereses, valores, etc.) en las que no hay respuestas correctas e incorrectas. Los procedimientos
cuantitativos que se utilizan aluden a tems aptitudinales o de rendimiento (existe una alternativa
correcta y una o varias incorrectas)
Aspectos a evaluar
Cero indica que ningn sujeto lo ha acertado (difcil) / Uno que todos lo ha acertado (fcil)
El ndice de dificultad est directamente relacionado con la media y la varianza del test:
Correccin de los aciertos por azar En tems de eleccin mltiple, se debe hacer una
correccin en el clculo de la dificultad del tem que controle las respuestas al azar. A mayor
nmero de distractores (alternativas incorrectas) menos probables son los aciertos por azar.
En general los tems no deben tener dificultades por debajo de 0,20 no por encima de 0,80 (la
mayora deben presentar niveles medios entre 0,30 y 070)
PROBLEMA EJEMPLO
En la tabla aparecen las respuestas de 200 sujetos a 3 alternativas (A, B, C), donde la opcin B es
la correcta. Por filas aparece la frecuencia de sujetos que han seleccionado cada alternativa y que
han obtenido puntuaciones superiores e inferiores al 50% de su muestra.
A B* C
50% Superior 19 73 47 139
50% Inferior 35 10 16 61
54 83 63 200
Lgica del concepto dado un tem, los sujetos con buenas puntuaciones en el test han de
acertarlo en mayor proporcin que los que tienen bajas puntuaciones.
Discriminar diferenciar entre los sujetos en funcin de su nivel de competencia. En general, el
clculo del poder discriminativo de un tem implica contrastar la proporcin de aciertos entre dos
grupos extremos de aptitud, uno bajo y otro alto (si el tem discrimina adecuadamente, la
proporcin de aciertos sera mayor en el grupo de alta aptitud que en el de baja aptitud)
Problema ejemplo: Las respuestas de los sujetos de una muestra a un elemento de un test, se
distribuyeron segn la tabla adjunta. La respuesta correcta es la C y tanto las puntuaciones en el
test como en el tem se distribuyen normalmente. Averiguar el ndice de discriminacin del tem.
pXY = proporcin de sujetos que han acertado el tem y son aptos en el criterio
pX y pY = proporcin de sujetos que han superado el tem o son aptos en el criterio
qX y qY = proporcin de sujetos que no han superado el tem o no son aptos en el criterio
_ _
XA y XT = media del test de los sujetos que aciertan el tem / media del test
SX = desviacin tpica del test
p y q = proporcin de sujetos que aciertan / fallan el tem
y = altura curva normal, corresponde a una Z (P. Tpica) que deja por debajo una prob.
Problemas ejemplo Se ha construido un test que se corrige clasificando a los sujetos en dos
categoras: aptos y no aptos. Todos los elementos del test son dicotmicos. Se aplica el test a un
grupo normativo y obtenemos la siguiente tabla:
tem 6 (X)
Acierta (1) Falla (0)
Aptos (1) 120 30 150
120/330 = 0,36 150/330 = 0,45
No Aptos 20 160 180
Test (Y) 180/330 = 0,55
Criterio (0)
140 190 330
140/330 = 0,42 190/330 = 0,58
Problemas ejemplo A partir de los datos de la tabla calcular el poder discriminativo del tem n
2, utilizando la correlacin biserial y la biserial puntual.
tems de Actitudes: Como se ha visto, para los tems de las actitudes no existen respuestas
correctas o incorrectas (el sujeto se sita en un continuo en funcin del grado del atributo medido).
El procedimiento para estimar la discriminacin de los tems de actitudes es calcular la correlacin
entre las puntuaciones del tem y las del test (como los tems no son dicotmicos correlacin
de Pearson)
Problema ejemplo La siguiente matriz de datos representa las respuestas dadas por ocho
sujetos a un test de eleccin mltiple de seis elementos, cada uno de ellos con cuatro alternativas
de respuesta. Por simplicidad, en la matriz se ha indicado nicamente si el sujeto ha elegido la
opcin correcta (con un 1) o una opcin incorrecta (con un 0). Calcular El ndice de
homogeneidad del elemento n 4 y determinar el nmero de discriminaciones que puede hacer el
tem n 5:
tems Total (Test)
Sujetos X1 X2 X3 X4 X5 X6 X X X4 X2 X24
1 1 1 0 0 1 0 3 0 9 0
2 1 1 1 1 1 0 5 5 25 1
3 1 1 1 0 0 0 3 0 9 0
4 1 0 0 1 0 0 2 2 4 1
5 1 1 0 0 0 0 2 0 4 0
6 1 1 1 1 0 0 4 4 16 1
7 1 0 0 0 0 0 1 0 1 0
8 1 1 0 0 1 0 3 0 9 0
3 23 11 77 3
Clculos previos
(8 11) (23 3) S2X = (77 / 8) (23 / 8)2 = 9,625 - 8,26 1,36
RXJ = ------------------------------------
(8 77 232) (8 3 -32) S2J = (3 / 8) (3 / 8)2 = 0,375 - 0,141 = 0,23
19
RXJ = -------------- = 0,53 SJ = 0,48 y SX = 1,17
(87 15)
Problema ejemplo En la tabla se representan las puntuaciones dadas al tem n 9 por el 25%
de los sujetos con puntuaciones ms altas, y el 25% con puntuaciones ms bajas en un test de
actitudes formado por tem de tipo Likert con 10 categoras de respuesta. Sabiendo que la
varianza de ambos grupos (superior e inferior) es igual a 1,56, podemos decir que el elemento n
9 discrimina de manera estadsticamente significativa? (NC = 95% / Contraste bilateral)
Decisin (NC 95%; bilateral) t con n1 + n2 2 (3+3-2 = 4) grados de libertad t0,975 = 2,78
Como T = 4,9 > TC = 2,78 Rechazamos H0 (las medias son distintas y, por tanto, el tem n 9
tiene poder discriminativo)
Variabilidad de los tems (si no hay variabilidad en las respuestas el tem no discrimina)
Dificultad del tem (con dificultad media, p = 0,5, el tem alcanza mximo poder discriminativo)
Dimensionalidad del test (el test debe medir un nico concepto; unidimensional)
Fiabilidad del test (tems con poco poder discriminativo se asocian a tests poco fiables)
Relacin entre fiabilidad del test y discriminacin de los tems (Alpha de Cronbach):
n S 2J n S 2
J
= coeficiente de fiabilidad del test
= 1 = 1
Se sustituye SX por SJ rJX
n 1 S 2 X n 1 [ S r ] 2
J JX
ndice de Fiabilidad de los tems (criterio interno) se utiliza para cuantificar el grado que el
tem en cuestin est midiendo con precisin el atributo de inters.
ndice de Validez de los tems (criterio externo) Implica correlacionar las puntuaciones
obtenidas por una muestra de sujetos en el tem con las puntuaciones obtenidas por los
mismos sujetos en algn criterio externo de inters.
Para calcular la varianza de cada elemento (los tems son dicotmicos: 1 acierto y 0 fallo)
tem A (p = 4 aciertos / 5 respuestas = 0,8; por tanto, 1 fallo / 5 respuestas = 0,2)
tem B (p = 3 aciertos / 5 respuestas = 0,6; por tanto, 2 fallo / 5 respuestas = 0,4)
tem C (p = 4 aciertos / 5 respuestas = 0,8; por tanto, 1 fallo / 5 respuestas = 0,2)
Desviacin Tpica de cada tem SJ = pq S2A = (4/5)(1/5) = 0,16 SA = 0,40
S2B = (3/5)(2/5) = 0,24 SB = 0,49 // S2C = (4/5)(1/5) = 0,16 SC = 0,40
ndices de Validez (rJY) A = (0,20) // B = (0,40) // C = (0,60)
Pasamos a calcular las correlaciones entre cada tem (1, 2 y 3) y la puntuacin total en el
test (eliminando la correspondiente al tem implicado):
_
X = Media total del test (eliminando tem n 1) (1+2+0+2+2 / 5 = 1,4)
_
X = Media total del test (eliminando tem n 2) (1+2+1+2+2 / 5 = 1,6)
_
X = Media total del test (eliminando tem n 3) (0+2+1+2+2 / 5 = 1,4)
A partir de los ndices de validez y fiabilidad de los tems calculamos el coeficiente de validez del
test:
Una vez realizado el anlisis de las alternativas correctas, para mejorar la calidad de los tems
resulta igual de relevante analizar los distractores o respuestas incorrectas. Bsicamente, este
anlisis pretende:
Controlar que todas las acciones incorrectas sean equiprobables (igual de atractivas para los
que no conocen la respuesta correcta) y elegidas por un mnimo de sujetos (10%)
Que el rendimiento en el test de los sujetos que seleccionan las respuestas incorrectas sea
menor al de los sujetos que han seleccionado las correctas (se espera que a ms aptitud
disminuya el nmero de sujetos que seleccionan las alternativas incorrectas y viceversa).
Problema ejemplo Se sospecha que las alternativas incorrectas de un tem del ltimo examen
de Psicometra no son equiprobables. En la siguiente tabla se muestra la frecuencia de sujetos
que seleccionaron cada una de las tres alternativas del tem, donde la B es la correcta. Averiguar
si las alternativas incorrectas son estadsticamente equiprobables a un nivel de confianza del 95%.
Problema ejemplo En la siguiente tabla se muestran las respuestas de cinco sujetos a un tem
de tres alternativas, donde la opcin correcta es la C, as como la opcin incorrecta seleccionada y
la puntuacin total obtenida en el test. Calcular la discriminacin del distractor A utilizando la
correlacin biserial puntual y comentar el resultado.
Sujet tem X X X- i _ _
o XA = (3+4) / 2 = 3,5 y XT = (1+3+4+0+3) / 5 = 2,2
1 1 2 1 S2X-i = (12+32+42+02+32 / 5) -2,22 = 2,16 SX = 2,16 = 1,47
2 0 3 3 p y q (2/5 = 0,4 y 0,6)
(A)
3 0 4 4 _______
(A) rbp = [(3,5 2,2) / 1,47] (0,4/0,6) = 0,73
4 1 1 0
5 0 3 3
(B)
El resultado (rbp = 0,73), indica que el distractor est confundiendo a los sujetos que obtienen
mejores puntuaciones en el test; por tanto, no discrimina en sentido contrario a la alternativa
correcta, tal como cabra esperar de un buen distractor.
Conceptos bsicos:
Sesgo (sujetos igualmente hbiles no tienen la misma probabilidad de acertar el tem por el
hecho de pertenecer a subpoblaciones distintas). El sesgo est relacionado con la validez de
constructo e indica que est actuando alguna variable extraa.
FDI (detecta que un tem est funcionando de manera distinta en dos grupos con el mismo nivel
de aptitud). Detectada la circunstancia, no apunta posibles causas.
Impacto (diferencias reales entre grupos que se deben a diferencias en el nivel de competencia
de las subpoblaciones).Mientras que en el FDI las diferencias se deben a motivos distintos al
nivel de competencia, en el impacto hay un grupo de sujetos ms competente.
Correcta Incorrecta Ai Di
Grupo de Referencia
s
Ai
s
Bi NRi
Ni
A, B, C y D
Frecuencias
(GR) MH = absolutas de
Bi Ci
Grupo Focal
(GF)
Ci Di NFi Ni
cada categora
de habilidad i
N1i N0i Ni
Ai Di
Ni 4,70
Dado que MH (1,74) > 1, el tem presenta FDI y
favorece al grupo de referencia (nios)
MH = = = 1,74
Bi Ci 2,70
Ni
1.- INTRODUCCIN
Problema ejemplo Hemos aplicado un test de razonamiento lgico a una muestra de 200 sujetos.
Se ha obtenido una media de 20 puntos y una desviacin tpica de 5 puntos. Averiguar e interpretar la
puntuacin tpica de dos sujetos que obtuvieron en el test 15 y 30 puntos.
Z1 = (15 20) / 5 = (- 1,00) Se encuentra a una desviacin tpica por debajo de la media del grupo.
Z2 = (30 20) / 5 = 2,00 Se encuentra a dos desviaciones tpicas por encima de la media del grupo.
D = 50 + 20 (- 1) = 30 // D = 50 + 20 (2) = 90
T = 50 + 10 (-1) = 40 // T = 50 + 10 (2) = 70
Transformaciones no lineales
Rango Percentil (sitan al sujeto en una determinada posicin dentro del grupo normativo
(x100 indica el % de sujetos que deja por debajo)
Escalas tpicas normalizadas (se obtienen a travs de los percentiles, aluden a la puntuacin
tpica que le corresponde a una puntuacin emprica obtenida por un sujeto en un test con una
distribucin normal). Si la distribucin se aleja de la normal se pueden falsear los datos.
Escalas normalizadas derivadas (permiten evitar los valores negativos y decimales). Al incluir
en el eneatipo sujetos con distintas puntuaciones se pierde informacin.
100 f 100 N PX I
PX = f b + d ( X C Li ) = f ac X C = Li + fb
N I N 100 fd
PX % de sujetos con una puntuacin directa inferior a X; I = amplitud del intervalo
fb = frecuencia acumulada bajo el intervalo crtico; XC =Puntuacin correspondiente al centil
fd = frecuencia absoluta dentro del intervalo crtico; Li = lmite inferior del intervalo crtico
fac = frecuencia acumulada al punto medio del intervalo donde se encuentra X C
X f XM fa fa / XM % acumulado
30-32 10 31 100 95 95
27-29 14 28 90 83 83
24-26 20 25 76 66 66
21-23 21 22 56 45,5 45,5
18-20 30 19 35 20 20
15-17 5 16 5 2,5 2,5
La mediana (percentil 50) P50 = 20,5 + (50 35) (3/21) = 20,5 + 2,14 = 22,64
CI = (EM / EC) 100 Cociente intelectual (CI) se divide la edad mental entre la edad
cronolgica, multiplicando por 100 el valor obtenido. Cuando
coinciden la edad mental y la cronolgica el CI = 100.
Proceso mediante el cual se establece una correspondencia entre las puntuaciones de dos o ms
test, de manera que sea indistinto el empleo de uno u otro, puesto que las puntuaciones de cualquiera
de ellos se podran expresar en trminos de las del otro test. Se llama equiparacin horizontal
cuando, midiendo el mismo rasgo, los test se han intentado construir con la misma dificultad y
equiparacin vertical cuando, midiendo el mismo rasgo, tienen distinta dificultad.
DISEOS DE EQUIPARACIN
(Es conveniente que el nmero de sujetos utilizados sea representativo de la poblacin)
Diseos de un solo grupo: se administran las dos formas del test, cuyas puntuaciones queremos
equiparar, al mismo grupo de sujetos; ambas formas deben medir la misma caracterstica y
presentar el mismo grado de dificultad. Pueden influir el efecto orden de presentacin y el
cansancio. La variante diseo de un solo grupo contrabalanceado evita los problemas descritos
(se dividen los sujetos en dos grupos y se administran los test en orden inverso.
Diseos de grupos no equivalentes con tems comunes (diseo de anclaje): A cada grupo se
le administra una sola forma del test y, como a priori no son equivalentes, adems se les aplica un
test comn (test de anclaje) que permite establecer las equivalencias entre los test equiparar.
El diseo tiene dos modalidades el anclaje interno (conjunto de tems comunes a ambos test que
aparecen intercalados con el resto de tems propios de las dos formas) y el anclaje externo (los
tems comunes aparecen formando un test independiente). Se sugiere el 20% de tems comunes
respecto a la longitud total del test (30 tems comunes pueden ser suficientes en los test extensos)
MTODOS DE EQUIPARACIN
MTODO DE LA MEDIA: Se asume que las puntuaciones de uno de los test difieren, en una cuanta
constante, de las puntuaciones del otro test (la diferencia entre las puntuaciones obtenidas por los
sujetos en ambos test es constante)
MTODO LINEAL: Las diferencias entre las puntuaciones pueden variar (las diferencias entre las
puntuaciones bajas pueden ser mayores que entre las altas). El mtodo se basa en la equiparacin
de aquellas puntuaciones directas que tienen la misma puntuacin tpica. Se contemplan
procedimientos para:
Diseos de un solo grupo Diseos de grupos equivalentes Diseo de anclaje
MTODO EQUIPERCENTIL: Consiste en equiparar aquellas puntuaciones cuyos percentiles
son iguales (es el mtodo de equiparacin ms habitual)
Problema ejemplo (Mtodo de la media) Consideremos los test X e Y con medias 65 y 70,
respectivamente; segn el mtodo de la media, para equiparar las puntuaciones de ambos test
tendramos que sumarle a las puntuaciones del test X cinco puntos (o restarle cinco puntos a las de Y)
Para X = 60 X* = Y 60 + 5 = 65
Y
S 3,02
Tambin X * = Y = ( X X ) + Y Y = ( X 43,3) + 41,2 = 0,72 (X-43,3) + 41,2
SX 4,17
_ ____
X = (260/6 = 43,3) // S2X = (11354 / 6) 43,32 = 17,4 // SX = 17,4 = 4,17
_ ___
Y = (247/6 = 41,2) // S2Y = (10239 / 6) 41,22 = 9,1 // SY = 9,1 = 3,02
Problema ejemplo El psiclogo de un centro escolar ha decidido utilizar dos formas distintas de un
test para estudiar el grado de motivacin de los alumnos con problemas de aprendizaje en su centro.
Para calcular la equiparacin de las puntuaciones, el psiclogo cuenta con las puntuaciones obtenidas
en las dos formas del test por 30 alumnos. La mitad de los alumnos respondieron primero a la forma X
y luego a la forma Y, y la otra mitad respondieron primero a la forma Y y luego a la forma X. La suma
de las puntuaciones obtenidas en las dos formas y la suma de las puntuaciones al cuadrado fueron las
que se recogen en la tabla. Calcular la ecuacin de equiparacin de las puntuaciones de ambas formas
del test (correlacin entre ambos test rXY = 0,8)
Supuestos iniciales Se trata de un diseo de un solo grupo (se administran los dos test al mismo
grupo de sujetos pero en orden inverso)
GRUPO 1 GRUPO 2
FORMA X FORMA Y FORMA X FORMA Y
x 189 195 210 202
x2 2420 2635 2986 2810
* S 2Y1 + S 2Y 2 X 1 + X 2 Y1 + Y2
X =Y= X + X* = 1,51 (X 13,3) + 13,23
S 2 X1 + S 2 X 2 2 2
___________
X* = (12,82 / 5,63 [(X 26,6/2)] + (26,47/2) = 1,51 (X 13,3) + 13,23
GRUPO 1 _ _
X1 = (189/15 = 12,6) // Y1 = (195/15 = 13)
____
S2X1 = (2420 / 15) 12,62 = 2,57 // SX1 = 2,57 = 1,6
___
S2Y1 = (2635 / 15) 132 = 6,66 // SY1 = 6,66 = 2,58
GRUPO 2 _ _
X2 = (210/15 = 14) // Y2 = (202/15 = 13,47)
____
S2X2 = (2986 / 15) 142 = 3,07 // SX2 = 3,07 = 1,75
___
S2Y2 = (2810 / 15) 13,462 = 6,16 // SY2 = 6,16 = 2,48
GRUPO TOTAL Media X = (399/30 = 13,3) S2X = (5406 / 30) 13,32 = 3,31
Media Y = (397/30 = 13,23) S2Y = (5445 / 30) 13,232 = 6,47
(X * X )
Donde Z X = ZX = (15,8 -13,3) / 1,82 ZX = 1,37
SX
Diseo de anclaje
S Y2 + b 2 YZ 2 ( S 2 Z S 2 Z 2 )
*
X =Y = [ X ( X 1 + b XZ 1 ( Z Z1 ))] + [Y2 + bYZ 2 ( Z Z 2 ) ]
2 2 2 2
S X 1 + b XZ 1 ( S Z S Z1
Z = Test Zeta
Error tpico bXZ1 y bYZ2 = pendientes de la recta de regresin
(de X sobre Z y de Y sobre Z) en los grupos 1 y
2.
2 S 2 Y (1 r 2 )[ Z 2 X (1 + r 2 ) + 2) SY 2
S EX * = bYZ 2 = rYZ 2
N SZ 2
S X1 b b
bYZ 1 = rXZ 1 r = XZ 1 = YZ 2
S Z1 SX SY
GRUPO A GRUPO B
TEMS TEMS TEMS TEMS
COMUNES (Z1) DIFERENTES (X1) COMUNES (Z2) DIFERENTES (Y2)
14 32 10 20
12 25 10 25
9 26 8 20
11 19 13 30
10 15 15 25
Supuestos iniciales Se trata de un diseo de anclaje (se cuenta con dos grupos de sujetos, a cada
grupo se le administra una forma diferente del test y un test de anclaje (Z) que es comn a ambos
grupos)
Realizando los clculos previos obtenemos los datos del cuadro siguiente:
PENDIENTES RECTA bXZ1 = 0,60 (5,88/1,72) 2,05 bYZ2 = 0,67 (3,74/2,48) 1,01
REGRESIN
S + b 2 YZ2 ( S 2 Z S 2 Z 2 )
Y2
*
X =Y = [ X ( X 1 + b XZ 1 ( Z Z1 )) ] + [Y2 + bYZ 2 ( Z Z 2 ) ]
S 2 X 1 + b 2 XZ 1 ( S 2 Z S 2 Z1
2
14 + 1,01 ( 4,56 6,16)
X* = [ X ( 23,4 + 2,05(11,2 11,2))] + ( 24 + 1,01(11,2 11,2)
34,6 + 2,05 2 ( 4,56 2,96)
2 S 2 Y (1 r 2 )[ Z 2 X (1 + r 2 ) + 2] 2 14(0,88)[0,0576(1,12) + 2]
S EX * = = = 1,2
N 35
MTODO EQUIPERCENTIL
100 f 100 I = amplitud del intervalo
PX = f b + d ( X C Li ) = f ac XC =Puntuacin correspondiente al centil.
N I N Li = lmite inferior del intervalo crtico
Problema ejemplo Se construyeron dos formas alternativas de un test de 10 tems y ambas fueron
aplicadas a los mismos grupos. Las distribuciones de frecuencias de las puntuaciones de las dos
formas se presentan en la tabla. A partir de los datos equipare las puntuaciones de ambas formas
utilizando la equiparacin equipercentil.
RY X 1 X 2 = b1*rYX1 + b2*rYX 2
Ecuacin en puntuaciones tpicas (obsrvese que la pendiente de la Ecuacin en puntuaciones tpicas (a = 0):
recta de regresin (b) es igual al coeficiente de validez (rxy) y a = 0)
Zy = bZx Z Y ' = b1* Z X1 + b2* Z X 2
rYX1 rYX 2 r X 1 X 2 rYX 2 rYX1 rX 1 X 2
b = rxy Z 'Y ' = rxy Z x b1* = b2* =
1 r X2 X 1 rX2
1 2 1X 2
1
Psicometra Centro Asociado UNED A Corua
La varianza residual o varianza de error y el error tpico de La varianza residual o varianza de error y el error tpico de
estimacin estimacin mltiple
El coeficiente de validez indica la eficacia del test o variable El coeficiente de validez mltiple indica la eficacia de las variables
predictora para estimar el criterio. En la medida en que el coeficiente predictoras para estimar el criterio. En la medida en que el
de validez sea ms alto, la estimacin ser ms exacta; en el lmite, coeficiente de validez sea ms alto, la estimacin ser ms exacta y,
cuando el coeficiente de validez fuera la unidad, el valor estimado en el lmite, cuando el coeficiente de validez fuera la unidad, el valor
coincidira con la puntuacin que realmente obtuvieran los sujetos en estimado coincidira con la puntuacin que realmente obtuvieran los
el criterio. Sin embargo, dado que nunca se alcanzan coeficientes de sujetos en el criterio. Sin embargo, a pesar de haber utilizado ms
validez perfectos (iguales a 1 en valor absoluto), la estimacin de una variable predictora, el coeficiente de validez no ser perfecto
vendr afectada por el denominado error de estimacin, la (igual a 1 en valor absoluto) y la estimacin vendr afectada por el
diferencia entre la puntuacin que ha obtenido un sujeto en el criterio denominado error de estimacin que equivale a la diferencia entre
y la que se le pronostica mediante la ecuacin de regresin: la puntuacin que ha obtenido un sujeto en el criterio y la que se le
E = Y Y pronostica mediante la ecuacin de regresin (Y Y).
E = Y Y
Con cada sujeto se comete un determinado error de estimacin. A la Con cada sujeto se comete un determinado error de estimacin. A la
varianza de todos los errores de estimacin cometidos con los varianza de todos los errores de estimacin cometidos con los
sujetos de la muestra seleccionada se denomina varianza residual, sujetos de la muestra seleccionada se denomina varianza residual,
varianza error o error cuadrtico medio. varianza error o error cuadrtico medio y su frmula es:
S Y2X =
(Y Y ' ) 2
S Y2X X =
(Y Y ') 2
N 1 2 N
Esta varianza de error representa la variabilidad media de las Esta varianza de error representa la variabilidad media de las
puntuaciones de los sujetos en el criterio respecto a la puntuacin puntuaciones de los sujetos en el criterio respecto a la puntuacin
que se les pronostica mediante la recta de regresin. que se les pronostica mediante la recta de regresin.
Otra forma de expresin de la varianza de error Otra forma de expresin de la varianza de error mltiple
SY2 X = SY2 ( 2
1 r XY ) SY2 X
1X2
= SY2 (1 RY2 X
1X2
)
A la desviacin tpica de esos errores se le denomina error tpico A la desviacin tpica de estos errores se denomina: error tpico de
de estimacin. estimacin mltiple y su frmula es:
S Y X =
(Y Y ' ) 2
SY X =
(Y Y ') 2
1X 2 N
N
Otra forma de expresin del error tpico de estimacin Otra forma de expresin del error tpico de estimacin mltiple
SY X = SY 2
1 rXY SY X = SY (1 RY2X )
1X 2 1X 2
Cuando la escala que se utiliza es la de puntuaciones tpicas, dado Cuando la escala que se utiliza es la de puntuaciones tpicas, dado
que la desviacin tpica es la unidad, la frmula del error tpico de que la desviacin tpica es la unidad, la formula del error tpico de
estimacin es: estimacin es:
2
S Z Y Z X = 1 rXY SZ = (1 RY2X )
Y Z X1 Z X 2 1X 2
Interpretacin de la evidencia obtenida acerca de la capacidad Interpretacin de la evidencia obtenida acerca de la capacidad
predictora del test predictora del conjunto de variables utilizadas
La varianza de las puntuaciones obtenidas por los sujetos en el La varianza total de las puntuaciones obtenidas por los sujetos en
criterio (Y) se puede expresar como la suma de la varianza de las el criterio (Y) se puede expresar como la suma de la varianza de las
puntuaciones pronosticadas a partir de la variable predictora (Y) y puntuaciones pronosticadas a partir de las variables predictoras (Y)
la varianza de los residuos o varianza error: y la varianza de los residuos o varianza error.
SY2 = SY2' + SY2X SY2 = SY2' + SY2X
1X 2
Dicho de otro modo, la varianza total de los valores de Y (S2Y) es Dicho de otro modo, la varianza total de los valores de Y (S2Y) es
igual a la varianza explicada por el test (S2Y) ms la varianza igual a la varianza explicada por el influjo conjunto de X1 y X2 (S2Y)
debida al azar o varianza residual (S2YX) ms la varianza debida al azar o varianza residual (S2YX1X2)
A partir de esta ecuacin se puede averiguar la proporcin de la A partir de esta ecuacin se puede averiguar la proporcin de la
varianza de las puntuaciones de los sujetos en el criterio que se varianza de las puntuaciones de los sujetos en el criterio que se
puede explicar a partir de la varianza de las puntuaciones en el puede explicar a partir de la varianza de las puntuaciones en las
predictor (varianza de las puntuaciones pronosticas) y qu variables predictoras (varianza de las puntuaciones pronosticadas)
proporcin no se puede explicar y corresponde a los residuos y qu proporcin no se puede explicar y corresponde a los
residuos.
Coeficiente de determinacin Coeficiente de determinacin mltiple
2 = SY2 ' SY2'
CD = rXY CD = RY2X =
SY2 1X 2 SY2
Equivale al coeficiente de validez al cuadrado y representa la Equivale al coeficiente de validez mltiple al cuadrado y representa
proporcin (o porcentaje) de la varianza de las puntuaciones de los la proporcin de la varianza de las puntuaciones de los sujetos en
sujetos en el criterio que se puede pronosticar a partir del tests. el criterio que se puede pronosticar a partir del conjunto de
Tambin se define como la varianza comn asociado entre el test y variables predictoras. Tambin se define como la varianza comn o
el criterio. asociada entre el criterio y las variables predictoras.
Coeficiente de alienacin al cuadrado Coeficiente de alienacin mltiple al cuadrado
SY2 ' SY2X SY2' SY2X
CA 2 = 1 rXY
2 = 1 = CA 2 = 1 RY2X = 1 = 1X 2
SY2 SY2 1X 2 SY2 SY2
El coeficiente de alienacin al cuadrado es el complementario del El coeficiente de alienacin al cuadrado es el complementario del
coeficiente de determinacin y representa, por lo tanto, la coeficiente de determinacin y representa, por tanto, la proporcin
proporcin (o el porcentaje si se multiplica por 100) de la varianza (o porcentaje si se multiplica por 100) de la varianza de las
de las puntuaciones de los sujetos en el criterio que no se puede puntuaciones de los sujetos en el criterio que no se puede predecir
predecir a partir del test, es la proporcin de varianza error que hay a partir del conjunto de variables predictoras, es la proporcin de
en la varianza de las puntuaciones de los sujetos en el criterio. varianza error que hay en la varianza de las puntuaciones de los
sujetos en el criterio.
Coeficiente de alienacin Coeficiente de alienacin mltiple
S SY X 1 X 2
CA = 2
1 rXY = Y X CA = 1 RY2X =
SY 1X 2 SY
Aunque la frmula es equivalente a la del error tpico de estimacin Aunque la frmula es equivalente a la del error tpico de estimacin
en puntuaciones tpicas, de cara a la interpretacin de este en puntuaciones tpicas, de cada a la interpretacin de este
coeficiente conviene saber que, en realidad, indica la proporcin coeficiente conviene saber que, en realidad, indica la proporcin
que represente el error tpico de estimacin respecto a la desviacin que representa el error tpico de estimacin mltiple respecto a la
tpica de las puntuaciones en el criterio. En la medida en que el desviacin tpica de las puntuaciones en el criterio. En la medida en
error tpico sea ms pequeo que la desviacin tpica del criterio el que el error tpico sea ms pequeo que la desviacin tpica del
coeficiente K ser menor. El valor del coeficiente K oscila entre 0 y criterio, el coeficiente K ser menor. El valor del coeficiente K oscila
1, ser mximo cuando el coeficiente de validez sea 0 y ser entre 0 y 1, ser mximo cuando el coeficiente de validez sea 0 y
mnimo cuando el coeficiente de validez valga 1. El coeficiente de ser mnimo cuando el coeficiente de validez valga 1. El coeficiente
alienacin representa la inseguridad, o el azar, que afecta a los de alienacin representa la inseguridad, o el azar, que afecta a
pronsticos. los pronsticos.
Coeficiente de valor predictivo Coeficiente de valor predictivo mltiple
C.V .P. = 1 2
1 rxy CVP = 1 1 RY2X
1X 2
Es el complementario del coeficiente de alienacin y es otra forma Es el complementario del coeficiente de alienacin y es otra forma
de expresar la capacidad del test para pronosticar el criterio ya que de expresar la capacidad de las variables predictoras para
representa la proporcin (o porcentaje si se multiplica por cien) de pronosticar el criterio. Se interpreta como la proporcin (o
seguridad en los pronsticos. porcentaje) de seguridad con que se hacen los pronsticos.