0% encontró este documento útil (0 votos)
57 vistas52 páginas

Técnicas - A - Unidad 5 A 8 (Teóricos) 2022

Este documento describe los estándares para la validez de las pruebas educativas y psicológicas. Explica que la validez se refiere al grado en que la evidencia y la teoría respaldan la interpretación de los resultados de las pruebas para el propósito previsto. Luego detalla los cinco tipos de evidencia que se utilizan para establecer la validez: contenido, procesos de respuesta, estructura interna, relaciones con otras variables y criterio. Finalmente, resume la evolución del concepto de validez desde tres
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
57 vistas52 páginas

Técnicas - A - Unidad 5 A 8 (Teóricos) 2022

Este documento describe los estándares para la validez de las pruebas educativas y psicológicas. Explica que la validez se refiere al grado en que la evidencia y la teoría respaldan la interpretación de los resultados de las pruebas para el propósito previsto. Luego detalla los cinco tipos de evidencia que se utilizan para establecer la validez: contenido, procesos de respuesta, estructura interna, relaciones con otras variables y criterio. Finalmente, resume la evolución del concepto de validez desde tres
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como PDF, TXT o lee en línea desde Scribd

UNIDAD 5: VALIDEZ 

CLASE 13
Estándares para pruebas educativas y psicológicas: 
Es un aspecto que se tiene que tratar de cumplir en todos los instrumentos de carácter psicométrico y que son
necesarios para poder establecer si el instrumento cumple con todos los requisitos para que uno pueda hacer
interpretaciones a las puntuaciones de manera adecuada, porque si uno no tiene un control de cómo se debe
interpretar las puntuaciones del test y no tiene evidencia que permitan hacer una interpretación teórica de que
se está midiendo en algún tipo de constructo específico, uno puede tomar decisiones inadecuadas o pueda
dar información inadecuadas a los pacientes o la persona que solicita los resultados de un instrumento. Ante
esto se han propuesto normas técnicas.

Normas técnicas: determinan las características que tiene que tener un instrumento de medición en el ámbito
de la psicología y la educación. Han sido elaboradas por distintas instituciones asociadas con la psicología de
educación que permiten dar un panorama y dan información de que debería tener un instrumento psicométrico
para considerarlo confiable y válidos (da soporte a la interpretación de las puntuaciones) 
● American Educational Research Association 
● American Psychological Association (APA)
● National Council on Measurement in Education 

Validez de los test


Que los tests tengan validez no significan que sean válidos sino que sus puntuaciones que se obtienen con
los instrumentos, pueden tener validez para ciertos aspectos/contextos de aplicación. 
¿Qué es la validez de un instrumento de medida?
Según standards for educational and psychological test: 
● Validez sería el grado en que la evidencia y la teoría soportan la interpretación de las puntuaciones
de los test, para el propósito con el que estos son usados.
● Es la consideración más importante y fundamental al desarrollar y evaluar un test
● El proceso de validación implica acumular pruebas o evidencias  que proporcionen bases científicas
a las interpretaciones de los test 
● Son las interpretaciones de los test ante los usos concretos las que deben ser evaluadas y no el
test mismo.
● Cuando un test puede tener usos o finalidades múltiples son estas diferentes interpretaciones las
que deben ser validadas, no el test en sí mismo (p.9).

Concepciones erróneas
● La validez no se refiere al test como tal, sino al uso de las puntuaciones que de él se derivan 
● La validez es una cuestión de grado, y no se plantea sobre la base de todo o nada, por lo que debe
evitarse hablar de los resultados como válidos o inválidos.
● La validez es siempre específica a algún uso particular o interpretación de las puntuaciones 
●  La validez es un concepto unitario basado en diferentes tipos de evidencia.
● La validez implica un juicio evaluativo global en términos del soporte o apoyo que garantiza sus
interpretaciones 

La evolución del concepto de validez 


1. Validez predictiva y concurrente: como la capacidad de un test para predecir conductas de criterio
observables (una variable dependiente de una externa)
2.  Validez de contenido: el grado en que el contenido del test presenta una muestra satisfactoria del
dominio que pretende evaluar 
3. Validez de constructo: el grado en que el individuo posee algún rasgo hipotético o cualidad
(constructo) que presumiblemente se refleja en la conducta del test 
Con el tiempo se dejó de hablar de estos 3 tipos de test y se comenzó a hablar de: 
● Un proceso: ya que señalan que los datos de este estudio se utilizarán para revisar o rechazar las
teorías, y la validez no puede expresarse en un único coeficiente, sino que requiere de múltiples tipos
de evidencia 
● Un juicio evaluativo: basado en una variedad de consideraciones, incluyendo la estructura de las
operaciones de medida, el patrón de correlaciones con otras variables y los resultados de
investigaciones que la confirman o refutan. → el concepto ya no queda encerrado en esos 3 tipos sino
que se habla de evidencias de validez, hasta llegar al concepto actual de este: 
Validez: Messick (1990)
“La validez es un juicio evaluativo global del grado que la evidencia empírica y las bases teóricas
soportan la educación y apropiación de las interpretaciones y acciones basadas sobre las puntuaciones de
los test u otras formas de evaluación”

Una visión general del proceso de validación de tests


Elaboración:
1. Matriz de especificaciones: se especifican todos los componentes del constructo 
2. Red nomológica: se especifica en qué se diferencia de otros constructos y sus relaciones con otras
variables

Aspectos: de evidencia de validez, se agrupan en…


1. Contenido  
2. Sustantiva
3. Estructural
4. Generalizabilidad
5. Externa 
6. Consecuencial 

1. Evidencias basadas en el contenido de la prueba:


● Esta evidencia se obtiene demostrando que el contenido del test es una muestra representativa del
constructo o dominio respecto al cual se desea hacer alguna inferencia
● Si los ítems de un test son representativos de un dominio en particular, el desempeño del sujeto mismo
puede generalizarse a todo el dominio (Herrera Rojas, 1998)
● Procedimiento para el análisis de las evidencias de validez de contenido: 
.Definición del dominio de contenido o universo de observaciones admisibles 
I.Identificación de expertos en dicho dominio. 
II.Obtener juicios de los expertos sobre el grado que el dominio está bien definido, y el
contenido del instrumento lo representa bien y es relevante 
III.Calculo de algún índice cuantitativo para resumir los datos procedentes de la fase anterior 

2. Evidencia basada en el análisis de los procesos de respuesta 


Validez en los procesos de respuesta
● El análisis empírico y teórico del proceso de respuesta del test puede suministrar evidencia
relacionada con la congruencia entre el constructo medio y la naturaleza del rendimiento o
respuesta emitida ´por los examinados (APA,1999)
● Evidencia de validez se obtiene por medio de la utilización de entrevistas en profundidad con los
examinados, protocolos de respuesta y cualquier procedimiento que permita el análisis de las
respuestas individuales a los ítems de un test 
3. Evidencias basadas en la estructura interna: 
Tanto la evidencia de contenido como de respuesta al test se pueden considerar como evidencias de carácter
interna, esto quiere decir que no necesariamente tengo que contar con una variable externa y asociar las
puntuaciones del instrumento, sino que están basados más en el comportamiento interno del instrumento, la
posibilidad de que los contenidos están bien definidos, que el proceso de respuesta de los ítems  es adecuado
en base a la definición teórica que uno realizó y que cada uno de estos ítems son unidimensionales al
constructo que yo quiero medir (si yo quiero medir rasgos de personalidad con 2 factores que son amabilidad
y extraversión, no tenga ítems que correspondan a estos 2 factores sino que sea de uno u otro).

Para esto se utiliza el análisis factorial (exploratorio y confirmatorio) 


4. Evidencia basadas en las relaciones con otras variables
Necesito generar evidencia que me permita decir que las puntuaciones del instrumento ahora me permiten dar
un un diagnóstico, predecir o explicar un fenómeno en particular, generando una
relación con el instrumento con otras variables de carácter externo.

La red nomológica está asociada con una definición más teórica de cómo sería la
relación de mi variable en comparación con otra con la que la estoy comparando.
Podemos ver en la imagen que autoeficacia hay una correlación positiva (mostrada
con un signo +) con rendimiento, autoestima, persistencia, rendimiento anterior y
afrontamiento, mientras que hay una correlación negativa (signo -) con ansiedad.
Estas relaciones son las que uno puede considerar relevantes o propone y
dependiendo de la aplicación, el contexto y el tipo de constructo propone otro conjunto de variables. 
De lo teórico tendría que pasar a una manera más empírica de poder corroborar esas relaciones teóricas,
para esto lo que se hace es contar con un Test, como por ejemplo el de autoeficacia  y otros criterios como el
rendimiento, persistencia etc.

Red nomológica para el constructo que yo quiero medir (por ejemplo: autoeficacia): 
● Identificar todas las conductas que definen el constructo 
● identificar otros constructos que pueden estar relacionados, pero que se diferencian del constructo de
interés
● identificar otros constructos que no deben estar relacionados con el constructo  

Las evidencias convergente y discriminante


Evidencia de validez convergente: está dada por correlaciones relativamente altas entre aquellos
instrumentos de medición diseñados para evaluar un rasgo común.
Evidencia de validez discriminante: se obtiene cuando se encuentran correlaciones no significativas o
negativas entre instrumentos que miden rasgos diferentes
Las evidencias referidas al criterio
Algunas precisiones sobre los criterios
I. identificar un criterio relevante y un método para medirlo 
II. Identificar una muestra de sujetos representativa de la población que será usado en el test 
III. Administrar el test y obtener una puntuación para cada sujeto 
IV. Obtener medidas del criterio y una puntuación entre ellas para cada sujeto
V. Calcular algún índice que exprese las relaciones entre test y criterio
 Temporalidad del criterio: 
La validez predictiva y concurrente están asociadas a tomar un puntaje de un test y relacionarlo con un
procedimiento estadístico con una variable- criterio (asociado con el campo de aplicación donde se va a usar
el instrumento).
● Evidencia de validez predictiva: cuando se toman inicialmente las medidas en el test y, transcurrido
un periodo de tiempo, las medidas del criterio.
● Evidencia de validez concurrente: cuando las medidas del test y las del criterio se toman durante el
mismo periodo de tiempo
El problema del criterio:
● Sesgos
● Criterios múltiples frente a criterios únicos 
● Criterios estáticos vs criterios cambiantes
● Ausencia de validación de constructo de los criterios 
Validez incremental: 
CLASE 14
EVIDENCIA BASADA EN LAS RELACIONES DE OTRAS VARIABLES:
Entre ellas se encuentran la validez predictiva y concurrente las cuales están asociadas a tomar un puntaje de
un test y relacionarlo con un procedimiento estadístico con una variable- criterio (asociado con el campo de
aplicación donde se va a usar el instrumento).
Red nomológica para el constructo de autosuficiencia:(por ejem:
autoeficacia):
● Identificar todas las conductas que definen el constructo
● identificar otros constructos que pueden estar
relacionados, pero que se diferencian del constructo de
interés
● identificar otros constructos que no deben estar
relacionados con el

La red nomológica está asociada con una definición más teórica


de cómo sería la relación de mi variable en comparación con otra
con la que la estoy comparando. Podemos ver en la imagen que autoeficacia hay una correlación positiva
(mostrada con un signo +) con rendimiento, autoestima, persistencia,rendimiento anterior y afrontamiento,
mientras que hay una correlación negativa (signo -)con ansiedad. Estas relaciones son las que uno puede
considerar relevantes o propone y dependiendo de la aplicación, el contexto y el tipo de constructo propone
otro conjunto de variables.
De lo teórico tendría que pasar a una manera más empírica de poder corroborar esas relaciones teóricas,
para esto lo que se hace es contar con un Test, como por ejemplo el de autoeficacia y otros criterios como el
rendimiento, persistencia etc.
Algunas precisiones sobre los criterios:
● Identificar un criterio relevante y un método para medirlo.
● Identificar una muestra de sujetos representativa de la población en la que será usado el test.
● Administrar el test y obtener una puntuación para cada sujeto.
● Obtener medidas de criterio y puntuaciones en ellas para cada sujeto.
● Calcular algún índice que exprese las relaciones entre test y criterio
Temporalidad del criterio:
● Evidencia de validez predictiva: cuando se toman inicialmente las medidas en el test y, transcurrido
un periodo de tiempo, las medidas del criterio.
● Evidencia de validez concurrente: cuando las medidas del test y las del criterio se toman durante el
mismo periodo de tiempo.
El coeficiente de validez como correlación entre un test y un criterio:
● “La forma más común de definir el coeficiente de validez de las puntuaciones de un test para un
determinado criterio es la correlación lineal entre las puntuaciones del test y las de dicho criterio” → la
variable es lo que yo considero como interesante en mi campo de estudio, es lo que yo quisiera
explicar con el puntaje de mi test, responde a la pregunta ¿para qué me va a servir? El coeficiente de
validez es como la correlación entre las puntuaciones de un test y un criterio, esta relación se
establece mediante un procedimiento estadístico. En esta relación entre test-criterio se intenta
pronosticar, mediante las puntuaciones del test, el comportamiento futuro.
● Este procedimiento se hace mediante: Regresión lineal (RL), cuando utilizo una variable, Regresión
múltiple (RM) cuando utilizo más de una variable.
 
Para aplicar la RL se utiliza como método estadístico “método cuadrados ordinarios (MCO)” que busca una
recta que me permita explicar lo mejor posible la relación entre la variable dependiente e independiente.
● Estimadores de los parámetros (β0 y β1) que minimizan la suma de los errores al cuadrado para el
conjunto de los N sujetos

B1 se obtiene mediante la sumatoria X (puntaje del test) menos la media del puntaje del test multiplicado por
Y (criterio)  menos la media de ese criterio, dividido por la fórmula de Xi- X
Esto nos da como resultado la covarianza de X e Y  dividido por la desviación.
Para obtener B2, es la media de y menos el B1 multiplicado por el valor de la media de X. 

Conceptos utilizados en la teoría de la validez 


Error cuadrático medio y error típico de estimación: es la varianza de los errores
de predicción.
Coeficiente de determinación: 
❖ Proporción de variación del criterio (Y) asociada a la variación del test (X)
❖ Variación total, variación debida a la regresión y variación no explicada
Índice de eficiencia en el pronóstico (E): porcentaje de seguridad en el pronóstico 
Coeficiente de alienación (K): porcentaje de incertidumbre en el pronóstico.
Ejemplos: 

Evidencia de validez de creencias de autoeficacia en matemática: (con recta de regresión) 

SUPUESTOS: se utilizan para saber si el modelo estimado, realmente fue adecuadamente calculado y se
puede generalizar estos resultados o si existen alguna serie de errores que me dan debilidad para el modelo
establecido o pronosticado. Uno de estos es “Especificación correcta del modelo”

Otra característica es “variables medidas sin error” 


Supuestos sobre el término error: 
● Esperanza matemática nula
● Homocedasticidad o igualdad de las variables error en los diferentes valores de X
● Independencia de los errores o de las observaciones. 
Inferencias sobre el modelo global o ecuación de regresión
Una vez que yo propongo mi modelo tengo una inferencia sobre el modelo global 

Inferencias sobre los coeficientes de la regresión


Tengo un modelo de inferencia del coeficiente de regresión del valor Beta mediante una prueba T, donde la
hipótesis nula es que B es igual a cero y mientras que la hipótesis alternativa dice que es distinto de 0, si el
valor es distinto de 0 me dice que el valor de T es significativo y lo puedo usar para pronosticar mi variable
criterio 

También lo que yo puedo realizar con esta técnica es establecer “intervalos de confianza”

Factores que afectan el coeficiente de validez entre puntuaciones del test y del criterio 
Consideraciones: 
1. Error muestral o diferencial entre el coeficiente de correlación muestral y el de la población 
2. Error de la medida o ausencia de fiabilidad perfecta en la variable predictora
3. Error de medida en la variable criterio 
4. Utilizar criterios muy simplificadores, reducidos solamente a dos valores, como éxito-no éxito, o
similares
5. Dicotomización de la variable predictora también en dos valores, por ejemplo altos y bajos en el test 
6. Variación del rango de la variable criterio, es decir, cambios en la variabilidad (normalmente varianza)
de la variable criterio en otras muestras o condiciones 
7. Definición incorrecta del constructo en la variable predictora 
8. Definición incorrecta del constructo y contaminación del criterio o variable dependiente 
9. Errores de codificación,cálculo, etc.
10. Factores extraños, ligados a las características de las muestras como experiencia, permanencia en el
puesto del trabajo, etc que son frecuentes en el caso de los tests utilizados en sección personal 
Tres consideraciones importantes: 
● Relaciones entre fiabilidad y validez de las puntuaciones de X y de Y
● Cambios en el coeficiente de validez cuando se producen cambios de la longitud de los test 
● Cambios en el coeficiente de validez con cambios en la variabilidad del grupo: el problema de la
restricción del rango. 

CLASE 15
VALIDEZ Y UTILIDAD
Para utilizar en diagnóstico con mayor nivel de precisión o hacer selección de personal.
Para poder utilizar un test en un contexto determinado es necesario generar evidencia de validez.
Hay que tener en cuenta cómo interpretar y hacer una interpretación adecuada de los puntajes:
Baremos: tablas de referencia para interpretar los puntajes directos de los test.
Pruebas ROC: El análisis de curvas ROC (receiver operating characteristic curve) constituye un método
estadístico para determinar la exactitud diagnóstica de los tests.

Dos puntos de corte:


● Punto de corte en el test: puntuación en el test que establece que los sujetos que obtienen una
puntuación superior son seleccionados, o considerados como enfermos, mientras que los que obtienen
puntuaciones inferiores no son seleccionados o son considerados como sanos, según el propósito del
test.
● Punto de corte en el criterio: Puntuación en el criterio por encima de la cual el resultado se considera
un éxito y por debajo de ella un fracaso. En el caso de las decisiones de diagnóstico clínico, por
encima de este punto el sujeto se considera enfermo o con el trastorno, y por debajo, sano. A través
de esta podemos hacer una tabla de contingencia.
Tabla de contingencia: A través de ella haremos cálculos estadísticos para definir cuál es el punto de corte y
disminuir en lo mínimo los errores (falso positivo y falso negativo).
Contemplar cuándo me conviene más ampliar los falsos positivos
o falsos negativos, de acuerdo a la gravedad de los casos.
Línea de regresión: entiendo que es la zona donde están las cuatro letras al medio, el óvalo.

Mientras más pronunciada sea la línea de regresión y más ajustados están los casos en la línea de regresión,
mejor está prediciendo la variable de los puntajes del test sobre el criterio, y tendré mejores resultados a la
hora de clasificar los verdaderos positivos y los verdaderos negativos.
En el caso de que la distribución sea muy aleatoria, y se distribuyan de manera muy pareja tanto los
verdaderos positivos como los verdaderos negativos, y tanto los falsos positivos como los falsos negativos,
tendré menos correlación entre variables, y por lo tanto menos capacidad de predecir y diagnosticar de
manera adecuada a los sujetos.
UTILIDAD DE UN TEST EN UN PROCESO DE SELECCIÓN
● Correlación entre el test y el criterio: mientras más grande, más capacidad predictiva
● Tasa de base: Cuánto puedo diagnosticar a un sujeto sin utilizar un instrumento. (ej: estadísticamente
el 40% se recibe).
● Razón de selección: Cuánto el instrumento mejora las chances de predecir.
FÓRMULA:
1.

● Dividido por la cantidad de participantes. (A, B, C, D).


● Ejemplo: Puede responder a ¿qué proporción de personas
tendrán éxito en el puesto de trabajo?

2.

3. Capacidad de explicar los que deberían ser seleccionados con éxito. El


resultado más alto, mejor, es el más cercano a 1.
LAS DECISIONES CON LOS TESTS DE DIAGNÓSTICO CLÍNICO
● Establecer cuál es la utilidad del punto de corte establecido.
● Se puede tener distintos puntos de corte. Misión: clasificar correctamente los que sí y los que no tienen
el diagnóstico, y cometer los menos errores posibles.
● Hay errores que pueden ser más graves / importantes que otros. (ej: no grave - darle un tratamiento no
dañino a alguien que no lo necesita. grave - no dar tratamiento a alguien en necesidad urgente de él.)
Tablita para estudiar: → Hay que destacar que los más utilizados/importantes: sensibilidad y especificidad.

→De esta segunda imagen: solo


estudiar la eficacia del test. Las
demás dijeron que no son
importantes.

Ejemplo:

Arriba: sensibilidad. 74%


Abajo: especificidad. 97%
Resultado de sensibilidad y especificidad, cada uno: capacidad del punto de corte de clasificar de manera
correcta.

Sigue el ejemplo con las fórmulas que vimos antes:

EL ANÁLISIS MEDIANTE LAS CURVAS ROC:


Me permite probar los distintos valores que puede tener. Qué tanto me conviene usar tal o cual punto de corte.
Dependiendo del punto de corte establecido, cambiará la distribución del cuadro de doble entrada. Generará
más o menos verdaderos o falsos positivos o negativos, etc.

● Una curva ROC es una representación gráfica de la tasa de éxito (o probabilidad de detectar
correctamente una señal cuando dicha señal está efectivamente presente) frente a la tasa de falsas
alarmas (probabilidad de detectar una señal cuando no está presente) para tareas de detección con
dos resultados posibles (sí/no, presente/ausente).

Punto de corte: intersección entre sensibilidad y especificidad.

→Gráfico: una curva de sensibilidad y otra de especificidad. La


intersección es el punto de corte: el valor que mejor combina tanto
la sensibilidad como la especificidad.
Movimiento del punto de corte y consecuencias:

Cuanto más arriba y más a la izquierda, más preciso.

Utilidad del breve YAACQ para identificar estudiantes universitarios en riesgo de problemas relacionados con
el alcohol

→Comparación entre puntos de corte y ver cuál es el


que mejor va, considerando tanto sensibilidad como
especificidad. Ej: en SPAIN es 5.

Ejemplo / test: (la segunda imagen es como son los ítems/preguntas)


Likert de 3 puntos.

Prueba ROC:

→Tabla de la derecha: la línea es el punto de corte. En la de


arriba, los de la derecha son falsos positivos y en la de
abajo, los de la izquierda son falsos negativos.

→Para esto sirven las pruebas ROC (para


ayudarme a dar un diagnóstico)

CLASE 16
REGRESIÓN MÚLTIPLE
Es uno de los estudios que se hace para la validez de los instrumentos
Evidencias de validez referidas a un criterio: Regresión Lineal Múltiple
Es una técnica estadística que muestra cómo se relacionan los puntajes de un test con un criterio y
compararlos con otros instrumentos o variables que pueden ser predictoras del fenómeno o comportamiento
que queremos explicar. Asociado con la “Evidencia de validez incremental”.
Contexto de aplicación: orientación vocacional.
Variables: intereses. Autoeficacia, personalidad, expectativas, etc.
Evaluar relaciones teóricas para ver si permiten explicar o no comportamientos relacionados a la elección de
vocación.

Modelo teórico: Teoría Social Cognitiva del Desarrollo de Carrera (SCCT) se formuló originalmente con la
finalidad de integrar diferentes modelos y constructos para lograr una mejor comprensión de los mecanismos
que regulan el desarrollo de intereses vocacionales, la elección de carrera y el rendimiento académico.
● Enfatiza los tres componentes principales de la teoría social cognitiva: las creencias de autoeficacia,
las expectativas de resultados y las metas.
● A estos constructos se añaden otras variables internas al modelo, tales como:
◆ Características personales: género, raza/etnicidad y habilidades.
◆ Rasgos de la personalidad: por ejemplo responsabilidad
◆ Apoyo contextual: apoyo familiar y parental
Modelo de Autogestión de Carrera: Explicar los procesos por los cuales las variables cognitivas, tales como
la autoeficacia, las expectativas de resultados y las metas, junto con los factores de personalidad y
contextuales, influyen en los procesos de exploración de carrera y de decisión vocacional.

Modelo de la Regresión Lineal Múltiple: recta de regresión


Beta cero: origen.
Beta uno, beta dos, y así sucesivamente: la contribución de
cada variable. Cada uno representa una variable o un test. Ej:
autoeficacia, expectativas, intereses, etc.
Equis: puntaje observado, obtenido.

Arriba: misma ecuación de la otra diapo


Abajo: Beta estandarizado. No pone el origen (beta cero) en la ecuación.
Valores de 0 a 1, más fácil de interpretar y entender. El valor observado es
transformado en puntaje Z.

Variables cognitivas: necesitamos instrumentos que las midan.


● Escala de Autoeficacia para la Exploración y Toma de Decisión de Carrera (EAEDC). Esta escala mide
el grado de confianza que poseen los estudiantes respecto a ciertas actividades relacionadas con el
proceso de elección vocacional.
● Escala de Expectativas de Resultados e Intenciones de Carrera (EEIC). Está conformada por dos
subescalas. La primera mide expectativas de resultados de carrera (ER), y la segunda metas o
intenciones (IC) para involucrarse en actividades de exploración de carrera.
● Escala de Acciones Exploratorias - Revisada (EAE). Este instrumento mide los comportamientos o
acciones dirigidas al involucramiento en actividades relacionadas a la exploración y toma de
decisión de carrera.

Variables de resultado:
● Escala de Decisión de Carrera (EDC). Mide el nivel de decisión de los participantes en la elección de
una carrera, y la indecisión en la elección de carrera.
● Inventario de Indecisión de Carrera (ICC). En el presente estudio se utilizaron la subescala de
ansiedad decisional (AD) y la subescala conflictos interpersonales.

Apoyo social para la exploración y toma de decisión de carrera:


● Inventario de Influencia en la Toma de Decisión de Carrera (IITDC). Este inventario explora las
creencias y expectativas de los estudiantes sobre el soporte y las influencias contextuales en el
proceso de elección y desarrollo de carrera.

Recapitulando: Estamos considerando un modelo teórico en particular propuesto por unos autores en un
contexto particular del trabajo profesional que es la elección de carrera, y estamos proponiendo una serie de
instrumentos que miden esos constructos. Queremos ver si cada una de estas variables pueden hacer un
aporte o pueden predecir alguna de las variables resultados que nosotros nos propusimos. Si de los
instrumentos que queremos validar se obtienen resultados favorables podemos llegar a decidir y concluir que
a ese instrumento se lo puede utilizar en este campo de aplicación. Si el aporte es prácticamente nulo y no ha
demostrado que puede pronosticar en relación con otros conjuntos de variables, mejor no utilizarlo, no es
necesaria.
Por un lado tenemos la utilidad y aplicación, y por otro la valoración teórica. Es necesario tener en cuenta
ambos siempre: que sirva y que tenga sustento teórico.

Matriz de correlación

Al análisis de regresión múltiple hay que


diferenciarlo de entre los coeficientes de
correlación o correlación bivariada (entre 2
constructos)

→Es una tabla para ver las correlaciones


entre variables.

→Cuando yo observo una matriz de


correlación puedo ver relaciones bivariadas
entre una variable con respecto a la otra,
pero cuando yo realizo un análisis de
regresión puede observar cómo todas las
variables en conjunto se relacionan e influyen
en “elección de carrera” y considerando que
a su vez estas variables pueden estar correlacionando una con respecto a la otra. Es otro tipo de análisis y
otro tipo de información. Estos valores pueden variar entre análisis.
→R cuadrado: En el ejemplo, significa que las variables
predicen y permiten explicar el resultado en un 37%.
Estadístico F (tabla de abajo) evalúa si el modelo es
significativo o no.
Valor Sig. (tabla de abajo, significación) es de .000 así
que es significativo. 

→Estos números alcanzan para considerar que puede


aplicarse este instrumento a otros estudiantes/sujetos,
porque hay significación estadística y me permite
generalizar estos datos y decir que son diferentes de
cero (37%) y que existe una relación entre las variables
con respecto a decisión de carrera.
El test puede ser generalizado.
Entonces: un dato a tener en cuenta es el R Cuadrado.
Otro dato a considerar son los coeficientes B.

→Tenemos el B no estandarizado y el Beta,


estandarizado.
En la columna de la izquierda, tenemos el Constante
(representa el origen) y después las distintas
variables que estamos analizando.
Cuando miramos los estandarizados (beta) no hay
valor de origen porque es igual a cero.
→Después sigue el valor de t, y el valor de
significación (Sig.).
Valor de t habitual: 1,96.

→Aquí vemos que para la variable ER (expectativa de


resultado) no resulta significativa, porque el valor beta
es muy bajo (0.04), el valor t es menor al habitual y la
significación refleja que no es significativo.
De esta tabla, podemos concluir que ER no es
significativa, no aporta nada. En cambio, las otras
variables sí lo son.
La ansiedad hace más aporte que las demás (-.413).
Todo esto mirando en coeficientes estandarizados,
beta.
Estos valores van de -1 a 1, igual que r de Pearson.

Esta técnica es de regresión múltiple.


- Una de las críticas a esta técnica es que todas las variables ingresan juntas y se compara cuáles son
más relevantes y cuáles no, pero no considera las contribuciones individuales de cada variable sin
tener en cuenta las demás variables.
- Este modelo se basa en la teoría y la comprueba.
- El modelo presentado postulaba el orden de las variables lógicamente.

Para ello: REGRESIÓN JERÁRQUICA. → técnica que me permite ver la relación entre las variables
Las variables van incorporándose paso a paso según lo propuesto teóricamente.
→R cuadrado: puede traducirse a porcentaje.
Cambio en R cuadrado: explica cuánto aporta esa
variable a la capacidad predictiva del instrumento. Si
hace o no un aporte incremental. En el ejemplo,
ansiedad hace un aporte incremental significativo
(14%), mientras que intenciones, por ejemplo, presenta
un 1%. Es poco, pero resulta significativo (como lo
indica la columna final.) Por otro lado, vemos que ER
(variable 2) no llega al 1% y no resulta significativo.

Concluimos que autoeficacia (variable 1) y ansiedad


(variable 5) son las que más aportan.

Esta regresión jerárquica depende mucho de la teoría, marca el orden en que se presentan.
→Esta tabla muestra los mismos valores
que la anterior, pero va mostrando paso
a paso cómo el agregado de cada
variable, del 1 al 5, afecta el coeficiente
beta.

Esto es evidencia de validez


incremental.

CLASE 17
ANÁLISIS FACTORIAL
Es una técnica de análisis multivariado: toma muchas variables y números en cuenta.
Es una de las técnicas más utilizadas.
Definición: “El análisis factorial es un método para agrupar las variables (ítems, por ejemplo) que se
correlacionan fuertemente entre sí y cuyas correlaciones con las variables de otros agrupamientos (factores)
es menor.” (Aiken, 2003)
Surge con la idea de poder reducir conjuntos más amplios de variables en factores más manejables y que
estos factores tengan un significado de por qué están asociadas esas variables. Se supone que el factor
latente sería el causante de por qué se pueden agrupar o correlacionar estas variables entre sí.

FUNDAMENTOS MATEMÁTICOS
La idea es tener una idea de la lógica detrás de esto, nada más, porque en realidad el análisis factorial utiliza
un montón de métodos, técnicas o fundamentos matemáticos más complejos de los que vamos a ver. Se
habla mucho de matrices, multiplicación de matrices, matrices invertidas y de rotación. Se hace con datos muy
grandes y cálculos complejos, normalmente se hace con un software.
Se parte de una matriz de datos con variables del 1 a la k (es
decir, de 1 a cualquier número) que pueden ser una serie de
ítems, del 1 al 10, por ejemplo, y observadores: las personas
que respondieron a esos ítems. Entonces existen ítems, y
puntajes diferentes para cada ítem según la cantidad de
observadores (O).

Esta matriz genera una matriz de correlación entre las


variables (ítems).

A partir de ella se genera una matriz factorial, que agrupa estos


ítems en factores (1, 2, 3), teniendo en cuenta sus correlaciones
entre sí. Sirven como un resumen de las correlaciones observadas en la matriz anterior.
Es posible obtener tantos factores como variables existan, pero esto indicaría que no existen correlaciones
entre variables y serían variables independientes. No haría falta reducirlas, no se podría aplicar el análisis
factorial. El análisis factorial parte de la suposición de que efectivamente existen correlaciones entre las
variables.

Así se ve una matriz de correlación.

Ejemplo de cargas factoriales. Solución factorial: cómo cada uno de estos ítems se correlacionan con el factor
obtenido.

CORRELACIÓN PARCIAL: permite interpretar el grado de correlación entre la variable criterio (Y) y una de
las variables predictoras, eliminando de antemano el efecto que sobre dicha correlación pueda estar
ejerciendo el resto de variables.
Matriz de correlación y matriz residual.
La matriz residual es la que queda cuando ya saqué ese primer factor. Extraigo el factor que obtuve primero
(F1), para observar la correlación directa entre la variable criterio (Y, lo que estoy analizando) y el otro factor
(F2). 
La matriz residual debería tener correlaciones cercanas a cero.
Es un indicador para saber si la cantidad de factores extraídos son adecuados.

¿Que es un FACTOR?:
“Cualquier combinación lineal de variables en la matriz de datos es un factor de esa matriz.”

Método de Centroide: casi no se usa pero sirve para entender la lógica del análisis factorial.
→ Resumen de lo que va a explicar el profe mas
adelante:Una vez que yo obtengo estas primeras cargas
factoriales hago una “matriz de coeficientes residuales”
que consiste en correlacionar cada uno de los pares (por
ejem: .64 x .64 da 0.46) y con esta nueva matriz yo lo que
hago es restarle a la anterior (la del método centroide) así
dando como resultado una nueva tabla (la de los números
azules)

CÓMO SE OBTIENEN LAS CARGAS FACTORIALES:


● Se suman las correlaciones de cada variable: abajo donde dice “de las columnas” se ven esos
resultados para cada una.
● Se suma el total de las correlaciones: donde dice “de las matriz”, y se hace la raíz cuadrada.
● Luego, se divide el resultado “de las columnas” por la raíz de “de las matriz”, y el resultado será la
CARGA FACTORIAL de ese ítem.
 
→Con estas cargas factoriales obtenidas se elabora
una matriz de coeficientes residuales, que consiste
en correlacionar cada uno de los valores.(imagen de
abajo)

→ Luego, se restan los valores de la matriz de coeficientes


residuales a los valores que están en la tabla del método de
centroide (centroide - coef. residuales) y obtenemos esta
tabla.

Luego, se repite el procedimiento: 


● Se suman las correlaciones de cada variable (columna).
● Se suma el total de las correlaciones y se hace la raíz cuadrada.
● Luego, se divide el resultado “de las columnas” por la raíz de “de las matriz”, y el resultado será la
CARGA FACTORIAL de ese ítem.
Y se repite el procedimiento hasta llegar a ocho secuencias: hasta obtener el último autovalor que podía
obtener, que en este caso serían 8, porque hay 8 variables.

¿Qué se esperaría? Que cada vez que extraigo el porcentaje de varianza explicada del primer factor, me
queda una matriz con menos correlación. Cuando hago la extracción de un segundo factor, me va a quedar
una matriz con aún menos correlación. Cuando extraigo el último factor, debería quedarme la correlación en
todo igual a cero.
AUTOVALOR:
Los autovalores expresan la cantidad de la varianza total que está explicada por cada factor. El porcentaje de
varianza explicada por cada factor se obtiene dividiendo su correspondiente autovalor por la suma de los
autovalores.
Suma de los autovalores: igual a la cantidad de variables que uno obtiene. Es decir, si tengo 50 ítems, tendré
50 autovalores, entonces tendré que dividir el autovalor en 50. Si son 8, dividiré el autovalor en 8.

Solución Factorial de dos Componentes:


¿Cómo se obtiene el autovalor?
● Elevando al cuadrado las cargas factoriales de cada ítem, separado por factores, y se suma.
● Dividiendo esa sumatoria en la cantidad de autovalores (en este caso, 16).
● 0,33 representa 33%.
Varianza acumulada: suma de los porcentajes.
Es esperable que la suma del cuadrado de las cargas factoriales sea superior a 1. (en el ejemplo, son 5,23 y
3,13). Sino, no explican prácticamente nada. No aportan, no son tenidos en cuenta.
A partir de 5% es relevante.

COMUNALIDAD:
La comunalidad de una variable es la proporción de su varianza que puede ser explicada por el modelo
factorial obtenido. Estudiando las comunalidades de la extracción podemos valorar  cuáles de las variables
son peor o mejor explicadas por el modelo.

→Ver columna h, la última. (0,49 representa 49%).

El porcentaje (comunalidad) representa qué tan bien explicado está ese ítem por los factores presentes. Si no
está muy bien representado, quizá agregando otro factor ese ítem sí lo estaría.
Eso es la comunalidad.
PASOS EN EL ANÁLISIS FACTORIAL:
1. Recolección de los datos: análisis exploratorio de los datos.
2. Extracción inicial de factores (componentes principales).
3. Elegir el número de factores a retener.
4. Elegir el método de estimación.
5. Rotar los factores e interpretarlos.
6. (a) decidir si es necesario hacer cambios (ej. eliminar ítems) y (b) repetir pasos 4 y 5.
7. Construir la escala definitiva.
*El profe no recomienda eliminar ítems, a pesar de lo que dicen las estadísticas, porque quizá estás sacando
algo relevante para el constructo o la teoría aunque no sea relevante estadísticamente en ese contexto.*
PREGUNTAS:
❖ ¿Análisis factorial confirmatorio o exploratorio?
Exploratorio: pregunta del investigador: ¿qué cantidad de factores sería más adecuado? ¿cuáles son las
causas de ello? 
Confirmatorio: establece previamente los factores y a qué ítems corresponden, desde un modelo teórico, y ve
qué tanto se corresponde con lo esperado.

❖ Tamaño ideal de la muestra


El análisis factorial debe conducirse empleando muestras grandes, 300 individuos aprox. Si son 1000, mejor.
Se debería contar idealmente con 10 participantes por variable, y como mínimo con cinco por ítem en el caso
de tests. (si son 20, mucho mejor).
Cuantos más, mejor.
Impacto del tamaño de la muestra: en el AFE (análisis factorial exploratorio), lo que yo tenga es lo que podré
interpretar. Si no tengo suficientes observaciones, no podré analizar esas variables. Las variables deberían
poder representar a la muestra que representa a la población. Si ese grupo no tiene el rasgo que quiero medir,
ese factor no aparecerá. Cuantos más participantes, más seguridad de que realmente en las respuestas están
representadas las variables y el rasgo que quiero medir. Mientras más grande la muestra, más seguridad a la
hora de tomar decisiones con tu instrumento.

❖ Factibilidad del análisis factorial


Supuesto: hay correlación entre variables.
Si no tenemos correlaciones altas, no podemos agrupar en factores. No es necesario un análisis factorial.
● Test de esfericidad de Bartlett: significativo siempre y cuando no sea cero.
● KMO: más adecuado que Bartlett. Valor cercano a .70, índice que resume el nivel de correlación
entre variables.

❖ Métodos de extracción de factores


● PCA: Principal Component Analysis.
● ULS: Unweighted Least Squares factor analysis.
● EML: Exploratory Maximum Likelihood factor analysis
● MRFA: Minimum Rank Factor Analysis
● ULS: Robust Unweighted Least Squares factor analysis
● RML: Robust exploratory Maximum Likelihood factor analysis
● DWLS: Diagonally Weighted Least Squares factor analysis

❖ Número de factores a extraer


Eigenvalues= autovalores.
Criterios:
- Regla Kaiser-Guttman: extraer factores con eigenvalues superiores a 1. (osea los autovalores deben
ser superiores a 1).
- El porcentaje de la varianza explicada por la estructura factorial emergente. En este caso se
recomienda que la solución factorial(matriz de datos) explique, aproximadamente, un 50% de la
varianza total de la prueba (pero es muy difícil de conseguir) 
- Scree plot: Donde el eje vertical u ordenada presenta los valores que toma los
eigenvalues/autovalores, y el horizontal o abscisa,el número de factores. Sobre la gráfica resultante se
traza una línea recta base a la altura de los autovalores (los más pequeños) y aquellos que queden por
encima indican el número de factores a retener

→Gráfico que muestra el peso de cada autovalor. Más


arriba: más peso explicativo tiene.

→El autovalor real obtenido debería superar al generado de


manera de simulación.

❖ Métodos de rotación de los factores


● El término rotación proviene de la representación gráfica y geométrica del análisis factorial; en efecto,
los factores pueden representarse como ejes de referencia y las cargas factoriales de cada variable
indicarse en los ejes correspondientes.
● La rotación intenta que la solución factorial se aproxime a la que se denomina estructura simple.
● Las rotaciones pueden ser ortogonales u oblicuas. Procedimientos más empleados: Varimax y
Oblimin, Promax.
● Thurstone establece cinco principios de la estructura simple:
- Cada región de la matriz factorial debe tener por lo menos una carga cercana a cero
- Por cada columna de la matriz factorial debe haber por lo menos tantas variables con cargas
iguales o cercano a cero como factores
- Por cada par de factores debe haber diversas variables con cargas en un factor pero no en otro
- Cuando haya cuatro o más factores, una gran proporción de las variables debe tener cargas
cercanas a cero en cualquier par de factores
- Para cada factor de la matriz factorial debe haber solo un pequeño numero de variables con
cargas sustanciales en ambas columnas
Se espera que exista una correlación entre los factores, se contempla la carga factorial de cada ítem sobre el
factor, pero también se contempla que existe una correlación del factor 2 sobre el factor 1 que puede
influenciar y modificar esa carga factorial.
Oblicua: dos matrices factoriales. Una donde se espera que exista la correlación entre las variables, es decir,
se contempla la carga factorial con la correlación de los factores entre sí. Otra, donde se contempla la carga
factorial de cada ítem con su respectivo factor, eliminando la correlación de los otros factores sobre el factor
en cuestión. Esa segunda tabla, es más parecida a una de rotación ortogonal.
Las rotaciones colocan a las variables más cerca de los factores diseñados para explicarlas, concentran la
varianza de las variables en menos factores, y en general, proporcionan un medio para facilitar la
interpretación de la solución factorial obtenida.
Ejemplo: de subtest de inteligencia:

 Después de la rotación:

❖ Interpretación de los factores


● Examinar las cargas factoriales bajas y altas de cada variable sobre los distintos factores.
● Las saturaciones o pesos factoriales deberían ser de .40, al menos, y no poseer saturación
compartida (superior a .30) con otro factor para garantizar la unidimensionalidad de la escala.
● Se recomienda que cada factor debería poseer al menos cuatro ítems con cargas factoriales
superiores a .40 para ser interpretado. (relativo).
CLASE 18
ANÁLISIS FACTORIAL: exploratorio vs confirmatorio 
Análisis factorial confirmatorio (AFC)
Tipos de variables 
1. Variables latente: son constructos teóricos, hipotéticos o variables que no tienen indicadores
observables en una población→ constructo teóricos que no podemos medirlos/observarlos de manera
directa y para poder medirla usamos las variables observables (que son las que dependen o
manifiestan la latente)  
2. Variables manifiesta: en el contexto de SEM, son los indicadores del constructo subyacente que se
pretende medir 

Tres estrategias: 
Modelo confirmatorio: donde se especifica un modelo teórico y el SEM se utiliza para evaluar su
significación estadística 
Modelo rivales: donde permite evaluar y comparar el modelo estimado con modelos alternativos 
Desarrollo del modelo: donde se intenta especificar un modelo básico para encontrar uno nuevo. 

Parámetros:
“Parámetro es un término genérico que se refiere a una característica de una
población, tales como la media o la varianza de una variable dada, que es de
relevancia en un estudio particular” 

Diagrama del Modelo de símbolo:

Pasos para aplicar SEM (modelo de ecuaciones estructurales):


1. ESPECIFICACIÓN: 
La especificación del modelo ocurre cuando un investigador especifica qué relaciones se presumen que
existen o no entre las variables observadas y latentes 
Regla 1.
Parámetros: a) efectos directos sobre una variable endógena de otros variable endogena o exogena, y b) la
varianza y covarianza de las variables exógenas
¿Qué variables incluir? ¿Cómo medir los Direccionalidad (efecto
Omitir una variable o incluir otra debe ser a constructos hipotéticos? causal)
través de una cuidadosa revisión de la Múltiples indicadores La correlación no implica
teoría existente y los trabajos de (indicadores ≥2) causación. 
investigación 

Regla 2. Complejidad del modelo (observaciones disponibles) 


Si V es el número de variables observables, entonces el número de observaciones disponibles es igual V
(V+1)/2 cuando las medidas no son analizadas)
Grados de libertad: df= p(observaciones) - q (parametros)
Principio de parsimonia: dado dos modelos con similar ajuste de datos, el modelo simple es preferible,
asumiendo que el modelo es teóricamente más plausible 
Tipos de estatus de los parámetros:
a. Efectos directos 
b. Varianza
c. Covarianza 
I. Libres
II. Fijos
III. Forzado 
ANÁLISIS FACTORIAL CONFIRMATORIO

● Cada indicador que representa una variable continua tiene dos


causas: a) la de un factor b) cualquier otra influencia (causas omitidas)
representada por el error 
● El error de medición son independientes de uno del otro y de los
factores 
● Todas las asociaciones entre el factor son sin analizar 
(los factores se superponen que covarian) 
Dimensionalidad: (modelo de segundo orden)

2) IDENTIFICACIÓN: 
Un modelo se identifica si es teóricamente posible obtener una estimación única de todos los parámetros del
modelo.
Dos requerimientos para que un modelo sea considerado identificado:
I. Los grados de libertad del modelo deben ser igual o mayor que 0(df ≥0)
II. Todas las variables latentes (incluidos los residuales) deben ser asignados una escala (métrica)
Mínimos grados de libertad (df)
Se considera como un requerimiento que hay que seguir que los df ≥0 (kaplan,2009)
Sub-identificado: existen más parámetros que datos (elementos de información). Grados de libertad en
negativo(df≤0)

Cuasi-identificado: existe una correspondencia de 1 a 1 entre los datos (elementos


de información) y los parámetros (df=0)

Sobre-identificado: el número de parámetros estimables es menor que el número de


datos (elementos de información). Grados de libertad positivos (df>0)

Escala de las variables latentes: 


Error (E o D)
Identificación de la unidad de carga (ULI, siglas en ingles) constante.
El path coeficiente para el efecto directo de la perturbación o el Error (el coeficiente path no estandarizado) es
fijado como igual a la constante 1.

Factor 
1. Identificación de la unidad de carga (ULI, siglas en ingles) constante.
2. Identificación de la unidad varianza (UVI, siglas en ingles) constante. 
1. si el modelo AFC tiene un solo factor y tres o más indicadores, el modelo es identificado 
2. Si el modelo de AFC tiene ≥ 2 factores y ≥2 indicadores por factor,el modelo es identificado 

Identificación 

3) PREPARACIÓN DE LOS DATOS


Colinealidad
1. Calcular la correlación múltiple R²≥.90
2. Tolerancia (1-R²) ≤.10
3. Factor de inflación de la varianza (VIF). Es igual a 1/(1-R²)= si el primero da más de 10 veces mayor
que el segundo (VIF>10) la variable puede ser redundante
Casos atípicos
1. Univariados: Z ± 2,5 (80 o menos casos) o Z igual o superior a ±3,29
2. Multivariados:Valores de distancia de mahalanobis (D²) que son significativos a un valor de 0,001
siguiendo una distribución chi-cuadrado (df=número de VI)
Casos perdidos 
Clasificación de los casos ausentes:
● Los datos están perdidos completamente al azar (MCAR)
● Los datos están perdidos al azar (MAR)
● Los datos no están perdidos al azar (MNAR)
Métodos para tratar los casos perdidos
● Métodos de supresión (ejemplo, según lista o pareja)
● Métodos simples de imputación (ejemplo, por media)
● Métodos de imputación basadas en modelos (ejemplo, múltiple imputación)
● Métodos especiales de estimación multivariante (ejemplo, full-information ML)
Normalidad multivariada
1. Todas las variables tienen una distribución cercana a la normal 
2. La distribución conjunta de cualquier par de variables es bivariada normal 
3. Todos los gráficos de diagramas de dispersión bivariado son lineales y la distribución de los residuos
son homocedásticos 
4. Coeficiente de curtosis multivalente de Mardia (1970)

Tamaño de la muestra:
● Una muestra adecuada debería tener entre 10 a 20 participantes por parámetro estimado (Kline,1998)
● El tamaño de la muestra recomendable es 200 sujetos como mínimo para cualquier SEM
Herramientas psicométricas:
● Valores de confiabilidad adecuados 
● Evidencias de validez de contenido, constructo y predictivo 

→Tengo 24 ítems que son escala de referencia de maestría, experiencia


viaria, estado fisiológico y persuasión social . El máximo y el mínimo van
del 1 al 5 (escala de tipo likert), los niveles de asimetría y los niveles de
curtosis que deben ser cercanos a 0, los que tienen valores superiores
están funcionando de manera inadecuada. 

También se ve el índice de asimetría multivariable que generalmente da


valores de asimetría inadecuados, entonces es difícil que se cumpla. 

4) ESTIMACIÓN

Máxima verosimilitud 
Estimaciones de los parámetros: las estimaciones son los que maximizan la probabilidad de que los datos (la
covarianza observadas) se extrajeron de la población
● Un método de información completa: las formas de estimación son simultáneas
● Iterativo: el programa deriva una solución inicial y luego intenta mejorar estas estimaciones 
Tecnicas de estimacion alternativas
● El metodo minimos cuadrados ponderados (WLS)
● El metodo minimos cuadrados generalizados (GLS)
● El método asintóticamente libre de distribución (AGL). (N=500 o más) 
Ajuste: prueba de hipótesis 
Prueba estadística del modelo: 
“¿cómo se puede medir o evaluar el grado en que las matrices S y Ø se diferencian?”
CMIN O X2
Likelihood ratio test= (N-1)Fmin→ (tamaño de la muestra menos 1, multiplicado por la función de ajuste
mínimo )
H0:Σ (Ø) equivalente a Σ-Σ (Ø)=0

Índices aproximados de ajuste


1. Medidas absoluta del ajuste (R²)
2. Medidas de ajuste incremental
3. Medidas de ajuste de parsimonia
4. Medidas de ajuste predictivo 
Más reportados(Kline,2011)
1. el índice de ajuste comparativo (CFI)
2. el índice de bondad de ajuste (GFI)
3. el error cuadrático medio de aproximación (RMSEA)
4. El error cuadrático medio estandarizado (SRMR)
Interpretación: CFI y GFi valores entre .90 y .95 RMSEA y SRMR entre .05 y .08
Parámetros estimados: Se debe prestarse atención a la significación de los parámetros estimados  
Ajuste: modelos rivales: 
Diferencia de Chi-cuadrado
● X² del modelo 1-X modelo 2=
● df del modelo 1-df del modelo 1=
Diferencia en CFI
● CFI del modelo 1 - CFI modelo 1=
Índices de ajuste parsimonia
● Akaike information criterion (AIC)
● Consistent Akaike information criterion (CAIC)

5)RE-ESPECIFICACIÓN DEL MODELO


Índice de modificación
● El valor del índice de modificación corresponde aproximadamente a la reproducción en el chi-cuadrado
que se produciría si el coeficiente fuera estimado 
● Un valor de 3.84 o superior sugiere que se obtiene una reducción estadísticamente significativa en el
chi-cuadrado cuando se estima el coeficiente 
Matriz residual estandarizada
● Valores residuales mayores que 2,48 se consideran estadísticamente significativos al nivel de 0,05.

6) REPORTAR RESULTADOS
● Especificación 
● Identificación 
● Datos e instrumentos 
● Estimación y re-especificación 
● Tabulación 
● Evitar sesgo de confirmación 
UNIDAD 6:EL SESGO EN LAS PRUEBAS
CLASE 19
FUNCIONAMIENTO DIFERENCIAL DE ÍTEMS Y EQUIDAD DEL TEST
Es un análisis que se realiza para poder detectar aquellos ítems que pueden tener un funcionamiento
diferente en distintos grupos y puedan generar algún tipo de error de medición. Se espera que mediante las
puntuaciones del test uno pueda realizar algún tipo de diagnóstico/interpretación, y que esta permita hacer
una estimación de los grados de habilidad, aptitudes, rasgos, y que no esté influenciado por el instrumento
sino que sea representativo de ese constructo psicológico. Cuando sucede que algún tipo instrumento puede
tener ventaja con respecto a algún tipo de usuario estamos diciendo que el instrumento tiene un sesgo, que
no hay equidad en las puntuaciones y es un problema en los instrumentos de medición.
Equidad: es la posibilidad de que todas las personas sean medidas de manera adecuada, y que no existan
ventajas en un grupo respecto de otro. Es decir, la imparcialidad requiere que las características personales
de los sujetos que cumplimentan el test sean irrelevantes para la medida del constructo, y que no tengan
efectos apreciables en los resultados del test o en su interpretación.
Principalmente se busca que todas las personas que son medidas por los mismos instrumentos tengas las
mismas posibilidades y oportunidad, que la diferencia que se observa en las puntuaciones se deba a
diferencias en los constructos psicológicos que se están midiendo y no por otro factor que esté interviniendo
Sesgo:
● Deficiencias en el test o en la forma en que es usado, generan diferentes significados para las
puntuaciones obtenidas por miembros de diferentes grupos.
● Es una fuente de invalidez o de error sistemático que se refleja en cómo un test mide a los miembros
de un grupo particular.
● Es la validez diferencial de una interpretación de la puntuación de un test para cualquier subgrupo
definible y relevante de sujetos examinados con el test.
Grupos: estos pueden se clasificados por distintas categorías o características
● Etnia
● Género
● Clases sociales
● Edad
● Región
● Nación
● Hábitat
Detección del sesgo: 2 han sido las aproximaciones estadísticas para la detección del sesgo
● SESGO EXTERNO: el grado en que las puntuaciones del test muestran correlaciones con variables
irrelevantes para su interpretación y ajenas a éste. Asociado con la validez externa.
● SESGO INTERNO: se refiere a las propiedades psicométricas de los ítems de los tests.

ANÁLISIS DEL FUNCIONAMIENTO DIFERENCIAL DE LOS ÍTEMS (DIF):se hace para detectar un sesgo
DIFE (aspecto estadístico): un ítem se considera insesgado si la probabilidad de éxito para el ítem es la
misma para sujetos igualmente capaces, independientemente del subgrupo a que pertenezcan.
DIF (aspecto SUSTANTIVO): en el análisis suelen someterse los ítems al escrutinio de expertos (especialistas
en currículo o desarrolladores de tests) para buscar las fuentes de sesgo. Se observa estadísticamente ese
ítem, si favorece a un grupo respecto al otro y mediante un análisis de las palabras, ejemplo, contexto, se trata
de encontrar dónde está esa diferencia semántica a la hora de redactar el ítem que genera un beneficio a un
grupo respecto del otro.
Funcionamiento diferencial de alternativas: basado en los multiple choice
→En este caso tengo una curva caracteristica del item (en
negro) donde la opcion correcta es la 4. Y las alternativas (en
colores) 1,2 y 3
Se espera ver si este comportamiento se mantiene de manera
adecuada y cuales son los distractores que mejor funcionan en
cada uno de los ítems
En este ejemplo: cuando se tiene poca habilidad la más usada
es la 2 (roja) y la menos la 1
→En esta la
más usada es
la opción 4
(cuando no se
tiene
conocimiento)
respecto a la
1(cuando si se
posee)

Procedimientos empíricos para la detección del DIF en ítems dicotómicos:


● Procedimientos basados en tablas de contingencia:
a) Grupo (referencia/focal)
b) Respuesta (acierto/error)
c) K intervalos en los que se divide la puntuación total.

● Medidas de diferencias de proporciones estandarizadas:


a) Entre 0,00 y 0,05 denotan ausencia de DIF
b) Entre 0,10 y 0,05, y entre 0,05 y 0,10 se aconseja una inspección de los ítems
c) Fuera del rango [0,10, 0,10] serán examinados con cuidado y revisados por expertos

● Razón de los logaritmos de las plausibilidad (ODDS) de Mantel- Haenszel

● DIF en ítems dicotómicos usando métodos basados en la teoría de respuesta al ítem (TRI)

Se espera que la probabilidad (Pi) de responder un ítem con un nivel de habilidad fija (0), no difiera de la
probabilidad de responder un ítem de un grupo de referencia (R) con respecto de un grupo focal (F) por el
mismo nivel de habilidad.
Dentro de esta capacidad de poder identificar funcionamientos
inferenciales podemos tener 2 tipos de DIF:.
DIF UNIFORME: cuando se mantiene de manera constante la
diferencia en todos los niveles del rasgo medidos
→En este caso el mismo ítem fue calculado para un grupo de
referencia y para un grupo focal. Se observa que para una
persona que tiene niveles de habilidad de 0, para el grupo de
referencia la probabilidad de responder correctamente es de
0,7 mientras que para el grupo focal es de 0,4. De esta
manera identificó que hay un comportamiento diferencial al
observar las curvas, ya que vemos que es más fácil para el
grupo de referencia que para el grupo focal.

→Este comportamiento diferencial se da en todos los niveles


de rasgo de manera constante, es decir, la distancia que hay
en cada uno se mantiene de forma constante, y no se observa
ningún tipo de solapamiento o de cambios en base al nivel de
habilidad y diferencias de los grupos., como sucede en el
caso de un DIF NO UNIFORME:

→En este caso se observa que en una primera instancia cuando


yo tengo niveles de habilidades de -1 hacia -4, las
probabilidades de respuesta correcta para el grupo focal es
mucho más alta que el grupo de referencia (puede haber un
nivel de sesgo que puede estar influenciado) y que cuando pasa
el nivel de 0,1 hacia adelante vemos que el comportamiento es
diferente, el grupo de referencia tiene mayor ventaja que el
grupo focal. No hay un mismo comportamiento de manera
constante en los 2 grupos y en consideración a los distintos
niveles de habilidad. En el nivel de habilidad más bajo favorece
a un grupo respecto al otro, pero cuando se cruzan las 2 curvas
cambia la lógica de que el ítem resulta mucho más fácil para un
grupo con respecto de otro. Este caso es un funcionamiento
diferencial, ya que el ítem está funcionando adecuadamente
para ambos grupos pero no de manera constante como el otro caso, sino que varía según los niveles de
habilidad.
Ambos casos son funcionamientos no deseados, son sesgos presentes a mejorar.
● Medidas basadas en la comparación de modelos (IRTLR)
En este caso, tenemos 2 modelos: modelo C que es más simple y modelo A un modelo más complejo, en este
(A) se considera que los parámetros de B1 y B2, que son 2 grupos diferentes, se mantienen de manera
constante, mientras que en el modelo C no hay diferencia y que son un grupo de manera constante. La última
columna es el puntaje Z.

UNIDAD 7: INTERPRETACIÓN DE PUNTUACIONES


CLASE 20
INTERPRETACIÓN DE PUNTUACIONES
MEDICIÓN, ESCALA E INTERPRETACIÓN DE LAS PUNTUACIONES
La asignación de números debe permitir operar matemáticamente con ellas, conservar su sentido y sus
propiedades, ser resistente a la manipulación experimental, y que sea posible que se establezcan
comparaciones y hacer predicciones.
Transformaciones de las puntuaciones:
Van desde PUNTUACIONES DE ESCALA que serían la sumatoria de los puntajes de un test. Ejemplo si la
escala va de 1 al 5 va a tener como puntaje mínimo 10 y como puntaje máximo 50.luego esta escala va a
pasar a una ESCALA DERIVADA, la cual va a tener distintas interpretaciones, unas van a ser REFERIDA A
NORMAS (TRN) es cuando realizamos la comparación de estos puntajes con un grupo de referencia. Otra
interpretación es REFERIDA A CRITERIO (TRC), es cuando compara el resultado que obtuvo un individuo en
una escala con una serie de criterios o niveles que se propusieron por un investigador o grupo de
investigadores. Otra forma de interpretar es ESTÁNDARES DE RENDIMIENTO, se utiliza mucho en el ámbito
educativo, ejemplo el examen aprender, existen diferentes maneras de establecer los puntos de cortes, por
eso son pruebas a referencia criterio, pero que pueden tener consideraciones y algunas metodologías
particulares, por lo tanto en ocasiones se lo toman como diferentes a las referidas a criterio que se utilizan
normalmente.
Interpretación referida a normas(TRN):
Cuando hablamos de interpretación referida a norma:
● Las puntuaciones directas o escaladas a menudo son interpretadas con respecto a distribuciones de 1
o más grupos de comparación.
● Los percentiles, promedios y otros estadísticos derivados en los grupos de referencias se denominan
NORMAS.
Interpretación referida a un criterio(TRC):
Este tipo de interpretación es de carácter absoluto. Esto quiere decir que los puntajes que se obtienen en
cada uno de estos instrumentos no necesariamente tenemos que compararlos con un grupo de referencia, si
no con distintos niveles de rendimientos ya establecidos.
● Pueden indicar la proporción de respuestas correctas en un dominio.
● Probabilidad de que un examinado responda correctamente a ciertos tipos de ítems.
● Presencia de debilidades concretas en el examinado.
● Probabilidad de que un sujeto alcance un nivel adecuado de rendimiento en un momento futuro.
Son todos criterios que el investigador establece mediante criterio establecido por investigadores expertos de
ello que dicen que debería alcanzar o que niveles debería estar asociado ese puntaje en la escala con el
constructo que yo quiero medir.
Ejemplo: si obtiene puntaje bajo se puede decir que no está manejando de manera adecuada a un dominio
específico. Si obtiene puntaje medio tiene un manejo de lo justo y necesario de esos contenidos y si obtiene
un puntaje muy elevado tiene un manejo muy de experto de esos contenidos.
Interpretación basada en estándares:
● Forman parte de las interpretaciones referidas a un criterio.
● En la determinación de estándares las puntuaciones de las personas se ligan a estándares de
contenido.
● Este tipo de interpretación es considerado muy valioso en el mundo de la evaluación educativa, ya que
da a los profesores un conjunto organizado de objetivos de aprendizaje.
Interpretaciones normativas:
● En la TCT el significado de las puntuaciones se obtiene al comparar la posición del sujeto con los
resultados estadísticos obtenidos en un grupo de la misma población.
● Las comparaciones entre dos puntuaciones diferentes siempre muestran propiedades ordinales.
● En la TRI, personas e ítems se sitúan en una escala común, la escala del rasgo latente o habilidad.
*Solamente se utilizan escalas de tipo ordinal salvo cuando realizamos transformaciones o puntaje
directos en muestras muy grandes de manera representativa que sí muestra censales se puede
considerar que los valores que se obtienen de distribución son estadísticos muy semejantes a los
parámetros poblacionales. Si una distribución o transformación en puntaje Z o alguna puntuación
transformada esos valores pueden tener la propiedad de la diferencia o distancia entre los valores
obtenidos en distintos participantes.*
CONCEPTO:
● puntaje bruto, directo u original: sumatoria del número de respuestas correctas o respuestas claves.
● Desde la teoría de respuesta al ítem esta puntuación original se denomina puntuación Theta.

Transformaciones lineales y no lineales

1) Transformaciones lineales: se obtiene una nueva escala de medición que respeta las distancias entre las
unidades de medida de la escala original. Esta se mantiene una vez que transformamos los puntajes directos
en una transformación derivada, mantiene las mismas propiedades, las mismas distancias y la misma lógica
que tenía cuando utilizaba los montajes directos o puntajes.
En cambio en una no lineal esas modificaciones y transformaciones cambian.
Unas de las transformaciones lineales son:
Escalas estandarizadas: son los puntajes z
Fórmula de obtención de puntajes z
X: puntaje directo
X̄:promedio de los puntos obtenidos (media =M)
σ: desviación estándar (S o DS)

Muchas veces para evitar puntajes negativos y hacer una interpretación más adecuada, de hace una nueva
transformación que es:
Escalas estandarizadas derivadas:
T: VALOR DERIVADO
a: media
b: valor que se obtuvo de una desviación
X: el valor que se obtuvo en el puntaje z.
Así obtengo la misma escala pero con puntajes positivos en vez de negativos

Ejemplo: tengo un puntaje derivado que en este caso es el “coeficiente de inteligencia” donde la media es 100
y la desviación estándar es 15 y lo que hago es….
Si es 0 lo multiplica por dt que es 15 y le suma los m 100 es igual a 100
Si es 1 multiplica por 15 mas m100 es igual a 115
Si es negativo como -1 por 15 – 100 es igual a 85
Otro ejemplo: test de razonamiento
→ Media=15
Mediana=16
DS=4,6

→es un ejemplo de cómo se pasaría

Escalas derivadas:
● Puntaje T:media 50 y desviación de 10
● CI de desviación: media de 100 y desviación de 15
● College board: media 500 y desviación de 100
● Cooperative achievement: media 150 y desviación 10
● NAEP: media 250 y desviación 50 →es una prueba de matemática
● PISA: media 500 y desviación 100
2)Transformaciones NO lineales: asume distribución a priori, que
altera la forma de la distribución de los puntajes originales.
Este tipo de distribuciones pueden ser asimétricas tanto para la izquierda
como para la derecha, por lo que hay que tenerlo en cuenta a la hora de
interpretar los puntajes. Se pierde la ubicación de los puntajes originales
cuando se los transforma
La forma más simple de hacer este tipo de transformaciones es mediante:
Rangos percentiles:
Un rasgo percentil se corresponde con una puntuación directa particular y se interpreta como el porcentaje de
examinados del grupo normativo que puntúan por debajo de dicha puntuación.
→ Se puede obtener mediante esta fórmula, aunque lo mas
común es usar un software estadístico

→ Puedo observar como tengo el cuartil 1,la mediana y el


percentil 90 y como se va haciendo la distribución de los
puntajes. Tengo puntuación de 1, 1.5 , 2, 2.5 etc
En el cuartil 1 si vemos significa que un 25% de las personas
obtuvo un puntaje igual o por debajo de ese valor y que el
75% de las personas obtuvieron puntuaciones superiores
Es una interpretación más amigable y no es necesario tener
un conocimiento de lo que son las transformaciones lineales,
puntaje Z y derivados, sino que simplemente conociendo el
puntaje directo del participante y que percentil le corresponde
Puntuaciones estandarizadas normalizadas:
● Determinar los rasgos de los percentiles correspondiente a cada una de las puntuaciones directas por
el procedimiento anterior (por programa estadístico).
● Buscar en una tabla de la distribución normal estandarizada las puntuaciones z correspondientes a
cada uno de los porcentajes.
● Suavizado de las puntuaciones, si las muestras no son grandes.
Luego se hace la transformación de los puntajes.
Vemos como cada uno de los puntajes cómo 0,001 que le corresponde un puntaje Z de -3 va aumentando la
distribución y la curva de la campana de Gauss. Y de esta forma se transforma el puntaje en Z normal
Entre estas puntuaciones normalizadas podemos encontrar
Puntuaciones normalizadas derivadas:
● La escala de estaninos o eneatipos: media 5, desviación 2
● La Standard Ten o decatipos: media 5,5 y desviación de 2
● La escala del Educational Testing Service: media de 13 y desviación de 4

→ Tengo la puntuacion directa, la proporción y la Z


Normalizada

Todos estos baremos necesitan


GRUPOS NORMATIVOS: Características de las muestras que se utilizan para hacer las comparaciones
● Normas nacionales: muestras representativas a nivel país
● Normas locales: un lugar geográfico
● Normas de usuarios y normas de convivencia: durante un periodo de tiempo determinado
Los estudios de normalización de los test:
Pasos necesarios a llevar a cabo
1. Identificar la población específica
2. Especificar los estadísticos que se deberán calcular a partir de los datos muestrales (media,
proporciones, desviaciones, etc)
3. Determinar la cantidad de error muestral tolerable para los estadísticos especificados en el apartado
anterior.
4. Realizar el diseño del muestreo, siguiendo algunas técnicas de muestreo probabilístico
5. Fijar el tamaño muestral, para mantener el error fijado en el punto 3
6. Extraer la muestra y recoger los datos documentando las no respuestas y las posibles causas
7. Calcular los valores de los estadísticos en la muestras y sus errores típicos
8. Identificar los tipos de puntuaciones normativas necesarias y preparar las tablas de conversión
9. Preparar la documentación escrita sobre el proceso de tipificación del test y la guía para la
interpretación de las puntuaciones normativas
Tipos de muestreo:
Tenemos de tipo probabilístico y no probabilístico
EQUIVALENCIA DE PUNTUACIONES Y TÉCNICAS PARA LOGRAR LA COMPATIBILIDAD
Técnicas de equiparación o técnicas para la comparabilidad que son un conjunto de procedimientos
estadísticos que permiten ajustar puntuaciones obtenidas bajo diferentes formas de tests que miden el mismo
constructo y hacerlas comparables en algún sentido.
Condiciones para la equiparación:
Consiste en establecer una correspondencia entre las puntuaciones de las formas de modo que los resultados
de cualquiera de ellas puedan expresarse en términos de los de la otra
Requisitos para establecer una equivalencia:
● Los dos test deben ser medidas del mismo constructo(aptitud,rasgo latente,destreza,etc)
● Los dos test deben tener la misma fiabilidad
● Indiferencia:para cada grupo de examinados de idéntica aptitud, la distribución de frecuencias
condicional sobre el test y después de la transformación es la misma que la distribución de frecuencias
condicional sobre el test X
● Invarianza poblacional: la transformación será la misma independientemente del grupo en el que se
obtenga
● Simetría: la transformación es invertible,es decir, los resultados serán los mismos obteniendo X en la
escala de puntuaciones que Y en puntuaciones en la escala de X
Diferentes formas de lograr comparabilidad:
1. Equiparación:
● las formas son cuidadosamente construidas intentando que sean similares en : números de ítems,
formatos de los ítems, habilidades o destrezas a evaluar, demandas cognitivas para la realización de
las tareas, ítems en proporciones similares según su dificultad y se aplican bajo las mismas
condiciones de administración
● Bajo las condiciones anteriores, una vez realizados los ajustes estadísticos, las puntuaciones totales
serán intercambiables.
2. Calibración:
● La idea básica es que las formas miden el mismo atributo y que en ambas formas es preciso poner en
juego las mismas destrezas. Los tipos de ítems son similares en cuanto a dificultades y formatos. Pero
no tiene que haber una equivalencia tan estricta. Puede haber diferencias en longitud y en dificultad.
Este tipo de calibración se utiliza mucho en los casos de equiparación vertical.
3. Moderación estadística:
● A menudo se utilizan puntuaciones en test diferentes para tomar las mismas decisiones
● Se supone que los test miden el mismo constructo, pero han sido construidos bajo marcos y
especificaciones diferentes
● Es preciso establecer de algún modo la comparabilidad de las puntuaciones de los diferentes test
● En estas circunstancias se establece una tabla que relaciona las puntuaciones de un test a las del otro
test
4. Predicción (proyección):
● Consiste en extrapolar los resultados de una forma a otra. Es el menos restrictivo de los
procedimientos y las puntuaciones no son equiparables. Puede utilizarse para todo tipo de teste, sin
requisitos, pero los resultados no llevan a equivalencias de puntuaciones.
Diseño para la recogida de datos:
● Diseño de grupo único: a un mismo grupo de sujetos se le administra las dos formas X e Y.
● Diseño de grupo único con contrabalanceado: se construyen cuadernillos para la aplicación que
contienen las dos formas de test X e Y. La mitad de los cuadernillos tienen forma x seguida de Y y
la otra mitad la forma Y primero.
● Diseño de grupos aleatorios equivalentes: cada grupo cumplimenta una de las formas. Es
necesario garantizar que los grupos sean equivalentes en las características que mide el test.
● Diseño de grupos no equivalentes con ítems comunes o de anclajes: en este diseño la formas
X e Y tienen un conjunto de ítems en común (ítems anclas).
Para hacer este tipo de transformaciones tengo:
Equiparación en la media: se considera que la forma X difiere de la Y en una cantidad debida a diferencias en
dificultad
Equiparación lineal: el procedimiento consiste en establecer la equiparación en las puntuaciones típicas

Para sacar pendiente tengo que hacer desv típica de Y


dividido desviación típica de X
Equiparación equipercentil:
1. Calcular los rangos percentiles de la forma Y
2. Calcular los rangos percentiles de la forma x
3. Para cada puntuación de x, buscar la puntuación de Y
con el mismo rango percentil
4. Atribuir a X la puntuación de Y que tiene su mismo
rango percentil

Procedimientos de equiparación basados en la TRI


● Regresión (no lo explica)
● Media y sigma: sirve para ubicar, en una métrica común los parámetros de dificultad del conjunto
de ítems de las 3 versiones de las pruebas de dominio de matemáticas con propiedades
psicométricas adecuadas
● Método robusto de la media sigma
● Métodos de la curva característica (más usado)
CLASE 21
INTERPRETACIÓN DE LAS PUNTUACIONES
TEST REFERIDOS A CRITERIOS (TCT) Y ESTÁNDARES DE RENDIMIENTO
Posee características diferentes a los que son las interpretaciones de puntuaciones referidas a normas donde
deberíamos contar con un baremo y la administración del instrumento a una muestra en particular, la cual sea
representativa de la población a la cual queremos aplicar el instrumento; pero en este caso no es necesario
hacer estudios de validez y confiabilidad para ver que funcionen bien los ítems del instrumento.
La interpretación de las puntuaciones referida al criterio hace referencia a algunos criterios objetivos o niveles
de desempeño que debe alcanzar un individuo en particular, por lo tanto las puntuaciones se comparan de
una persona que administró el instrumento con respecto a un desempeño óptimo que debería alcanzar en la
variable que estamos midiendo.Es necesario definir cuales son los criterios de desempeño, estos criterios son
establecidos por el investigador mediante un grupo de trabajo.
Suelen ser usados en el ámbito educacional para la construcción de pruebas de gran escala donde alli se
denomina “estándar de rendimiento”
Diversos campos (de aplicación):
● En la evaluación conductual
● En las fuerzas armadas
● En la industria
● En la evaluación de programas (de intervención)
● Evaluación educativa→ Nos permite saber cuales son los rendimientos que debería alcanzar una
persona, y si la misma lo supera o está por debajo de los niveles óptimos. Esto permite:
★ Pasa o falla (en rendimiento)
★ Decisiones de certificación
★ Promoción o becas
★ Clasificacion de sujetos
DEFINICIÓN Y PRINCIPALES CARACTERÍSTICAS DE LOS TRC
Popham (1978): “Un test referido a un criterio es aquel que se utiliza para evaluar el estatus absoluto del
sujeto con respecto a algún dominio de las conductas (objetivos, destrezas y competencias) bien definido”
Con “estatus absoluto de sujeto” refiere a el nivel que posee este en el atributo.
Con “dominio” hace referencia a la definición de comportamientos, variables….
En resumen se compara al sujeto con respecto a unos niveles de conductas que se quiere alcanzar, y estas
conductas tienen que estar bien definidas.
Principales diferencias entre TRC y test referidos a normas (TRN):
→ En la finalidad de la evaluación, en TRN uno
muchas veces usa una definición teórica/ constructo de
personalidad,inteligencia, etc en cambio en TRC uno
hace una definición de las conductas, objetivos que
quiere medir el test y no es necesariamente una
definición en un sentido de relevancia teórica. Ejem:
estamos midiendo la impulsividad, la TRN me va a
decir si tiene mayor o menor nivel de impulsividad, la
TRC podemos observar los comportamientos y cómo
genera cambios en su entorno ( podemos ver distintos
niveles de comportamiento y conducta).
→En la selección de ítems, la TRN está más asociado
a los niveles de la referencia normal de todos los
contenidos y hay amplitud de estos indicadores del
constructo , mientras que en TRC tiene que haber una
relación muy fuerte y directa entre el objetivo de lo que
quiero medir y los niveles de conducta que quiero
alcanzar, por lo que sacar o dejar un ítem ayuda a
fortalecer o debilitar esta relación.
Construcción de un TRC:
Puede variar respecto a los pasos generales ya que se presta mucha atención a la correspondencia entre los
indicadores/ítems respecto a los distintos niveles que se deben considerar del constructo. → relación entre
ítems y comportamientos que se evalúan.
También es importante la opinión de los expertos ya que ellos son los que van a definir si existe una relación
o los indicadores son los adecuados para medir mi constructo.
1. Planeamiento inicial:
a) Especificación del propósito del test.
b) Especificación de los objetivos a medir.
c) Especificación de los grupos a los que se aplicará el test: aspectos sociodemográficos, lingüísticos, etc
d) Elección del formato de los ítems.
e) Delimitación del tiempo y recursos económicos que se pueden dedicar a la construcción y corrección
del test.
f) Identificación y selección de jueces expertos en el contenido de la evaluación.
g) Especificación de la longitud del test y el tiempo aproximado de cumplimiento.
2.Revisión de los objetivos:
a) Revisión de la adecuación de los objetivos (lo que yo quiero medir)
b) Selección del conjunto definitivo de objetivos que medirá el test
c) Preparación de especificaciones para los ítems de cada objetivo y revisión de los mismos en cuanto a
su claridad y seguridad.
3.Redacción de los ítems:
a) Construcción de un número de ítems considerablemente mayor que el definitivo para el estudio piloto.
b) Introducción de los ítems en un banco de ítems
c) Edición de los ítems
4.Validación de contenido:
Identificación de expertos en el contenido a evaluar y especialistas en medición del ámbito a evaluar.
a) Examen del grado de emparejamiento entre ítems y objetivos, representatividad del dominio, etc.
b) Revisión de la adecuación técnica de los ítems.
c) Redacción de ítems adicionales si es necesario.
5.Revisión del test:
Utilización de los resultados anteriores para la revisión de los ítems.
6.Preparación de la forma definitiva:
a) Determinación de la longitud del test, número de formas necesarias, porcentaje de ítems de diferentes
formatos y números de ítems por objetivo.
b) Selección de los ítems del conjunto analizado en el test piloto
c) Preparación de las instrucciones, cuadernillos, hojas de respuestas, claves y normas de corrección, etc
d) Especificación de posibles modificaciones a las instrucciones, acomodaciones necesarias para
poblaciones especiales,etc.
7.Establecimiento de estándares:
a) Establecimiento de estándares de rendimiento, si es necesario.
b) Establecimiento de los puntos de corte.
c) Especificación de modificaciones a los estándares si es preciso hacer acomodaciones a poblaciones
especiales.
8.Aplicación de la forma piloto del test definitivo
a) Diseño de la aplicación del test para recoger datos de fiabilidad y validez.
b) Aplicación del test a muestras representativas de sujetos.
c) Evaluación del procedimiento de administración, análisis de ítems, fiabilidad y validez.
d) Hacer revisiones finales a partir de los datos anteriores.
9.Preparación del manual
10.Recogida de datos adicional de cara a la investigación sobre su fiabilidad y validez
**Todo lo anteriormente mencionado son los pasos para la construcción de una prueba de referencia a criterio
son semejante a la construcción de pruebas en general pero se hace más hincapié en ítem, relación con
objetivo, evidencia de los niveles de comportamiento del ítem que se está utilizando.**
Análisis de los ítems en TRC: puede ser más de carácter cualitativo o cuantitativo
Juicio de expertos (cualitativo) que pueden clasificarse en 2 tipos: A) congruencia ítem-objetivo y B) sesgos
de contenido (que pueden estar influenciando/perjudicando la interpretación de las puntuaciones). Esto puede
llevar a una serie de pasos:
1.Definir el dominio de interés:
a) Descripción: una proposición corta y concisa del contenido/conductas cubiertas por el objetivo
b) Directrices de los ítems del test y tareas y algún modelo para medir el objetivo.
c) Límites de contenido y estructura de contenidos dentro del conjunto de ítems y..
d) Límites de la respuesta y formato de los ítems
2.Seleccionar un panel de expertos en el contenido a evaluar.
3.Proporcionar un procedimiento estructurado para emparejar los items con el dominio.
a) Presentar cada ítem en una tarjeta separada
b) Comparar cada ítem con la lista de objetivos
c) Registrar el resultado del emparejamiento de una hoja estandarizada
4.Recoger y resumir los datos
● La decisión suele ser cualitativa pero resulta útil la adopción de un formato cuantitativo para resumir
las valoraciones de los jueces → Hay índices como el coeficiente Kappa de Cohen (K) que ayudan a
ver el nivel de acuerdo entre examinadores.
Análisis estadístico de los ítems:
I. Selección de grupos criterio
II. Cálculo de los estadísticos del ítem
III. Análisis del FDI y sesgos de los ítems
I.Selección de grupos de criterio:
● Grupo criterio: los grupos serán muestras de sujetos que dominan y no dominan los contenidos (pasa
o falla, éxito o no éxito)
● Suele seguirse uno de los 3 diseños siguientes:
★ Medidas pre-instrucción/post-instrucción
★ Grupos instruidos / no instruidos
★ Grupo de caso/control
II.Cálculo de los estadísticos de los ítems
● Índice de dificultad (pi)
● Indices de discriminacion
● Índices de homogeneidad: Intentan poner en relieve que los ítems congruentes con un objetivo se
comportan de forma similar, sea en una aplicación del test o en aplicaciones repetidas del mismo
III.Análisis del FDI y sesgos de los items
● Fiabilidad de los TRC:
★ La fiabilidad de los TRC en las puntuaciones del dominio→ Son distintas formas de hacer una
evaluación de puntuaciones globales sobre la capacidad de precisión que tiene el instrumento,
por ejem: puede ser alfa de cronbach, se puede calcular las funciones de info,etc
★ La fiabilidad de estas clasificaciones → clasificamos en base a punto de corte y lo dividimos
en nivel 1,2,3 o sino también como leve, moderado, severo, etc. Tipos de mediciones:
A. Funciones de pérdida umbral: los estadísticos que podemos usar son..
- Índice de Hambleton y Novick
- Coeficiente kappa de Cohen
- P* de Crocker y Algina
→Puedo ver si existe congruencia entre la clasificación
A,B,C (test Y) y la clasificación A,B,C (test X), se mira la
diagonal y se ve si existe congruencia entre este tipo de
clasificación
B. Funciones de pérdida cuadrática: los métodos basados en funciones de pérdida
cuadrática son..
- Coeficiente de Livingston
- Procedimientos basados en el índice de la
TG

Determinación de puntos de corte para establecer los niveles:


I. Los puntos de corte son valores establecidos en la escala numérica de los resultados, que permiten
clasificar a los sujetos en términos de categorías significativas.
II. Se denominan estándares de rendimiento a descripciones cualitativas de las distinciones entre niveles
adyacentes de rendimiento en términos de lo que los examinados en dicho nivel conocen y son capaces de
hacer
Métodos aceptables:
1. Juicios de ítems o tareas: donde los expertos en contenido hacen juicios sobre cómo los estudiantes
deberían responder. Es el método más popular/ usado.
2. Grupos contrastados: los estudiantes se clasifican en grupos de rendimiento y el punto de la
distribución que separa los grupos es donde se establece el estándar
Procedimientos de establecimiento de los puntos de corte:
● Hacer juicios basados en una revisión del material de evaluación (es el más usado)
★ Método de Nedelsky: se le da a grupo de expertos preguntas MC y se determina los
estudiantes limites, osea hasta que nivel tienen que manejar los contenidos, en base a esto
podemos ver cuales serian las elecciones del alumno en base a dificultad y rendimiento
★ Método modificado de Nedelsky
★ Método de Angoff: se establecen distintos niveles de los estudiantes como por ejemplo
básico,comprendente y avanzado y en base a una ronda de preguntas consideran la posibilidad
que el alumno tiene de responder correctamente. Ejemplo: básico tiene 30% o 35%,
comprendente un 65% o 70%, avanzado un 80%. Asi vemos cual es el punto de corte
adecuado
● Hacer juicios sobre el trabajo del examinado
● Hacer juicios sobre perfiles de puntuaciones
● Hacer juicios sobre los candidatos
Métodos basados en los estudiantes:
● Grupo limite (borderline)
● Grupos contrastados: propongo un continuo, veo el grupo de nivel 1, nivel 2,3 etc y ver cual seria el
punto de corte que me permite clasificarlo en uno u otro.
UNIDAD 8:CONSIDERACIONES ÉTICAS DE LA UTILIZACIÓN DE PRUEBAS
IMPLICACIONES ÉTICAS Y SOCIALES DE LAS PRUEBAS
Fundamentos para los estándares profesionales de las pruebas:
1. Como ocurre con todas las actividades profesionales de los psicólogos, la aplicación de pruebas se guía
por estándares éticos y profesionales. El empleo responsable de pruebas está definido por lineamientos
escritos y publicados por asociaciones profesionales como la American Psychological Association y otros
grupos.
Responsabilidad de los editores de la prueba:
2. Los editores de pruebas también siguen lineamientos profesionales, induciendo la expectativa de que
diseñarán pruebas de alta calidad, comercializarán sus productos de manera responsable y restringirán su
distribución sólo a las personas con las acreditaciones indispensables.
Responsabilidad de los usuarios de las pruebas:
3. Aunque existen excepciones, en general la aplicación de pruebas se guía por una pregunta fundamental:
¿qué beneficia al cliente? La implicación funcional de este lineamiento es que la evaluación debería satisfacer
un propósito constructivo para la persona examinada.
4. Los psicólogos tienen la obligación primordial de garantizar la confidencialidad de la información,
incluyendo los resultados de pruebas, que obtengan de sus clientes en el transcurso de las consultas. Algunas
excepciones incluyen circunstancias poco comunes en las que retener la información representaría un claro
peligro para el cliente o para otras personas.
5. Los psicólogos tienen el deber de advertir. Esta disposición se deriva de la decisión de 1976 para el caso
Tarasoff. Los clínicos deben comunicar cualquier amenaza grave, tanto a una víctima potencial como a las
autoridades competentes.
6. La responsabilidad final de la aplicación adecuada de las pruebas siempre reside en el usuario de las
mismas. Desde un punto de vista práctico, esto significa que el usuario de pruebas debe tener la capacitación
adecuada en evaluación y teoría de la medición.
7. El estándar profesional para el consentimiento informado dispone que se debe informar a las personas
examinadas acerca de las razones de la prueba, los tipos de pruebas que se utilizarán, las posibles
consecuencias de la evaluación y cuál información se dará a conocer y a quién.
8. El estándar de cuidado prevaleciente es el habitual, acostumbrado y razonable. Satisfacer el estándar de
cuidado significa que el psicólogo debe abstenerse de utilizar pruebas obsoletas, en especial cuando está
disponible una nueva edición
9. Otros lineamientos para el empleo responsable de pruebas incluyen la redacción cuidadosa y eficaz del
informe, así como la retroalimentación a los individuos evaluados, basada en la sensibilidad y la reflexión,
para aclarar de forma cuidadosa sus ideas erróneas.
10. Otra expectativa es que la evaluación estará guiada por el conocimiento y el respeto hacia las diferencias
individuales. Por ejemplo, los profesionales deben conocer los efectos de la edad, el género, la raza, el
origen étnico y otras variables antecedentes sobre los resultados de una prueba.
Evaluaciones de las minorias linguisticas y culturales:
11. Los factores culturales que pueden influir en los resultados de una prueba incluyen la manera cualitativa
de enfocar una prueba, la confianza y desconfianza racial y la amenaza del estereotipo, que es la amenaza de
confirmar, como característica propia, un estereotipo negativo acerca del grupo al que se pertenece.
12. Las barreras lingüísticas también pueden inhibir el desempeño en una prueba de los individuos de
minorías. Las personas bilingües, y los individuos cuya lengua materna no es el inglés, podrían enfrentar
problemas sutiles en las pruebas desarrolladas para utilizarse en la cultura predominante.
13. La falta de conocimiento acerca de la naturaleza de las pruebas es otro factor que enfrentan algunos
individuos de grupos minoritarios. Las barreras del idioma y la dificultad de las pruebas son fuertes
argumentos a favor del uso de un enfoque multidisciplinario de evaluación (por ejemplo, especialistas en
psicología, lenguaje y lectura).
Efectos no planeados de las pruebas de alto riesgo:
14. Se desconoce la prevalencia del engaño en las pruebas de aprovechamiento que se aplican a nivel
nacional. Sin embargo, en los últimos años han surgido varios informes, incluyendo la alteración de las hojas
de respuestas por parte de las autoridades escolares, la venta masiva de algunos exámenes para la obtención
de licencias, y prácticas de evaluación impropias por parte de los maestros (por ejemplo, otorgar tiempo
adicional para terminar de resolver la prueba).

También podría gustarte