0% encontró este documento útil (0 votos)
58 vistas23 páginas

Tema 2

La validez de contenido de un test evalúa en qué medida los ítems de una prueba representan de forma adecuada el dominio de contenido que se desea medir. Para que un test tenga validez de contenido, sus ítems deben ser relevantes y representativos del dominio. Esto implica que los ítems midan lo que se supone que miden sin contenidos irrelevantes, y que cubran todo el dominio sin dejar áreas sin representar. La validez de contenido es fundamental en la construcción de tests y debe evaluarse mediante procedimientos como el aná

Cargado por

Ana Everdeen
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como ODT, PDF, TXT o lee en línea desde Scribd
0% encontró este documento útil (0 votos)
58 vistas23 páginas

Tema 2

La validez de contenido de un test evalúa en qué medida los ítems de una prueba representan de forma adecuada el dominio de contenido que se desea medir. Para que un test tenga validez de contenido, sus ítems deben ser relevantes y representativos del dominio. Esto implica que los ítems midan lo que se supone que miden sin contenidos irrelevantes, y que cubran todo el dominio sin dejar áreas sin representar. La validez de contenido es fundamental en la construcción de tests y debe evaluarse mediante procedimientos como el aná

Cargado por

Ana Everdeen
Derechos de autor
© © All Rights Reserved
Nos tomamos en serio los derechos de los contenidos. Si sospechas que se trata de tu contenido, reclámalo aquí.
Formatos disponibles
Descarga como ODT, PDF, TXT o lee en línea desde Scribd

TEMA 2 PSICOMETRIA.

Explicando el formulario.
Si tengo los datos agrupados en frecuencias absolutas es cuando multiplico [Link] en la media (es
decir, en vez de hacer 2+2+2+3+3 hago (2x3)+(3x2).
Si no los tengo agrupados en frecuencias pues lo haces normal sumando.

En la varianza sesgada es igual,si estan agrupados se multiplica [Link] y si no pues se hace normal.
La varianza insesgada (cuasivarianza) es con la que se trabaja en los contrastes de hipotesis (se
divide entre N-1). La varianza insesgada tiene mejores propiedades que la sesgada. Si nos dan
resultados de salida de ordenador, los paquetes estadisticos trabajan con la insesgada OJO
CUIDAO.

Los indices de sesgo y de curtosis nos serviran en el tema 7 para las puntuaciones de los
[Link] NOS SIRVE PARA SABER SI UNA CURVA ES NORMAL O NO , YA QUE SI ES
NORMAL DEBE SER SIMETRICA Y MESOCURTICA.

Para estudiar dos variables continuas usaremos la covarianza y la correlacion de pearson. La


covarianza puede tomar cualquier valor de menos infinito a mas infinito (si la covarianza es
negativa la relacion es inversa y si es positiva es directa). La covarianza se estandariza (pearson)
para que podamos saber la magnitud de la relacion de las variables entre -1 y [Link] pearson es
negativo es tambien que las variables tienen relacion inversa, igual que la covarianza.
Si elevamos pearson al cuadrado obtendremos el coeficiente de determinacion (d) que asume
valores de 0 a 1 (lo interpretamos como proporcion y se suele expresar como porcentaje).el
coeficiente de determinación indica
sycon gorro al cuadrado (varianza de los pronosticos a partir de x)/scuadrado de y. La y con gorrito
era el pronostico. Lo cual significa en que medida el modelo de regresion me pronostica el total de
la variabilidad (de la variabilidad que hay cuanto explica mi variable independiente, de la
variabilidad total del criterio, que parte me explica el [Link] cantidad que pronostica VI de VD). Lo
que no explique el modelo de regresion es el error [Link] ejemplo cuanta variabilidad explica
la inteligencia (VI) con la nota en el examen (VD).

Mientras que rxy indica el grado de relacion de las variables.

Definición de Validez
Validez es el grado en el que un instrumento de medida mide lo que se propone medir (Cronbach,
1984). Aunque la definición del concepto parece simple no lo es, como se puede comprobar en la
extensa bibliografía que hay acerca del mismo. Anteriormente, otros autores dieron definiciones
similares. Vernon (1963) añade que un test es válido para algún fin o propósito.

Se valida un instrumento de medida con relación al fin o propósito para el que se utiliza. Un
instrumento puede ser perfectamente válido para medir una determinada característica y no serlo
para medir otra. Por tanto, la validez se encarga de analizar qué mide realmente el test y de probar
cuál es realmente su utilidad para predecir otras variables relacionadas.

Aspectos a destacar en la definición de validez


De estas definiciones de validez destacan dos aspectos según Messick (1995): Relevancia del test
para el propósito al que se aplica y utilidad del test en la situación en la que se aplica.

Cronbach (1988, p.6) indica que se debe considerar también en la validación de un test un aspecto
relevante como las consecuencias sociales del uso del test. Es decir, la persona que construye el test
debe revisar si el test tiene las consecuencias adecuadas en los sujetos, instituciones u
organizaciones, con objeto de evitar consecuencias adversas y evitar que haya sujetos
desfavorecidos de forma sistemática con la aplicación del test.
Se deben evitar los sesgos culturales: sexo, raza, etc.
En la actualidad sigue abierto el debate sobre si la evaluación de las consecuencias sociales del uso
de los tests debe formar parte de la validación de un test (Padilla, Gómez, Hidalgo y Muñiz, 2006;
Prieto y Delgado, 2010).

Messick (1995, p.741) vuelve a plantear que el proceso de validación es un


proceso continuo, nunca acabado.

Diversos autores (Guión,1978,1980; Tenopyr,1977; Messick, 1995). han intentado unificar las
distintas acepciones de validez en un único tipo de validez.

Reconociendo la importancia de los argumentos esgrimidos por los autores citados, en su insistencia
en la validez de constructo como criterio unificador, mantenemos, por razones prácticas, las dos
grandes áreas que se pueden extraer de las sugerencias de la APA (1974), en cuanto que un test
puede considerarse válido por su significación (validez de constructo y validez de contenido) o por
su utilidad (validez referida a un criterio) (Mateo, 1993). Por tanto, el término validez tiene tres
significados principales: validez de constructo, validez de criterio y validez de contenido. Los tres
términos tienen muchos aspectos en común aunque hay importantes diferencias entre ellos
(Nunnally & Bernstein, 1995).

Un test siempre va a ser mas o menos valido en funcion del uso proposito o fin que tiene el [Link]
el concepto general de validez debemos destacar:
-relevancia. Proposito o fin por el que se va a aplicar.
Utilidad: uso del test en una situacion dada.
Cuando se analiza la validez hay que ver las consecuencias sociales , hay que procurar que el test no
favorezca a ninguna institucion o sexo o genero o [Link]. Es decir que nos e sesguen las
puntuaciones
la validez es un proceso continuo,nunca [Link] un test en una situacion en una
poblacion pero no significa que acabe ahi.

Tipos de validez distintos autores lo intentan organizar, generalmente todos los tipos de validez
contribuyen a la validez de constructo de la prueba.
Podemos distinguir entre validez aparente y comprobada. La comprobada a su vez puede ser de
criterio o teorica, como en el esquema.
Validez de constructo es la validez de la prueba y todos los tipos de validez que se hayan hecho para
la prueba.
Validez de contenido o muestral:
Expresa el grado en el que una medida empírica (conjunto de ítems de un test) es representativa de
un dominio específico de contenido. Es decir, validez de contenido es el grado en que la muestra de
ítems que forman un test representa una muestra adecuada del dominio de objetivos o conductas de
interés.

En la validez de contenido hay dos aspectos según Messick (1975). Los ítems deben ser relevantes
para el uso que se va a dar a las puntuaciones del test y representativos del dominio de ítems de
interés.

La relevancia hace referencia a que el test no tiene contenidos irrelevantes. La representatividad


hace referencia a que el test cubre todo el dominio de contenido y no hay facetas o áreas mal
representadas. (Sireci, 2003).

1) Definir el dominio completo de contenido que es relevante a la situación de medida particular.


La definición del dominio conlleva especificar las áreas de contenido que debe cubrir el test y los
objetivos instruccionales (ejemplo: test educativo).

2) Especificar una muestra de ítems representativa de este dominio

3) Definir los items del test.


a) Revisar la bibliografía que hay sobre el tema.
b) Encontrar las dimensiones más importantes.
c) Dividir estas dimensiones en subdimensiones
d) Construir ítems que reflejen el significado asociado a cada subdimensión. No se puede
especificar el número exacto de ítems que contiene un dominio de contenido particular. Es
preferible construir muchos a pocos y eliminar los que resulten inadecuados.
La validez de contenido es importante en todos los tipos de tests.
La validez de contenido es imprescindible en la construcción de tests educativos (Dominio: Listas
de objetivos de la instrucción) y ocupacionales.
La validez de contenido es fundamental en los Tests Referidos al Criterio.

Ejemplo: Test de rendimiento en matemáticas. Objetivo: Evaluar conocimiento general de


matemáticas
Objetivo: Evaluar conocimiento de matemáticas después del curso de 1º de bachiller

Ejemplo: Test de ortografía de sustantivos. Objetivo: Evaluar nivel de ortografía de los sujetos
después de un curso. Requiere una muestra relevante y representativa del material con el que se va a
evaluar a los sujetos.

Ejemplo: Test para la selección de empleados en la administración.


Dominio: Todas las tareas que debe realizar un empleado para ese puesto de trabajo.

tiene que ver con el contenido de los items del test. El grado en que la medida empirica (test)
representa un dominio especifico de [Link] el grado de representatividad de la muestra de
items del dominio de items.

Para que un test tenga validez de contenido debe ser relevante y representativo.

Si no tenemos bibliografia sobre el tema pues usamos observacion directa,juicio de [Link].

La relevancia tiene que ver con que el test no debe tener contenido irrelevante para lo que va a
medir el test y representativo para el dominio de items ( no debe haber factores o dimensiones del
constructo que el test no represente) x.e. si hago un examen de 8 temas y solo pregunto 2 no es
representativo del dominio de contenido.

La validez de contenido es la que mas tiene que ver con el contenido psicologico de la prueba o test.

La relevancia de los items se puede analizar mediante procedimientos de fiabilidad entre


evaluadores expertos en el contenido ( se seleccionan expertos y se les pide que coloquen el item en
funcion de los objetivos que deben cumplir el test,asocian items con objetivos).

Si los items son una muestra representativa se pueden usar procedimientos de la teoria de la
generalizabilidad ( ver el grado en que un item se puede generalizarlas puntuaciones obtenidas en el
item al universo de items correspondientes).

Un item puede ser representativo pero no relevante y [Link] validez de contenido es muy
importante en todo tipo de test y sobre todo de los test referido al criterio.

Martínez Arias, (1995, pp. 337-340) describe las etapas y algunos procedimientos a seguir para
llevar a cabo el análisis de la validez de contenido. Uno de estos procedimientos consiste en
analizar el grado de acuerdo del emparejamiento ítems- objetivos entre ‘jueces expertos en el
contenido’. Los jueces emiten juicios sobre el grado en que ítems-objetivos definidos en la tabla de
Especificaciones están emparejados. Posteriormente, esta información se resume mediante algunos
índices (Indice de Congruencia de Rovinelli & Hambleton, 1977; etc.)
La representatividad de los items con relación al dominio de contenido se puede analizar con la
Teoría de la Generalizabilidad.

Validez aparente
Un test tiene validez aparente si mide lo que parece medir. Este tipo de validez suele venir dada por
los sujetos que responden al test.

“No hay una relación lógica entre ‘validez aparente’ y ‘validez real’. Aunque en algunas situaciones
puede haber una relación positiva entre ambas, en otras situaciones - por ejemplo, en selección - la
validez aparente puede ser una desventaja” (Cattell y Warbuton, 1967).

la analizan los sujetos que responden al test. Un test tiene validez aparente si mide lo que parece
medir. A veces no tiene porque haber relacion entre validez real (lo que mide el test realmente) y la
validez aparente (lo que parece que van a medir). Por ejemplo en una selección de personal no
interesa que el sujeto sepa lo que estamos midiendo.

La validez de criterio.

Es la capacidad del test para predecir un criterio relevante. Es decir, el grado en el que el test es útil
para predecir un objetivo determinado viene dado por su relación con un criterio externo al test.

La utilidad de la validez de criterio va a depender de la calidad de la medida del criterio y del


instrumento en sí.

-La limitación más importante es que en muchas de las medidas de las ciencias sociales no existen o
es difícil definir variables criterio relevantes. Cuanto más abstracto es un concepto, más difícil es
encontrar un criterio adecuado y dar una medida de él. De hecho, se conoce como ‘el problema del
criterio’ decidir qué medir como criterio(s).

Tiene que ver con la utilidad del test, si el test es util para el objetivo que estabamos [Link]
saber si el test es util con respecto a lo que se quiere [Link] variable criterio va a ser algo externo
al test, es decir algo que me sirva a mi para probar que el test es util para medir eso.

La variable criterio debe estar muy bien medida, mejor que el test que estoy validando y debe ser
algo relacionado con el uso que le voy a dar al test, por ejemplo el test wais y la inteligencia seria
una variable criterio.

Ejemplos de tests criterio


En inteligencia, las Escalas Wechsler, Stanford-Binet,etc.
En personalidad, es ampliamente aceptado que el Cuestionario de Personalidad de Eysenck
(Eysenck Personality Questionnaire (EPQ), Eysenck & Eysenck, 1975) proporciona medidas de las
dimensiones de personalidad - neuroticismo o ansiedad y extraversión - con un alto grado de
validez.

Ejemplos de variables criterio


Grupos de sujetos con y sin trastorno

No hay un único coeficiente de validez de criterio, hay tantos como criterios se puedan definir para
una medida particular.
La elección del procedimiento estadístico para analizar la validez de criterio depende de: el número
de predictores (un predictor, múltiples predictores), el número de criterios (un solo criterio, criterios
múltiples o criterio compuesto) y el nivel de medida de las puntuaciones del test y del criterio.

Si hay un solo criterio, el grado de validez de criterio se expresa mediante un coeficiente que indica
el grado de asociación que existe entre el test (predictor) y el criterio. Este índice se obtiene
mediante el coeficiente de correlación de Pearson si test y criterio son variables continuas y la
relación es lineal. El test será útil si hay una correlación alta entre test y criterio.

Si tengo 3 variables criterio externas al test, pues tengo 3 validez de criterios.

TIPOS DE VALIDEZ DE CRITERIO

Los 3 tipos de validez de criterio se diferencian a cuando se pasa el criterio con respecto al test.

Validez de criterio concurrente. Es el grado de relación entre el test y el criterio, siendo éstos
medidos al mismo tiempo.
En la práctica, índices > o = 0,75 pueden considerarse altos índices de validez
concurrente si se considera un test criterio ‘con garantías suficientes’.
El nuevo test, debe tener algunas ventajas comparado con el test criterio.
Ejemplo. Test de diagnóstico de un trastorno. Criterio los grupos Casos/No casos diagnosticados
con una entrevista clínica
Si criterio y test se pasan al mismo tiempo es concurrente. Por ejemplo un paciente al diagnosticarlo
en una entrevista con depresion le pasamos un test para confirmar que tenga depresion. Se hace en
el momento, no puedo comparar ese test con un diagnostico en el pasado o que vaya a hacer en el
futuro.

Validez de criterio predictiva. Concierne con la relación entre las puntuaciones de un test y un
criterio medido posteriormente.

Ejemplos
-Un test de inteligencia (Stanford-Binet) se administra a una muestra de niños de 5 años y sus
controles. En el futuro, se mide éxito académico (libros y artículos publicados, compañías dirigidas,
patentes que han generado y salarios, etc.) La relación entre las puntuaciones del test y las de estas
variables pueden dar evidencia de la validez predictiva del test, excepto cuando esta relación se
pueda explicar por otras causas.
-Test de inteligencia. Criterio de ‘Rendimiento académico’
Si el criterio lo mide despues del test es predictiva. Por ejemplo si hago un test de inteligencia a
principio del grado de psicologia y me puede pronosticar la nota media de los estudiantes al acabar
el grado.
-Un test de inteligencia puede ser un buen predictor de la nota media de la diplomatura (grado)
-Un test de inteligencia puede ser un mal predictor para la moralidad
-Test(s) de selección para un puesto de trabajo. Criterio(s) de ‘éxito en el trabajo’, ‘tasas de
absentismo laboral’, etc.

Validez de criterio retrospectiva. Es el grado de relación entre las puntuaciones de un test aplicado
en un momento dado y un criterio medido con anterioridad.
si el criterio lo mido antes del test es retrospectiva. Por ejemplo miramos si los adolescentes han
sufrido violencia de pequeños y de mayor le pasamos un test para ver si han tenido una infancia
hostil o no. si es hostil y la persona ha tenido violencia de joven, significa que el test mide bien.

Dependiendo del nivel de medida de las variables se pueden obtener los siguientes coeficientes de
correlación:
Suj es el grupo normativo donde estamos pasando el test. El test es X e Y es el criterio.

Xa significa aciertos o positivo o sujetos con trastorno.

Si es dicotomica se organizan los datos en una tabla de 2 x [Link] las frecuencias los totales.
P(x=1.y=1) proporcion de sujetos que tienen x=1 e Y=1.

Validez de constructo
(que no es la validez factorial). Esta comprendida por todas las validez que tenemos. Todas las
validez convergen en ella. La validez de constructo es el grado de interrelaciones del test o
puntuaciones del test y otros test o constructos con los que se tiene que relacionar y con los test o
constructos que tiene que diferenciarse.

Cronbach y Meehl (1955) introducen el concepto de validez de constructo. Para estos autores, un
test se crea para medir un constructo. Para medir el constructo se especifica la teoría acerca de este
constructo y lo que se espera acerca de la relación entre
a) este constructo y otros constructos,
b) este constructo y otras medidas (es decir, tests), y
c) el test que se va a validar y otras medidas.
Estos autores denominan a estas relaciones red nomológica. La validez se prueba si se puede
demostrar que los resultados obtenidos con el test se ajustan al constructo.
No se puede identificar las puntuaciones del test con el constructo. Cuando se establece la validez
de constructo, se pueden interpretar las puntuaciones obtenidas con el test. La validación de
constructo es la acumulación de evidencias que apoyan que la puntuación del test es una de sus
manifestaciones (Messick,1989)
Validez de constructo es el grado en el que una medida particular se relaciona con otras medidas -
consistentes con hipótesis derivadas de la teoría - de los conceptos o constructos que se van a medir.

La validez de constructo requiere el uso de una teoría sustantiva para definir el constructo que se va
a medir y de la teoría de la medida para proporcionar una medida del mismo (Nunnally &
Bernstein, 1995).

Este tipo de validez no se puede expresar mediante un único coeficiente, sino que el estudio de la
misma es un proceso continuo que requiere muchos tipos y fuentes de evidencia. Para mostrar
evidencias de validez de constructo, se plantea un conjunto de hipótesis/relaciones - derivadas de
las características psicológicas que mide el test -se presentan los resultados obtenidos a partir del
test acerca de este modelo de relaciones. Posteriormente, se decide, de forma subjetiva, si estos
resultados se ajustan o no al constructo.

Que procedimientos debemos tener en cuenta en el estudio de la validez de constructo? PUES estos:

-desde el pto de vista teorico (de esta parte se encargan los teoricos de contenido)
-interpretación teórica del constructo
-analisis de relaciones con otros test relacionados y hacer un analisis de lo que se relaciona
con los otros test y diferenciarlo de lo que se tiene que diferenciar. (análisis de las interrelaciones en
el constructo y otros constructos o vv.
-diferenciar el constructo de otras interpretaciones (constructos o variables.

Algunos procedimientos de análisis:

-Validez estructural (de rasgo, estructura interna del constructo, validez factorial)
-Validez nomológica: Grado en que una medida se relaciona/diferencia de un conjunto de
constructos teóricos y sus respectivas medidas.
-Validez convergente y divergente (discriminante). Procedimientos basados en las matrices
MultiRasgo-MultiMétodo (MRMM) para obtener relaciones con otras medidas del constructo.
-Plantear nuevas investigaciones a partir de los resultados derivados de las hipótesis
-El análisis del sesgo o funcionamiento diferencial de los items o tests. El sesgo se considera como
varianza irrelevante para el constructo. El estudio del sesgo permite analizar si el test favorece
sistemáticamente a unos grupos de sujetos frente a otros.
-Determinar el grado de generalizabilidad de las puntuaciones obtenidas con el test
Diferenciar grupos (validez diferencial)
-Validez instruccional, curricular, incremental, etc.

Validez estructural=de rasgo=estructura interna…. Analiza si los items miden lo que deben medir

Nomologica- se refiere a todas aquellas hipotesis acerca de relaciones del constructo del test con
otros test y con los que se diferencia.

La validez convergente y divergente contribuyen a la nomologica- (multirasgomm- se analizan las


relaciones entre el test que validamos y otros test ya validados con los que tiene que relacionarse o
de los que debe diferenciarse).

Una vez validado el test se plantean otras hipotesis de trabajo para seguir validando.

Sesgo diferencial- para ver si los items favorecen a unos grupos u otros (x.e. los test de inteligencia
antes favorecian a los blancos xk los blancos salian mas listos)
-grado de generacibilidad al posible universo de items que representan al constructo.
-validez diferencial: que los items diferencien en grupos. (x.e. si creamos un test para diferenciar
entre pacientes de una clínica y pacientes en un ambito de psicologia social, y dependiendo de la
puntuacion que saquen los pacientes saber si son de clinica o social).(tambien la incluye la validez
nomologica).

Cuando se definia un instrumento teniendo en cuenta tambn la validez de contenido si vamos a


medir x.e. 3 grandes dimensiones (neuroticismo psicoticismo y extraversion) , cuando he construido
el instrumento he definido items para esas 3 dimensiones. Los expertos de contenido habran tenido
que determinar los items en esas areas, pero no solo vale con eso, sino que tenemos que mediante el
analisis factorial (según la respuesta de los sujetos) encontrara o agrupara esas dimensiones
(combinaciones de items que sean correspondientes a una dimension). El nombre de neuroticismo
se lo dan los de contenido, pero cuando pasamos el analisis factorial de forma informatizada, deben
aparecer 3 dimensiones tambien, si no no estamos midiendo bien (empiricamente). Cuando
medimos empiricamente asi estamos midiendo validez estructural interna.
Estructura interna del constructo.

Un conjunto de items no es necesariamente una dimensión o escala. A un conjunto de items subyace


una o más dimensiones.

Ejemplo
25 items de afecto ¿forman una escala o varias escalas de diferentes estados de afecto como
depresión, euforia, hostilidad, ansiedad, etc.? ¿Deberían estar en dos escalas diferentes items
positivos de afecto e items negativos de afecto (‘feliz’ versus ‘triste’ para depresión, ‘tenso’ versus
‘calma’ para ansiedad) La pregunta es
¿Subyace una o mas variables latentes a un conjunto de items de varios estados de afecto?

El estudio de la estructura interna del constructo consiste en encontrar las dimensiones que
subyacen a un conjunto de items. Se suele utilizar una técnica de Análisis Multivariante. La más
frecuentemente utilizada es el Análisis Factorial (AF).

Spearman (1904) fue el primero que aplicó esta técnica en el análisis de habilidades humanas e
inteligencia. Desde entonces, el AF es una técnica ampliamente utilizada en Psicometría.

Conceptos básicos de análisis factorial.

Trata de encontrar las dimensiones o factores que subyacen a un conjunto de variables o ítems.
Puede ser exploratorio o confirmatorio. Se va a exponer los conceptos básicos del análisis factorial
exploratorio.

-Obtención de factores de primer orden. Una vez que una prueba con 5 (n) items se administra a una
muestra de N sujetos se obtiene la siguiente matriz de respuestas.

-Las relaciones entre todos los pares de items se organiza en la matriz decorrelación

-La estructura de esta matriz, por ejemplo, para 5 items sería:


-El Análisis Factorial parte de la matriz de correlaciones (covarianzas) entre las respuestas a los
ítems de un test y encuentra variables no observables, factores o escalas. Para que haya validez de
rasgo, los factores obtenidos deben reflejar los constructos o las áreas de un constructo definidos
con la teoría psicológica.

-Factor. Es una combinación de variables (pueden ser items,


constructos,dimensiones, escalas, etc.). Se denota Fi

-Factores de primer orden. A partir de la matriz de correlaciones entre pares de ítems se obtienen los
factores de primer orden.

-Autovalor es la varianza explicada por el factor. Se denota como % de Varianza


i . Se suele interpretar

-Comunalidad. Es la proporción de varianza de una variable o ítem que queda


explicada por los factores. Se denota hi2

-Saturación. Correlación entre una variable y un factor. Se denota aij

Muestra la importancia de una variable o ítem en la definición de un factor (Suelen tomarse valores
mayores que 0,3)

-Estructura factorial. Conjunto (o matriz) de saturaciones

-Rotación. Giro de los ejes.


La rotación a ejes ortogonales proporciona factores independientes. La rotación a ejes oblicuos
proporciona factores correlacionados
-Factores de segundo orden. Si el AF parte de correlaciones entre las puntuaciones obtenidas con
distintos tests o escalas (obtenidas con un AF de primer orden), cada factor estará formado por
grupos de escalas o tests que presentan rasgos o características comunes.

Ejemplo. Obtención de factores de orden superior


Factores de segundo orden relacionados (no independientes) son la Inteligencia cristalizada y la
inteligencia fluida.
Factores de primer orden de la Inteligencia fluida: inducción, visualización, razonamiento
cuantitativo (en algunos estudios surge también el factor fluidez de ideas).
Factores de primer orden de la Inteligencia cristalizada: habilidad verbal, desarrollo del lenguaje,
comprensión lectora, razonamiento secuencial e información general (en algunos estudios también
subyace el factor fluidez de ideas).

Si se factorizan las puntuaciones en las escalas de los factores de segundo orden, se obtienen los
factores de tercer orden. Un ejemplo es el factor g de inteligencia.

Como se hace el analisis?

Una vez tenemos las puntuaciones hacemos la matriz de todas las respuestas para relacionar o
diferenciar los items (correlacionando el item 1 con el 1, el 1 con el 2...asi sucesivamente). Si hay
items medidos en la misma escala (uso correlaciones) si los items no son de la misma escala (uso
covarianzas). Se usa una matriz triangular porque la correlacion del item 1 con el item 2 es la
misma que la del item 2 con el item 1, por eso no se pone nada debajo.

A partir de esta matriz se encuentran dimensiones o factores.


-factores de primer orden- los que salen en primer lugar relacionados en la matriz correlacional.
- la varianza explicada por el factor es muy importante: si yo parto de las varianzas estandarizadas
de cada item en un test de 60 todas las varianzas son 1, tengo de varianza 60...8NO ME HE
ENTERAO.
Un factor es
-comunalidad:

-saturacion (peso o importancia): correlacion entre item y factor


-estructura factorial: conjunto de factores con sus [Link] obtenemos la estructura
factorial de una prueba aveces no esta clara esa estructura a la hora de decir qu eitems define a cada
factor, en este caso se puede rotar o girar hacia unas dimensiones ortogonales o perpendiculares en
caso de que las dimensiones sean indep. O dimensiones oblicuas en el caso de que sean
dependientes. Y esto permite definir los items que definen cada factor.

Si obtenemos ya dimensiones y obtenemos las puntuaciones y volvemos a pedir analisis factorial


(volvemos a reagrupar, saldran nuevas subdimensiones), obtenemos factores de segundo orden, y si
volvemos a pedir analisis factorial, obtenemos factores de tercer [Link].

EJEMPLO: (29)

Se mide en escala likert (5 items favorables (directo) a autoestima y 5 desfavorables(inverso)).


Mide autoestima (una sola dimension). Al aplicar el analisis factorial se supone que los items deben
ponerse en un solo grupo.
Las comunalidades como son varianzas estandarizadas (van de 0 a 1) cuanta mas alta la varianza
(mas variabilidad, mas discrimina el item entre sujetos y eso nos interesa) (a mas varianza, mas
variabilidad abarcamos, porque las desviaciones tipicas de la cola de gauss no son mas que la
varianza convertida , es decir a mas varianza,mas desviaciones tipicas tendremos de lejania con
respecto a la media en la curva de gauss, es decir, mas amplitud de puntuaciones tenemos, y esto
nos interesa para diferenciar sujetos) del item, comparte mas varianza con el resto de items de un
factor o constructo o factores o constructos, es decir explica mas el [Link] item 5 por ejemplo
comparte poca varianza al formar el factor autoestima.
En la saturacion como es una correlacion (entre item y constructo)varia de -1 a 1 y cuanto mayor
sea en valor absoluto mas peso tiene ese item a la hora de explicar el [Link] signo me indica
si la definicion del item en el factor es favorable a autoestima (directo)o en contra de autoestima
(inverso).los directos suelen ser positivos y los inversos en negativo, pero si dudas miralo en el
[Link] este caso si es asi.

Que valor deben tener en la saturacion para decir que define bien. Deben ser mayor a 0.30
el item 5 satura menos de 0,3. puede ser que tenga poca saturacion porque tiene poca varianza
compartida con los otros items .si ese item tiene poco que explicar, es normal que pese poco a la
hora de explicar el [Link], ESO ES EN ESTE GRUPO, PORQUE ESTE ANALISIS ES
EXPLORATORIO, EN OTRO GRUPO SERIA DIFERENTE.

Por ejemplo Hay 10 factores donde cada item define un factor y la varianza de cada item es 1 y el
total es 10, 10 es el 100 por cien de la varianza, si ahora nos quedamos con un solo
factor,despreciamos el resto de varianza y nos queda una varianza menor que 100. en este caso nos
queda 35.8. El primero en este caso me explica el 35.8 por ciento de la variabilidad total. El analisis
factorial reparte la variabilidad total en los diferentes items. A mas analisis factorial hagamos menos
varianza cada vez explica cada item. ES DECIR LA VARIANZA ENTRE PERSONAS SE HA
MEDIDO CON UN SOLO FACTOR (AUTOESTIMA), EL RESTO DE COSAS QUE NOS
DIFERENCIAN SON LOS OTROS 9 FACTORES O 10 O 100 O LOS QUE SEAN.

En la clinica aumenta la comunalidad y demas porque la varianza entre personas enfermas esta mas
explicada por algo tan psicologico como la autoestima, es obvio que alguien con depresion se
diferencia mas de una persona con ansiedad en autoestima que dos personas con normalidad en
salud mental.

VAR:49.3 (LA VARIANZA RESTANTE HASTA 100 ES LA


VARIANZA DE LOS OTROS FACTORES QUE NO HEMOS
METIDO)
EN LA POBLACION CLINICA HA HABIDO MAS VARIANZA DE RESPUESTA QUE EN
LA POBLACION GENERAL.

Validez Convergente y Divergente


Campbell y Fiske (1959) en su trabajo ‘Covergencia y Divergencia’ ofrecen procedimientos
conceptuales y empíricos para la validación de constructo. Indican que, conceptualmente, cualquier
medida de un constructo debe mostrar correlaciones altas con otras medidas del constructo y bajas
con medidas de otros constructos. Esta información se suele organizar en una matriz MultiRasgo-
MultiMétodo (MRMM) o Multimétodo Multirasgo (MMMR).

Una matriz MultiRasgo-MultiMétodo (MRMM) es la que resulta de correlacionar variables (rasgos)


intra y entre métodos. Valores de las relaciones para cualquier número de rasgos (agresividad o
extraversión) se obtienen por varios métodos (observación, test psicométrico) y se incluyen en una
tabla. La matriz de correlaciones que resulta proporciona información de la validez convergente y
divergente con los métodos usados.
La siguiente Tabla proporciona información de la estructura básica de la matriz cuando las medidas
de los tres rasgos se han obtenido con tres métodos.
Habrá validez convergente cuando se encuentren relaciones (correlaciones) altas entre medidas del
mismo constructo obtenidas con diferentes métodos, y estas correlaciones serán más altas que las
correlaciones entre medidas de diferentes constructos medidos con el mismo /distintos método(s)
(validez divergente).
Si queremos validez convergente (sirve para ver lo que miden lo mismo o lo que coinciden)las
correlaciones deben ser altas (es decir que coincidan muchas cosas).
Si queremos que sea divergente (diferencia constructos o dimensiones) las correlaciones deben ser
bajas(es decir que haya poco en comun).
Validez divergente con el mismo(intrametodo) o diferente metodo(entremetodos).

Si mido rasgos diferentes con igual metodo debe haber divergencia, simido igual rasgos con
distinto metodo debe haber [Link].

Ejemplo: tengo 3 rasgos abc medidos con el metodo 1 y abc medidos con el metodo 2.
en la primera columnita si mido a1 con a1 es fiabiidad porque es el mismo metodo con el mismo
[Link] mayor con mas fiabilidad es el rasgos A en el metodo 1.

si correlacione en el metodo a2 con a1 es medir el rasgo a con diferentes metodos, esto es


convergencia del rasgo [Link] que las correlaciones convergentes sean altas y ademas que sean
mayor que las divergentes.
Medir en el metodo 1 el rasgo c1 correlacionado con el rasgo b1 (0.39), es validez divergente
intrametodo. Y si mido a2 con b1 (0.32) es entremetodos.
Validez divergente debe ser una correlacion baja(OJO CORRELACION BAJA NO SIGNIFICA
NEGATIVA,-0.70 ES UNA CORRELACION ALTA A PESAR DE SER INVERSA OJOOOO)
porque no queremos por ejemplo que neuroticismo y extraversion sean cosas iguales.

( ) Coeficientes de fiabilidad
Coeficientes para diferentes rasgos medidos con el mismo método Coeficientes para diferentes
rasgos medidos con distintos métodos
Coeficientes para el mismo rasgo evaluado con diferentes métodos
En (1) y (3) los elementos diagonales son Fiabilidad
En (1) y (3) los elementos no diagonales son correlaciones entre distintos rasgos y el mismo
método (Validez Divergente)
En (2) los elementos diagonales son correlaciones de cada rasgo con diferentes métodos (Validez
Convergente)
En (2) los elementos no diagonales son correlaciones entre diferentes rasgos usando diferentes
métodos (Validez Divergente)

En Validez de criterio:
En psicología clínica se suele usar como criterio la entrevista.
cuando queremos analizar la validez de criterio la X es puntuacion del test y la Y puntuacion
del criterio.
Los tests que vamos a ver hoy se utilizan con vv dicotomicas y si no son vv dicotomicas hay
que dicotomizarlas.

Y>o = Yc
con trastorno FN VP

Yc

Y<Yc VN FP
no trastorno
eje X
X<Xc Xc X> o = Xc
punto de corte en predictor Xc=
punto de corte en criterio Yc=

Verdaderos positivos= tiene el trastorno por criterio y el test tambien lo dice (esta bien
clasificado)
verdadero negativo=porque no tiene el trastorno y el test lo dice tambien (esta bien
clasificado)
falso positivo=el test dice que hay trastorno pero según el criterio no hay y se supone que el
criterio siempre mide mejor por lo que el test es lo que se equivoca.
falso negativo=segun el criterio tiene trastorno pero según el test no porque en el test está en
X<Xc.

a=nº sujetos sin trastorno y dan positivo en el test


b=sujetos sin trastorno y dan negativo en el test

a+c=numero de sujetos que tienen trastorno independientemente de lo que tienen en el test


b+d= numero de sujetos que no tienen trastorno independientemente de lo que hay en el test.
a+d=numero de sujetos que han dado positivo en el test tengan o no el trastorno.
c+b=numero de sujetos que han dado negativo en el test.

n=numero total de sujetos al que se administra el test y criterio.


Prevalencia del trastorno (de epidemiologia)-es la proporcion de sujetos que tienen el
trastorno en la poblacion (si trabajamos con toda la poblacion).Si no tenemos la poblacion con
una muestra de la poblacion podemos tener un estimador de la prevalencia.

Sensibilidad:proporcion de verdaderos positivos. De los sujetos que según el criterio tienen


trastorno, que lo tengan tambien en el test. Según el criterio el trastorno lo tienen a+c,de estos
cuantos lo tienen según el test? Pues a.
si la sensibilidad es por ejemplo de 0.9 se entiende que clasifica bien al 90% de los sujetos y se
clasifica mal al resto.

errores asociados a la sensibilidad de los verdaderos positivos son los falsos negativos.
Proporcion Falsos negativos= de los que dice el criterio que tienen trastorno, los que estan
mal clasificados con el test. Pues será c/a+c

sensibilidad más proporcion de falsos negativos me tiene que dar 1, puesto que son
complementarios.

Especificidad= proporcion de verdaderos negativos. De los que no tienen trastorno según el


criterio, los que dice el test que no lo tiene P(x<xc/ y=0)
lo que es en resumen: b/b+d

TANTO ESPECIFICIDAD COMO SENSIBILIDAD Y DEMAS SON PROPORCIONES


CONDICIONADAS PORQUE SE RELACIONA CRITERIO Y TEST.

el error asociado a la especificidad es la proporcion de falso positivo = d/b+d


de los que no tienen el trastorno, cuantos dice el test que lo [Link] el test se equivoca ya que
aunque no tenga el trastorno el tes dice que lo tiene.
*Decimos proporcion xk se supone que es en una muestra si fuese en una poblacion diriamos probabilidad.

Especificidad + fp =1

A mas altas especificidad y sensibilidad mejor clasifica el test mediante el criterio.

estos indices se estudian tanto en clinica como en educativa.

Los puntos de corte lo puede establecer alguien o se puede establecer de forma psicometrica.
Por ejemplo el indice de youden.
Youden= maximo punto de corte sobre el test en (sensibilidad + especificidad -1)
para hacer esto tenemos que hacer sensibilidad y especificidad con todos los diferentes puntos de
corte (todos los valores del test) y de todos los valores que obtengamos del calculo (sensibilidad +
especificidad -1) cogemos el mayor y sera el mejor punto de corte en el test.
Jouden es el mayor punto de corte en el test óptimo para clasificar a los sujetos.

Si sensibilidad y especificidad valen 0, j nos da -1 y esto es lo peor que nos puede pasar ya que
significa que el test y criterio discrepan por completo.
curva ro. Mejor punto de corte que representa la sensibilidad y 1- la especificidad.

Eficiencia diagnostica: proporcion de sujetos bien clasificados con o sin trastorno en test y criterio.
Es decir a+b /n. los indices que no tienen error partido el numero total de sujetos.

Estos indices se usan para valorar la adecuacion de los puntos de corte en un test para un criterio.
En selección de personal se usan otros indices.

Indices de utilidad de un test de selección.

Se hace muy parecido a lo anterior la verdad.

Tasa base= lo analogo a prevalencia en clinica. Proporcion de sujetos con alto rendimiento según el
criterio.
Razon de selección: proporcion de sujetos admitidos con el test del total de aspirantes
razo de eficacia: del total de sujetos admitidos con el test los que tienen alto rendimiento en el
trabajo.
Interpretacion:

selección: de el total de personas con trastorno,174 dan con trastorno en el test. De 100 personas
con trastorno, el test da como positivo en trastorno el 48.60%

Proporcion de falsos negativos: 1-0.4860= 0.514 lo que da 51.4%

especificidad:de los que el criterio dice que no tienen patologia el total 41, de los que el test dice
que efectivamente no hay patologia (23).
56.09 es el porcentaje de personas que DEL TOTAL DE PERSONAS sin patologia dan negativo en
el test.

1-05609 es proporcion de falsos positivos= 0,4391 o en porcentaje 43.9%. de cada 100 sujetos sin
trastorno según criterio, 43 dan positivo en el test.

Este test es un poco caca por lo que habria que revisar el punto de corte Xc.

ED= de cada 100 personas,49 personas estan bien clasificadas por el test según el criterio.

Este test por ende es muy malillo.


Si quisieramos hacer la validez de criterio como son dicotomicas solemos usar pearson pero como
nos dan ya la tabla vamos a usar el coeficiente phi tal que así sin cambiar la tabla:

aunque hay otra forma de aplicar phi sin necesidad de ordenar la tabla:

si hacemos el coeficiente nos va a dar el coeficiente correlacion que es la validez de criterio.


X=1 ES APTO X=0 NO APTO
Y=1 APTO Y=0 NO APTO
CONTINUAMOS CON EL EJEMPLO ANTERIOR

TASA BASE= PORCENTAJE DE SUJETOS CON ALTO RENDIMIENTO (60%)


SELECCION= PORCENTAJE DE SUJETOS ADMITIDOS POR EL TEST (29%)
EFICACIA=DE LOS ADMITIDOS CON EL TEST CUANTOS TIENEN ALTO RENDIMIENTO
(84%)
COMO EL TEST HA SIDO MUY SELECTIVO, LA RAZON DE EFICACIA ES MUY ALTA,
POR LO QUE PODEMOS DECIR QUE EL TEST ES BUENO Y HA SELECCIONADO BIEN YA
QUE TIENE UNA ALTA RELACION DE EFICACIA.

EJERCICIO.
Tenemos que dicotomizar la tabla para poder hacer phi. Y como hay muchas puntuaciones
pues vamos a tomar como punto de corte Xc el 8. entonces de 8 pa arriba es apto y de 8 pa
abajo es no apto.

Y a raiz de ahi empezamos a hacer la tablita dicotomizada :

También podría gustarte